P-значение

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

P-значение (англ. P-value) — величина, используемая при тестировании статистических гипотез. Фактически это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода). Проверка гипотез с помощью P-значения является альтернативой классической процедуре проверки через критическое значение распределения.

Обычно P-значение равно вероятности того, что случайная величина с данным распределением (распределением тестовой статистики при нулевой гипотезе) примет значение, не меньшее, чем фактическое значение тестовой статистики.

Особенностью P-значений является их неустойчивость на эквивалентных выборках, что может стать препятствием для воспроизводимости результатов эксперимента[1][2][3]. Альтернативы использованию P-значений включают такие методы, как оценочная статистикаruen и фактор Байесаruen[4][5][6].

Формальное определение и процедура тестирования[править | править код]

Пример вычисления P-значения. Вертикальная координата — плотность вероятности каждого результата, вычисленная для нулевой гипотезы . Величина P-значения — область под кривой, ограниченной по оси абсцисс наблюдаемой точкой данных.

Пусть  — статистика, используемая при тестировании некоторой нулевой гипотезы . Предполагается, что если нулевая гипотеза справедлива, то распределение этой статистики известно. Обозначим функцию распределения . P-значение чаще всего (при проверке правосторонней альтернативы) определяется как:

При проверке левосторонней альтернативы,

В случае двустороннего теста p-значение равно:

Если p(t) меньше заданного уровня значимости, то нулевая гипотеза отвергается в пользу альтернативной. В противном случае она не отвергается.

Преимуществом данного подхода является то, что видно при каком уровне значимости нулевая гипотеза будет отвергнута, а при каких принята, то есть виден уровень надежности статистических выводов, точнее вероятность ошибки при отвержении нулевой гипотезы. При любом уровне значимости больше нулевая гипотеза отвергается, а при меньших значениях — нет.

Критика[править | править код]

Использование p-значений для проверки нулевых гипотез в работах по медицине, естественным наукам подвергается критике со стороны многих специалистов. Отмечается, что их использование нередко приводят к ошибкам первого рода (false positive)[7]. В частности, журнал Basic and Applied Social Psychology (BASP) в 2015 году вовсе запретил публикацию статей, в которых используются p-значения. Редакторы журнала объяснили это тем, что сделать исследование, в котором получено p < 0,05 не очень сложно, и такие низкие значения p слишком часто становятся оправданием для низкопробных исследований[8].

Неправильная интерпретация P-значений[править | править код]

Широко распространено мнение о том, что P-значения часто неверно интерпретируются и неправильно используются.[9][10][11] Одна из практик, подвергшихся особой критике, заключается в принятии альтернативной гипотезы для любого P-значения, номинально меньшего 0,05 без других подтверждающих доказательств. Хотя P-значения полезны при оценке того, насколько несовместимы данные с данной статистической моделью, необходимо также учитывать контекстуальные факторы, такие как «дизайн исследования, качество измерений, внешние доказательства изучаемого явления и обоснованность предположений, лежащих в основе анализа данных».[11] Еще одна проблема заключается в том, что P-значение часто неверно понимается как вероятность того, что нулевая гипотеза верна.[11][12] Некоторые специалисты предложили заменить P-значения на альтернативные метрики доказательности,[11] такие как доверительный интервал,[13][14] отношение правдоподобий,[15][16] или отношение апостериорных вероятностей (Bayes factors),[17][18][19] однако продолжается острая дискуссия о возможности применения таких альтернатив.[20][21] Другие специалисты предложили убрать фиксированные пороговые значения значимости и интерпретировать P-значения как непрерывные величины, характеризующие величину доказательств, направленных против правдоподобия нулевой гипотезы.[22][23]

См. также[править | править код]

Примечания[править | править код]

  1. Cumming, 2008.
  2. Nuzzo, 2014.
  3. Halsey, Curran-Everett, Vowler et al., 2015.
  4. Cumming, 2010.
  5. Taroni, Biedermann, Bozza, 2016.
  6. Goodman, 2016.
  7. Douglas H. Johnson The Insignificance of Statistical Significance Testing (англ.) // The Journal of Wildlife Management. — 1999. — Vol. 3, no. 63. — P. 763—772.
  8. Chris Woolston Psychology journal bans P values (англ.) // Nature News. — 2015-03-05. — Vol. 519, iss. 7541. — P. 9–9. — DOI:10.1038/519009f.
  9. (April 16, 2015) «Scientists Perturbed by Loss of Stat Tool to Sift Research Fudge from Fact». Scientific American.
  10. (1999) «Toward evidence-based medical statistics. 1: The P value fallacy.». Annals of Internal Medicine 130 (12): 995–1004. DOI:10.7326/0003-4819-130-12-199906150-00008. PMID 10383371.
  11. 1 2 3 4 (2016) «The ASA's statement on p-values: context, process, and purpose». The American Statistician 70: 129–133. DOI:10.1080/00031305.2016.1154108.
  12. (2014) «An investigation of the false discovery rate and the misinterpretation of p-values». Royal Society Open Science 1. DOI:10.1098/rsos.140216.
  13. (7 March 2017) «Alternatives to P value: confidence interval and effect size». Korean Journal of Anesthesiology 69 (6): 555–562. DOI:10.4097/kjae.2016.69.6.555. ISSN 2005-6419. PMID 27924194.
  14. (August 2012) «Why the P-value culture is bad and confidence intervals a better alternative». Osteoarthritis and Cartilage 20 (8): 805–808. DOI:10.1016/j.joca.2012.04.001. Проверено 7 March 2017.
  15. (12 May 2001) «Sifting the evidence: Likelihood ratios are alternatives to P values». BMJ: British Medical Journal 322 (7295): 1184. ISSN 0959-8138. PMID 11379590.
  16. Royall, Richard. The Likelihood Paradigm for Statistical Evidence // The Nature of Scientific Evidence. — P. 119–152. — DOI:10.7208/chicago/9780226789583.003.0005.
  17. Replacing p-values with Bayes-Factors: A Miracle Cure for the Replicability Crisis in Psychological Science. Replicability-Index (30 April 2015). Проверено 7 марта 2017.
  18. (December 2000) «Hypothesis Testing: From p Values to Bayes Factors». Journal of the American Statistical Association 95 (452): 1316. DOI:10.2307/2669779.
  19. (16 February 2016) «A Test by Any Other Name: Values, Bayes Factors, and Statistical Inference». Multivariate Behavioral Research 51 (1): 23–29. DOI:10.1080/00273171.2015.1099032. PMID 26881954.
  20. (March 2014) «In defense of p-values». Ecology 95 (3): 611–617. DOI:10.1890/13-0590.1.
  21. Aschwanden, Christie Statisticians Found One Thing They Can Agree On: It’s Time To Stop Misusing P-Values. FiveThirtyEight (Mar 7, 2016).
  22. (2017) «The earth is flat (p > 0.05): significance thresholds and the crisis of unreplicable research». PeerJ 5. DOI:10.7717/peerj.3544.
  23. (2017) «Remove, rather than redefine, statistical significance». Nature Human Behaviour 1. DOI:10.1038/s41562-017-0224-0.

Литература[править | править код]

Ссылки[править | править код]