Поправка на множественную проверку гипотез: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
Нет описания правки
Строка 1: Строка 1:
'''Проблéма мно́жественных сравне́ний''' (англ. '''multiple comparisons, multiplicity, multiple testing problem)''' — класс задач [[статистика|статистики]], возникающих при необходимости построения семейства статистических выводов. При [[Проверка статистических гипотез|проверке статистических гипотез]] при отвержении основной гипотезы (H<sub>0</sub>), возможна ошибка (ложное отклоненияе гипотезы, [[Ошибки первого и второго рода|ошибка первого рода]]). Вероятность такого события ограничивается неким малым предварительно выбранным значением — [[Статистическая значимость|уровнем значимости]] <math>\alpha</math> ( обычно <math>\alpha = 0.05</math> ). Тогда при построении <math>m</math> выводов верхняя оценка вероятности того, что хотя бы один из них будет неверным, равна <math>1-(1-\alpha)^m</math>, что достаточно велико уже при небольших <math>m</math> (например, при <math>m=5</math>, <math>\alpha = 0.05</math> она равна <math>\approx22{,}6\%</math>). Для устранения этого эффекта было разработано несколько подходов<ref>{{cite web| url = http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%BD%D0%BE%D0%B6%D0%B5%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BF%D1%80%D0%BE%D0%B2%D0%B5%D1%80%D0%BA%D0%B0_%D0%B3%D0%B8%D0%BF%D0%BE%D1%82%D0%B5%D0%B7 | title = Множественная проверка гипотез | publisher = MachineLearning.ru | lang = ru}}</ref>.
'''Проблéма мно́жественных сравне́ний''' (англ. '''multiple comparisons, multiplicity, multiple testing problem)''' — класс задач [[статистика|статистики]], возникающих при необходимости построения семейства статистических выводов. При [[Проверка статистических гипотез|проверке статистических гипотез]] при отвержении основной гипотезы (H<sub>0</sub>), возможна ошибка (ложное отклонение гипотезы, [[Ошибки первого и второго рода|ошибка первого рода]]). Вероятность такого события ограничивается неким малым предварительно выбранным значением — [[Статистическая значимость|уровнем значимости]] <math>\alpha</math> ( обычно <math>\alpha = 0.05</math> ). Тогда при построении <math>m</math> выводов верхняя оценка вероятности того, что хотя бы один из них будет неверным, равна <math>1-(1-\alpha)^m</math>, что достаточно велико уже при небольших <math>m</math> (например, при <math>m=5</math>, <math>\alpha = 0.05</math> она равна <math>\approx22{,}6\%</math>). Для устранения этого эффекта было разработано несколько подходов<ref>{{cite web| url = http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%BD%D0%BE%D0%B6%D0%B5%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BF%D1%80%D0%BE%D0%B2%D0%B5%D1%80%D0%BA%D0%B0_%D0%B3%D0%B8%D0%BF%D0%BE%D1%82%D0%B5%D0%B7 | title = Множественная проверка гипотез | publisher = MachineLearning.ru | lang = ru}}</ref>.


== Примеры ==
== Примеры ==
Строка 6: Строка 6:
* Предположим, мы тестируем новое лекарство. ''Экспериментальной (терапевтической) группой'' будем называть группу больных, которым выдают новое лекарство, а ''группой контроля'' — группу больных, которым его не выдают. Будем считать, что эффективность лекарства заключается в ослаблении симптомов заболевания (понижению температуры, приведению давления в норму и так далее). Чем больше симптомов рассматривается, тем более вероятно, что найдётся хотя бы один симптом, который в этом исследовании в силу случайных причин окажется слабее у «группы лечения».
* Предположим, мы тестируем новое лекарство. ''Экспериментальной (терапевтической) группой'' будем называть группу больных, которым выдают новое лекарство, а ''группой контроля'' — группу больных, которым его не выдают. Будем считать, что эффективность лекарства заключается в ослаблении симптомов заболевания (понижению температуры, приведению давления в норму и так далее). Чем больше симптомов рассматривается, тем более вероятно, что найдётся хотя бы один симптом, который в этом исследовании в силу случайных причин окажется слабее у «группы лечения».
* Рассмотрим аналогичную ситуацию, но теперь будем считать лекарство полезным, если оно не вызывает побочных эффектов. Чем больше возможных побочных эффектов рассматривается, тем более вероятно, что найдётся хотя бы один, который будет больше проявляться у «группы лечения» в конкретном исследовании .
* Рассмотрим аналогичную ситуацию, но теперь будем считать лекарство полезным, если оно не вызывает побочных эффектов. Чем больше возможных побочных эффектов рассматривается, тем более вероятно, что найдётся хотя бы один, который будет больше проявляться у «группы лечения» в конкретном исследовании .
* Эксперименты могут проводиться не только в медицине, но и в эконометрике (например, при исследовании эффективности государственной поддержки безработных), биостатистике, социологии и проч. Например, возьмём за ''группу контроля'' класс школьников, которые обучаются языку по традиционной методике, а за ''экспериментальную группу'' — класс школьников, которые обучаются по новой методике. Можно рассмотреть несколько параметров успеваемости: знания грамматики, произношение, скорость перевода и так далее. Чем больше параметров мы рассмотрим, тем выше вероятность того, что экспериментальная группа случайно будет превосходить «группу контроля» хотя бы по одному параметру.
* Эксперименты могут проводиться не только в медицине, но и в эконометрике (например, при исследовании эффективности государственной поддержки безработных), биостатистике, социологии и многих других областях науки. Например, возьмём за ''группу контроля'' класс школьников, которые обучаются языку по традиционной методике, а за ''экспериментальную группу'' — класс школьников, которые обучаются по новой методике. Можно рассмотреть несколько параметров успеваемости: знания грамматики, произношение, скорость перевода и так далее. Чем больше параметров мы рассмотрим, тем выше вероятность того, что экспериментальная группа случайно будет превосходить «группу контроля» хотя бы по одному параметру.
* Кроме того, иногда возникает задача, когда каждый элемент из какого-то множества проверяется на соответствие ожидаемому результату. Рассмотрим следующую ситуацию: у нас есть комплект из 100 монет, и мы хотим определить, есть ли среди этих монет экземпляры со смещённым центром тяжести (будем считать, что у монеты есть смещение, если она выпадает одной стороной хотя бы 9 раз при 10 бросках). Отметим, что вероятность такого исхода для сбалансированной монеты равна <math>(10+1+1+10)\cdot(1/2)^{10}\approx0{,}0215</math> (т.к. вероятность одного конкретного исхода <math>(1/2)^{10}</math>, а нас устраивают 9 орлов, 1 решка - 10 исходов; 10 орлов - 1 исход; 10 орлов - 1 исход; 1 орел, 9 решек - 10 исходов) ([[Биномиальное распределение]]). Допустим, что все монеты в комплекте сбалансированы. Тогда вероятность того, что мы не ошибёмся ни в одном выводе, может быть <math>(1-0{,}0215)^{100}\approx0{,}1138</math>, то есть, довольно мала.
* Кроме того, иногда возникает задача, когда каждый элемент из какого-то множества проверяется на соответствие ожидаемому результату. Рассмотрим следующую ситуацию: у нас есть комплект из 100 монет, и мы хотим определить, есть ли среди этих монет экземпляры со смещённым центром тяжести (будем считать, что у монеты есть смещение, если она выпадает одной стороной хотя бы 9 раз при 10 бросках). Отметим, что вероятность такого исхода для сбалансированной монеты равна <math>(10+1+1+10)\cdot(1/2)^{10}\approx0{,}0215</math> (т.к. вероятность одного конкретного исхода <math>(1/2)^{10}</math>, а нас устраивают 9 орлов, 1 решка - 10 исходов; 10 орлов - 1 исход; 10 орлов - 1 исход; 1 орел, 9 решек - 10 исходов) ([[Биномиальное распределение]]). Допустим, что все монеты в комплекте сбалансированы. Тогда вероятность того, что мы не ошибёмся ни в одном выводе, может быть <math>(1-0{,}0215)^{100}\approx0{,}1138</math>, то есть, довольно мала.


== История ==
== История ==
Интерес к проблема множественного тестирования возник в 1950-ых годах в связи с работой [[Тьюки, Джон|Джона Тьюки]] и [[Henry Scheffé|Генри Шеффе]]. Поправка Холма-Бонферрони была разработана в 1979 году, а работы по FDR (ожидаемой доли ложино положительных результатов) начались в 1995 году. В 1996 была проведена первая конференция по монжественной проверке гипотез в [[Израиль|Израиле]], после чего она проходила каждые два года по всему миру.<ref>{{Cite web|url=http://www.mcp-conference.org/hp/2019/|title=MCP Conference 2019|publisher=MCP Conference 2019|lang=en-US|accessdate=2019-04-12}}</ref>
Интерес к проблема множественного тестирования возник в 1950-х годах в связи с работой [[Тьюки, Джон|Джона Тьюки]] и [[Henry Scheffé|Генри Шеффе]]. Поправка Холма-Бонферрони была разработана в 1979 году, а работы по FDR (ожидаемой доли ложно-положительных результатов) начались в 1995 году. В 1996 была проведена первая конференция по множественной проверке гипотез в [[Израиль|Израиле]], после чего она проходила каждые два года по всему миру.<ref>{{Cite web|url=http://www.mcp-conference.org/hp/2019/|title=MCP Conference 2019|publisher=MCP Conference 2019|lang=en-US|accessdate=2019-04-12}}</ref>


== Обозначения ==
== Обозначения ==
Строка 45: Строка 45:


== Методы решения проблемы множественных сравнений ==
== Методы решения проблемы множественных сравнений ==
При слишком большом количестве испытаний увеличивается вероятность получить ложноположительный результат (увеличение числа совершенных [[Ошибки первого и второго рода (статистика)|ошибок первого рода]] <math>V</math>). Задача состоит в том,чтобы выбрать метод, допускающий минимальное число ложных отклонений гипотез <math>V</math> и ложных принятий <math>T</math>. Для этого необходимо выбрать другое правило отвержения гипотез. Для задачи множественной проверки гипотез существует большое количество величин, обобщающих определение ошибки первого рода. Наиболее известны следующие:
При слишком большом количестве испытаний увеличивается вероятность получить ложно-положительный результат (увеличение числа совершенных [[Ошибки первого и второго рода (статистика)|ошибок первого рода]] <math>V</math>). Задача состоит в том,чтобы выбрать метод, допускающий минимальное число ложных отклонений гипотез <math>V</math> и ложных принятий <math>T</math>. Для этого необходимо выбрать другое правило отвержения гипотез. Для задачи множественной проверки гипотез существует большое количество величин, обобщающих определение ошибки первого рода. Наиболее известны следующие:
* FWER — [[:en:Family-wise error rate|family-wise error rate]], групповая вероятность ошибки первого рода: <math>\text{FWER} = P(V\geq1)</math>;
* FWER — [[:en:Family-wise error rate|family-wise error rate]], групповая вероятность ошибки первого рода: <math>\text{FWER} = P(V\geq1)</math>;
*FDP — false discovery proportion, доля ложных отклонений гипотез (среди всех отклонений): <math>\text{FDP} = \begin{cases} \frac{V}{R}, R>0, \\ 0, R=0; \end{cases}</math>
*FDP — false discovery proportion, доля ложных отклонений гипотез (среди всех отклонений): <math>\text{FDP} = \begin{cases} \frac{V}{R}, R>0, \\ 0, R=0; \end{cases}</math>
Строка 81: Строка 81:
* И т.д.
* И т.д.


Процедура обеспечивает <math>\text{FWER} \leq \alpha </math> при любом характере зависимости между <math>p_i</math>. Она равномерно мощнее метода Бонферрони. Если характер зависимости между статистика неизвестен, то нельзя построить контролирующую FWER на уровне <math>\alpha </math> процедуру мощнее, чем метод Холма.
Процедура обеспечивает <math>\text{FWER} \leq \alpha </math> при любом характере зависимости между <math>p_i</math>. Она равномерно мощнее метода Бонферрони. Если характер зависимости между статистиками неизвестен, то нельзя построить контролирующую FWER на уровне <math>\alpha </math> процедуру мощнее, чем метод Холма.


=====''Пример''=====
=====''Пример''=====
Строка 218: Строка 218:


[[Файл:Noncorrectedp.jpg|600px|мини|слева|p-значения без поправок]]
[[Файл:Noncorrectedp.jpg|600px|мини|слева|p-значения без поправок]]
{{-}}Как можно увидеть, пять переменных являются значимыми (p-значание < <math>\alpha</math>).
{{-}}Как можно увидеть, пять переменных являются значимыми (p-значение < <math>\alpha</math>).


Применим поправку Бонферрони для данной выборки. Скорректированные p-значения высчитываются таким образом: <math>p_i=\min(1, mp)</math>.
Применим поправку Бонферрони для данной выборки. Скорректированные p-значения высчитываются таким образом: <math>p_i=\min(1, mp)</math>.
[[Файл:Correctedbonf.jpg|600px|мини|слева|p-значения после применения поправки Бонферрони]]
[[Файл:Correctedbonf.jpg|600px|мини|слева|p-значения после применения поправки Бонферрони]]


{{-}}После применения данной поправки видно, что только один тест остался значимым. Поправка Бонферрони подходит, когда хотя бы один ложноположительный результат может стать проблемой. По большей части, данная поправка применима на небольшом количестве тестов, когда мы ищем всего один или два значимых результата. Если мы возьмем большое количество тестов, где нам будут интересны достаточно много значимых результатов, то поправка Бонферрони может привести к большому числу ложноотрицательных результатов. Например, при анализе экспрессии порядка 20&thinsp;000 генов в двух разных тканях мы ожидаем увидеть хотя бы несколько сотен генов с разным уровнем экспрессии. Однако, при применении данной поправки p-значение должно быть меньше 0.05/20000=0.0000025 для того, чтобы быть значимым. Таким образом, только гены с очень большой разницей в экспрессии будут иметь такое низкое p-значение, что может привести к потере результатов, где разница есть, но не такая большая.
{{-}}После применения данной поправки видно, что только один тест остался значимым. Поправка Бонферрони подходит, когда хотя бы один ложно-положительный результат может стать проблемой. По большей части, данная поправка применима на небольшом количестве тестов, когда мы ищем всего один или два значимых результата. Если мы возьмем большое количество тестов, где нам будут интересны достаточно много значимых результатов, то поправка Бонферрони может привести к большому числу ложно-отрицательных результатов. Например, при анализе экспрессии порядка 20&thinsp;000 генов в двух разных тканях мы ожидаем увидеть хотя бы несколько сотен генов с разным уровнем экспрессии. Однако, при применении данной поправки p-значение должно быть меньше 0.05/20000=0.0000025 для того, чтобы быть значимым. Таким образом, только гены с очень большой разницей в экспрессии будут иметь такое низкое p-значение, что может привести к потере результатов, где разница есть, но не такая большая.


Посмотрим на то, как изменились p-значения после применения поправки Холма, считается так: <math>p_i=\min(1,\max((m-i+1)p_i,p_{(i+1)}))</math>.
Посмотрим на то, как изменились p-значения после применения поправки Холма, считается так: <math>p_i=\min(1,\max((m-i+1)p_i,p_{(i+1)}))</math>.
Строка 232: Строка 232:


== Масштабное множественное тестирование ==
== Масштабное множественное тестирование ==
Во многих ислледованиях, к прмеру в области [[Геномика|геномики]], требуется проверять тысячи или даже значительно больше гипотез. В области исследований генетических ассоциаций слуществует проблема невоспроизводимости результатов: результат, сильно значимый в одном исследовании, не повторяется в следующем. Причинами это являются в том числе и последствия множественного тестирования.<ref>{{Статья|автор=Hui-Qi Qu, Matthew Tien, Constantin Polychronakos|год=2010-10-01|doi=10.25011/cim.v33i5.14351|issn=1488-2353|выпуск=5|страницы=266|издание=Clinical & Investigative Medicine|заглавие=Statistical significance in genetic association studies|ссылка=http://dx.doi.org/10.25011/cim.v33i5.14351|том=33}}</ref>
Во многих исследованиях, к примеру в области [[Геномика|геномики]], требуется проверять тысячи или даже значительно больше гипотез. В области исследований генетических ассоциаций существует проблема невоспроизводимости результатов: результат, сильно значимый в одном исследовании, не повторяется в следующем. Причиной этого являются в том числе и последствия множественного тестирования.<ref>{{Статья|автор=Hui-Qi Qu, Matthew Tien, Constantin Polychronakos|год=2010-10-01|doi=10.25011/cim.v33i5.14351|issn=1488-2353|выпуск=5|страницы=266|издание=Clinical & Investigative Medicine|заглавие=Statistical significance in genetic association studies|ссылка=http://dx.doi.org/10.25011/cim.v33i5.14351|том=33}}</ref>


В разных областях науки отношение к множественному тестированию неоднозначное. Есть мнение, что использование поправки на множественное сравнение, когда есть серьезные основания считать, что результаты будут правдивыми, не обязательно.<ref>{{cite journal | doi=10.1097/00001648-199001000-00010 | last=Rothman | first=Kenneth J. | journal=Epidemiology | volume=1 | pages=43–46 | year=1990 | title=No Adjustments Are Needed for Multiple Comparisons | issue=1 | pmid=2081237 | jstor=20065622}}</ref> Также утверждается, что поправка на множественное тестирование - неэффективный метод проведения [[Эмпирические исследования|эмпирических исследований]], потому что, контролируя ложно пололжительные результаты, он приводит к появлению большого количества ложно отрицательных. Однако с другой стороны утверждается, что усовершенствования в методах [[Измерение|измерения]] и [[Информационные технологии|информационных технологиях]] облегчили появление больших наборов данных для [[Разведочный анализ данных|разведочного анализа]], что приводит к тестированию большого числа гиптоез без предварительного предположения о том, что большинство из них правдивы. А это означает большое количество ложно положительных результатов, если поправка на множественное тестирование не проводится.
В разных областях науки отношение к множественному тестированию неоднозначное. Есть мнение, что использование поправки на множественное сравнение, когда есть серьезные основания считать, что результаты будут правдивыми, не обязательно.<ref>{{cite journal | doi=10.1097/00001648-199001000-00010 | last=Rothman | first=Kenneth J. | journal=Epidemiology | volume=1 | pages=43–46 | year=1990 | title=No Adjustments Are Needed for Multiple Comparisons | issue=1 | pmid=2081237 | jstor=20065622}}</ref> Также утверждается, что поправка на множественное тестирование - неэффективный метод проведения [[Эмпирические исследования|эмпирических исследований]], потому что, контролируя ложно-положительные результаты, он приводит к появлению большого количества ложно-отрицательных. Однако с другой стороны утверждается, что усовершенствования в методах [[Измерение|измерения]] и [[Информационные технологии|информационных технологиях]] облегчили появление больших наборов данных для [[Разведочный анализ данных|разведочного анализа]], что приводит к тестированию большого числа гипотез без предварительного предположения о том, что большинство из них правдивы. А это означает большое количество ложно положительных результатов, если поправка на множественное тестирование не проводится.


В масштабных тестрированиях, если надо получить точные результаты, то лучше всего использовать FWER, однако если ислледование [[Разведочный анализ данных|разведочное]] и значимые результаты будут проверяться в независимом исслежование, предпочитают использовать FDR.<ref>{{Статья|автор=Yoav Benjamini, Yosef Hochberg|год=1995-01|doi=10.1111/j.2517-6161.1995.tb02031.x|issn=0035-9246|выпуск=1|страницы=289–300|издание=Journal of the Royal Statistical Society: Series B (Methodological)|заглавие=Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing|ссылка=http://dx.doi.org/10.1111/j.2517-6161.1995.tb02031.x|том=57}}</ref><ref>{{Статья|автор=J. D. Storey, R. Tibshirani|год=2003-07-25|doi=10.1073/pnas.1530509100|issn=0027-8424, 1091-6490|выпуск=16|страницы=9440–9445|издание=Proceedings of the National Academy of Sciences|заглавие=Statistical significance for genomewide studies|ссылка=http://dx.doi.org/10.1073/pnas.1530509100|том=100}}</ref><ref>{{cite journal | last=Efron | first=Bradley |author2=Tibshirani, Robert |author3=Storey, John D. |author4= Tusher, Virginia | journal=[[Journal of the American Statistical Association]] | volume=96 | issue=456 | year=2001 | pages=1151–1160 | title=Empirical Bayes analysis of a microarray experiment | doi=10.1198/016214501753382129 | jstor=3085878}}</ref> FDR, определяемое как ожидаемая доля ложноположительных результатов среди всех положительных (значимых), позволяет определять набор "положительных кандидатов", которых можно рассматривать в дальнейших исследованиях.<ref>{{Статья|автор=William S Noble|год=2009-12|doi=10.1038/nbt1209-1135|issn=1087-0156, 1546-1696|выпуск=12|язык=en|страницы=1135–1137|издание=Nature Biotechnology|заглавие=How does multiple testing correction work?|ссылка=http://www.nature.com/articles/nbt1209-1135|том=27}}</ref>
В масштабных тестированиях, если надо получить точные результаты, то лучше всего использовать FWER, однако если исследование [[Разведочный анализ данных|разведочное]] и значимые результаты будут проверяться в независимом исследовании, предпочитают использовать FDR.<ref>{{Статья|автор=Yoav Benjamini, Yosef Hochberg|год=1995-01|doi=10.1111/j.2517-6161.1995.tb02031.x|issn=0035-9246|выпуск=1|страницы=289–300|издание=Journal of the Royal Statistical Society: Series B (Methodological)|заглавие=Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing|ссылка=http://dx.doi.org/10.1111/j.2517-6161.1995.tb02031.x|том=57}}</ref><ref name=":0">{{Статья|автор=J. D. Storey, R. Tibshirani|год=2003-07-25|doi=10.1073/pnas.1530509100|issn=0027-8424, 1091-6490|выпуск=16|страницы=9440–9445|издание=Proceedings of the National Academy of Sciences|заглавие=Statistical significance for genomewide studies|ссылка=http://dx.doi.org/10.1073/pnas.1530509100|том=100}}</ref><ref>{{cite journal | last=Efron | first=Bradley |author2=Tibshirani, Robert |author3=Storey, John D. |author4= Tusher, Virginia | journal=[[Journal of the American Statistical Association]] | volume=96 | issue=456 | year=2001 | pages=1151–1160 | title=Empirical Bayes analysis of a microarray experiment | doi=10.1198/016214501753382129 | jstor=3085878}}</ref> FDR, определяемое как ожидаемая доля ложно-положительных результатов среди всех положительных (значимых), позволяет определять набор "положительных кандидатов", которых можно рассматривать в дальнейших исследованиях.<ref>{{Статья|автор=William S Noble|год=2009-12|doi=10.1038/nbt1209-1135|issn=1087-0156, 1546-1696|выпуск=12|язык=en|страницы=1135–1137|издание=Nature Biotechnology|заглавие=How does multiple testing correction work?|ссылка=http://www.nature.com/articles/nbt1209-1135|том=27}}</ref>


Практика проводить много сравнений без поправки в надежде найти что-то значимое, применяемая сознательно или нет, иногда называется "p-hacking".<ref name="Deming">{{Cite journal
Практика проводить много сравнений без поправки в надежде найти что-то значимое, применяемая сознательно или нет, иногда называется "p-hacking".<ref name="Deming">{{Cite journal
Строка 263: Строка 263:


== Применение в биоинформатике ==
== Применение в биоинформатике ==
Проблема множественного сравнения в биологии встречается повсеместно при анализе [[:en:Omics|омиксных]] данных<ref name=":0" /><ref>{{Статья|автор=Anjana Grandhi, Wenge Guo, Shyamal D. Peddada|год=2016-02-25|doi=10.1186/s12859-016-0937-5|issn=1471-2105|издание=BMC Bioinformatics|заглавие=A multiple testing procedure for multi-dimensional pairwise comparisons with application to gene expression studies|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4768411/|том=17}}</ref><ref>{{Cite web|url=https://www.sciencedirect.com/science/article/pii/S0165993613001246?via%3Dihub|title=ScienceDirect|publisher=www.sciencedirect.com|accessdate=2019-04-13}}</ref>, так как одновременно происходит анализ множества переменных. Так, в [[Полногеномный поиск ассоциаций|полногеномных исследованиях ассоциаций]] и [[Количественный анализ экспрессии генов|анализе дифференциальной экспрессии]] генов тестируется одновременно от сотен тысяч до миллионов гипотез. В большинстве случаев используется поправка Бонферрони или общепринятый для GWAS порог p-value <math>5\cdot10^{-8}</math><ref>{{Статья|автор=Gregory S. Barsh, Gregory P. Copenhaver, Greg Gibson, Scott M. Williams|год=2012-07-05|doi=10.1371/journal.pgen.1002812|issn=1553-7390|выпуск=7|издание=PLoS Genetics|заглавие=Guidelines for Genome-Wide Association Studies|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3390399/|том=8}}</ref>, однако при этом происходит падение мощности исследования с сопутствующим ростом риска ложно-отрицательных результатов. Также нарушается предположение поправки Бонферрони о независимости проводимых сравнений, поскольку существует [[неравновесное сцепление генов]], когда частоты сочетаний [[SNP]] отличаются от ожидаемых при условии отсутствия сцепления, поэтому встает вопрос, сколько проведено реальных независимых сравнений. Можно определить число независимых сравнений в таких условиях как число [[Метод главных компонент|главных компонент]], совокупно покрывающих более <math>99.5%</math>дисперсии исследуемых данных, тогда порог p-value, обеспечивающий статистическую значимость на уровне <math>\alpha</math>, пересчитывается следующим образом:
{{основная статья|Количественный анализ экспрессии генов#Множественное сравнение}}
При анализе данных c [[ДНК-микрочип|микрочипов]] нельзя просто сказать, что какая-то группа генов экспрессируется в два раза больше, нежели другая. В таком случае в эксперименте с пятью или менее повторностями всего одно отклонение может создать заметную разницу более, чем в два раза. К тому же, установка границы &laquo;в два раза&raquo; звучит совсем не биологически.


<math>\alpha_{GWAS} = \frac{\alpha}{n_{components}}</math><ref name=":1">{{Статья|автор=Randall C Johnson, George W Nelson, Jennifer L Troyer, James A Lautenberger, Bailey D Kessing|год=2010-12-22|doi=10.1186/1471-2164-11-724|issn=1471-2164|страницы=724|издание=BMC Genomics|заглавие=Accounting for multiple comparisons in a genome-wide association study (GWAS)|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3023815/|том=11}}</ref><ref>{{Статья|автор=Xiaoyi Gao, Joshua Starmer, Eden R. Martin|год=2008-5|doi=10.1002/gepi.20310|issn=0741-0395|выпуск=4|страницы=361–369|издание=Genetic Epidemiology|заглавие=A multiple testing correction method for genetic association studies using correlated single nucleotide polymorphisms|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/18271029/|том=32}}</ref>
Для определения по-разному экспрессирующихся генов, вместо того, чтобы использовать кратность, можно применить ряд [[Статистический тест|статистических тестов]], которые позволят приписать каждому полученному результату [[P-значение|p-value]], оценку того, что данная величина появилась случайно. Применять p-значения к микрочипам достаточно сложная задача из-за большого количества множественных сравнений (анализируемых генов). Например, если мы возьмем p-значение равное 0.05 для определения уровня значимости, поскольку это означает, что с 5% вероятностью эти данные получились случайно. С 10&#8239;000 генов на микрочипе 500 генов будут определены, как значимые при <math>p < 0.05</math>, даже если разницы между экспериментальными группами не будет. Решение: ужесточить p-критерий, применив поправку Бонферрони или используя FDR. К сожалению, эти подходы могут снизить число значимых генов до нуля, несмотря на то, что у них разный уровень экспрессии. [[:en:Rank product|Rank products]] нацелен на то, чтобы установить баланс между неправильно предсказанными генами из-за случайной изменчивости и не обнаружением по-разному экспрессирующихся генов. Самыми известными статистическими методами являются [http://statweb.stanford.edu/~tibs/SAM/ Significance Analysis of Microarrays (SAM)] и большое разнообразие методов, доступных на [[Bioconductor]], а также существуют разные пакеты, предоставляемые различными [[:en:List of bioinformatics companies|биоинформатическими компаниями]].

Также для решения проблемы множественных сравнений используются [[Пермутационный тест|пермутационные тесты]]<ref name=":1" />. Предположение пермутационных тестов заключается в том, что если сравниваемые выборки пришли из одной совокупности, то обмен элементами между выборками не должен привести к значительному изменению тестовой статистики. Примерный общий алгоритм пермутационных тестов выглядит следующим образом:

# Рассчитывается значение тестовой статистики для выборок экспериментальных данных
# Выборки объединяются в единый пул
# Из пула данных формируются случайным образом выборки такого же размера
# Рассчитывается значение тестовой статистики для нового набора выборок
# Многократным повторением пунктов 2-4 строится распределение тестовой статистики
# Исходя из построенного распределение и экспериментального значения тестовой статистики определяется p-value

При применении пермутационных тестов не требуется собственно коррекция уровня значимости или тестовых p-value. Пермутационные тесты не чувствительны к несбалансированности данных, что полезно при анализе биологических данных.


== См. также ==
== См. также ==

Версия от 01:06, 13 апреля 2019

Проблéма мно́жественных сравне́ний (англ. multiple comparisons, multiplicity, multiple testing problem) — класс задач статистики, возникающих при необходимости построения семейства статистических выводов. При проверке статистических гипотез при отвержении основной гипотезы (H0), возможна ошибка (ложное отклонение гипотезы, ошибка первого рода). Вероятность такого события ограничивается неким малым предварительно выбранным значением — уровнем значимости ( обычно ). Тогда при построении выводов верхняя оценка вероятности того, что хотя бы один из них будет неверным, равна , что достаточно велико уже при небольших (например, при , она равна ). Для устранения этого эффекта было разработано несколько подходов[1].

Примеры

Термин «сравнение» подразумевает сравнение параметров у каких-либо двух групп (например, экспериментальной и контрольной). При множественном сравнении подразумевается сравнение сразу нескольких параметров у этих групп. При увеличении количества параметров может появиться ложное заключение о наличии различий между группами, тогда как на самом деле верна нулевая гипотеза об отсутствии различий, что может привести к некоторым проблемам, как в примерах ниже.

  • Предположим, мы тестируем новое лекарство. Экспериментальной (терапевтической) группой будем называть группу больных, которым выдают новое лекарство, а группой контроля — группу больных, которым его не выдают. Будем считать, что эффективность лекарства заключается в ослаблении симптомов заболевания (понижению температуры, приведению давления в норму и так далее). Чем больше симптомов рассматривается, тем более вероятно, что найдётся хотя бы один симптом, который в этом исследовании в силу случайных причин окажется слабее у «группы лечения».
  • Рассмотрим аналогичную ситуацию, но теперь будем считать лекарство полезным, если оно не вызывает побочных эффектов. Чем больше возможных побочных эффектов рассматривается, тем более вероятно, что найдётся хотя бы один, который будет больше проявляться у «группы лечения» в конкретном исследовании .
  • Эксперименты могут проводиться не только в медицине, но и в эконометрике (например, при исследовании эффективности государственной поддержки безработных), биостатистике, социологии и многих других областях науки. Например, возьмём за группу контроля класс школьников, которые обучаются языку по традиционной методике, а за экспериментальную группу — класс школьников, которые обучаются по новой методике. Можно рассмотреть несколько параметров успеваемости: знания грамматики, произношение, скорость перевода и так далее. Чем больше параметров мы рассмотрим, тем выше вероятность того, что экспериментальная группа случайно будет превосходить «группу контроля» хотя бы по одному параметру.
  • Кроме того, иногда возникает задача, когда каждый элемент из какого-то множества проверяется на соответствие ожидаемому результату. Рассмотрим следующую ситуацию: у нас есть комплект из 100 монет, и мы хотим определить, есть ли среди этих монет экземпляры со смещённым центром тяжести (будем считать, что у монеты есть смещение, если она выпадает одной стороной хотя бы 9 раз при 10 бросках). Отметим, что вероятность такого исхода для сбалансированной монеты равна (т.к. вероятность одного конкретного исхода , а нас устраивают 9 орлов, 1 решка - 10 исходов; 10 орлов - 1 исход; 10 орлов - 1 исход; 1 орел, 9 решек - 10 исходов) (Биномиальное распределение). Допустим, что все монеты в комплекте сбалансированы. Тогда вероятность того, что мы не ошибёмся ни в одном выводе, может быть , то есть, довольно мала.

История

Интерес к проблема множественного тестирования возник в 1950-х годах в связи с работой Джона Тьюки и Генри Шеффе. Поправка Холма-Бонферрони была разработана в 1979 году, а работы по FDR (ожидаемой доли ложно-положительных результатов) начались в 1995 году. В 1996 была проведена первая конференция по множественной проверке гипотез в Израиле, после чего она проходила каждые два года по всему миру.[2]

Обозначения

Нулевая гипотеза верна Нулевая гипотеза неверна Всего
Принимаем гипотезу
Отвергаем гипотезу
Всего
  • общее число гипотез
  • число верных гипотез, неизвестный параметр
  • число неверных гипотез
  • число false positives (ошибок первого рода)
  • число true positives
  • число false negatives (ошибок второго рода)
  • число true negatives
  • число отвергнутых нулевых гипотез. и — наблюдаемые величины, а , , и — ненаблюдаемые.

Методы решения проблемы множественных сравнений

При слишком большом количестве испытаний увеличивается вероятность получить ложно-положительный результат (увеличение числа совершенных ошибок первого рода ). Задача состоит в том,чтобы выбрать метод, допускающий минимальное число ложных отклонений гипотез и ложных принятий . Для этого необходимо выбрать другое правило отвержения гипотез. Для задачи множественной проверки гипотез существует большое количество величин, обобщающих определение ошибки первого рода. Наиболее известны следующие:

  • FWER — family-wise error rate, групповая вероятность ошибки первого рода: ;
  • FDP — false discovery proportion, доля ложных отклонений гипотез (среди всех отклонений):
  • FDR — false discovery rate, средняя доля ложных отклонений гипотез (среди всех отклонений):

Для каждой из приведенных мер существует свой способ ужесточения порога на значимость.

Групповая вероятность ошибки первого рода

Одна из мер, обобщающих ошибку первого рода, рассматриваемую при проверке статистических гипотез. Величина определяется как вероятность совершения хотя бы одной ошибки первого рода. По определению: . Контроль над FWER на фиксированном уровне значимости означает, что выполняется неравенство .

Существует несколько методов контроля FWER.


Поправка Бонферрони

Метод поправки Бонферрони утверждает, что для уменьшения ложноположительных результатов, необходимо отклонить те гипотезы, для которых . Данная поправка позволяет получить , потому что

из неравенства Буля следует, что для конечного или счетного набора событий, вероятность того, что произойдет хотя бы одно не больше, чем сумма вероятностей индивидуальных событий. Таким образом, если каждый индивидуальный тест будет проверяться на уровне значимости , где - количество рассматриваемых гипотез, то для всего семейства гипотез уровень значимости фиксируется на уровне :

,

где — количество отвергнутых истинных гипотез.

Замечания

При увеличении в результате применения поправки Бонферрони мощность статистической процедуры резко уменьшается — шансы отклонить неверные гипотезы падают.


Метод Холма (поправка Холма — Бонферрони)

Равномерно более мощный, чем поправка Бонферрони, и решает проблему падения мощности при росте числа гипотез. Нисходящий метод.

Пусть — уровни значимости , упорядоченные от наименьшего к наибольшему. — соответствующие гипотезы. Процедура Холма определена следующим образом.

  • Шаг 1. Если , принять гипотезы и остановиться. Иначе, если , отвергнуть гипотезу и продолжить проверку оставшихся гипотез на уровне значимости .
  • Шаг 2. Если , принять гипотезы и остановиться. Иначе, если , отвергнуть гипотезу и продолжить проверку оставшихся гипотез на уровне значимости .
  • И т.д.

Процедура обеспечивает при любом характере зависимости между . Она равномерно мощнее метода Бонферрони. Если характер зависимости между статистиками неизвестен, то нельзя построить контролирующую FWER на уровне процедуру мощнее, чем метод Холма.

Пример

Рассмотрим проверку 4-х гипотез при . Пусть для них получены p-value: 0.01, 0.04, 0.03 и 0.005. Расставим их по возрастанию: 1) 0.005; 2) 0.01; 3) 0.03; 4) 0.04. Будут проверены следующие неравенства:

  1. → отклоняем данную нулевую гипотезу, двигаемся дальше.
  2. → отклоняем данную нулевую гипотезу, двигаемся дальше.
  3. → принимаем эту и следующую нулевые гипотезы, останавливаемся.

Метод Шидака

Нисходящая процедура. Уровни значимости для гипотез задаются следующим образом: . Метод дает FWER при условии, что статистики независимы или выполнено свойство "положительной зависимости":

,

Положительную зависимость, в частности, можно установить с помощью FKG-неравенства: если и - возрастающие (убывающие) функции, то

Составим вариационный ряд p-значений: , где - соответствующие гипотезы. Процедура выглядит так:

- Если , то принимаем все гипотезы и останавливаемся, иначе отвергаем и продолжаем;

- Если , то принимаем все гипотезы и останавливаемся, иначе отвергаем и продолжаем;

- ... и т.д.

Метод Шидака-Холма

Нисходящая процедура. Уровни значимости для гипотез задаются следующим образом:

Контролирует FWER на уровне значимости , если статистики независимы в совокупности. Если статистики независимы в совокупности, нельзя построить контролирующую FWER на уровне процедуру мощнее, чем метод Шидака-Холма. При больших мало отличается от метоа Холма.

Средняя доля ложных отклонений

Данная величина определяется как математическое ожидание доли ошибок среди отвергнутых гипотез.

Определим как отношение числа неверно отвергнутых гипотез ко всем отвергнутым гипотезам : . Таким образом, FDR:

при .

Контроль над FDR на уровне означает, что:

.

Метод Бенджамини — Хохберга

Это восходящая процедура со следующими уровнями значимости:

.

Пусть — уровни значимости , упорядоченные от наименьшего к наибольшему. — соответствующие гипотезы. Процедура Бенджамини — Хохберга определена следующим образом.

  • Шаг 1. Если , принять гипотезы и остановиться. Иначе, если , отвергнуть гипотезу и продолжить проверку оставшихся гипотез на уровне значимости .
  • Шаг 2. Если , принять гипотезы и остановиться. Иначе, если , отвергнуть гипотезу и продолжить проверку оставшихся гипотез на уровне значимости .
  • И т.д.

Если статистики независимы, этот метод контролирует FDR на уровне .

Сравнение трех методов

На практике корректируется не сам порог, а p-значение. Если мы будем сравнивать все три метода, то можно увидеть, что наиболее строгим из всех является поправка Бонферрони. Рассмотрим на примере.

В статье García-Arenzana et al. (2014) было протестировано 25 различных диетических параметров и их влияние на маммографическую плотность у испанок. Ниже приведены полученные результаты:

Dietary variable P-value
Total calories
Olive oil
Whole milk
White meat
Proteins
Nuts
Cereals and pasta
White fish
Butter
Vegetables
Skimmed milk
Red meat
Fruit
Eggs
Blue fish
Legumes
Carbohydrates
Potatoes
Bread
Fats
Sweets
Dairy products
Semi-skimmed milk
Total meat
Processed meat
Файл:Noncorrectedp.jpg
p-значения без поправок

Как можно увидеть, пять переменных являются значимыми (p-значение < ).

Применим поправку Бонферрони для данной выборки. Скорректированные p-значения высчитываются таким образом: .

Файл:Correctedbonf.jpg
p-значения после применения поправки Бонферрони

После применения данной поправки видно, что только один тест остался значимым. Поправка Бонферрони подходит, когда хотя бы один ложно-положительный результат может стать проблемой. По большей части, данная поправка применима на небольшом количестве тестов, когда мы ищем всего один или два значимых результата. Если мы возьмем большое количество тестов, где нам будут интересны достаточно много значимых результатов, то поправка Бонферрони может привести к большому числу ложно-отрицательных результатов. Например, при анализе экспрессии порядка 20 000 генов в двух разных тканях мы ожидаем увидеть хотя бы несколько сотен генов с разным уровнем экспрессии. Однако, при применении данной поправки p-значение должно быть меньше 0.05/20000=0.0000025 для того, чтобы быть значимым. Таким образом, только гены с очень большой разницей в экспрессии будут иметь такое низкое p-значение, что может привести к потере результатов, где разница есть, но не такая большая.

Посмотрим на то, как изменились p-значения после применения поправки Холма, считается так: .

Файл:Correctedholm.jpg
p-значения после применения поправки Холма

Посмотрим на p-значения после применения поправки Бенджамини — Хохберга, считается: .

Файл:Correctedbenhoh.jpg
p-значения после применения поправки Бенджамини — Хохберга

Масштабное множественное тестирование

Во многих исследованиях, к примеру в области геномики, требуется проверять тысячи или даже значительно больше гипотез. В области исследований генетических ассоциаций существует проблема невоспроизводимости результатов: результат, сильно значимый в одном исследовании, не повторяется в следующем. Причиной этого являются в том числе и последствия множественного тестирования.[3]

В разных областях науки отношение к множественному тестированию неоднозначное. Есть мнение, что использование поправки на множественное сравнение, когда есть серьезные основания считать, что результаты будут правдивыми, не обязательно.[4] Также утверждается, что поправка на множественное тестирование - неэффективный метод проведения эмпирических исследований, потому что, контролируя ложно-положительные результаты, он приводит к появлению большого количества ложно-отрицательных. Однако с другой стороны утверждается, что усовершенствования в методах измерения и информационных технологиях облегчили появление больших наборов данных для разведочного анализа, что приводит к тестированию большого числа гипотез без предварительного предположения о том, что большинство из них правдивы. А это означает большое количество ложно положительных результатов, если поправка на множественное тестирование не проводится.

В масштабных тестированиях, если надо получить точные результаты, то лучше всего использовать FWER, однако если исследование разведочное и значимые результаты будут проверяться в независимом исследовании, предпочитают использовать FDR.[5][6][7] FDR, определяемое как ожидаемая доля ложно-положительных результатов среди всех положительных (значимых), позволяет определять набор "положительных кандидатов", которых можно рассматривать в дальнейших исследованиях.[8]

Практика проводить много сравнений без поправки в надежде найти что-то значимое, применяемая сознательно или нет, иногда называется "p-hacking".[9][10]

Применение в биоинформатике

Проблема множественного сравнения в биологии встречается повсеместно при анализе омиксных данных[6][11][12], так как одновременно происходит анализ множества переменных. Так, в полногеномных исследованиях ассоциаций и анализе дифференциальной экспрессии генов тестируется одновременно от сотен тысяч до миллионов гипотез. В большинстве случаев используется поправка Бонферрони или общепринятый для GWAS порог p-value [13], однако при этом происходит падение мощности исследования с сопутствующим ростом риска ложно-отрицательных результатов. Также нарушается предположение поправки Бонферрони о независимости проводимых сравнений, поскольку существует неравновесное сцепление генов, когда частоты сочетаний SNP отличаются от ожидаемых при условии отсутствия сцепления, поэтому встает вопрос, сколько проведено реальных независимых сравнений. Можно определить число независимых сравнений в таких условиях как число главных компонент, совокупно покрывающих более дисперсии исследуемых данных, тогда порог p-value, обеспечивающий статистическую значимость на уровне , пересчитывается следующим образом:

[14][15]

Также для решения проблемы множественных сравнений используются пермутационные тесты[14]. Предположение пермутационных тестов заключается в том, что если сравниваемые выборки пришли из одной совокупности, то обмен элементами между выборками не должен привести к значительному изменению тестовой статистики. Примерный общий алгоритм пермутационных тестов выглядит следующим образом:

  1. Рассчитывается значение тестовой статистики для выборок экспериментальных данных
  2. Выборки объединяются в единый пул
  3. Из пула данных формируются случайным образом выборки такого же размера
  4. Рассчитывается значение тестовой статистики для нового набора выборок
  5. Многократным повторением пунктов 2-4 строится распределение тестовой статистики
  6. Исходя из построенного распределение и экспериментального значения тестовой статистики определяется p-value

При применении пермутационных тестов не требуется собственно коррекция уровня значимости или тестовых p-value. Пермутационные тесты не чувствительны к несбалансированности данных, что полезно при анализе биологических данных.

См. также

Примечания

  1. Множественная проверка гипотез. MachineLearning.ru.
  2. MCP Conference 2019 (амер. англ.). MCP Conference 2019. Дата обращения: 12 апреля 2019.
  3. Hui-Qi Qu, Matthew Tien, Constantin Polychronakos. Statistical significance in genetic association studies // Clinical & Investigative Medicine. — 2010-10-01. — Т. 33, вып. 5. — С. 266. — ISSN 1488-2353. — doi:10.25011/cim.v33i5.14351.
  4. Rothman, Kenneth J. (1990). "No Adjustments Are Needed for Multiple Comparisons". Epidemiology. 1 (1): 43—46. doi:10.1097/00001648-199001000-00010. JSTOR 20065622. PMID 2081237.
  5. Yoav Benjamini, Yosef Hochberg. Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing // Journal of the Royal Statistical Society: Series B (Methodological). — 1995-01. — Т. 57, вып. 1. — С. 289–300. — ISSN 0035-9246. — doi:10.1111/j.2517-6161.1995.tb02031.x.
  6. 1 2 J. D. Storey, R. Tibshirani. Statistical significance for genomewide studies // Proceedings of the National Academy of Sciences. — 2003-07-25. — Т. 100, вып. 16. — С. 9440–9445. — ISSN 1091-6490 0027-8424, 1091-6490. — doi:10.1073/pnas.1530509100.
  7. Efron, Bradley; Tibshirani, Robert; Storey, John D.; Tusher, Virginia (2001). "Empirical Bayes analysis of a microarray experiment". Journal of the American Statistical Association. 96 (456): 1151—1160. doi:10.1198/016214501753382129. JSTOR 3085878.
  8. William S Noble. How does multiple testing correction work? (англ.) // Nature Biotechnology. — 2009-12. — Vol. 27, iss. 12. — P. 1135–1137. — ISSN 1546-1696 1087-0156, 1546-1696. — doi:10.1038/nbt1209-1135.
  9. Young, S. S., Karr, A. (2011). "Deming, data and observational studies" (PDF). Significance. 8 (3): 116—120. doi:10.1111/j.1740-9713.2011.00506.x.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)
  10. Smith, G. D., Shah, E. (2002). "Data dredging, bias, or confounding". BMJ. 325 (7378): 1437—1438. doi:10.1136/bmj.325.7378.1437. PMC 1124898. PMID 12493654.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)
  11. Anjana Grandhi, Wenge Guo, Shyamal D. Peddada. A multiple testing procedure for multi-dimensional pairwise comparisons with application to gene expression studies // BMC Bioinformatics. — 2016-02-25. — Т. 17. — ISSN 1471-2105. — doi:10.1186/s12859-016-0937-5.
  12. ScienceDirect. www.sciencedirect.com. Дата обращения: 13 апреля 2019.
  13. Gregory S. Barsh, Gregory P. Copenhaver, Greg Gibson, Scott M. Williams. Guidelines for Genome-Wide Association Studies // PLoS Genetics. — 2012-07-05. — Т. 8, вып. 7. — ISSN 1553-7390. — doi:10.1371/journal.pgen.1002812.
  14. 1 2 Randall C Johnson, George W Nelson, Jennifer L Troyer, James A Lautenberger, Bailey D Kessing. Accounting for multiple comparisons in a genome-wide association study (GWAS) // BMC Genomics. — 2010-12-22. — Т. 11. — С. 724. — ISSN 1471-2164. — doi:10.1186/1471-2164-11-724.
  15. Xiaoyi Gao, Joshua Starmer, Eden R. Martin. A multiple testing correction method for genetic association studies using correlated single nucleotide polymorphisms // Genetic Epidemiology. — 2008-5. — Т. 32, вып. 4. — С. 361–369. — ISSN 0741-0395. — doi:10.1002/gepi.20310.

Литература

  • E. L. Lehmann, J. P. Romano. Chapter 9: Multiple testing and simultaneous inference // Testing statistical hypotheses. — 3rd ed.. — New York: Springer, 2005. — 786 p.
  • Peter H. Westfall, S. Stanley Young. Resampling-Based Multiple Testing: Examples and Methods for p-Value Adjustment. — Wiley, 1993. — 360 p. — ISBN 978-0-471-55761-6.