Коррекция на множественное тестирование

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Проблéма мно́жественных сравне́ний (англ. multiple comparisons, multiplicity, multiple testing problem)— класс задач статистики, возникающих при необходимости построения семейства статистических выводов. При проверке статистических гипотез для каждого утверждения, представляющего собой вывод об отвержении гипотезы, возникает возможность появления ошибки (ложного отклонения гипотезы, ошибки первого рода). Вероятность такого события ограничивается неким малым значением - уровнем значимости ( обычно ). При построении выводов вероятность того, что хотя бы один из них будет неверным, равна , что достаточно велико уже при небольших (например, при она равна ). Для устранения этого эффекта было разработано несколько подходов[1].

Примеры[править | править вики-текст]

Термин «сравнение» подразумевает сравнение параметров у каких-либо двух групп (например, экспериментальной и контрольной). При множественном сравнении подразумевается сравнение сразу нескольких параметров у этих групп. При увеличении количества параметров может появиться ложное заключение о наличии различий между группами, тогда как на самом деле верна нулевая гипотеза об отсутствии различий, что может привести к некоторым проблемам, как в примерах ниже.

  • Предположим, мы тестируем новое лекарство. Экспериментальной (терапевтической) группой будем называть группу больных, которым выдают новое лекарство, а группой контроля — группу больных, которым его не выдают. Будем считать, что эффективность лекарства заключается в ослаблении симптомов заболевания (понижению температуры, приведению давления в норму и так далее). Чем больше симптомов рассматривается, тем более вероятно, что найдётся хотя бы один симптом, который в этом исследовании в силу случайных причин окажется слабее у «группы лечения».
  • Рассмотрим аналогичную ситуацию, но теперь будем считать лекарство полезным, если оно не вызывает побочных эффектов. Чем больше возможных побочных эффектов рассматривается, тем более вероятно, что найдётся хотя бы один, который будет больше проявляться у «группы лечения» в конкретном исследовании .
  • Эксперименты могут проводиться не только в медицине, но и в эконометрике (например, при исследовании эффективности государственной поддержки безработных), биостатистике, социологии и проч. Например, возьмём за группу контроля класс школьников, которые обучаются языку по традиционной методике, а за экспериментальную группу — класс школьников, которые обучаются по новой методике. Можно рассмотреть несколько параметров успеваемости: знания грамматики, произношение, скорость перевода и так далее. Чем больше параметров мы рассмотрим, тем выше вероятность того, что экспериментальная группа случайно будет превосходить «группу контроля» хотя бы по одному параметру.
  • Кроме того, иногда возникает задача, когда каждый элемент из какого-то множества проверяется на соответствие ожидаемому результату. Рассмотрим следующую ситуацию: у нас есть комплект из 100 монет, и мы хотим определить, есть ли среди этих монет экземпляры со смещённым центром тяжести (будем считать, что у монеты есть смещение, если она выпадает одной стороной хотя бы 9 раз при 10 бросках). Отметим, что вероятность такого исхода для сбалансированной монеты равна . Допустим, что все монеты в комплекте сбалансированы. Тогда вероятность того, что мы не ошибёмся ни в одном выводе, равна , то есть, довольно мала.

Обозначения[править | править вики-текст]

Нулевая гипотеза верна Нулевая гипотеза неверна Всего
Принимаем гипотезу
Отвергаем гипотезу
Всего
  • общее число гипотез
  • число верных гипотез, неизвестный параметр
  • число неверных гипотез
  • число false positives (ошибок первого рода)
  • число true positives
  • число false negatives (ошибок второго рода)
  • число true negatives
  • число отвергнутых нулевых гипотез. Это и - наблюдаемые величины, когда , , , и - ненаблюдаемые.

Методы решения проблемы множественных сравнений[править | править вики-текст]

При слишком большом количестве испытаний увеличивается вероятность получить ложноположительный результат (увеличение ). Задача состоит в том,чтобы выбрать метод, допускающий минимальное число ложных отклонений гипотез и ложных принятий . Для этого необходимо выбрать другой порог на значимость. Для задачи множественной проверки гипотез существует большое количество величин, обобщающих определение ошибки первого рода. Наиболее известны следующие:

  • FWER - family-wise error rate, групповая вероятность ошибки первого рода: ;=
  • FDP - false discovery proportion, доля ложных отклонений гипотез (среди всех отклонений):
  • FDR - false discovery rate, средняя доля ложных отклонений гипотез (среди всех отклонений):
  • FCR - false coverage rate, средняя доля ложный покрытий, то есть не покрытие верных параметров в пределах выбранных интервалов.

Для каждой из приведенных мер существует свой способ ужесточения порога на значимость.

Групповая вероятность ошибки первого рода[править | править вики-текст]

Одна из мер, обобщающих ошибку первого рода, рассматриваемую при проверке статистических гипотез. Величина определяется как вероятность совершения хотя бы одной ошибки первого рода. По определению: . Контроль над FWER на фиксированном уровне значимости означает, что выполняется неравенство .

Из неравенства Буля следует, что для конечного набора событий, вероятность того, что произойдет хотя бы одно не больше, чем сумма вероятностей индивидуальных событий. При этом для всего семейства гипотез уровень значимости фиксируется на уровне , значит каждый индивидуальный тест будет проверяться на уровне значимости :

,

где - количество отвергнутых истинных гипотез.

Существует несколько методов контроля FWER.

Поправка Бонферрони[править | править вики-текст]

Метод поправки Бонферрони утверждает, что для уменьшения ложноположительных результатов, необходимо отклонить те гипотезы, для которых . Данная поправка позволяет получить .

Замечания[править | править вики-текст]

При увеличении в результате применения поправки Бонферрони мощность статистической процедуры резко уменьшается - шансы отклонить неверные гипотезы падают.

Метод Холма (поправка Холма-Бонферрони)[править | править вики-текст]

Равномерно более мощный, чем поправка Бонферрони, и решает проблему падения мощности при росте числа гипотез.

Пусть - уровни значимости , упорядоченные от наименьшего к наибольшему. - соответствующие гипотезы. Процедура Холма определена следующим образом.

  • Шаг 1. Если , принять гипотезы и остановиться. Иначе, если , отвергнуть гипотезу и продолжить проверку оставшихся гипотез на уровне значимости .
  • Шаг 2. Если , принять гипотезы и остановиться. Иначе, если , отвергнуть гипотезу и продолжить проверку оставшихся гипотез на уровне значимости .
  • И т.д.

Процедура обеспечивает при любом характере зависимости между .

Пример[править | править вики-текст]

Рассмотрим проверку 4-х гипотез при . Пусть для них получены p-value: 0.01, 0.04, 0.03 и 0.005. Расставим их по возрастанию: 1) 0.005; 2) 0.01; 3) 0.03; 4) 0.04. Будут проверены следующие неравенства:

  1. → отклоняем данную нулевую гипотезу, двигаемся дальше.
  2. → отклоняем данную нулевую гипотезу, двигаемся дальше.
  3. → принимаем эту и следующую нулевые гипотезы, останавливаемся.

Средняя доля ложных отклонений[править | править вики-текст]

Данная величина определяется как математическое ожидание доли ошибок среди отвергнутых гипотез.

Определим как отношение числа неверно отвергнутых гипотез ко всем отвергнутым гипотезам  : . Таким образом, FDR:

, при .

Контроль над FDR на уровне означает, что:

.

Метод Бенджамини-Хохберга[править | править вики-текст]

Это нисходящая процедура ( по аналогии с методом Холма) со следующими уровнями значимости:

.

Пусть - уровни значимости , упорядоченные от наименьшего к наибольшему. - соответствующие гипотезы. Процедура Бенджамини-Хохберга определена следующим образом.

  • Шаг 1. Если , принять гипотезы и остановиться. Иначе, если , отвергнуть гипотезу и продолжить проверку оставшихся гипотез на уровне значимости .
  • Шаг 2. Если , принять гипотезы и остановиться. Иначе, если , отвергнуть гипотезу и продолжить проверку оставшихся гипотез на уровне значимости .
  • И т.д.

Сравнение трех методов[править | править вики-текст]

На практике корректируется не сам порог, а p-значение. Если мы будем сравнивать все три метода, то можно увидеть, что наиболее строгим из всех является поправка Бонферрони. Рассмотрим на примере.

В статье García-Arenzana et al. (2014) было протестировано 25 различных диетических параметров и их влияние на маммографическую плотность у испанок. Ниже приведены полученные результаты:

Dietary variable P-value
Total calories
Olive oil
Whole milk
White meat
Proteins
Nuts
Cereals and pasta
White fish
Butter
Vegetables
Skimmed milk
Red meat
Fruit
Eggs
Blue fish
Legumes
Carbohydrates
Potatoes
Bread
Fats
Sweets
Dairy products
Semi-skimmed milk
Total meat
Processed meat
p-значения без поправок


Как можно увидеть, пять переменных являются значимыми (p-значание > ).

Применим поправку Бонферрони для данной выборки. Скорректированные p-значения высчитываются таким образом: .

p-значения после применения поправки Бонферрони


После применения данной поправки видно, что только один тест остался значимым. Поправка Бонферрони подходит, когда хотя бы один ложноположительный результат может стать проблемой. По большей части, данная поправка применима на небольшом количестве тестов, когда мы ищем всего один или два значимых результата. Если мы возьмем большое количество тестов, где нам будут интересны достаточно много значимых результатов, то поправка Бонферрони может привести к большому числу ложноотрицательных результатов. Например, при анализе экспрессии порядка 20,000 генов в двух разных тканях мы ожидаем увидеть хотя бы несколько сотен генов с разным уровнем экспрессии. Однако, при применении данной поправки p-значение должно быть меньше 0.05/20000=0.0000025 для того, чтобы быть значимым. Таким образом, только гены с очень большой разницей в экспрессии будут иметь такое низкое p-значение, что может привести к потере результатов, где разница есть, но не такая большая.

Посмотрим на то, как изменились p-значения после применения поправки Холма, считается так: .

p-значения после применения поправки Холма


Посмотрим на p-значения после применения поправки Бенджамини-Хохберга, считается: .

p-значения после применения поправки Бенджамини-Хохберга


Применение в биоинформатике[править | править вики-текст]

При анализе данных c микрочипов нельзя просто сказать, что какая-то группа генов экспрессируется в два раза больше, нежели другая. В таком случае в эксперименте с пятью или менее повторностями всего одно отклонение может создать заметную разницу более, чем в два раза. К тому же, установка границы "в два раза" - звучит совсем не биологически.

Для определения по-разному экспрессирующихся генов, вместо того, чтобы использовать кратность, можно применить ряд статистических тестов, которые позволят приписать каждому полученному результату p-value, оценку того, что данная величина появилась случайно. Применять p-значения к микрочипам достаточно сложная задача из-за большого количества множественных сравнений (анализируемых генов). Например, если мы возьмем p-значение равное 0.05 для определения уровня значимости, поскольку это означает, что с 5% вероятностью эти данные получились случайно. С 10,000 генов на микрочипе 500 генов будут определены, как значимые при , даже если разницы между экспериментальными группами не будет. Решение: ужесточить p-критерий, применив поправку Бонферрони или используя FDR. К сожалению, эти подходы могут снизить число значимых генов до нуля, несмотря на то, что у них разный уровень экспрессии. Rank products нацелен на то, чтобы установить баланс между неправильно предсказанными генами из-за случайной изменчивости и не обнаружением по-разному экспрессирующихся генов. Самыми известными статистическими методами являются Cignificance Analysis of Microarrays (SAM) и большое разнообразие методов, доступных на Bioconductor, а также существуют разные пакеты, предоставляемые различными биоинформатическими компаниями.

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

Литература[править | править вики-текст]

  • E. L. Lehmann, J. P. Romano. Chapter 9: Multiple testing and simultaneous inference // Testing statistical hypotheses. — 3rd ed.. — New York: Springer, 2005. — 786 p.
  • Peter H. Westfall, S. Stanley Young. Resampling-Based Multiple Testing: Examples and Methods for p-Value Adjustment. — Wiley, 1993. — 360 p. — ISBN 978-0-471-55761-6.