Коррекция на множественное тестирование

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Мно́жественные сравне́ния — класс задач статистики, возникающих при необходимости построения семейства статистических выводов. Каждый вывод имеет некоторую вероятность \alpha неверного отвержения нулевой гипотезы (ошибка первого рода), которая довольно мала (как правило, она равна 0,05). Однако при построении m таких выводов вероятность того, что хотя бы один из них будет неверным, равна 1-(1-\alpha)^m, что достаточно велико уже при небольших m (например, при m=5 она равна \approx23%). Для устранения этого эффекта было разработано несколько техник[1].

Задача[править | править вики-текст]

Термин «сравнение» подразумевает сравнение параметров у каких-либо двух групп (как правило, они называются экспериментальной группой и контрольной группой). При множественном сравнении подразумевается сравнение сразу нескольких параметров у этих групп. Приведём несколько примеров.

  • Предположим, мы тестируем новое лекарство. Экспериментальной (терапевтической) группой будем называть группу больных, которым выдают новое лекарство, а группой контроля — группу больных, которым его не выдают. Будем считать, что эффективность лекарства заключается в ослаблении симптомов заболевания (понижению температуры, приведению давления в норму и так далее). Чем больше симптомов рассматривается, тем более вероятно, что найдётся хотя бы один симптом, который будет слабее у «группы лечения» в силу случайных причин.
  • Рассмотрим аналогичную ситуацию, но теперь будем считать лекарство полезным, если оно не вызывает побочных эффектов. Чем больше возможных побочных эффектов рассматривается, тем более вероятно, что найдётся хотя бы один, который будет больше проявляться у «группы лечения» в силу случайных причин.
  • Эксперименты могут проводиться не только в медицине, но и в эконометрике (например, при исследовании эффективности государственной поддержки безработных), биостатистике, социологии и проч. Например, возьмём за группу контроля класс школьников, которые обучаются языку по традиционной методике, а за экспериментальную группу — класс школьников, которые обучаются по новой методике. Можно рассмотреть несколько параметров успеваемости: знания грамматики, произношение, скорость перевода и так далее. Чем больше параметров мы рассмотрим, тем выше вероятность того, что экспериментальная группа будет превосходить «группу контроля» хотя бы по одному параметру.
  • Кроме того, иногда возникает задача, когда каждый элемент из какого-то множества проверяется на соответствие ожидаемому результату. Рассмотрим следующую ситуацию: у нас есть комплект из 100 монет, и мы хотим определить, есть ли среди этих монет экземпляры со смещённым центром тяжести (будем считать, что у монеты есть смещение, если она выпадает одной стороной хотя бы 9 раз при 10 бросках). Отметим, что вероятность такого исхода для сбалансированной монеты равна (10+1+1+10)\cdot(1/2)^{10}\approx0{,}0215. Допустим, что все монеты в комплекте сбалансированны. Тогда вероятность того, что мы не ошибёмся ни в одном выводе, равна (1-0{,}0215)^{100}\approx0{,}1138, то есть крайне мала.

Решение[править | править вики-текст]

Определим групповую вероятность ошибки как величину, равную вероятности совершить хотя бы одну ошибку в выводе из некоторого семейства выводов. Будем обозначать её как \bar{\alpha}. Если мы делаем n независимых испытаний с вероятностью ошибки \alpha в каждом, то \bar{\alpha}=1-(1-\alpha)^n. В случае зависимых испытаний \bar{\alpha}\leqslant 1-(1-\alpha)^n. Заметим, что по неравенству Буля \bar{\alpha}\leqslant n\cdot \alpha. Таким образом, если мы хотим, чтобы вероятность наличия хотя бы одного неверного вывода была равна 0{,}05, то достаточно установить вероятность неверного отклонения нулевой гипотезы равной 0{,}05/n для каждого вывода. Такой метод называется поправкой Бонферрони (англ.). Если гипотезы имеют различные уровни значимости, то достаточно отвергнуть гипотезы, имеющие \alpha<\bar{\alpha}/n. Поправка Бонферрони плоха тем, что в случае большого числа сравнений, например 100 000, для каждого теста получается слишком строгий уровень значимости, соответственно 0,05/100 000.

Чтобы уменьшить строгость, но оставить групповую вероятность ошибки на том же уровне, можно использовать метод Бенджамини — Хохберга. Пусть имеются нулевые гипотезы \mathcal{H}_1, \ldots, \mathcal{H}_n с соответствующими p-значениями: p_1, \ldots, p_n. Упорядочим их в порядке возрастания: p_{(1)}, \ldots, p_{(n)}. Найдем наибольшее k, такое, что P_{(k)}\leqslant k\cdot \bar{\alpha}/n. Отвергнем все гипотезы \mathcal{H}_{(1)}, \ldots, \mathcal{H}_{(k)}, а остальные гипотезы примем. Тогда вероятность хотя бы одного неверного вывода будет равна \bar{\alpha}.

Применение в биоинформатике[править | править вики-текст]

Задача на множественные сравнения возникает, например, в биоинформатике при анализе экспрессии генов. При таком анализе исследуются воздействия на экспрессию генов: T_0,\ldots,T_{n-1} (например, со стороны лечения).

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

Литература[править | править вики-текст]

  • E. L. Lehmann, J. P. Romano. Chapter 9: Multiple testing and simultaneous inference // Testing statistical hypotheses. — 3rd ed.. — New York: Springer, 2005. — 786 p.
  • Peter H. Westfall, S. Stanley Young. Resampling-Based Multiple Testing: Examples and Methods for p-Value Adjustment. — Wiley, 1993. — 360 p. — ISBN 978-0-471-55761-6.