Коррекция на множественное тестирование

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Проблéма мно́жественных сравне́ний (англ. multiple comparisons, multiplicity, multiple testing problem)— класс задач статистики, возникающих при необходимости построения семейства статистических выводов. При проверке статистических гипотез для каждого такого утверждения, представляющего собой вывод об отвержении гипотезы, возникает возможность появления ошибки (ложного отклонения гипотезы, ошибки первого рода). Вероятность такого события ограничивается неким малым значением - уровнем значимости \alpha ( обычно \alpha = 0.05 ). При построении m выводов вероятность того, что хотя бы один из них будет неверным, равна 1-(1-\alpha)^m, что достаточно велико уже при небольших m (например, при m=5 она равна \approx22,6%). Для устранения этого эффекта было разработано несколько техник[1].

Примеры[править | править вики-текст]

Термин «сравнение» подразумевает сравнение параметров у каких-либо двух групп (например, экспериментальной и контрольной). При множественном сравнении подразумевается сравнение сразу нескольких параметров у этих групп. При увеличении количества параметров может появиться ложное заключение о наличии различий между группами, тогда как на самом деле верна нулевая гипотеза об отсутствии различий, что может привести к некоторым проблемам в реальном мире, как в примерах ниже.

  • Предположим, мы тестируем новое лекарство. Экспериментальной (терапевтической) группой будем называть группу больных, которым выдают новое лекарство, а группой контроля — группу больных, которым его не выдают. Будем считать, что эффективность лекарства заключается в ослаблении симптомов заболевания (понижению температуры, приведению давления в норму и так далее). Чем больше симптомов рассматривается, тем более вероятно, что найдётся хотя бы один симптом, который в этом исследовании в силу случайных причин окажется слабее у «группы лечения».
  • Рассмотрим аналогичную ситуацию, но теперь будем считать лекарство полезным, если оно не вызывает побочных эффектов. Чем больше возможных побочных эффектов рассматривается, тем более вероятно, что найдётся хотя бы один, который будет больше проявляться у «группы лечения» в конкретном исследовании .
  • Эксперименты могут проводиться не только в медицине, но и в эконометрике (например, при исследовании эффективности государственной поддержки безработных), биостатистике, социологии и проч. Например, возьмём за группу контроля класс школьников, которые обучаются языку по традиционной методике, а за экспериментальную группу — класс школьников, которые обучаются по новой методике. Можно рассмотреть несколько параметров успеваемости: знания грамматики, произношение, скорость перевода и так далее. Чем больше параметров мы рассмотрим, тем выше вероятность того, что экспериментальная группа случайно будет превосходить «группу контроля» хотя бы по одному параметру.
  • Кроме того, иногда возникает задача, когда каждый элемент из какого-то множества проверяется на соответствие ожидаемому результату. Рассмотрим следующую ситуацию: у нас есть комплект из 100 монет, и мы хотим определить, есть ли среди этих монет экземпляры со смещённым центром тяжести (будем считать, что у монеты есть смещение, если она выпадает одной стороной хотя бы 9 раз при 10 бросках). Отметим, что вероятность такого исхода для сбалансированной монеты равна (10+1+1+10)\cdot(1/2)^{10}\approx0{,}0215. Допустим, что все монеты в комплекте сбалансированы. Тогда вероятность того, что мы не ошибёмся ни в одном выводе, равна (1-0{,}0215)^{100}\approx0{,}1138, то есть, довольно мала.

Обозначения[править | править вики-текст]

Пусть у нас есть H = \{H_1, ..., H_m\} множество нулевых гипотез, проверяемых против альтернатив H'_i = \bar{H}_i, i=1, ..., m. Если нулевая гипотеза верна, то будем писать H_i = 0, и H_i = 1 в противном случае.

Нулевая гипотеза верна Нулевая гипотеза неверна Всего
Принимаем гипотезу U T W
Отвергаем гипотезу V S R
Всего m_0 m - m_0 m

Задача состоит в том,чтобы выбрать метод, допускающий минимальное число ложных отклонений гипотез V и ложных принятий T.

Методы решения проблемы множественных сравнений[править | править вики-текст]

Существует большое количество величин, обобщающих определение ошибки первого рода на задачу множественной проверки гипотез. Наиболее известны следующие:

  • FWER - family-wise error rate, групповая вероятность ошибки первого рода: FWER = P(V\geq1);
    • k-FWER, gFWER - generalized family-wise error rate, обобщенная групповая вероятность ошибки: k-FWER = P(V \geq k);
  • FDP - false discovery proportion, доля ложных отклонений гипотез (среди всех отклонений): FDP = \begin{cases} \frac{V}{R}, R>0,  \\ 0, R=0; \end{cases}
  • FDR - false discovery rate, средняя доля ложных отклонений гипотез (среди всех отклонений): FDR = E[FDP];
  • FCR - false coverage rate.

Групповая вероятность ошибки первого рода[править | править вики-текст]

Одна из мер, обобщающих ошибку первого рода, рассматриваемую при проверке статистических гипотез. Величина определяется как вероятность совершения хотя бы одной ошибки первого рода. По определению: FWER = P(V \geq 1). Контроль над FWER на фиксированном уровне значимости \alpha означает, что выполняется неравенство FWER\leq\alpha.

Теоретическое обоснование контроля FWER говорит, что групповая вероятность ошибки означает вероятность совершения хотя бы одной ошибки первого рода. Из неравенства Буля следует, что для конечного набора событий, вероятность того, что произойдет хотя бы одно не больше, чем сумма вероятностей индивидуальных событий:

FWER = P(V \geq 1) = P\left\{ \bigcup_{i=1}^{m_0}\left(p_{i}\leq\frac{\alpha}{m}\right)\right\} \leq\sum_{i=1}^{m_0}\left\{P\left(p_{i}\leq\frac{\alpha}{m}\right)\right\}\leq m_{0}\frac{\alpha}{m}\leq m\frac{\alpha}{m}=\alpha,

где V - количество отвергнутых истинных гипотез.

Существует несколько методов контроля FWER.

Поправка Бонферрони[править | править вики-текст]

Пусть H_1, ...,H_m - семейство гипотез, а p_1, .... p_m - соответствующие им p-значения, m_0 - неизвестное нам количество истинных нулевых гипотез. Метод поправки Бонферрони утверждает, что для уменьшения ложноположительных результатов, необходимо поделить уровень значимости на количество тестов. Отклонить те гипотезы, для которых p_i < \alpha/m . Данная поправка позволяет получить FWER \leq \alpha.

Замечания[править | править вики-текст]

При увеличении m в результате применения поправки Бонферрони мощность статистической процедуры резко уменьшается - шансы отклонить неверные гипотезы падают. Таким образом, использование данной процедуры при очень больших m нецелесообразно.

Метод Холма (поправка Холма-Бонферрони)[править | править вики-текст]

Равномерно более мощный, чем поправка Бонферрони, и решает проблему падения мощности при росте числа гипотез.

Пусть p_{(1)}\leq...\leq p_{(m)} - уровни значимости p_i, упорядоченные от наименьшего к наибольшему. H_{(1)}, ...,H_{(m)} - соответствующие p_{(i)} гипотезы. Процедура Холма определена следующим образом.

  • Шаг 1. Если p_{(1)}\geq \frac{\alpha}{m} , принять гипотезы H_{(1)}, ...,H_{(m)} и остановиться. Иначе, если p_{(1)}< \frac{\alpha}{m} , отвергнуть гипотезу H_{(1)} и продолжить проверку оставшихся гипотез на уровне значимости \frac{\alpha}{m-1} .
  • Шаг 2. Если p_{(2)}\geq \frac{\alpha}{m-1} , принять гипотезы H_{(2)}, ...,H_{(m)} и остановиться. Иначе, если p_{(2)}< \frac{\alpha}{m-1} , отвергнуть гипотезу H_{(2)} и продолжить проверку оставшихся гипотез на уровне значимости \frac{\alpha}{m-2} .
  • И т.д.

Процедура обеспечивает FWER \leq \alpha при любом характере зависимости между p_i .

При рассмотрении неравенств, то вместо вида p_{(i)}<\frac{\alpha}{m-i+1} используется p\cdot(m-i+1)<\alpha .

Пример[править | править вики-текст]

Рассмотрим проверку 4-х гипотез при \alpha = 0.05 . Пусть для них получены p-value: 0.01, 0.04, 0.03 и 0.005. Будут проверены следующие неравенства:

  1. 0.005\cdot(4-1+1)<0.05  → отклоняем 4-ю нулевую гипотезу, двигаемся дальше.
  2. 0.01\cdot(4-2+1)<0.05 → отклоняем 1-ю нулевую гипотезу, двигаемся дальше.
  3. 0.03\cdot(4-3+1)\geq 0.05 → принимаем 3-ю и 2-ю нулевые гипотезы, останавливаемся.

Средняя доля ложных отклонений[править | править вики-текст]

Данная величина определяется как математическое ожидание доли ошибок среди отвергнутых гипотез.

Пусть H_1,...,H_m - семейство нулевых гипотез, а p_1, ...,p_m - соответствующие им p-значения на статистиках T_1, ...,T_m против альтернатив H'_1,...,H'_m. Определим Q как отношение числа неверно отвергнутых гипотез V ко всем отвергнутым гипотезам R : \biggl(Q = \frac{V}{R}\biggr). Таким образом, FDR:

FDR = Q_e = E[Q] = E\left [ \frac{V}{V+S} \right ] = E\left [ \frac{V}{R} \right ], при R > 0.

Контроль над FDR на уровне \alpha означает, что:

FDR = E\left ( \frac{V}{R} \right )\leq \alpha.

Метод Бенджамини-Хохберга[править | править вики-текст]

Это нисходящая процедура ( по аналогии с методом Холма) со следующими уровнями значимости:

\alpha =\frac{\alpha}{m},..., \alpha_i = \frac{i\alpha}{m}, ..., \alpha_m = \alpha.

Пусть p_{(1)}\leq...\leq p_{(m)} - уровни значимости p_i, упорядоченные от наименьшего к наибольшему. H_{(1)}, ...,H_{(m)} - соответствующие p_{(i)} гипотезы. Процедура Бенджамини-Хохберга определена следующим образом.

  • Шаг 1. Если p_{(1)}\geq \frac{\alpha}{m} , принять гипотезы H_{(1)}, ...,H_{(m)} и остановиться. Иначе, если p_{(1)}< \frac{\alpha}{m} , отвергнуть гипотезу H_{(1)} и продолжить проверку оставшихся гипотез на уровне значимости \frac{2\alpha}{m} .
  • Шаг 2. Если p_{(2)}\geq \frac{2\alpha}{m} , принять гипотезы H_{(2)}, ...,H_{(m)} и остановиться. Иначе, если p_{(2)}< \frac{2\alpha}{m} , отвергнуть гипотезу H_{(2)} и продолжить проверку оставшихся гипотез на уровне значимости \frac{3\alpha}{m} .
  • И т.д.

Применение в биоинформатике[править | править вики-текст]

При анализе данных c микрочипов нельзя просто сказать, что какая-то группа генов экспрессируется в два раза больше, нежели другая. В таком случае в эксперименте с пятью или менее повторностями всего одно отклонение может создать заметную разницу более, чем в два раза. К тому же, установка границы "в два раза" - звучит совсем не биологически.

Для определения по-разному экспрессирующихся генов, вместо того, чтобы использовать кратность, можно применить ряд статистических тестов, которые позволят приписать каждому полученному результату p-value, оценку того, что данная величина появилась случайно. Применять p-значения к микрочипам достаточно сложная задача из-за большого количества множественных сравнений (анализируемых генов). Например, если мы возьмем p-значение равное 0.05 для определения уровня значимости, поскольку это означает, что с 5% вероятностью эти данные получились случайно. С 10,000 генов на микрочипе 500 генов будут определены, как значимые при p < 0.05, даже если разницы между экспериментальными группами не будет. Решение: ужесточить p-критерий, применив поправку Бонферрони или используя FDR. К сожалению, эти подходы могут снизить число значимых генов до нуля, несмотря на то, что у них разный уровень экспрессии. Rank products нацелен на то, чтобы установить баланс между неправильно предсказанными генами из-за случайной изменчивости и не обнаружением по-разному экспрессирующихся генов. Самыми известными статистическими методами являются Cignificance Analysis of Microarrays (SAM) и большое разнообразие методов, доступных на Bioconductor, а также существуют разные пакеты, предоставляемые различными биоинформатическими компаниями.

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

Литература[править | править вики-текст]

  • E. L. Lehmann, J. P. Romano. Chapter 9: Multiple testing and simultaneous inference // Testing statistical hypotheses. — 3rd ed.. — New York: Springer, 2005. — 786 p.
  • Peter H. Westfall, S. Stanley Young. Resampling-Based Multiple Testing: Examples and Methods for p-Value Adjustment. — Wiley, 1993. — 360 p. — ISBN 978-0-471-55761-6.