Парадокс Симпсона

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Парадокс Симпсона (Парадокс Юла-Симпсона, парадокс объединения) – эффект, явление в статистике, когда при наличии двух групп данных, в каждой из которых наблюдается одинаково направленная зависимость, при объединении этих групп направление зависимости меняется на противоположное.

Это явление было описано Эдвардом Симпсоном в 1951 году и Удни Юлом в 1903 году. Название «парадокс Симпсона» впервые предложил Колин Блайт (Blyth, Colin R.) в 1972 году. Однако, так как Симпсон не был первооткрывателем этого эффекта, некоторые авторы используют безличные названия, например, «парадокс объединения».

История открытия парадокса[править | править вики-текст]

Первый раз рассматриваемая ситуация отмечена Карлом Пирсоном в статье «Математический вклад в теорию эволюции»[1]. Он рассматривает зависимость признаков разнородных групп лошадей. У. Юл делает более подробный анализ подобных популяционных изменений, изучая механизмы наследственности. Симпсон рассматривает то, что он называет «любопытным случаем» в нескольких разделах статьи «The Interpretation of Interaction in Contingency Tables»[2]. Симпсон был первым автором, изучавшим это явление с точки зрения статистики. Поэтому впоследствии математик К. Р. Блайт в статье «On Simpson’s Paradox and the Sure-Thing Principle»[3] вводит термин «парадокс Симпсона».

Примеры[править | править вики-текст]

Пример М. Гарднера с камнями[править | править вики-текст]

Пусть мы имеем четыре набора камней. Вероятность вытащить чёрный камень из набора №1 выше, чем из набора №2. В свою очередь, вероятность вытащить чёрный камень из набора №3 больше, чем из набора №4. Объединим набор №1 с набором №3 (получим набор I), а набор №2 — с набором №4 (набор II). Интуитивно можно ожидать, что вероятность вытащить чёрный камень из набора I будет выше, чем из набора II. Однако, в общем случае такое утверждение неверно.

Математическое доказательство такое. Пусть n_i~ — число чёрных камней в i~-ом наборе (выборке), m_i~ — общее число камней в i~-ом наборе при i=1, 2, 3, 4~. По условию:

\frac{n_1}{m_1} > \frac{n_2}{m_2}, \frac{n_3}{m_3} > \frac{n_4}{m_4}.

Вероятность вытащить чёрный камень из наборов I и II, соответственно:

\frac{n_1 + n_3}{m_1 + m_3}, \frac{n_2 + n_4}{m_2 + m_4}.

Выражение для набора I не всегда больше выражения для набора II. Например: n_1 = 6,~m_1 = 13,~n_2 = 4,~m_2 = 9,~n_3 = 6,~m_3 = 9,~n_4 = 9,~m_4 = 14.

Легко проверить, что 6/13 > 4/9,~6/9 > 9/14. В то время как 12/22 < 13/23~.

Применение[править | править вики-текст]

Парадокс Симпсона иллюстрирует неправомерность некоторых иногда опасных для жизни обобщений. Так, например, в ходе эксперимента в группе мужчин и группе женщин, больных одной и той же болезнью, к стандартному лечению прибавили новый лекарственный препарат. Результат по обеим группам в отдельности подтверждал эффективность нового средства.

Мужчины Принимавшие лекарство Не принимавшие лекарство
Выздоровевшие 700 80
Невыздоровевшие 800 130
Соотношение 0.875 0.615
Женщины Принимавшие лекарство Не принимавшие лекарство
Выздоровевшие 150 400
Невыздоровевшие 70 280
Соотношение 2.142 1.429

Интуитивно кажется, что если в обеих группах прослеживается зависимость, она должна проявиться и при объединении этих групп. Но хотя соотношение выздоровевших и больных среди и женщин, и мужчин, принимавших лекарство, больше чем среди тех из них, кто его не использовал, в агрегированных данных эта закономерность не сохраняется.

Сумма Принимавшие лекарство Не принимавшие лекарство
Выздоровевшие 850 480
Невыздоровевшие 870 410
Соотношение 0.977 1.171

Соотношение в агрегированных данных 850/870<480/410, то есть 0,977<1,171. Следовательно, доля выздоровевших среди принимавших лекарство меньше той же доли среди не принимавших.

Причина парадокса заключается в неправильном переносе выводов, справедливых для отдельных групп людей, на их объединение. Одним из способов разрешения парадокса является использование формулы полной вероятности. Парадокс Симпсона показывает, что выводы из результатов социологических опросов и непрофессиональных с точки зрения статистики экспериментов нельзя принимать, как неопровержимые, доказанные научным путем.

Примечания[править | править вики-текст]

  1. Karl Pearson. Mathematical Contributions to the Theory of Evolution. V. On the Reconstruction of the Stature of Prehistoric Races. Phil. Trans. R. Soc. Lond. A. 1899 192:169-244 doi:10.1098/rsta.1899.0004
  2. The Interpretation of Interaction in Contingency Tables // Journal of the Royal Statistical Society, B, 13 (1951) — pp. 238-241
  3. Blyth, Colin R. On Simpson’s Paradox and the Sure-Thing Principle // Journal of the American Statistical Association, 67 (1972) — p. 364.

Ссылки[править | править вики-текст]

См. также[править | править вики-текст]