Парадокс Берксона

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Парадокс Берксона или ошибка Берксона — положение математической статистики, сформулированное Дж. Берксоном. Формулировка: два независимых события могут становиться условно зависимыми, если произошло некоторое событие. Этот вывод является контр-интуитивным для некоторых людей, и таким образом может быть описан как парадокс. Парадокс Берксона часто описывается в области медицинской статистики или биостатистики. Он является усложняющим фактором, появляющимся в статистических проверках соотношений.

Формальное определение[править | править исходный текст]

если 0 < P(A) < 1 и 0 < P(B) < 1, где A и B — некоторые события,
и P(A|B) = P(A) (то есть события независимы),
тогда P(A|B,C) < P(A|C) где C = AB (то есть A или B).

Иллюстрация на примере[править | править исходный текст]

Будем исследовать статистику случайного выбора почтовых марок из набора, рассматривая два независимых свойства марки: «редкость» и «красоту».

Предположим, что имеется 1000 марок, среди которых 300 красивых, 100 редких, причём 30 и красивы, и редки. Очевидно, из всего набора 10 % марок редки, но и из всех красивых марок тоже 10 % редки, то есть красота марки ничего не говорит о её редкости.

Однако, если выбрать из всего набора (1000) все красивые марки и все редкие марки (таких марок 370), то в этой выборке редких марок будет уже 27 % (100 из 370), но из числа красивых марок редких все равно будет только 10 % (30 из 300). Тогда наблюдатель при анализе такой выборки (а не всего набора) увидит кажущуюся обратную зависимость между красотой и редкостью марки (если марка красивая, то вероятность её редкости ниже). Но на самом деле такой связи нет.

Описанный результат математически полностью корректен, его «парадоксальность» связана с особенностями восприятия людей, которые склонны интуитивно полагать, что если два параметра независимы, то они остаются таковыми в любой выборке. В действительности же в случае предвзятости отбора выборки между независимыми параметрами могут возникать условные зависимости, приводящие, при распространении их на всю генеральную совокупность, к грубым ошибкам анализа.

Ссылки[править | править исходный текст]

  • Berkson, J. (1946) «Limitations of the application of fourfold tables to hospital data». Biometrics Bulletin, 2(3), 47-53.