Теорема Байеса

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
Голубой неоновый знак, обозначающий простое выражение формулы Байеса

Теорема Байеса (или формула Байеса) — одна из основных теорем элементарной теории вероятностей, которая позволяет определить вероятность какого-либо события при условии, что произошло другое статистически взаимозависимое с ним событие. Другими словами, по формуле Байеса можно более точно пересчитать вероятность, беря в расчет как ранее известную информацию, так и данные новых наблюдений. Формула Байеса может быть выведена из основных аксиом теории вероятностей, в частности из условной вероятности. Особенность теоремы Байеса заключается в том, что для ее практического применения требуется большое количество расчетов, вычислений, поэтому байесовские оценки стали активно использовать только после революции в компьютерных и сетевых технологиях.

При возникновении теоремы Байеса вероятности, используемые в теореме, подвергались целому ряду вероятностных интерпретаций. В одной из таких интерпретаций говорилось, что вывод формулы напрямую связан с применением особого подхода к статистическому анализу. Если использовать байескую интерпретацию вероятности, то теорема показывает, как личный уровень доверия может кардинально изменить количество наступивших событий. В этом заключаются выводы Байеса, которые стали основополагающими для байесовской статистики. Однако теорема используется не только в байесовском анализе, но и активно применяется для большого ряда других расчетов.

Психологические эксперименты[1] показали, что люди часто неверно оценивают апостериорную вероятность события, поскольку игнорируют его априорную вероятность. Поэтому правильный результат по формуле Байеса может сильно отличаться от интуитивно ожидаемого.

Теорема Байеса названа в честь её автора Томаса Байеса (1701—1761) — человека, который первый предложил использование теоремы для корректировки убеждений, основываясь на обновлённых данных. Его работа «An Essay towards solving a Problem in the Doctrine of Chances» впервые опубликована в 1763 году[2], через 2 года после смерти автора. До того, как посмертная работа Байеса была принята и прочитана в Королевском обществе, она была значительно отредактирована и обновлена Ричардом Прайсом. Однако эти идеи не предавались публичной огласке до тех пор, пока они не были вновь открыты и развиты Лапласом, который первый опубликовал современную формулировку теоремы в его книге 1812 года «Аналитическая теория вероятностей».

Сэр Гарольд Джеффрис писал, что теорема Байеса «является основой теории вероятности, точно так же как и теорема Пифагора есть основа геометрии»[3] .

Формулировка[править | править вики-текст]

Формула Байеса:

P(A|B) = \frac{P(B | A)\, P(A)}{P(B)},

где

P(A) — априорная вероятность гипотезы A (смысл такой терминологии см. ниже);
P(A|B) — вероятность гипотезы A при наступлении события B (апостериорная вероятность);
P(B|A) — вероятность наступления события B при истинности гипотезы A;
P(B) — полная вероятность наступления события B.

Доказательство[править | править вики-текст]

Формула Байеса вытекает из определения условной вероятности. Вероятность совместного события  AB двояко выражается через условные вероятности

 P(AB) = P(A|B)P(B) = P(B|A)P(A)

Следовательно P(A|B) = \frac{P(AB)}{P(B)} =  \frac{P(B | A)\, P(A)}{P(B)}

Вычисление P(B)[править | править вики-текст]

В задачах и статистических приложениях P(B) обычно вычисляется по формуле полной вероятности события, зависящего от нескольких несовместных гипотез, имеющих суммарную вероятность 1.

P(B)=\sum_{i=1}^N P(A_i)P(B|A_i),

где вероятности под знаком суммы известны или допускают экспериментальную оценку.

В этом случае формула Байеса записывается так:

P(A_j|B) = \frac{P(A_j)P(B|A_j)}{\sum_{i=1}^N P(A_i)P(B|A_i)}

«Физический смысл» и терминология[править | править вики-текст]

Формула Байеса позволяет «переставить причину и следствие»: по известному факту события вычислить вероятность того, что оно было вызвано данной причиной.

События, отражающие действие «причин», в данном случае называют гипотезами, так как они — предполагаемые события, повлекшие данное. Безусловную вероятность справедливости гипотезы называют априорной (насколько вероятна причина вообще), а условную — с учетом факта произошедшего события — апостериорной (насколько вероятна причина оказалась с учетом данных о событии).

Примеры[править | править вики-текст]

Пример 1[править | править вики-текст]

Событие A — в баке нет бензина, событие B — машина не заводится. Заметим, что вероятность Р(В|A) того, что машина не заведется, если в баке нет бензина, равняется единице. Тем самым, вероятность Р(A) того, что в баке нет бензина, равна произведению вероятности Р(B) того, что машина не заводится, на вероятность P(A|B) того, что причиной события B стало именно отсутствие бензина (событие A), а не, к примеру, разряженный аккумулятор.

Пусть вероятность брака у первого рабочего p_1=0{,}9, у второго рабочего — p_2=0{,}5, а у третьего — p_3=0{,}2. Первый изготовил n_1 = 800 деталей, второй — n_2=600 деталей, а третий — n_3=900 деталей. Начальник цеха берёт случайную деталь, и она оказывается бракованной. Спрашивается, с какой вероятностью эту деталь изготовил третий рабочий?

Событие B — брак детали, событие A_i — деталь произвёл рабочий i. Тогда P(A_i)=n_i/N, где N=n_1+n_2+n_3, а P(B|A_i)=p_i. По формуле полной вероятности

P(B)=\sum_{i=1}^3 P(B|A_i)P(A_i).

По формуле Байеса получим:

P(A_3|B)=\frac{P(B|A_3)P(A_3)}{P(B)}=\frac{P(B|A_3)P(A_3)}{P(B|A_1)P(A_1)+P(B|A_2)P(A_2)+P(B|A_3)P(A_3)}==\frac{p_3 n_3/N}{p_1n_1/N+p_2n_2/N+p_3n_3/N}=\frac{0{,}2\cdot900/2300}{0{,}9\cdot800/2300+0{,}5\cdot600/2300+0{,}2\cdot900/2300}=0{,}15.

Пример 2[править | править вики-текст]

Древовидная диаграмма демонстрирует частотный пример. R, C, P и P c черточкой — это события, являющиеся редкими, общими, образцовыми и не образцовыми. Проценты в скобках вычисляются. Отметим, что значения трех независимых событий даны, поэтому возможно вычислить обратное дерево (смотрите на график выше).

Энтомолог предполагает, что жук может относиться к редкому подвиду жуков, так как у него на корпусе есть узор. В редком подвиде 98 % жуков имеют узор или P(Узор|Редкий) = 98 % (P(Pattern|Rare) = 98 %). Среди обычных жуков только 5 % имеют узор. Редкого вида жуков насчитывается лишь 0,1 % среди всей популяции. Какова вероятность того, что жук, имеющий узор, относится к редкому подвиду или P(Редкий|Узор) (P(Rare|Pattern))?

Из расширенной теоремы Байеса получаем (любой жук может относиться либо к редким, либо к обычному виду): \begin{align}P(\text{Rare}|\text{Pattern}) &=
\frac{P(\text{Pattern}|\text{Rare})P(\text{Rare})} {P(\text{Pattern}|\text{Rare})P(\text{Rare}) \, + \, P(\text{Pattern}|\text{Common})P(\text{Common})} \\[8pt]
&= \frac{0.98 \times 0.001} {0.98 \times 0.001 + 0.05 \times 0.999} \\[8pt]
&\approx 1.9\%. \end{align}

Пример 3 — парадокс теоремы Байеса[править | править вики-текст]

При рентгеновском обследовании вероятность обнаружить заболевание туберкулезом у больного туберкулезом равна 0.9, вероятность принять здорового человека за больного равна 0.01. Доля больных туберкулезом по отношению ко всему населению равна 0.001. Найти вероятность того, что человек здоров, если он был признан больным при обследовании.

P («Б»|Б) = 0,9; Р («Б»|З)= 0,01; Р (Б) = 0,001, значит P (З) = 0,999; Р (З|«Б») — ?

Вычислим сначала полную вероятность признания больным: 0.999*0.01 + 0.001*0.9 =1,089 %

Вероятность «здоров» при диагнозе «болен»: Р (З|«Б») = 0.999*0.01 / (0.999*0.01 + 0.001*0.9)= 91,7 %

Таким образом, 91,7 % людей, у которых обследование показало результат «болен», на самом деле здоровые люди. Удивительный результат возникает по причине значительной разницы в долях больных туберкулёзом и здоровых. Туберкулез — редкое явление, поэтому и возникает такой парадокс Байеса. При возникновении такого результата лучше всего сделать повторное рентгеновское обследование.

Варианты интерпретации вероятностей в теореме Байеса[править | править вики-текст]

Математически теорема Байеса показывает взаимоотношения между вероятностью события A и вероятностью события B, P(A) и P(B), условной вероятности наступления события А при существующем B и наступлении события B при существующем A, P(A|B) and P(B|A).

В общей форме формула Байеса выглядит следующим образом:

P(A|B) = {P(B | A)\, P(A)} / {P(B)}

Значение выражения зависит от того, как интерпретируются вероятности в данной формуле.

Интерпретация Байеса[править | править вики-текст]

В интерпретации Байеса вероятность измеряет уровень доверия. Теорема Байеса связывает воедино доверие предположению до и после принятия во внимание очевидных доказательств. Например, кто-то предположил, что при подкидывании монетки она будет приземляться в 2 раза чаще решкой вверх, а орлом вниз. Первоначально степень доверия, что такое событие случится, монета упадет именно так — 50 %. Уровень доверия может увеличиться до 70 %, если предположение будет подтверждено доказательством.

Для предположения (гипотезы) A и доказательства B

  • P(A) — априорная вероятность гипотезы A, первоначальный уровень доверия предположению A;
  • P(A|B) — апостериорная вероятность гипотезы A при наступлении события B;
  • отношение P(B|A)/P(B) показывает, как событие B помогает изменить уровень доверия предположению A.

Частотная интерпретация[править | править вики-текст]

Иллюстрация частотной интерпретации

В частотной интерпретации теорема Байеса фиксирует количество произошедших событий (выходов) и определяет их вероятность. Например, предположим, что эксперимент проводился много раз. P(A) — количество раз, когда произошло событие A (измеряется в долях). P(B) — количество раз, когда произошло событие B (измеряется в долях). P(B|A) — частота (в долях) наступления события «B» без наступления события A. P(A|B) — наступление события A без наступления события B.

Роль теоремы Байеса лучше всего можно понять из древовидной диаграммы, которая представлена справа. Каждая из 2 диаграмм демонстрирует события A и B с положительным и отрицательным результатом, чтобы показать противоположность вероятностей на выходе. Теорема Байеса используется как связующее звено этих отличающихся частей.

Формы[править | править вики-текст]

События[править | править вики-текст]

Простая форма[править | править вики-текст]

Для событий A и B, при условии, что P(B) ≠ 0,

P(A|B) = \frac{P(B | A)\, P(A)}{P(B)}\cdot \,

Во многих дополнениях к теореме Байеса указывается, что событие B известно и нужно понять, как знание о событии B влияет на уверенность в том, что произойдет событие A. В таком случае знаменатель последнего выражения — вероятность наступления события B — известен; мы хотим изменить A. Теорема Байеса показывает, что апостериорные вероятности пропорциональны числителю:

P(A|B) \propto  P(A) \cdot P(B|A) \ (пропорциональность A для данного B).
Если говорить кратко: апостериорная вероятность пропорциональна априорной вероятности (смотри Lee, 2012, Глава 1).

Если события A1, A2, …, взаимоисключающие и исчерпывающие, то есть возможно только одно из событий, одновременно два события не могут случиться вместе, мы можем определить коэффициент пропорциональности, ориентируясь на то, что их вероятности в сумме должны составлять единицу. Например, для данного события A — само событие A и его противоположность ¬A взаимоисключающие и исчерпывающие. Обозначая коэффициент пропорциональности как C мы имеем:

P(A|B) = c \cdot P(A) \cdot P(B|A) \ и P(\neg A|B) = c \cdot P(\neg A) \cdot P(B|\neg A)\cdot

Объединив эти две формулы, мы получим, что:

 c = \frac{1}{P(A) \cdot P(B|A) +  P(\neg A) \cdot P(B|\neg A) } .

Расширенная форма[править | править вики-текст]

Часто пространство событий (таких как {Aj}) определенно в терминах P(Aj) и P(B|Aj). Именно в этом случае полезно определить P(B), применив формулу полной вероятности:

P(B) = {\sum_j P(B|A_j) P(A_j)},
\implies P(A_i|B) = \frac{P(B|A_i)\,P(A_i)}{\sum\limits_j P(B|A_j)\,P(A_j)}\cdot

В частности

P(A|B) = \frac{P(B|A)\,P(A)}{ P(B|A) P(A) + P(B|\neg A) P(\neg A)}\cdot

Случайные величины[править | править вики-текст]

Диаграмма отображает смысл теоремы Байеса и применима к пространства событий, образованного непрерывными случайными величинамиX and Y. Заметим, что по теореме Байеса для каждой точки в области существуют требования. На практике, эти требования могут быть представлены в параметрическом виде, с помощью обозначения плотности распределения как функция от x and y.

Рассмотрим пространство элементарных событий Ω, образованного двумя величинами X и Y. В принципе, теорема Байеса применяется к событиям A = {X = x} и B = {Y = y}. Однако выражения становятся равны 0 в точках, в которых переменая имеет конечную плотность вероятности. Для того, чтобы с пользой продолжать использовать теорему Байеса, можно ее сформулировать в терминах подходящих плотностей (смотрите Вывод формул).

Простая форма[править | править вики-текст]

Если X непрерывна и Y дискретна, то

f_X(x|Y=y) = \frac{P(Y=y|X=x)\,f_X(x)}{P(Y=y)}.

Если X дискретна и Y непрерывна,

 P(X=x|Y=y) = \frac{f_Y(y|X=x)\,P(X=x)}{f_Y(y)}.

Если как X, так и Y непрерывны,

 f_X(x|Y=y) = \frac{f_Y(y|X=x)\,f_X(x)}{f_Y(y)}.

Расширенная форма[править | править вики-текст]

Диаграмма, показывающая, как пространство событий, образованное непрерывными случайными величинами X и Y, часто определяется.

Непрерывное пространство событий часто определяется как числитель условий A. Непрерывное пространство событий часто представляют как числитель. В дальнейшем полезно избавиться от знаменателя, используя формулу общей вероятности. Для 'fY(y), это становится интегралом:

 f_Y(y) = \int_{-\infty}^\infty f_Y(y|X=\xi )\,f_X(\xi)\,d\xi .

Правило Байеса[править | править вики-текст]

Правило Байеса — это преобразованная теорема Байеса:

O(A_1:A_2|B) =  O(A_1:A_2) \cdot \Lambda(A_1:A_2|B)

где

\Lambda(A_1:A_2|B) = \frac{P(B|A_1)}{P(B|A_2)}

Это называется правилом Байеса или отношением правдоподобия. Разница в вероятности наступления двух событий — это просто отношение вероятностей этих двух событий. Таким образом,

O(A_1:A_2) =  \frac{P(A_1)}{P(A_2)},
O(A_1:A_2|B) =  \frac{P(A_1|B)}{P(A_2|B)},

Вывод формул[править | править вики-текст]

Для событий[править | править вики-текст]

Теорема Байеса может быть получена из определения вероятности:

P(A|B)=\frac{P(A \cap B)}{P(B)}, \text{ if } P(B) \neq 0, \!
P(B|A) = \frac{P(A \cap B)}{P(A)}, \text{ if } P(A) \neq 0, \!
\implies P(A \cap B) = P(A|B)\, P(B) = P(B|A)\, P(A), \!
\implies P(A|B) = \frac{P(B|A)\,P(A)}{P(B)}, \text{ if } P(B) \neq 0.

Для случайных переменных[править | править вики-текст]

Для двух непрерывных случайных величин X и Y теорема Байеса может быть аналогично выведена из определения условного распределения:

f_X(x|Y=y) = \frac{f_{X,Y}(x,y)}{f_Y(y)}
f_Y(y|X=x) = \frac{f_{X,Y}(x,y)}{f_X(x)}
\implies f_X(x|Y=y) = \frac{f_Y(y|X=x)\,f_X(x)}{f_Y(y)}.

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

Литература[править | править вики-текст]

Для дальнейшего изучения[править | править вики-текст]

  • McGrayne Sharon Bertsch The Theory That Would Not Die: How Bayes' Rule Cracked the Enigma Code, Hunted Down Russian Submarines & Emerged Triumphant from Two Centuries of Controversy. — Yale University Press, 2011. — ISBN 978-0-300-18822-6.
  • Andrew Gelman, John B. Carlin, Hal S. Stern, and Donald B. Rubin (2003), «Bayesian Data Analysis», Second Edition, CRC Press.
  • Charles M. Grinstead and J. Laurie Snell (1997), «Introduction to Probability (2nd edition)», American Mathematical Society (free pdf available [1].
  • Pierre-Simon Laplace. (1774/1986), «Memoir on the Probability of the Causes of Events», Statistical Science 1(3):364-378.
  • Peter M. Lee (2012), «Bayesian Statistics: An Introduction», Wiley.
  • Rosenthal, Jeffrey S. (2005): «Struck by Lightning: the Curious World of Probabilities». Harper Collings.
  • Stephen M. Stigler (1986), «Laplace’s 1774 Memoir on Inverse Probability», Statistical Science 1(3):359-363.
  • Stone, JV (2013). Chapter 1 of book «Bayes’ Rule: A Tutorial Introduction», University of Sheffield, England.

Полезные ссылки[править | править вики-текст]