Байесовская статистика

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
Байесовская статистика
Bayes icon.svg
Теория
Техники
Портал:Статистика

Байесовская статистика — это теория в области статистики, основанная на байесовской интерпретации вероятности, когда вероятность отражает степень доверия событию, которая может измениться, когда новая информация будет собрана, в отличие от фиксированного значения, основанного на частотном подходе[1]. Степень доверия может основываться на априорных знаниях о событии, таких как результаты предыдущих экспериментов или личное доверие событию. Это отличается от ряда других интерпретаций вероятности[en], таких как частотная интерпретация, которая рассматривает вероятность как предел относительной частоты выпадения события после большого числа испытаний[2].

Введение[править | править код]

Байесовские статистические методы используют теорему Байеса для вычисления и обновления вероятностей после получения новых данных. Теорема Байеса описывает условную вероятность события на основе как данных, так и априорной информации или доверия событию или условий, связанных с событием. Например, в байесовском выводе теорему Байеса можно использовать для оценки параметра распределения вероятностей или статистической модели. Поскольку байесовская статистика трактует вероятность как степень доверия, теорема Байеса может прямо назначить распределение вероятности, которое даёт количественную оценку параметру или набору параметров[2].

Байесовская статистика названа именем Томаса Байеса, который сформулировал специальный случай теоремы Байеса в своей работе[en], опубликованной в 1763. В некоторых статьях, выпущенных от конца 1700-х годов до начала 1800-х, Пьер-Симон Лаплас развил байесовскую интерпретацию вероятности. Лаплас использовал методы, которые сейчас считаются байесовскими методами, для решения ряда статистических задач. Многие байесовские методы были разработаны более поздними авторами, но термин не использовался для описания таких методов до 1950-х годов. Большую часть 20-го века байесовские методы были нежелательными для большей части статистиков вследствие философских и практических соображений. Многие байесовские методы требуют больших вычислений и большинство методов, которые использовались в течение века, основывались на частотной интерпретации. Однако, с появлением мощных компьютеров и новых алгоритмов, таких как метод Монте-Карло для цепей Маркова[en]*, байесовские методы начинают с приходом 21-го века использоваться с возрастающей интенсивностью[2][3].

Теорема Байеса[править | править код]

Основная статья: Теорема Байеса

Теорема Байеса является фундаментальной теоремой в байесовской статистике, так как она используется байесовскими методами для обновления вероятностей, которые являются степенью доверия, после получения новых данных. Если даны два события и , условная вероятность , при условии, что верно, выражается формулой[4]:

где . Хотя теорема Байеса является фундаментальным результатом теории вероятностей, она имеет конкретную интерпретацию в байесовской статистике. В равенстве выше обычно представляет утверждение (такое, как утверждение, что монета ляжет вверх орлом в пятидесяти процентов случаев), а представляет обоснование, или новые данные, которые следует учитывать (такие как результат серии бросаний монеты). является априорной вероятностью события , которая выражает уверенность в событии до того, как обоснование принимается во внимание. Априорная вероятность может также дать количественную оценку знанию или информации о событии . является функцией правдоподобия, которую можно интерпретировать как вероятность свидетельства , при условии, что произошло событие . Правдоподобие даёт количественное значение степени, насколько свидетельство поддерживают утверждение . является апостериорной вероятностью, вероятностью утверждения после принятия во внимание свидетельства . По существу, теорема Байеса обновляет априорную уверенность после рассмотрения нового свидетельства [2].

Вероятность свидетельства можно вычислить с помощью формулы полной вероятности. Если является разбиением пространства элементарных событий, которое является набором всех исходов[en] эксперимента, то[2][4]

Если имеется бесконечное число исходов, необходимо интегрировать по всем исходам для вычисления с помощью формулы полной вероятности. Часто вычислить трудно, так как приходится вовлекать суммирование или интегрирование, которые занимают много времени, так что часто рассматривается только произведение априорной вероятности и правдоподобия. Апостериорная вероятность пропорциональна этому произведению [2]:

Максимум апостериорной оценки, которая является модой апостериорной оценки и часто вычисляется в байесовской статистике с помощью методов математической оптимизации, остаётся той же. Апостериорная вероятность может быть аппроксимирована даже без точного вычисления значения методами, такими, как метод Монте-Карло для цепей Маркова или вариационные байесовские методы[en] [2].

Байесовские методы[править | править код]

Общий набор статистических техник можно разделить на ряд направлений, многие из которых имеют специальные байесовские версии.

Байесовский вывод[править | править код]

Основная статья: Байесовский вывод

Байесовский вывод относится к статистическим выводам, в которых неопределённость в выводе выражается количественно с помощью вероятности. В классическом частотном выводе[en] параметры модели и гипотезы считаются фиксированными, а вероятности не назначаются параметрам или гипотезам в частотном выводе. Например, не имеет смысла в частотном выводе прямо указывать вероятность события, которое может случиться лишь один раз, такие как результат следующего броска симметричной монеты. Однако, будет иметь смысл утверждение, что доля выпадений орла сходится к одной второй при росте числа бросаний монеты[5].

Статистические модели определяют набор статистических допущений и процессов, которые представляют, как данные выборок формируются. Статистические модели имеют набор параметров, которые могут быть изменены. Например, монета может быть представлена как испытания с распределением Бернулли, которые моделируют два возможных исхода. Распределение Бернулли имеет один параметр, равный вероятности одного исхода, которая в большинстве случаев равна вероятности выпадения орла[6]. Создание хорошей модели для данных является центральным в байесовском выводе. В большинстве случаев модели лишь аппроксимируют действительные процессы и могут не принимать во внимание некоторые факторов, оказывающих влияние на данные[2]. В байесовском выводе вероятности могут быть назначены параметрам модели. Параметры могут быть представлены как случайные величины. Байесовский вывод использует теорему Байеса для обновления вероятностей после получения дополнительных данных[2][7].

Статистическое моделирование[править | править код]

Формулировка статистического моделирования с помощью байесовской статистики имеет отличительную особенность, заключающуюся в требовании указания априорных вероятностей для любых неизвестных параметров. Более того, параметры априорных вероятностей могут сами иметь априорные вероятности, что приводит к байесовскому иерархическому моделированию[8], или могут быть взаимозависимыми, что приводит к байесовским сетям.

Планирование экспериментов[править | править код]

Байесовский дизайн экспериментов[en] включает концепцию, называемую «влияние априорной уверенности». Этот подход использует техники статистического анализа для включения исходов предыдущих экспериментов в планирование следующего эксперимента. Это достигается путём обновления «доверия» через использование априорного и апостериорного распределений. Это позволяет при планировании экспериментов использовать ресурсы всех видов. Примером служит задача о многоруком бандите[en].

Статистические графики[править | править код]

Статистические графики[en] включает методы для исследования данных, обоснования адекватности модели и т.д. Использование некоторых современных компьютерных техник для байесовского вывода, особенно различных видов техник Монте-Карло для цепей Маркова[en]*, привели к необходимости проверки, часто в графическом виде, адекватности таких вычислений, отражающей требуемую апостериорную вероятность.

Примечания[править | править код]

  1. What are Bayesian Statistics?. deepai.org.
  2. 1 2 3 4 5 6 7 8 9 Gelman, Carlin, Stern и др., 2013.
  3. Fienberg, 2006, с. 1–40.
  4. 1 2 Grinstead, Snell, 2006.
  5. Wakefield, 2013.
  6. Имеется ввиду сторона монеты, другая сторона — решка
  7. Congdon, 2014.
  8. Hajiramezanali, Dadaneh и др., 2018.

Литература[править | править код]

Литература для дальнейшего чтения[править | править код]

Ссылки[править | править код]