Априорная вероятность Джеффри

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

В байесовской статистике априорная вероятность Джеффри, по имени Гарольда Джеффри — неинформативная (объективная) априорная вероятность в пространстве параметра, пропорциональная квадратному корню из детерминанта информации Фишера:

p\left(\vec\theta\right) \propto \sqrt{\det \mathcal{I}\left(\vec\theta\right)}.\,

Её ключевая особенность — инвариантность относительно параметризации вектора параметра \vec\theta.

Репараметризация[править | править вики-текст]

Для альтернативной параметризации \vec\varphi можно вывести

p(\vec\varphi) \propto \sqrt{\det I(\vec\varphi)}\,

из

p(\vec\theta) \propto \sqrt{\det I(\vec\theta)}\,

использую теорему о смене переменных, определение информации Фишера, и то, что произведение детерминантов есть детерминант произведения матриц:


\begin{align}
p(\vec\varphi) & = p(\vec\theta) \left|\det\frac{\partial\theta_i}{\partial\varphi_j}\right| \\
& \propto \sqrt{\det I(\vec\theta)\, {\det}^2\frac{\partial\theta_i}{\partial\varphi_j}} \\
& = \sqrt{\det \frac{\partial\theta_k}{\partial\varphi_i}\, \det \operatorname{E}\!\left[\frac{\partial \ln L}{\partial\theta_k} \frac{\partial \ln L}{\partial\theta_l} \right]\, \det \frac{\partial\theta_l}{\partial\varphi_j}} \\
& = \sqrt{\det \operatorname{E}\!\left[\sum_{k,l} \frac{\partial\theta_k}{\partial\varphi_i} \frac{\partial \ln L}{\partial\theta_k} \frac{\partial \ln L}{\partial\theta_l} \frac{\partial\theta_l}{\partial\varphi_j} \right]} \\
& = \sqrt{\det \operatorname{E}\!\left[\frac{\partial \ln L}{\partial\varphi_i} \frac{\partial \ln L}{\partial\varphi_j}\right]}
= \sqrt{\det I(\vec\varphi)}.
\end{align}

В более простом случае одного параметра можно вывести:


\begin{align}
p(\varphi) & = p(\theta) \left|\frac{d\theta}{d\varphi}\right|
\propto \sqrt{\operatorname{E}\!\left[\left(\frac{d \ln L}{d\theta}\right)^2\right] \left(\frac{d\theta}{d\varphi}\right)^2} \\
& = \sqrt{\operatorname{E}\!\left[\left(\frac{d \ln L}{d\theta} \frac{d\theta}{d\varphi}\right)^2\right]}
= \sqrt{\operatorname{E}\!\left[\left(\frac{d \ln L}{d\varphi}\right)^2\right]}
= \sqrt{I(\varphi)}.
\end{align}

Свойства[править | править вики-текст]

С практической и математической точки зрения, веской причиной использовать именно неинформативные априорные вероятности является то, что они не завися от набора параметров, в котором выбрано описывать параметрическое пространство.

Иногда априорные вероятности Джеффри не могут быть нормализованы — этот случай называют improper prior. Например, для гауссовского распределения с известной дисперсией априорное распределение вероятностей Джеффри для среднего является равномерным по всей действительной оси.

Использование априорных вероятностей Джеффри нарушает сильную формулировку принципа максимального правдоподобия, которая принимается многими, но не всеми, статистиками. Используя априорную вероятность Джеффри, вывод о \vec\theta зависит не только от вероятностей наблюдаемых данных как функции от \vec\theta, но также и от универсума всех возможных исходов эксперимента, определенных дизайном эксперимента, т.к. информация Фишера вычисляется для ожиданий в выбранной универсуме. Соответственно, априорные вероятности Джеффри, а, следовательно, и использующие их выводы могут быть разными для двух экспериментов, использующих один и тот же параметр \vec\theta, и даже одну и ту же функцию правдоподобия — а это нарушение сильной формулировки принципа максимального правдоподобия.

Примеры[править | править вики-текст]

Априорная вероятность Джеффри определяется задачей. Она вычислима для заданного семейства распределений с неизвестным параметром. И наоборот, для заданного распределения можно спросить: для какой задачи с неизвестным параметром распределение будет априорным Джеффри. Например, логарифмическое априорное распределение на положительной действительной полуоси — это априорное распределение Джеффри для гауссовского распределения со стандартным отклонением как параметром, но не для распределения Пуассона в стандартной параметризации, хотя пространство параметра одинаковое.

Распределение Гаусса со средним как параметром[править | править вики-текст]

Для распределения Гаусса действительной переменной x:

f(x|\mu) = \frac{e^{-(x - \mu)^2 / 2\sigma^2}}{\sqrt{2 \pi \sigma^2}}

априорное распределение вероятностей Джеффри для среднего \mu:

\begin{align} p(\mu) & \propto \sqrt{I(\mu)}
= \sqrt{\operatorname{E}\!\left[ \left( \frac{d}{d\mu} \log f(x|\mu) \right)^2\right]}
= \sqrt{\operatorname{E}\!\left[ \left( \frac{x - \mu}{\sigma^2} \right)^2 \right]} \\
& = \sqrt{\int_{-\infty}^{+\infty} f(x|\mu) \left(\frac{x-\mu}{\sigma^2}\right)^2 dx}
= \sqrt{\frac{\sigma^2}{\sigma^4}}
\propto 1.\end{align}

То есть, априорное распределение Джеффри для \mu является ненормализуемым равномерным распределением на действительной оси — оно равно 1 (или любой другой фиксированной константе) для всех точек. Это случай improper prior, и, с точностью до выбора константы, уникальное инвариантное к сдвигу распределение на действительных числах, соответствующее единственно известной информации: параметр \mu — мера положения и трансляционная инвариантность ввиду отсутствия информации о положении.

Распределение Гаусса со стандартным отклонением как параметром[править | править вики-текст]

Для распределения Гаусса действительной переменной x:

f(x|\sigma) = \frac{e^{-(x - \mu)^2 / 2 \sigma^2}}{\sqrt{2 \pi \sigma^2}},

априорное распределение вероятностей Джеффри для стандартного отклонения σ:

\begin{align}p(\sigma) & \propto \sqrt{I(\sigma)}
= \sqrt{\operatorname{E}\!\left[ \left( \frac{d}{d\sigma} \log f(x|\sigma) \right)^2\right]}
= \sqrt{\operatorname{E}\!\left[ \left( \frac{(x - \mu)^2-\sigma^2}{\sigma^3} \right)^2 \right]} \\
& = \sqrt{\int_{-\infty}^{+\infty} f(x|\mu)\left(\frac{(x-\mu)^2-\sigma^2}{\sigma^3}\right)^2 dx}
= \sqrt{\frac{2}{\sigma^2}}
\propto \frac{1}{|\sigma|}.
\end{align}

Соответственно, априорное распределение вероятностей Джеффри для log σ² (или log |σ|) является ненормализуемым равномерным распределением на действительной оси, и известно как логарифмическое априорное распределение. Оно определено (с точностью до множителя) на положительных действительных числах, масштабно-инвариантно, так что стандартное отклонение является единственной мерой масштаба. В силу равномерности является improper prior.

Распределение Пуассона в стандартной параметризации[править | править вики-текст]

Для распределения Пуассона неотрицательного целого n:

f(n | \lambda) = e^{-\lambda}\frac{\lambda^n}{n!},

априорное распределение вероятностей параметра \lambda:

\begin{align}p(\lambda) &\propto \sqrt{I(\lambda)}
= \sqrt{\operatorname{E}\!\left[ \left( \frac{d}{d\lambda} \log f(x|\lambda) \right)^2\right]}
= \sqrt{\operatorname{E}\!\left[ \left( \frac{n-\lambda}{\lambda} \right)^2\right]} \\
& = \sqrt{\sum_{n=0}^{+\infty} f(n|\lambda) \left( \frac{n-\lambda}{\lambda} \right)^2}
= \sqrt{\frac{1}{\lambda}}.\end{align}

Соответственно, априорное распределение вероятностей Джеффри для \sqrt{\lambda} является ненормализируемым равномерным распределение на не-отрицательной действительной оси, и соответственно — improper prior.

Испытание по схеме Бернулли[править | править вики-текст]

Для монеты с вероятностью выпадения "орла" \gamma и вероятностью "решки" 1 - \gamma, для заданного (H,T) ∈ {(0,1), (1,0)} имеем вероятность \gamma^H (1-\gamma)^T. Априорное распределение вероятностей Джеффри для параметра \gamma:

\begin{align}p(\gamma) & \propto \sqrt{I(\gamma)}
= \sqrt{\operatorname{E}\!\left[ \left( \frac{d}{d\gamma} \log f(x|\gamma) \right)^2\right]}
= \sqrt{\operatorname{E}\!\left[ \left( \frac{H}{\gamma} - \frac{T}{1-\gamma}\right)^2 \right]} \\
& = \sqrt{\gamma \left( \frac{1}{\gamma} - \frac{0}{1-\gamma}\right)^2 + (1-\gamma)\left( \frac{0}{\gamma} - \frac{1}{1-\gamma}\right)^2}
= \frac{1}{\sqrt{\gamma(1-\gamma)}}\,.\end{align}

Это распределение арксинуса и Бета-распределение с α = β = ½. Более того, если \gamma = \sin^2(\theta) априорное распределение Джеффри для \theta будет равномерным на интервале [0, \frac{\pi}2]. Соответственно, \theta также равномерно на всей окружности [0, 2 \pi].

N-гранный кубик со смещенными вероятностями[править | править вики-текст]

Аналогично, для броска N-гранного кубика с вероятностями выпадения граней \vec{\gamma} = (\gamma_1, \ldots, \gamma_N) удовлетворяющих \sum_{i=1}^N \gamma_i = 1, априорное распределение Джеффри для \vec{\gamma}распределение Дирихле со всеми параметрами α равными ½. В частности, если \gamma_i = {\phi_i}^2 для каждого i, то априорное распределение Джеффри для \vec{\phi} является равномерным на (N–1)-мерной единичной сфере (то есть, оно равномерно на поверхности N-мерного единичной мячика).

Ссылки[править | править вики-текст]

  • Jeffreys H. Theory of Probability. — Oxford University Press, 1939.