Достаточная статистика

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Достаточная статистика для параметра \theta \in \Theta,\;, определяющая некоторое семейство F_\theta распределений вероятности — статистика T = \mathrm{T}(X),\; такая, что условная вероятность выборки X = X_1, X_2, \ldots, X_n\; при данном значении \mathrm{T}(X)\; не зависит от параметра \theta\;. То есть выполняется равенство:

\mathbb{P}(X \in \bar{X}|\mathrm{T}(X)=t,\theta) = \mathbb{P}(X \in \bar{X}|\mathrm{T}(X)=t), \,

Достаточная статистика  \mathrm{T}(X),\; таким образом содержит в себе всю информацию о параметре \theta\;,, которая может быть получена на основе выборки X. Поэтому понятие достаточной статистики широко используется в теории оценки параметров.

Наиболее простой достаточной статистикой является сама выборка \mathrm{T}(X) = X,\;, однако действительно важными являются случаи, когда размерность достаточной статистики значительно меньше размерности выборки, в частности, когда достаточная статистика выражается лишь несколькими числами.

Достаточная статистика S = \mathrm{S}(X)\; называется минимально достаточной, если для каждой достаточной статистики T существует неслучайная измеряемая функция g, что S(X) = g(T(X)) почти всюду.

Теорема факторизации[править | править исходный текст]

Теорема факторизации даёт способ практического нахождения достаточной статистики для распределения вероятности. Она даёт достаточные и необходимые условия достаточности статистики и утверждение теорем иногда используется в качестве определения.

Пусть \mathrm{T}(X)\; — некоторая статистика, а f_\theta(x) — условная функция плотности или функция вероятности (в зависимости от вида распределения) для вектора наблюдений X. Тогда \mathrm{T}(X)\; является достаточной статистикой для параметра \theta \in \Theta,\;, если и только если существуют такие измеримые функции h и g,, что можно записать:

f_\theta(x)=h(x) \, g(\theta,\mathrm{T}(x))\,\!

Доказательство[править | править исходный текст]

Ниже приведено доказательство для частного случая, когда распределение вероятностей является дискретным. Тогда f_\theta(x) = \mathbb{P}(X = x |\theta) — Функция вероятности.

Пусть данная функция имеет факторизацию, как в формулировке теоремы, и \mathrm{T}(x) = t.

Тогда имеем:

\begin{align} \mathbb{P}(X = x |\mathrm{T}(X)=t,\theta) & = \frac{\mathbb{P}(X = x |\theta)}{\mathbb{P}(\mathrm{T}(X)=t |\theta)} & = \frac{h(x) \, g(\theta,\mathrm{T}(x))}{\sum _{x : \mathrm{T}(x) = t} h(x) \, g(\theta,\mathrm{T}(x))} \\ & = \frac{h(x) \, g(\theta,t)}{\sum _{x : \mathrm{T}(x) = t} h(x) \, g(\theta,t)} & = \frac{h(x) \,}{\sum _{x : \mathrm{T}(x) = t} h(x) \,}. \end{align}

Отсюда видим, что условная вероятность вектора X при заданном значении статистики \mathrm{T}(X)\; не зависит от параметра и соответственно \mathrm{T}(X)\; — достаточная статистика.

Наоборот можем записать:

\mathbb{P}(X = x|\theta) = \mathbb{P}(X = x|\mathrm{T}(X)=t,\theta) \cdot \mathbb{P}(\mathrm{T}(X)=t | \theta). \,

Из приведённого выше имеем, что первый множитель правой части не зависит от параметра  \theta\; и его можно взять за функцию h(x) из формулировки теоремы. Другой множитель является функцией от  \theta\; и \mathrm{T}(X),\; и его можно взять за функцию g(\theta,\mathrm{T}(x)). Таким образом, получена необходимая декомпозиция, что завершает доказательство теоремы.

Примеры[править | править исходный текст]

Распределение Бернулли[править | править исходный текст]

Пусть X_1, X_2, \ldots, X_n\; — последовательность случайных величин, что равны 1 с вероятностью p и равны 0 с вероятностью 1 — p (то есть, имеют распределение Бернулли). Тогда

\mathbb{P}(x_1, \ldots x_n | p) =  p^{\sum x_i}(1-p)^{n-\sum x_i}=p^{\mathrm{T}(x)}(1-p)^{n-\mathrm{T}(x)} \,\!

если взять \mathrm{T}(X) = X_1 + \ldots + X_n.\,\!

Тогда данная статистика является достаточной согласно теореме факторизации, если обозначить

g(p,\mathrm{T}(x_1, \ldots x_n)) = p^{\mathrm{T}(x_1, \ldots x_n)}(1-p)^{n-\mathrm{T}(x_1, \ldots x_n)}\,
h(x_1, \ldots x_n) = 1

Распределение Пуассона[править | править исходный текст]

Пусть X_1, X_2, \ldots, X_n\; — последовательность случайных величин с распределением Пуассона. Тогда

\mathbb{P}(x_1, \ldots x_n |\lambda) =  {e^{-\lambda} \lambda^{x_1} \over x_1 !} \cdot {e^{-\lambda} \lambda^{x_2} \over x_2 !} \cdots {e^{-\lambda} \lambda^{x_n} \over x_n !} =     e^{-n\lambda} \lambda^{(x_1+x_2+\cdots+x_n)} \cdot {1 \over x_1 ! x_2 !\cdots x_n ! } = e^{-n\lambda} \lambda^{\mathrm{T}(x)} \cdot {1 \over x_1 ! x_2 !\cdots x_n ! }


где \mathrm{T}(X) = X_1 + \ldots + X_n.\,\!

Данная статистика является достаточной согласно теореме факторизации, если обозначить

g(p,\mathrm{T}(x_1, \ldots x_n)) = e^{-n\lambda} \lambda^{\mathrm{T}(x)}\,
h(x_1, \ldots x_n) = {1 \over x_1 ! x_2 !\cdots x_n ! }

Равномерное распределение[править | править исходный текст]

Пусть X_1, X_2, \ldots, X_n\; — последовательность равномерно распределённых случайных величин X_1, X_2, \ldots, X_n\; ~ U (a, b) . Для этого случая

 \mathbb{P}(x_1, \ldots x_n |\lambda) = \left(b - a \right)^{-n} \mathbf{1}_{ \{ a \, \leq \, \min_{1 \leq i \leq n}X_i \} } \mathbf{1}_{ \{ \max_{1 \leq i \leq n}X_i \, \leq \, b \} }.

Отсюда следует, что статистика T(X) = \left(\min_{1 \leq i \leq n}X_i,\max_{1 \leq i \leq n}X_i\right)\, является достаточной.

Нормальное распределение[править | править исходный текст]

Для случайных величин X_1, X_2, \ldots, X_n\; с нормальным распределением \mathcal{N}(\mu,\,\sigma^2) достаточной статистикой будет \mathrm{T}(X) = \left(\sum_{i=1}^nX_i, \sum_{i=1}^nX_i^2\right)\,.

Свойства[править | править исходный текст]

  • Для достаточной статистики T и биективного отображения \phi статистика \phi(T) тоже является достаточной.
  • Если \delta(X) — статистическая оценка некоторого параметра \theta,  \mathrm{T}(X),\; — некоторая достаточная статистика и  \delta_{1}(X) = \textrm{E}[\delta(X)|T(X)] то \delta_{1}(X) является лучшей оценкой параметра в смысле среднеквадратичного отклонения, то есть выполняется неравенство
\textrm{E}[(\delta_{1}(X)-\vartheta)^{2}]\leq\textrm{E}[(\delta(X)-\vartheta)^{2}]
причём равенство достигается лишь когда \delta является измеряемой функцией от T. (Теорема Рао — Блэквелла — Колмогорова)
  • Из предыдущего получается, что оценка может быть оптимальной в смысле среднеквадратичного отклонения лишь когда она является измеряемой функцией минимальной достаточной статистики.
  • Если статистика T = \mathrm{T}(X),\; является достаточной и полной (то есть, из того, что E_{\theta}[g(T(X))] = 0, \, \forall \theta \in \Theta следует, что P_\theta ( g(T(X)) = 0 ) = 1 \, \forall \theta \in \Theta
), то произвольная измеряемая функция от неё является оптимальной оценкой своего математического ожидания.

См. также[править | править исходный текст]

Литература[править | править исходный текст]