Критерий согласия Пирсона

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Критерий согласия Пирсона[1] , или критерий согласия  \chi^2 (Хи-квадрат) — наиболее часто употребляемый критерий для проверки гипотезы о принадлежности наблюдаемой выборки  x_1, x_2, ... , x_n объёмом  n некоторому теоретическому закону распределения  F(x,\theta) .

Критерий может использоваться при проверке простых гипотез вида

 H_0: F_n(x)=F(x,\theta) ,

где  \theta известный вектор параметров теоретического закона, и при проверке сложных гипотез вида

 H_0 : F_n(x) \in \left\{ F(x,\theta) ,  \theta \in \Theta \right\} ,

когда оценка  \hat \theta скалярного или векторного параметра распределения  F(x,\theta) вычисляется по той же самой выборке.

Статистика критерия[править | править исходный текст]

Процедура проверки гипотез с использованием критериев типа  \chi^2 предусматривает группирование наблюдений. Область определения случайной величины разбивают на  k непересекающихся интервалов граничными точками

 x_{(0)}, x_{(1)}, ... , x_{(k-1)}, x_{(k)}  ,

где  x_{(0)} – нижняя грань области определения случайной величины;  x_{(k)} – верхняя грань.

В соответствии с заданным разбиением подсчитывают число  n_i  выборочных значений, попавших в  i  -й интервал, и вероятности попадания в интервал

 P_i (\theta )= F(x_{(i)},\theta)- F(x_{(i-1)},\theta)    ,

соответствующие теоретическому закону с функцией распределения  F(x,\theta) .

При этом

 n=\sum_{i=1} ^k  n_i  и  \sum_{i=1} ^k  P_i (\theta )=1 .

При проверке простой гипотезы известны как вид закона  F(x,\theta) , так и все его параметры (известен скалярный или векторный параметр  \theta ).

В основе статистик, используемых в критериях согласия типа  \chi^2 , лежит измерение отклонений  n_i/n  от   P_i (\theta ) .

Статистика критерия согласия  \chi^2 Пирсона определяется соотношением

 X_{n}^{2} = n\sum_{i=1}^{k}  \frac {\left( n_i/n - P_i(\theta) \right)^2} {P_i(\theta)} .

В случае проверки простой гипотезы в пределе при  n \to \infty эта статистика подчиняется  \chi_r^2 -распределению с  r=k-1 степенями свободы, если верна проверяемая гипотеза  H_0 . Плотность  \chi_r^2 -распределения, которое является частным случаем гамма-распределения, описывается формулой

 g(s) = \frac {1} {2^{r/2} \Gamma(r/2)} s^{r/2-1} e^{-s/2} .

Проверяемая гипотеза  H_0 отклоняется при больших значениях статистики, когда вычисленное по выборке значение статистики  X_n^{2*} больше критического значения  \chi_{r,\alpha}^2 , или достигнутый уровень значимости (p-value)

 P \left( X_n^2 > X_n^{2*} \right) = \frac {1} {2^{r/2} \Gamma(r/2)}  \int_{X_n^{2*}}^\infty s^{r/2-1} e^{-s/2} ds

меньше заданного уровня значимости (заданной вероятности ошибки 1-го рода)  \alpha .

Проверка сложных гипотез[править | править исходный текст]

При проверке сложных гипотез, если параметры закона  F(x,\theta) по этой же выборке оцениваются в результате минимизации статистики  X_n^2 или по сгруппированной выборке методом максимального правдоподобия, то статистика  X_n^2 при справедливости проверяемой гипотезы подчиняется  \chi_r^2 -распределению с  r=k-m-1 степенями свободы, где  m  количество оцененных по выборке параметров.

Если параметры оцениваются по исходной негруппированной выборке, то распределение статистики не будет являться  \chi_{r-m-1}^{2} -распределением [2]. Более того, распределения статистики при справедливости гипотезы  H_0 будут зависеть от способа группирования, то есть от того, как область определения разбивается на интервалы [3]

При оценивании методом максимального правдоподобия параметров по негруппированной выборке можно воспользоваться модифицированными критериями типа  \chi^2 [4], [5], [6], [7],

О мощности критерия[править | править исходный текст]

При использовании критериев согласия, как правило, не задают конкурирующих гипотез: рассматривается принадлежность выборки конкретному закону. А в качестве конкурирующей гипотезы – принадлежность любому другому. Естественно, что способность критерия отличать закон, соответствующий  H_0 , от других, близких к закону, соответствующему  H_0 , и далёких от него, отличаются. Если задать конкурирующую гипотезу  H_1 и соответствующий ей некоторый конкурирующий закон  F_1(x,\theta) , то можно рассуждать уже об ошибках двух видов: не только об ошибке 1-го рода (отклонении проверяемой гипотезы  H_0 при её справедливости) и вероятности этой ошибки  \alpha  ), но и об ошибке 2-го рода (неотклонении  H_0 при справедливости  H_1 ) и вероятности этой ошибки  \beta  ). Мощность критерия по отношению к конкурирующей гипотезе  H_1 характеризуется величиной  1-\beta  . Критерий тем лучше распознаёт пару конкурирующих гипотез  H_0 и  H_1 , чем выше его мощность.

Мощность критерия согласия  \chi^2 Пирсона существенно зависит от способа группирования [8], [9] и от выбранного числа интервалов [9], [10].

При асимптотически оптимальном группировании, при котором максимизируются различные функционалы от информационной матрицы Фишера по группированным данным (минимизируются потери, связанные с группированием) критерий согласия  \chi^2 Пирсона обладает максимальной мощностью относительно «(очень) близких» конкурирующих гипотез [11], [9], [10].

При проверке простых гипотез и использовании асимптотически оптимального группирования критерий согласия  \chi^2 Пирсона имеет преимущество в мощности по сравнению с непараметрическими критериями согласия. При проверке сложных гипотез мощность непараметрических критериев возрастает и такого преимущества нет [12], [13]. Однако для любой пары конкурирующих гипотез (конкурирующих законов) за счет выбора числа интервалов и способа разбиения области определения случайной величины на интервалы можно максимизировать мощность критерия [14].

Примечания[править | править исходный текст]

  1. [http://www.economics.soton.ac.uk/staff/aldrich/1900.pdf ‘’Pearson, Karl’’ (1900). On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. Philosophical Magazine Series 5 50 (302): 157–175.
  2. Chernoff H., Lehmann E. L. The use of maximum likelihood estimates in χ2 test for goodness of fit. // The Annals of Mathematical Statistics. – 1954. – Vol. 25. – P. 579–586.
  3. Лемешко Б.Ю., Постовалов С.Н. О зависимости предельных распределений статистик X^2 Пирсона и отношения правдоподобия от способа группирования данных // Заводская лаборатория. 1998. Т. 64. - № 5. - С. 56-63.
  4. Никулин М. С. Критерий хи-квадрат для непрерывных распределений с параметрами сдвига и масштаба // Теория вероятностей и ее применение. – 1973. – Т. XVIII, № 3. – С. 583–591.
  5. Никулин М. С. О критерии хи-квадрат для непрерывных распределе¬ний // Теория вероятностей и ее применение. – 1973. – Т. XVIII. – № 3. – С. 675–676.
  6. Rao K. C., Robson D. S. A chi-squared statistic for goodness-of-fit tests within the exponential family // Commun. Statist. – 1974. – Vol. 3. – P. 1139–1153.
  7. Greenwood P. E., Nikulin M. S. A guide to chi-squared testing. – New York : John Wiley & Sons, 1996. – 280 p.
  8. Лемешко Б.Ю. Асимптотически оптимальное группирование наблюдений в критериях согласия // Заводская лаборатория, 1998. Т. 64. №1. - С.56-64
  9. 1 2 3 Р 50.1.033–2001. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа хи-квадрат. – М.: Изд-во стандартов. 2002. – 87 с.
  10. 1 2 Лемешко Б.Ю., Чимитова Е.В. О выборе числа интервалов в критериях согласия типа X^2 // Заводская лаборатория. Диагностика материалов. 2003. Т. 69. – № 1. – С. 61-67.
  11. Денисов В.И., Лемешко Б.Ю. Оптимальное группирование при обработке экспериментальных данных // Измерительные информационные системы. - Новосибирск, 1979. - С. 5-14.
  12. Лемешко Б.Ю., Лемешко С.Б., Постовалов С.Н. Сравнительный анализ мощности критериев согласия при близких конкурирующих гипотезах. I. Проверка простых гипотез // Сибирский журнал индустриальной математики. 2008. - Т.11. - № 2(34). - С.96-111.
  13. Лемешко Б.Ю., Лемешко С.Б., Постовалов С.Н. Сравнительный анализ мощности критериев согласия при близких альтернативах. II. Проверка сложных гипотез // Сибирский журнал индустриальной математики. 2008. - Т.11. - № 4(36). - С.78-93.
  14. Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход : монография / Б.Ю. Лемешко, С.Б. Лемешко, С.Н. Постовалов, Е.В. Чимитова. – Новосибирск : Изд-во НГТУ, 2011. – 888 с. (раздел 4.9)

Литература[править | править исходный текст]

  1. Кендалл М., Стьюарт А. Статистические выводы и связи. — М.: Наука, 1973.

См. также[править | править исходный текст]

Ссылки[править | править исходный текст]