Критерий знаков

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

В математической статистике критерий знаков используется при проверке нулевой гипотезы о равенстве медиан двух непрерывно распределенных случайных величин. Критерий применяется к паре связных выборок. Это непараметрический критерий, то есть он не использует никаких данных о характере распределения, и может применяться в широком спектре ситуаций, однако при этом он может иметь меньшую мощность, чем более специализированные критерии.

Описание метода[править | править исходный текст]

Рассмотрим две непрерывно распределенные случайные величины X и Y, и пусть нулевая гипотеза выполняется, то есть их медианы равны. Тогда p=\mathbb P(X>Y)=0.5. Иными словами, каждая из случайных величин равновероятно больше другой.

Рассмотрим пару связных выборок \{(x_1,y_1),\ldots,(x_n,y_n)\}. Будем считать, что в выборке нет элементов, для которых x_i=y_i (иначе уберем эти элементы из выборки). Построим статистику w, равную числу элементов в выборке, при которых x_i>y_i. При выполнении нулевой гипотезы, эта величина имеет биномиальное распределение: w\sim B(n,0.5).

Для применения критерия необходимо вычислить «левый хвост» биномиального распределения до w: b=2^{-n}\sum_{i=0}^w C_n^i. Согласно критерию, при уровне значимости \alpha:

  • против двусторонней альтернативной гипотезы p\ne 0.5
если b \not\in \left[ \alpha/2,\, 1-\alpha/2 \right] , то нулевая гипотеза отвергается;
  • против альтернативы p < 0.5
если b < \alpha , то нулевая гипотеза отвергается;
  • против альтернативы p > 0.5
если  b > 1-\alpha , то нулевая гипотеза отвергается;

Пример задачи[править | править исходный текст]

Первая выборка — это значения некоторой характеристики состояния пациентов, записанные до лечения. Вторая выборка — это значения той же характеристики состояния тех же пациентов, записанные после лечения.

Порядок элементов (в данном случае пациентов) в выборках и объёмы выборок обязаны совпадать. Такие выборки и называются связными.

Требуется выяснить, является ли лечение эффективным, то есть имеется ли значимое отличие в состоянии пациентов до и после лечения, или различия чисто случайны.

Заданы две выборки одинаковой длины x^n = (x_1,\ldots,x_n),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}.

Дополнительные предположения:

  • обе выборки простые;
  • выборки связные, то есть элементы x_i,\,y_i соответствуют одному и тому же объекту, но измерения сделаны в разные моменты (например, до и после обработки).

Нулевая гипотеза H_0:\; \mathbb{P} \{ x>y \} = 1/2.

Если в выборке имеются случаи  x_i = y_i , то их следует исключить из выборки, уменьшив число наблюдений. Статистика критерия — это число w элементов в выборке, при которых x_i>y_i.

Ссылки[править | править исходный текст]