Гипергеометрическое распределение

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
Гипергеометрическое распределение
Функция вероятности
Функция вероятности для n=20; M=20, N=30 (голубой), M=50, N=60 (зелёный) и M=20, N=60 (красный)
Функция распределения
Обозначение \mathrm{HG}(D,N,n)\,
Параметры N\in 0,1,2,3...\,
D\in 0,1,...,N\,
n\in 0,1,...,N\,
Носитель k \in 0,1,...,n\,
Функция вероятности {{{D \choose k} {{N-D} \choose {n-k}}}\over {N \choose n}}
Функция распределения
Математическое ожидание nD\over N
Медиана
Мода \left\lfloor\frac{(D+1)(n+1)}{N+2}\right\rfloor
Дисперсия n(D/N)(1-D/N)(N-n)\over (N-1)
Коэффициент асимметрии \frac{(N-2D)(N-1)^\frac{1}{2}(N-2n)}{[nD(N-D)(N-n)]^\frac{1}{2}(N-2)}
Коэффициент эксцесса  \left[\frac{N^2(N-1)}{n(N-2)(N-3)(N-n)}\right]\times
\times \left[\frac{N(N+1)-6N(N-n)}{D(N-D)}+
\frac{3n(N-n)(N+6)}{N^2}-6\right]
Информационная энтропия
Производящая функция моментов \frac{{N-D \choose n}}{{N \choose n}}\,_2F_1(-n,-D;N-D-n+1;e^{t})
Характеристическая функция \frac{{N-D \choose n}}{{N \choose n}}\,_2F_1(-n,-D;N-D-n+1;e^{it})


Гипергеометри́ческое распределе́ние в теории вероятностей моделирует количество удачных выборок без возвращения из конечной совокупности.

Пример[править | править исходный текст]

вытянутые не вытянутые всего
с дефектом k D − k D
без дефекта n − k N + k − n − D N − D
всего n N − n N

Типичный пример представлен вышестоящей таблицей: осуществлена поставка из N объектов, из которых D имеют дефект. Гипергеометрическое распределение описывает вероятность того, что в выборке из n различных объектов, вытянутых из поставки, ровно k объектов являются бракованными.

В общем, если случайная величина X соответствует гипергеометрическому распределению с параметрами N, D и n, то вероятность получения ровно k успехов определяется формулой:

 f(k;N,D,n) = {{{D \choose k} {{N-D} \choose {n-k}}}\over {N \choose n}}

Эта вероятность положительна когда k лежит в промежутке между max{ 0, D + nN } и min{ n, D }.

Приведенная формула может трактоваться следующим образом: существует  N \choose n возможных выборок(без возвращения). Есть  D \choose k способов выбрать k бракованных объектов и  {N-D} \choose {n-k} способов заполнить остаток выборки объектами без дефектов.

В случае, когда размер популяции является большим по сравнению с размером выборки(т.е., N намного больше чем n) гипергеометрическое распределение хорошо аппроксимируется биномиальным распределением с параметрами n (количество испытаний) и p = D / N (вероятность успеха в одном испытании).

Определение[править | править исходный текст]

Пусть имеется конечная совокупность, состоящая из N элементов. Предположим, что D (defective) из них обладают нужным нам свойством. Оставшиеся N-D этим свойством не обладают. Случайным образом из общей совокупности выбирается группа из n элементов. Пусть Y - случайная величина, равная количеству выбранных элементов, обладающих нужным свойством. Тогда функция вероятности Y имеет вид:

p_Y(k) \equiv \mathbb{P}(Y = k) = \frac{C_D^k\, C_{N-D}^{n-k}}{C_N^n},

где C_n^k \equiv \frac{n!}{k!\, (n-k)!} обозначает биномиальный коэффициент. Пишем: Y \sim \mathrm{HG}(D,N,n).

Моменты[править | править исходный текст]

\mathbb{E}[Y] = \frac{nD}{N},
\mathrm{D}[Y] = {n(D/N)(1-D/N)(N-n)\over (N-1)}.

Пример применения[править | править исходный текст]

Классическим применением гипергеометрического распределения является выборка без возвращения. Рассмотрим урну с двумя типами шаров: черными и белыми. Определим вытягивание белого шара как успех, а черного как неудачу. Если N является числом всех шаров в урне и D является числом белых шаров, то N − D является числом черных шаров.
Теперь предположим, что в урне находятся 5 белых и 45 черных шаров. Стоя рядом с урной, вы закрываете глаза и вытаскиваете 10 шаров. Какова вероятность p (k=4) вытянуть 4 белых шара (и, соответственно, 6 черных шаров) ?

Задача описывается следующей таблицей:

вытянутые не вытянутые всего
белые шары 4 (k) 1 = 5 − 4 (Dk) 5 (D)
чёрные шары 6 = 10 − 4 (nk) 39 = 50 + 4 − 10 − 5 (N + k − n − D) 45 (N − D)
всего 10 (n) 40 (N − n) 50 (N)

Вероятность Pr (k = x) того, что будут вытянуты ровно x белых шаров (= количество успехов), может быть посчитана с помощью формулы:

 \Pr(k=x) = f(k;N,D,n) = {{{D \choose k} {{N-D} \choose {n-k}}}\over {N \choose n}}.

Отсюда, в нашем примере (x = 4), получим:

 \Pr(k=4) = f(4;50,5,10) = {{{5 \choose 4} {{45} \choose {6}}}\over {50 \choose 10}} = 0.003964583\dots.

Таким образом, вероятность вытянуть ровно 4 белых шара достаточно мала (примерно 0.004). Это значит, что при проведении эксперимента (вытаскивание 10 шаров из урны с 50 шарами без возвращения) 1000 раз мы рассчитываем получить вышеупомянутый результат 4 раза.

Что касается вероятности вытянуть все 5 белых шаров, то интуитивно понятно, что она будет меньше, чем вероятность вытянуть 4 белых шара. Давайте посчитаем эту вероятность.

вытянутые не вытянутые всего
белые шары 5 (k) 0 = 5 − 5 (D − k) 5 (D)
чёрные шары 5 = 10 − 5 (n − k) 40 = 50 + 5 − 10 − 5 (N + k − n − D) 45 (N − D)
всего 10 (n) 40 (N − n) 50 (N)

Таким образом, мы получаем вероятность:

 \Pr(k=5) = f(5;50,5,10) = {{{5 \choose 5} {{45} \choose {5}}}\over {50 \choose 10}} = 0.0001189375\dots,

Как и ожидалось, вероятность вытянуть 5 белых шаров меньше, чем вероятность вытянуть 4 белых шара.

Заключение:
Начальный вопрос можно расширить следующим образом: Если вытягиваются 10 шаров из урны (содержащей 5 белых и 45 чёрных шаров), какова вероятность вытянуть не менее 4 белых шаров? Для получения ответа на этот вопрос необходимо посчитать функцию распределения p(k>=4). Так как гипергеометрическое распределение является дискретным вероятностным распределением, функция распределения может быть легко посчитана как сумма соответствующих вероятностей.

В нашем примере достаточно сложить Pr (k = 4) и Pr (k = 5):

Pr (k ≥ 4) = 0.003964583 + 0.0001189375 = 0.004083520

Симметричность[править | править исходный текст]

 f(k;N,D,n) = {{{D \choose k} {{N-D} \choose {n-k}}}\over {N \choose n}} = f(n-k;N,N-D,n)

Эта симметричность интуитивно понятна, если перекрасить белые шары в черные и наоборот, таким образом, белые и черные шары просто меняются ролями.

 f(k;N,D,n) = f(k;N,n,D)

Эта симметричность интуитивно понятна, если вместо вытягивания шаров, вы помечаете шары, которые вы бы вытянули. Оба выражения дают вероятность того, что ровно k шаров черные и помечены как вытянутые.

Связь с другими распределениями[править | править исходный текст]

Bvn-small.png  п·о·р        Вероятностные распределения
Одномерные Многомерные
Дискретные: Бернулли | биномиальное | геометрическое | гипергеометрическое | логарифмическое | отрицательное биномиальное | Пуассона | дискретное равномерное мультиномиальное
Абсолютно непрерывные: Бета | Вейбулла | Гамма | гиперэкспоненциальное | Колмогорова | Коши | Лапласа | логнормальное | нормальное (Гаусса) | логистическое | Накагами |Парето | полукруговое | непрерывное равномерное | Райса | Рэлея | Стьюдента | Фишера | хи-квадрат | экспоненциальное | variance-gamma многомерное нормальное | копула