Распределение Стьюдента

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
Распределение Стьюдента
Плотность вероятности
Student densite best.JPG
Функция распределения
T distributionCDF.png
Обозначение \mathrm{t}(n)\!
Параметры n > 0\! — число степеней свободы
Носитель x \in (-\infty; +\infty)\!
Плотность вероятности \frac{\Gamma((n+1)/2)} {\sqrt{n\pi}\,\Gamma(n/2)\,(1+x^2/n)^{(n+1)/2}}\!
Функция распределения \frac{1}{2} + \frac{x \Gamma \left( (n+1)/2 \right)}{\sqrt{\pi n}\,\Gamma (n/2)} \frac{\,_2F_1 \left ( \frac{1}{2},(n+1)/2;\frac{3}{2};-\frac{x^2}{n} \right)} {\sqrt{\pi n}\,\Gamma (n/2)} где \,_2F_1 гипергеометрическая функция
Математическое ожидание 0\!, если n>1\!
Медиана 0\!
Мода 0\!
Дисперсия \frac{n}{n-2}, если n>2\!
Коэффициент асимметрии 0\!, если n>3\!
Коэффициент эксцесса \frac{6}{n-4}\!, если n>4\!
Информационная энтропия \begin{matrix}
         \frac{n+1}{2}\left[ 
             \psi(\frac{1+n}{2}) 
               - \psi(\frac{n}{2})
         \right] \\[0.5em]
+ \log{\left[\sqrt{n}B(\frac{n}{2},\frac{1}{2})\right]}
\end{matrix}
Производящая функция моментов не определена
Характеристическая функция

Распределе́ние Стью́дента в теории вероятностей — это однопараметрическое семейство абсолютно непрерывных распределений. Названо в честь Уильяма Сили Госсета, который первым опубликовал работы, посвящённые распределению, под псевдонимом «Стьюдент».

Распределение Стьюдента (t-распределение) играет роль в некоторых широко используемых системах статистического анализа, включая t-критерий Стьюдента для оценки статистического значения различия между двумя выборочными средними, построения доверительных интервалов разницы между двумя доверительными средними, а также в линейном регрессионном анализе. Распределение Стьюдента также появляется в Байесовском анализе данных из нормального семейства.

Возьмем n исследований с нормальным распределением, тогда распределение Стьюдента с \nu=n-1 степенями свободы может быть определено как распределение расположения истинного среднего, относящегося к выборочному среднему и разделенного на стандартное отклонение, после умножения на нормализующий член \sqrt{n}. Таким образом, Распределение Стьюдента может быть использовано для оценки того, насколько вероятно то, что истинное среднее находится в каком-либо из заданном диапазоне.

График плотности распределения Стьюдента, как и нормального распределения — является симметричным и колоколообразным, но с более тяжелыми хвостами, что означает, что распределение Стьюдента более склонно к производству величин, сильно отличающихся от математического ожидания. Это важно для понимания статистического поведения определенных типов соотношений случайных величин, в которых отклонение в знаменателе увеличено и может производить отдаленные величины, когда знаменатель соотношения близок к нулю.

Распределение Стьюдента — особый случай обобщенного гиперболического распределения.


История и этимология[править | править вики-текст]

В статистике t-распределение было впервые получено как апостериорное распределение в 1876 году Фридрихом Гельмертом и Якобом Люротом.

Госсет работал в пивоварне Гиннесс в Дублине, Ирландия, и применял свои знания в области статистики как при варке пива, так и на полях — для выведения самого урожайного сорта ячменя. Исследования были обращены к нуждам пивоваренной компании и проводились на малом количестве наблюдений, это послужило толчком для развития методов работающих на малых выборках.

В англоязычной литературе распределение берет название из статьи Уильяма Госсета в журнале Пирсона «Биометрика» опубликованной под псевдонимом «Стьюдент».

Госсету пришлось скрывать свою личность при публикации, из-за того что ранее другой исследователь, работавший на Гиннесс, опубликовал в своих материалах сведения, составлявшие коммерческую тайну компании, после чего Гиннесс запретил своим работникам публикацию любых материалов, независимо от содержавшейся в них информации.

Статья Госсета описывает распределение как «распределение частоты стандартных отклонений выборки, извлеченных из генеральной совокупности». Оно стало известным благодаря работе Роналда Фишера, который называл распределение «распределением Стьюдента», а величину — величиной t.

Определение[править | править вики-текст]

Пусть Y_0,Y_1,\ldots, Y_n — независимые стандартные нормальные случайные величины, такие что Y_i \sim \mathrm{N}(0,1),\; i=0,\ldots, n. Тогда распределение случайной величины t\!, где

t = \frac{Y_0}{\sqrt{\frac{1}{n}\sum\limits_{i=1}^n Y_i^2}},

называется распределением Стьюдента с n\! степенями свободы. Пишут t \sim \mathrm{t}(n)\!. Её распределение абсолютно непрерывно и имеет плотность

f_t(y) = \frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{\pi n} \, \Gamma\left(\frac{n}{2}\right)}\, \left(1+\frac{y^2}{n}\right)^{-\frac{n+1}{2}},

где \Gamma\! — гамма-функция Эйлера. Также может быть записана как

f(t) = \frac{1}{\sqrt{\nu}\,\mathrm{B} (\frac{1}{2}, \frac{\nu}{2})} \left(1+\frac{t^2}{\nu} \right)^{\!-\frac{\nu+1}{2}}\!,

где \mathrm{B} это Бета-функция.

Для \nu четных,

\frac{\Gamma(\frac{\nu+1}{2})} {\sqrt{\nu\pi}\,\Gamma(\frac{\nu}{2})} =  \frac{(\nu -1)(\nu -3)\cdots 5 \cdot 3} {2\sqrt{\nu}(\nu -2)(\nu -4)\cdots 4 \cdot 2\,}.

Для \nu нечетных,

\frac{\Gamma(\frac{\nu+1}{2})} {\sqrt{\nu\pi}\,\Gamma(\frac{\nu}{2})} =  \frac{(\nu -1)(\nu -3)\cdots 4 \cdot 2} {\pi \sqrt{\nu}(\nu -2)(\nu -4)\cdots 5 \cdot 3\,}.\!

Функция плотности вероятности симметрична, и ее форма напоминает форму колокола нормально распределенной переменной с математическое ожиданием 0 и дисперсией 1, за исключением того, что она немного ниже и шире. С возрастанием числа степеней свободы, t-распределение достигает нормального распределения со математическое ожиданием 0 и дисперсией 1.

Изображения ниже отражают плотность t-распределения при увеличение числа \nu степеней свободы.

Заметьте, что t-распределение становится ближе к нормальному распределению, по мере того как \nu возрастает.

Плотность t-распределения (красная линия) для 1, 2, 3, 5, 10 и 30 степеней свободы в сравнении со стандартным нормальным распределением (синяя линия).
Предыдущие графики показаны зеленым.
1df
1 степень свободы
2df
2 степени свободы
3df
3 степени свободы
5df
5 степеней свободы
10df
10 степеней свободы
30df
30 степеней свободы

Функция распределения[править | править вики-текст]

Функция распределения может быть записана в терминах I, регуляризованной неполной бета-функции. Для t > 0,

F(t) = \int_{-\infty}^t f(u)\,du = 1- \tfrac{1}{2} I_{x(t)}\left(\tfrac{\nu}{2}, \tfrac{1}{2}\right),

с

x(t) = \frac{\nu}{{t^2+\nu}}.

Другие значения будут получены симметрично. Альтернативный формула, верна для t^2 < \nu

\int_{-\infty}^t f(u)\,du =\tfrac{1}{2} + t\frac{\Gamma \left( \tfrac{1}{2}(\nu+1) \right)} {\sqrt{\pi\nu}\,\Gamma \left(\tfrac{\nu}{2}\right)}  {}_2F_1 \left ( \tfrac{1}{2},\tfrac{1}{2}(\nu+1); \tfrac{3}{2};  -\tfrac{t^2}{\nu} \right)

где 2F1 является частным случаем гипергеометрической функции.

Частные случаи[править | править вики-текст]

  • \nu = 1
Функция распределения:
F(t) = \tfrac{1}{2} + \tfrac{1}{\pi}\arctan(t).
Функция плотности:
f(t) =  \frac{1}{\pi (1+t^2)}.
по распределению Коши
  • \nu = 2
Функция распределения:
F(t) = \tfrac{1}{2}+\frac{t}{2\sqrt{2+t^2}}.
Функция плотности:
f(t) = \frac{1}{\left(2+t^2\right)^{\frac{3}{2}}}.
  • \nu = 3
Функция плотности:
f(t) = \frac{6\sqrt{3}}{\pi\left(3+t^2\right)^2}.
  • \nu = \infty
Функция плотности:
f(t) = \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}}.

Как проявляется t-распределение[править | править вики-текст]

Выборочное распределение[править | править вики-текст]

Пусть x1, ..., xn — числа, наблюдаемые в выборке из постоянно распределяемой области с ожидаемым значением μ. Математическое ожидание и дисперсия заданы:


\begin{align}
\bar{x} &= \frac{x_1+\cdots+x_n}{n} \\
s^2 &= \frac{1}{n-1}\sum_{i=1}^n (x_i - \bar{x})^2
\end{align}

The resulting t-value is

 t = \frac{\bar{x} - \mu}{s/\sqrt{n}}.

t-распределение с n − 1 степенью свободы – это выборочное распределение t-значения, где выборка состоят из независимых одинаково распределенных наблюдениий из нормально распределенной области. Таким образом, t – полезная “ключевая величина” в том случае, когда математическое ожидание и дисперсия (μ, σ2) – неизвестные параметры области в том смысле, что t-значение в таком случае имеет распределение вероятностей, не зависящее ни от μ, ни от σ2

Байесовское распределение[править | править вики-текст]

В Байесовской статистике смещенное t-распределение встречается как маргинальное распределение неизвестного математического статистики, когда зависимость неизвестной дисперсиибыла маргинализированна:

\begin{align}
p(\mu\mid D, I) = & \int p(\mu,\sigma^2\mid D, I) \; d \sigma^2 \\
= & \int p(\mu\mid D, \sigma^2, I) \; p(\sigma^2\mid D, I) \; d \sigma^2
\end{align}

где D – это данные {xi}, а I представляет собой любую другую информацию, которая могла быть использована для создания модели. Таким образом, распределение – это соединение условного распределения μ с данными и σ2 с маргинальным распределением σ2 с данными.


Когда данные неинформативны теорема Байеса даёт

\begin{align}
p(\mu\mid D, \sigma^2, I) \sim & N(\bar{x}, \sigma^2/n) \\
p(\sigma^2 \mid  D, I) \sim & \operatorname{Scale-inv-}\chi^2(\nu, s^2)
\end{align}

нормальное распределение и масштабированное обратное \chi^2-квадрат распределение соответственно, где и

s^2 = \sum \frac{(x_i - \bar{x})^2}{n-1}.

Маргинализованный интеграл в таком случае имеет вид

\begin{align}
p(\mu|D, I) &\propto \int_0^{\infty} \frac{1}{\sqrt{\sigma^2}} \exp \left(-\frac{1}{2\sigma^2} n(\mu - \bar{x})^2\right) \;\cdot\; \sigma^{-\nu-2}\exp(-\nu s^2/2 \sigma^2) \; d\sigma^2 \\
&\propto \int_0^{\infty} \sigma^{-\nu-3} \exp \left(-\frac{1}{2 \sigma^2} \left(n(\mu - \bar{x})^2 + \nu s^2\right) \right)  \; d\sigma^2
\end{align}

Это может быть определено заменяющим \scriptstyle{z = A / 2\sigma^2}, где \scriptstyle{A = n(\mu - \bar{x})^2 + \nu s^2}, что даёт

p(\mu|D, I) \propto \; A^{-\frac{\nu + 1}{2}} \int_0^\infty z^{(\nu-1)/2} \exp(-z) \, dz

z интеграл теперь стандартный Гамма интеграл, который оценивается константой

\begin{align}p(\mu\mid D, I) \propto & \; A^{-\frac{\nu + 1}{2}} \\
\propto & \left( 1 + \frac{n(\mu - \bar{x})^2}{\nu s^2} \right)^{-\frac{\nu + 1}{2}} \end{align}
t = \frac{\mu - \bar{x}}{s / \sqrt{n}}

Дифференцирование выше было представлено для случая неинформативной априорной вероятности для μ и σ2; но очевидно, что любая априорная вероятность, ведет к смешению нормального распределения с масштабированным инвертированным \chi^2-распределением, что приведет к t-распределению с масштабированием и смещением на P(μ|D,I), хотя параметр масштабирования соответствующий s2/n выше будет в таком случае под влиянием и априорной информации и данных.

Свойства распределения Стьюдента[править | править вики-текст]

  • Распределение Стьюдента симметрично. В частности если t \sim \mathrm{t}(n)\!, то -t \sim \mathrm{t}(n)\!.

Моменты[править | править вики-текст]

Случайная величина t \sim \mathrm{t}(n)\! имеет только моменты порядков k < n\!, причём

\mathbb{E}\left[t^k\right] = 0, если k\! нечётно;
\mathbb{E}\left[t^k\right] = \frac{\Gamma(\frac{k+1}{2})\Gamma(\frac{n-k}{2})n^{k/2}}{\sqrt{\pi}\Gamma(\frac{n}{2})} , если k\! чётно.

В частности,

\mathbb{E}[t] = 0,
\mathrm{D}[t] = {n \over n - 2}, если n > 2\! .

Моменты порядков k \ge n не определены.

Связь с другими распределениями[править | править вики-текст]

Применение распределения Стьюдента[править | править вики-текст]

Распределение Стьюдента используется в статистике для точечного оценивания, построения доверительных интервалов и тестирования гипотез, касающихся неизвестного среднего статистической выборки из нормального распределения. В частности, пусть X_1,\ldots, X_n независимые случайные величины, такие что X_i \sim \mathrm{N}(\mu, \sigma^2),\; i=1,\ldots, n. Обозначим \bar{X} выборочное среднее этой выборки, а S^2 её выборочную дисперсию. Тогда

\frac{\bar{X} - \mu}{S / \sqrt{n}} \sim \mathrm{t}(n-1).

Процентили[править | править вики-текст]

Таблицы значений[править | править вики-текст]

Таблица значений функций распределения Стьюдента

Примечания[править | править вики-текст]

Литература[править | править вики-текст]

Bvn-small.png          Вероятностные распределения
Одномерные Многомерные
Дискретные: Бернулли | Биномиальное | Геометрическое | Гипергеометрическое | Логарифмическое | Отрицательное биномиальное | Пуассона | Дискретное равномерное Мультиномиальное
Абсолютно непрерывные: Бета | Вейбулла | Гамма | Гиперэкспоненциальное | Распределение Гомпертца | Колмогорова | Коши | Лапласа | Логнормальное | Нормальное (Гаусса) | Логистическое | Накагами | Парето | Пирсона | Полукруговое | Непрерывное равномерное | Райса | Рэлея | Стьюдента | Трейси — Видома | Фишера | Хи-квадрат | Экспоненциальное | Variance-gamma Многомерное нормальное | Копула