Гистограмма (статистика)

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Гистогра́мма в математической статистике — это функция, приближающая плотность вероятности некоторого распределения, построенная на основе выборки из него.

Графическое описание[править | править вики-текст]

Графически гистограмма строится следующим образом. Сначала множество значений, которое может принимать элемент выборки, разбивается на несколько интервалов (bins). Чаще всего эти интервалы берут одинаковыми, но это не является строгим требованием. Эти интервалы откладываются на горизонтальной оси, затем над каждым рисуется прямоугольник. Если все интервалы были одинаковыми, то высота каждого прямоугольника пропорциональна числу элементов выборки, попадающих в соответствующий интервал. Если интервалы разные, то высота прямоугольника выбирается таким образом, чтобы его площадь была пропорциональна числу элементов выборки, которые попали в этот интервал.

Определение[править | править вики-текст]

Пусть  — выборка из некоторого распределения. Определим разбиение числовой прямой . Пусть

— число элементов выборки, попавших в -й интервал. Тогда кусочно-постоянная функция , имеющая вид:

, — называется нормализованной гистограммой.

Замечание[править | править вики-текст]

Нормализованная гистограмма является плотностью вероятности. В частности:

  • .
  • .

Гистограмма абсолютно непрерывного распределения[править | править вики-текст]

Пусть распределение случайных величин абсолютно непрерывно и задаётся плотностью вероятности . Тогда

по вероятности при .

Замечание[править | править вики-текст]

Таким образом площадь фигуры под нормализованной гистограммой, ограниченной интервалом , приближается к вероятности принятия значений внутри этого интервала любой из случайных величин . Однако, нормализованная гистограмма не сходится поточечно к теоретической плотности распределения этих случайных величин.

Использование[править | править вики-текст]

Гистограммы применяются в основном для визуализации данных на начальном этапе статистической обработки.

Построение гистограмм используется для получения эмпирической оценки плотности распределения случайной величины. Для построения гистограммы наблюдаемый диапазон изменения случайной величины разбивается на несколько интервалов и подсчитывается доля от всех измерений, попавшая в каждый из интервалов. Величина каждой доли, отнесенная к величине интервала, принимается в качестве оценки значения плотности распределения на соответствующем интервале.

Существенным для построения гистограммы является выбор оптимального разбиения, поскольку при увеличении интервалов снижается детализация оценки плотности распределения, а при уменьшении падает точность её значения. Для выбора оптимального количества интервалов часто применяется правило Стёрджеса

,

где  — общее число наблюдений величины,  — логарифм по основанию 2,  — обозначает целую часть числа .

Также часто встречается правило, оценивающее оптимальное количество интервалов как квадратный корень из общего числа измерений:

См. также[править | править вики-текст]