Медиана (статистика)

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Медиа́на (от лат. mediāna «середина») набора чисел — число, которое находится в середине этого набора, если его упорядочить по возрастанию, то есть такое число, что половина из элементов набора не меньше него, а другая половина не больше. Другое равносильное определение[1]: медиана набора чисел — это число, сумма расстояний (или, если более строго, модулей) от которого до всех чисел из набора минимальна. Это определение естественным образом обобщается на многомерные наборы данных и называется 1-медианой.

Например, медианой набора {11, 9, 3, 5, 5} является число 5, так как оно стоит в середине этого набора после его упорядочивания: {3, 5, 5, 9, 11}. Если в выборке чётное число элементов, медиана может быть не определена однозначно: тогда для числовых данных чаще всего используют полусумму двух соседних значений (то есть медиану набора {1, 3, 5, 7} принимают равной 4), подробнее см. ниже. В математической статистике медиана может использоваться как одна из характеристик выборки или совокупности чисел.

Также определяется медиана случайной величины: в этом случае оно определяется как число, которое делит пополам распределение. Грубо говоря, медианой случайной величины является такое число, что вероятность получить значение случайной величины справа от него равна вероятности получить значение слева от него (и они обе равны 1/2), — более точное определение дано ниже.

Можно также сказать, что медиана является 50-м персентилем, 0,5-квантилем или вторым квартилем выборки или распределения.

Свойства медианы для случайных величин[править | править код]

Если распределение непрерывно, то медиана является одним из решений уравнения

,

где — функция распределения случайной величины , связанная с плотностью распределения как

.

Если распределение является непрерывной строго возрастающей функцией, то решение уравнения однозначно. Если распределение имеет разрывы, то медиана может совпадать с минимальным или максимальным (крайним) возможным значением случайной величины, что противоречит «геометрическому» пониманию этого термина.

Медиана является важной характеристикой распределения случайной величины и, так же как математическое ожидание, может быть использована для центрирования распределения. Поскольку оценки медианы более робастны, её оценивание может быть более предпочтительным для распределений с т. н. тяжёлыми хвостами. Однако о преимуществах оценивания медианы по сравнению с математическим ожиданием можно говорить только в случае, если эти характеристики у распределения совпадают, в частности, для симметричных функций плотности распределения вероятностей.

Медиана определяется для всех распределений, а в случае неоднозначности, естественным образом доопределяется, в то время как математическое ожидание может быть не определено (например, у распределения Коши).

Пример использования[править | править код]

Рассмотрим финансовое состояние 19 малоимущих, у каждого из каких есть только 5 ₽, и одного миллионера, у которого буквально 1 млн ₽. Тогда в сумме у них получается 1 000 095 ₽. Если деньги равными долями разделить на 20 человек, получится 50 004,75 ₽. Это будет среднее арифметическое значение суммы денег, которая была у всех 20 человек в этой комнате.

Медиана же будет равна 5 ₽ (сумма «расстояния» от этой величины до состояния каждого из рассматриваемых людей минимальна). Это можно интерпретировать следующим образом: «разделив» всех рассматриваемых людей на две равные группы по 10 человек, мы получаем, что в первой группе у каждого не больше 5 ₽, во второй же — не меньше 5 ₽.

Из этого примера получается, что в качестве «серединного» состояния, грубо говоря, корректнее всего использовать именно медиану, а вот среднее арифметическое, наоборот, значительно превышает сумму наличных, имеющуюся у случайного человека из выборки.

Неуникальность значения[править | править код]

Если имеется чётное количество случаев и два средних значения различаются, то медианой, по определению, может служить любое число между ними (например, в выборке {1, 3, 5, 7} медианой может служить любое число из интервала (3,5)). На практике в этом случае чаще всего используют среднее арифметическое двух средних значений (в примере выше это число (3+5)/2=4). Для выборок с чётным числом элементов можно также ввести понятие «нижней медианы» (элемент с номером n/2 в упорядоченном ряду из элементов; в примере выше это число 3) и «верхней медианы» (элемент с номером (n+2)/2; в примере выше это число 5)[2]. Эти понятия определены не только для числовых данных, но и для любой порядковой шкалы.

См. также[править | править код]

Примечания[править | править код]

  1. Сущность медианы.
  2. Кормен, Томас Х., Лейзерсон, Чарльз И., Ривест Рональ Л., Штайн, Клиффорд. Алгоритмы. Построение и анализ (неопр.). — 2-е издание. — М.: Издательский дом «Вильямс», 2005. — С. 240. — 1296 с.
  3. Почему это равносильные определения среднего арифметического.