Среднеквадратическое отклонение
Среднеквадрати́ческое отклонение (среднеквадрати́чное отклонение, стандартное отклонение[1]) — наиболее распространённый показатель рассеивания значений случайной величины относительно её математического ожидания (аналога среднего арифметического с бесконечным числом исходов). Обычно означает квадратный корень из дисперсии случайной величины, но иногда может означать тот или иной вариант оценки этого значения.
В литературе обычно обозначают греческой буквой (сигма). В статистике принято два обозначения: — для генеральной совокупности и (с англ. standard deviation — стандартное отклонение) — для выборки.
Варианты определения
[править | править код]Обычно определяется как квадратный корень из дисперсии случайной величины: . Измеряется в единицах измерения самой случайной величины и используется при расчёте стандартной ошибки среднего арифметического, при построении доверительных интервалов, при статистической проверке гипотез, при измерении линейной взаимосвязи между случайными величинами. На практике, когда вместо точного распределения случайной величины в распоряжении имеется лишь выборка, стандартное отклонение, как и математическое ожидание, оценивают (выборочная дисперсия), и делать это можно разными способами[прояснить]. Термины «стандартное отклонение» и «среднеквадратическое отклонение» обычно применяют к квадратному корню из дисперсии случайной величины (определённому через её истинное распределение), но иногда и к различным вариантам оценки этой величины на основании выборки. В частности, если — -й элемент выборки, — объём выборки, — среднее арифметическое выборки (выборочное среднее — оценка математического ожидания величины):
- ,
то два основных способа оценки стандартного отклонения записываются нижеследующим образом.
Оценка стандартного отклонения на основании смещённой оценки дисперсии (иногда называемой просто выборочной дисперсией[2]):
- .
Это в буквальном смысле среднее квадратическое разностей измеренных значений и среднего.
Оценка стандартного отклонения на основании несмещённой оценки дисперсии (подправленной выборочной дисперсии[2], в ГОСТ Р 8.736-2011 — «среднее квадратическое отклонение»):
Само по себе, однако, не является несмещённой оценкой квадратного корня из дисперсии, то есть извлечение квадратного корня «портит» несмещённость.
Обе оценки являются состоятельными[2].
Кроме того, среднеквадратическим отклонением называют математическое ожидание квадрата разности истинного значения случайной величины и её оценки для некоторого метода оценки[3]. Если оценка несмещённая (выборочное среднее — как раз несмещённая оценка для случайной величины), то эта величина равна дисперсии этой оценки.
Среднее значение выборки также является случайной величиной с оценкой среднеквадратичного отклонения[3][нет в источнике]:
Правило трёх сигм
[править | править код]Правило трёх сигм () гласит: с крайне высокой вероятностью случайная величина не отклонится от своего среднего значения более, чем на . Практически все значения нормально распределённой случайной величины лежат в интервале , где — математическое ожидание случайной величины. Более строго — приблизительно с вероятностью значение нормально распределённой случайной величины лежит в указанном интервале.
Интерпретация
[править | править код]Большее значение среднеквадратического отклонения показывает больший разброс значений в представленном множестве со средней величиной множества; меньшее значение, соответственно, показывает, что значения в множестве сгруппированы вокруг среднего значения.
Например, для всех трёх числовых множеств: {0, 0, 14, 14}, {0, 6, 8, 14} и {6, 6, 8, 8} средние значения равны 7, а среднеквадратические отклонения, соответственно, равны 7, 5 и 1. У последнего множества среднеквадратическое отклонение маленькое, так как значения в множестве сгруппированы вокруг среднего значения; у первого множества самое большое значение среднеквадратического отклонения — значения внутри множества сильно расходятся со средним значением.
В общем смысле среднеквадратическое отклонение можно считать мерой неопределённости. К примеру, в физике среднеквадратическое отклонение используется для определения погрешности серии последовательных измерений какой-либо величины. Это значение очень важно для определения правдоподобности изучаемого явления в сравнении с предсказанным теорией значением: если среднее значение измерений сильно отличается от предсказанных теорией значений (большое значение среднеквадратического отклонения), то полученные значения или метод их получения следует перепроверить.
Практическое применение
[править | править код]На практике среднеквадратическое отклонение позволяет оценить, насколько значения из множества могут отличаться от среднего значения.
Экономика и финансы
[править | править код]Среднее квадратическое отклонение доходности портфеля отождествляется с риском портфеля.
В техническом анализе среднеквадратическое отклонение используется для построения линий Боллинджера, расчёта волатильности.
Оценка рисков и критика
[править | править код]Среднеквадратическое отклонение широко распространено в финансовой сфере в качестве критерия оценки инвестиционного риска. По мнению американского экономиста Нассима Талеба, этого делать не следует. Так, по теории около двух третей изменений должны укладываться в определённые рамки (среднеквадратические отклонения −1 и +1) и что колебания свыше семи стандартных отклонений практически невозможны. Однако в реальной жизни, по мнению Талеба, всё иначе — скачки отдельных показателей могут превышать 10, 20, а иногда и 30 стандартных отклонений. Талеб считает, что риск-менеджерам следует избегать использования средств и методов, связанных со стандартными отклонениями, таких как регрессионные модели, коэффициент детерминации (R-квадрат) и бета-факторы. Кроме того, по мнению Талеба, среднеквадратическое отклонение — слишком сложный для понимания метод. Он считает, что тот, кто пытается оценить риск с помощью единственного показателя, обречён на неудачу[4].
Климат
[править | править код]Предположим, существуют два города с одинаковой средней максимальной дневной температурой, но один расположен на побережье, а другой внутри континента. Известно, что в городах, расположенных на побережье, множество различных максимальных дневных температур меньше, чем у городов, расположенных внутри континента. Поэтому среднеквадратическое отклонение максимальных дневных температур у прибрежного города будет меньше, чем у второго города, несмотря на то, что среднее значение этой величины у них одинаковое, что на практике означает, что вероятность того, что максимальная температура воздуха каждого конкретного дня в году будет сильнее отличаться от среднего значения, выше у города, расположенного внутри континента.
Спорт
[править | править код]Предположим, что есть несколько футбольных команд, которые оцениваются по некоторому набору параметров, например, количеству забитых и пропущенных голов, голевых моментов и т. п. Наиболее вероятно, что лучшая в этой группе команда будет иметь лучшие значения по большему количеству параметров. Чем меньше у команды среднеквадратическое отклонение по каждому из представленных параметров, тем предсказуемее является результат команды, такие команды являются сбалансированными. С другой стороны, у команды с большим значением среднеквадратического отклонения сложно предсказать результат, что в свою очередь объясняется дисбалансом, например, сильной защитой, но слабым нападением.
Использование среднеквадратического отклонения параметров команды позволяет в той или иной мере предсказать результат матча двух команд, оценивая сильные и слабые стороны команд, а значит, и выбираемых способов борьбы.
Пример
[править | править код]Предположим, что интересующая нас группа (генеральная совокупность) — это класс из восьми учеников, которым выставляются оценки по 10-бальной системе. Так как мы оцениваем всю группу, а не её выборку, можно использовать стандартное отклонение на основании смещённой оценки дисперсии. Для этого берём квадратный корень из среднего арифметического квадратов отклонений величин от их среднего значения.
Пусть оценки учеников класса следующие:
- .
Тогда средняя оценка равна:
- .
Вычислим квадраты отклонений оценок учеников от их средней оценки:
Среднее арифметическое этих значений называется дисперсией:
Стандартное отклонение равно квадратному корню дисперсии:
Эта формула справедлива, только если эти восемь значений и являются генеральной совокупностью. Если бы эти данные были случайной выборкой из какой-то большой совокупности (например, оценки восьми случайно выбранных учеников большого города), то в знаменателе формулы для вычисления дисперсии вместо n = 8 нужно было бы поставить n − 1 = 7:
и стандартное отклонение равнялось бы:
Этот результат называется стандартным отклонением на основании несмещённой оценки дисперсии. Деление на n − 1 вместо n даёт неискажённую оценку дисперсии для больших генеральных совокупностей.
См. также
[править | править код]Примечания
[править | править код]- ↑ Встречаются также различные синонимы: среднее квадратическое отклонение, стандартный разброс, стандартная неопределённость; термин «среднее квадратическое» означает «среднее степени 2»
- ↑ 1 2 3 Ивченко Г. И., Медведев Ю. И. Введение в математическую статистику. — М. : Издательство ЛКИ, 2010. — §2.2. Выборочные моменты: точная и асимптотическая теория. — ISBN 978-5-382-01013-7.
- ↑ 1 2 C. Patrignani et al. (Particle Data Group). 39. STATISTICS. — В: Review of Particle Physics // Chin. Phys. C. — 2016. — Vol. 40. — P. 100001. — doi:10.1088/1674-1137/40/10/100001.
- ↑ Талеб, Гольдштейн, Шпицнагель, 2022, с. 46.
Литература
[править | править код]- Боровиков В. STATISTICA. Искусство анализа данных на компьютере: Для профессионалов / В. Боровиков. — СПб.: Питер, 2003. — 688 с. — ISBN 5-272-00078-1..
- Нассим Талеб, Дениэл Гольдштейн, Марк Шпицнагель. Шесть ошибок руководителей компаний при управлении рисками // Управление рисками (Серия «Harvard Business Review: 10 лучших статей») = On Managing Risk / Коллектив авторов. — М.: Альпина Паблишер, 2022. — С. 41—50. — 206 с. — ISBN 978-5-9614-8186-0.