Ящик с усами
Ящик с усами (англ. box-and-whiskers diagram or plot, box plot) — график, использующийся в описательной статистике, компактно изображающий одномерное распределение вероятностей.
Такой вид диаграммы в удобной форме показывает медиану, нижний и верхний квартили, минимальное и максимальное значение выборки и выбросы. Несколько таких ящиков можно нарисовать бок о бок, чтобы визуально сравнивать одно распределение с другим, их можно рисовать горизонтально, либо вертикально. Расстояния между различными частями ящика позволяют определить степень распространения (дисперсии) и асимметрии в данных, и выявить выбросы.
Содержание |
Компактность представления информации [править]
График «ящик с усами» или «ящичковая диаграмма» был разработан Джоном Тьюки в 1970-х годах. По сути, ящик с усами — это быстрый способ изучения одного или нескольких наборов данных в графическом виде. Этот график может показаться более примитивным, чем, например, гистограммы, но он имеет некоторые преимущества. Он занимает меньше места, и поэтому особенно полезен для сравнения распределений между несколькими группами или наборами данных. Кроме того, ящик с усами в своей первоначальной форме прост для построения.
Если на третьем графике, где показаны плотности распределения, нельзя толком ничего рассмотреть и сравнить, то на четвертом графике, отображающем ящики с усами, легко можно оценить медианы, квартили, степень распространения (дисперсии) и асимметрии в данных, и выявить выбросы. Асимметрию данных можно увидеть не только по медиане, смещенной к какому-либо концу ящика, но и по разной длине усов, выходящих из ящика.
График «ящик с усами» очень прост для понимания и именно поэтому часто используется в различных публикациях для отображения данных.
Построение [править]
Границами ящика служат первый и третий квартили (25-й и 75-й процентили соответственно), линия в середине ящика — медиана (50-й процентиль). Концы усов — края статистически значимой выборки (без выбросов), и могут определяться несколькими способами. Среди наиболее распространённых:
- Минимальное и максимальное наблюдаемое значения данных по выборке (в этом случае выбросы отсутствуют);
- Разность первого квартиля и 1,5×[межквартильное расстояние]; Сумма третьего квартиля и 1,5×[межквартильное расстояние]. В общем виде эта формула имеет вид
X1 = Q1 – k*(Q3-Q1); X2 = Q3 + k*(Q3-Q1)
где X1 — нижняя граница уса, X2 — верхняя граница уса, Q1 — первый квартиль ,Q3 — третий квартиль, k — коэффициент, наиболее часто употребляемое значение которого = 1,5
- Среднее арифметическое по выборке ± одно стандартное отклонение.
- 9-й и 91-й процентили.
- 2-й и 98-й процентили.
Данные, выходящие за границы усов (выбросы) отображаются на графике в виде точек, маленьких кружков или звёздочек. Иногда на графике отмечают среднее арифметическое и его доверительный интервал («зарубка» на ящике).
В связи с тем, что не существует единого общего согласия относительно того, что считать основным графиком ящика с усами, при виде такого графика необходимо искать информацию в сопроводительном тексте относительно того, по каким параметрам ящик с усами строился.
Модификации ящика с усами [править]
Первоначальная форма ящика с усами хотя и отличается своей простотой и удобством, однако обладает и некоторыми недостатками. Один из таких существенных недостатков - отсутствие информации на графике о количестве наблюдений по выборке. Действительно ящик с усами позволяет сравнить медианы, квартили, минимумы и максимумы по различным выборкам, но если мы захотим сделать вывод о средней медиане в целом по всей совокупности выборок, то мы не сможем этого сделать не прибегая к данным. В 1978 году первоначальная форма ящика с усами была модифицирована МакГиллом, Ларсеном и Тьюки. Они предложили учитывать размер выборочной совокупности, рисуя ящики разного размера, а также изобразили на графике доверительный интервал для медиан в виде расходящихся клиньев. Чем больше ящик по размерам, тем больше количество наблюдений в выборке, по которой строился этот ящик. что касается доверительного интервала, то он представляет собой выемки на каждом из ящиков, в случае, если получившиеся выемки разных ящиков не пересекаются, их медианы статистически значимо различаются. Модифицированные ящики с усами изображены на Графике 5
| У этой статьи нет иллюстраций.
Вы можете помочь проекту, добавив их (с соблюдением правил использования изображений).
Для поиска иллюстраций можно:
|
.
Следующая модификация получила название Histplot (График 6)
| У этой статьи нет иллюстраций.
Вы можете помочь проекту, добавив их (с соблюдением правил использования изображений).
Для поиска иллюстраций можно:
|
.
Теперь на графике отображаются плотности распределения по 3 точкам: медиане, первому и третьему квартилю. Соответственно вместо прямоугольника "ящик" теперь представляет собой 2 равнобедренные трапеции, имеющие смежное основание.
Дальнейшее изменение получило название Vaseplot от сравнения ящика с вазой (График 7)
| У этой статьи нет иллюстраций.
Вы можете помочь проекту, добавив их (с соблюдением правил использования изображений).
Для поиска иллюстраций можно:
|
.
На данном графике происходит отображение всех плотностей вероятностей от первого до третьего квартиля. Серые области представляют собой доверительный интервал медианы.
Ссылки [править]
- (1989) «Some Implementations of the Boxplot». The American Statistician 43 (1): 50–54. DOI:10.2307/2685173.
- (1988) «Opening the Box of a Boxplot». The American Statistician 42 (4): 257–262. DOI:10.2307/2685133.
- Поп-математика для взрослых детей
- При чем тут усы и ящики?
| В данной статье или разделе имеется список источников или внешних ссылок, но источники отдельных утверждений остаются неясными из-за отсутствия сносок.
Вы можете улучшить статью, внеся более точные указания на источники.
|