Непараметрическая статистика

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Непараметрическая статистика — раздел статистики, который не основан исключительно на параметризованных семействах вероятностных распределений (широко известными примерами параметров являются математическое ожидание и дисперсия). Непараметрическая статистика включает в себя описательную статистику и статистический вывод.

Определения[править | править код]

Статистик Ларри Вассерман[англ.] сказал: «Сложно дать чёткое определение непараметрической статистике»[1]. Термин «непараметрическая статистика» может быть нечётко определён, среди прочих, следующими двумя способами.

  1. Первое значение непараметричности охватывает методы, которые не полагаются на данные, относящиеся к какому-либо конкретному распределению. Среди прочих, они включают в себя:

    Следующие рассуждения взяты из книги Kendall's Advanced Theory of Statistics.[2]

    Статистические гипотезы обращают внимание на поведение наблюдаемых случайных величин... Например, гипотеза (а) о том, что нормальное распределение имеет определенное математическое ожидание и его дисперсия является статистической; гипотеза (б) - то, что математическое ожидание дано, дисперсия не задана; гипотеза (в) - то, что распределение имеет нормальный вид, математическое ожидание и дисперсия не заданы; наконец, гипотеза (г), два неизвестных непрерывных распределения совпадают.

    Заметим, что в примерах (а) и (б) распределение, лежащее в основе наблюдений, было определено и представляло собой нормальное распределение, а гипотеза была полностью связана со значением одного или обоих ее параметров. Такая гипотеза, по понятным причинам, называется параметрической.

    Гипотеза (в) имеет иной характер, так как в формулировке гипотезы не указаны значения параметров; такую гипотезу можно обоснованно назвать непараметрической. Гипотеза (г) также непараметрическая, но, помимо того, она не определяет даже тип распределения и может быть названа свободной от распределения. Несмотря на эти различия, статистическая литература обычно навешивает ярлык "непараметрический" к методам, которые мы только что назвали "свободными от распределения", тем самым ломая полезную классификацию.

  2. Второе значение непараметричности охватывает методы, которые не предполагают, что структура модели является фиксированной. Как правило, размер модели увеличивается с усложнением данных. В этих методах предполагается, что отдельные переменные принадлежат к параметрическим распределениям, а также делаются предположения о типах связей между переменными. Эти методы включают, среди прочего:
    • непараметрическую регрессию — моделирование, посредством которого структура отношений переменных рассматривается непараметрически. Тем не менее, при этом могут существовать параметрические предположения о распределении остатков модели.
    • непараметрические иерархические модели Байеса, такие как модели, основанные на процессе Дирихле, которые позволяют количеству скрытых переменных расти по мере необходимости, чтобы соответствовать данным. Однако отдельные переменные могут подчиняться параметрическим распределениям, и даже процесс, контролирующий скорость роста скрытых переменных, подчиняется параметрическому распределению.

Цели и применения[править | править код]

Непараметрические методы широко используются для изучения популяций, которые принимают ранжированный порядок (например, обзоры фильмов, которые могут получать от одной до четырех звезд). Использование непараметрических методов может быть необходимым, когда данные имеют ранжирование, но не имеют ясной численной интерпретации, например, при оценке предпочтений. С точки зрения шкал, результатами работы непараметрических методов являются порядковые данные.

Поскольку непараметрические методы делают меньше предположений, сфера их применений гораздо шире, нежели у параметрических методов. В частности, они могут применяться в ситуациях, когда имеется меньше информации о самом применении. Также в связи с тем, что они зависят от меньшего числа предположений, непараметрические методы являются более надежными.

Другим обоснованием использования непараметрических методов является их простота. В некоторых случаях, даже в тех, когда использование параметрических методов оправдано, может быть проще использовать непараметрические методы. Из-за перечисленных выше причин, непараметрические методы рассматриваются некоторыми статистиками как дающие меньше возможностей для неправильного понимания и использования.

Более широкая применимость и повышенная робастность (надёжность) непараметрических методов обходятся дорого: в тех случаях, когда параметрический метод подходит, непараметрические имеют меньшую статистическую мощность. Другими словами, для того чтобы сделать выводы с той же уверенностью, может потребоваться больший размер выборки.

Непараметрические модели[править | править код]

Непараметрические модели отличаются от параметрических моделей тем, что структура модели не задается априори, а определяется данными. Термин непараметрический не означает полное отсутствие параметров. Просто их количество и характер гибки и не фиксированы заранее.

Методы[править | править код]

Непараметрические (или свободные от распределения) методы статистического вывода являются математическими процедурами для проверки статистических гипотез, которые, в отличие от параметрической статистики, не делают предположений о вероятностных распределениях оцениваемых переменных. Такие методы носят название непараметрических статистических критериев. Наиболее часто используемые критерии включают:

История[править | править код]

Среди ранних непараметрических статистик — медиана (13-й век или ранее, использовалась в оценке Эдварда Райта, 1599) и критерий знаков Джона Арбетнота (1710) при анализе соотношения полов человека при рождении.[3]

Примечания[править | править код]

  1. Wasserman (2007), p.1
  2. Stuart A., Ord J.K, Arnold S. (1999), Kendall's Advanced Theory of Statistics: Volume 2A—Classical Inference and the Linear Model, sixth edition, §20.2–20.3 (Arnold).
  3. Conover, W.J. (1999), "Chapter 3.4: The Sign Test", Practical Nonparametric Statistics (Third ed.), Wiley, pp. 157—176, ISBN 0-471-16068-7

Литература[править | править код]

  • Bagdonavicius, V., Kruopis, J., Nikulin, M.S. (2011). «Non-parametric tests for complete data», ISTE & WILEY: London & Hoboken. ISBN 978-1-84821-269-5.
  • Corder, G. W.; Foreman, D. I. Nonparametric Statistics: A Step-by-Step Approach (англ.). — Wiley, 2014. — ISBN 978-1118840313.
  • Жан Гиббонс[англ.]; Chakraborti, Subhabrata (2003). Nonparametric Statistical Inference, 4th Ed. CRC Press. ISBN 0-8247-4052-1.
  • Hettmansperger, T. P.; McKean, J. W. Robust Nonparametric Statistical Methods (неопр.). — First. — London: Edward Arnold[англ.], 1998. — Т. 5. — (Kendall's Library of Statistics). — ISBN 0-340-54937-8. also ISBN 0-471-19479-4.
  • Hollander M., Wolfe D.A., Chicken E. (2014). Nonparametric Statistical Methods, John Wiley & Sons.
  • Sheskin, David J. (2003) Handbook of Parametric and Nonparametric Statistical Procedures. CRC Press. ISBN 1-58488-440-1
  • Wasserman, Larry (2007). All of Nonparametric Statistics, Springer. ISBN 0-387-25145-6.