Закон Ципфа

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
Закон Ципфа для русской Википедии

Закон Ципфаэмпирическая закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова, см. шкала порядка). Например второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее.

Закон носит имя своего первооткрывателя — американского лингвиста Джорджа Ципфа из Гарвардского университета.

Объяснение закона Ципфа, основанное на корреляционных свойствах аддитивных марковских цепей (со ступенчатой функцией памяти) было дано в 2005 году[1].

Закон Ципфа математически описывается распределением Парето.

Джорж Ципф обнаружил, что небольшое количество слов используется постоянно, а подавляющее большинство – очень редко. Если оценить слова по популярности, то слово первого разряда всегда используется вдвое чаще, чем слово второго разряда и втрое чаще, чем слово третьего разряда.[2]

Закон Ципфа (правило Ципфа, «ранг-размер») в экономике[править | править вики-текст]

Джорж Ципф обнаружил, что это же правило действует в распределении доходов людей в стране: самый богатый человек имеет вдвое больше денег, чем следующий богач и так далее.[2]

Этот закон также работает в отношении размера городов. Город с самым большим населением в любой стране в два раза больше, чем следующий по размеру город и так далее.[2]

Если расположить все города некоторой страны в списке в порядке убывания численности населения, то каждому городу можно приписать некоторый ранг, т.е. номер, который он получает в данном списке. При этом численность населения и ранг, как правило,  подчиняются простой закономерности, выражаемой формулой Рn = Р1/n, где Рn - население города n-го ранга; P1 - население главного города страны (1-го ранга).[3]

Эмпирические исследования подтвердили данное утверждение.[4][5][6][7][8]

В 1999 году экономист Ксавье Габэ написал научный труд, в которой описывал закон Ципфа как “закон силы": если города будут расти случайным образом с одинаковым среднеквадратичным отклонением, то в пределе распределение будет сходиться к закону Ципфа.[9]

Закон Ципфа и экономика города Российской Федерации[править | править вики-текст]

Проверка Закона Ципфа по Списку городов России с населением более 100 тысяч жителей на 01.01.2015

Показатели* Москва Санкт Петербург Новосибирск Екатеринбург Нижний Новгород Казань Челябинск Омск Самара Ростов- на- Дону Уфа Ногинск
Численность на 01.01.2015, тыс. чел. 12 198 5 192 1 567 1 428 1 268 1 206 1 183 1 174 1 172 1 115 1 106 102
Ранги на 01.01.2015 1 2 3 4 5 6 7 8 9 10 11 169
По закону Ципфа (Москва/ранг), тыс. чел. 6 099 4 066 3 050 2 440 2 033 1 743 1 525 1 355 1 220 1 109 72
Отклонение, тыс. чел 907 2 499 1 622 1 172 827 560 351 183 105 3 -30

*- необходима корректировка: численность г. Москвы указана в новых границах, численность городов - центров субъектов Федерации без учетов городов спутников, входящие в агломерацию

Критика[править | править вики-текст]

Американский биолог Вэньтянь Ли[en] предложил опровержение закона Ципфа, доказав, что случайная последовательность символов также подчиняется закону Ципфа[10]. Автор делает гипотетический вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, не имеющим отношения к семантике текста.

В общих чертах доказательство этой теории состоит в следующем. Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растёт при этом номер этого слова в частотном списке. Потому произведение номера слова на его частоту есть константа.

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

  1. K. E. Kechedzhy, O.V. Usatenko, V. A. Yampol'skii Rank distributions of words in additive many-step Markov chains and the Zipf law = Arxiv LANL. — 2004.; Phys. Rev. E. — 2005. — V. 72. — P. 046138(1)-046138(6).
  2. 1 2 3 Zipf G.K. Human Behavior and the Principle of Least Effort. — Addison-Wesley Press, 1949. — 573 с.
  3. Занадворов В.С., Занадворова А.В. Экономика города: Вводный курс. ISBN 5-94628-099-6. Академкнига (2003).
  4. Jiang B, Jia T. Zipf's law for all the natural cities in the United States: a geospatial perspective. International Journal of Geographical Information Science 25(8), 1269-1281. (2011).
  5. Kali R. The city as a giant component: a random graph approach to Zipf's law. — Applied Economics Letters 10: 717-720(4), 2003.
  6. Axtell, Robert L. Zipf distribution of US firm sizes. American Association for the Advancement of Science (2001).
  7. Rozenfeld H, Rybski D, Andrade JS, Batty M, Stanley. Laws of Population Growth. Proc. Nat. Acad. Sci. 105, 18702–18707 (2008).
  8. О’Салливан А. Экономика города. — М.: Инфра-М, 2002. — С. 122. — 706 с. — ISBN 5-16-000673-7.
  9. Gabaix, Xavier. Zipf's Law for Cities: An Explanation. Quarterly Journal of Economics 114 (3): 739–67 (1999).
  10. Wentian Li Закон Ципфа работает и для случайных текстов = Random Texts Exhibit Zipf’s-Law-Like Word Frequency Distribution. — Santa Fe Institute, 1991. — С. 8.