Закон Ципфа

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
Закон Ципфа для русской Википедии

Закон Ципфа — эмпирическая закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова, см. шкала порядка). Например, второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее.

Закон впервые открыт французским стенографистом Жан-Батист Эстоуп в работе «Диапазон стенографии» в 1908 году[1], впервые применён для описания распределений размеров городов немецким физиком Феликсом Ауэрбахом в работе «Закон концентрации населения» в 1913 году[2], носит имя американского лингвиста Джорджа Ципфа, который в 1949 году активно популяризировал данную закономерность, впервые предложив использовать её для описания распределения экономических сил и социального статуса[2].

Объяснение закона Ципфа, основанное на корреляционных свойствах аддитивных марковских цепей (со ступенчатой функцией памяти) было дано в 2005 году[3].

Закон Ципфа математически описывается распределением Парето.

Приложения закона[править | править вики-текст]

Джордж Ципф в 1949 году впервые показал распределение доходов людей по их размерам: самый богатый человек имеет вдвое больше денег, чем следующий богач, и так далее. Это утверждение оказалось справедливым для ряда стран (Англия, Франция, Дания, Голландия, Финляндия, Германия, США) в период с 1926 по 1936 гг.[2]

Этот закон также работает в отношении распределения городской системы: город с самым большим населением в любой стране в два раза больше, чем следующий по размеру город, и так далее[2]. Если расположить все города некоторой страны в списке в порядке убывания численности населения, то каждому городу можно приписать некоторый ранг, то есть номер, который он получает в данном списке. При этом численность населения и ранг подчиняются простой закономерности, выражаемой формулой Рn = Р1/n, где Рn — население города n-го ранга; P1 — население главного города страны (1-го ранга)[4]. Эмпирические исследования подтверждают данное утверждение[5][6][7][8][9].

В 1999 году экономист Ксавье Габэ написал научный труд, в котором описывал закон Ципфа как «закон силы»: если города будут расти случайным образом с одинаковым среднеквадратичным отклонением, то в пределе распределение будет сходиться к закону Ципфа[10].

Согласно выводам исследователей по отношению к городскому расселению в Российской Федерации, в соответствии с законом Ципфа[11]:

  • большинство городов России лежит выше идеальной кривой Ципфа, поэтому ожидаемая тенденция — продолжение сокращения численности и людности средних и малых городов за счёт миграции в крупные города;
  • соответственно 7 городов-миллионников (Санкт-Петербург, Новосибирск, Екатеринбург, Нижний Новгород, Казань, Челябинск, Омск), находящиеся ниже идеальной кривой Ципфа, имеют существенный резерв роста населения и ожидают прирост населения;
  • существуют риски депопуляции первого города в ранге (Москвы) в связи с тем, что второй город (Санкт-Петербург) и последующие крупные города сильно отстают от идеальной кривой Ципфа в связи со снижением спроса на рабочую силу при одновременном росте стоимости проживания, включая, прежде всего, стоимость покупки и аренды жилья.

Критика[править | править вики-текст]

Американский специалист по биоинформатике Вэньтянь Ли[en] предложил статистическое объяснение закона Ципфа, доказав, что случайная последовательность символов также подчиняется этому закону[12]. Автор делает гипотетический вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, который не имеет отношения к семантике текста и имеет поверхностное значение для лингвистики.

В общих чертах доказательство этой теории состоит в следующем. Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растёт при этом ранг этого слова в частотном списке (порядковой шкале). Потому произведение ранга слова на его частоту есть константа.

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

  1. Alain Lelu Jean-Baptiste Estoup and the origins of Zipf’s law: a stenographer with a scientific mind (1868-1950) // Bolet´ın de Estad´ıstica e Investigaci´on Operativa. — 2014. — Т. 30, № 1. — С. 66-77.
  2. 1 2 3 4 Zipf G.K. Human Behavior and the Principle of Least Effort. — Addison-Wesley Press, 1949. — С. 484-490. — 573 с.
  3. K.E. Kechedzhy, O.V. Usatenko, V.A. Yampol'skii Rank distributions of words in additive many-step Markov chains and the Zipf law = Arxiv LANL. — 2004.; Phys. Rev. E. — 2005. — V. 72. — P. 046138(1)-046138(6).
  4. Занадворов В.С., Занадворова А.В. Экономика города: вводный курс. ISBN 5-94628-099-6. Академкнига (2003).
  5. Jiang B., Jia T. Zipf's law for all the natural cities in the United States: a geospatial perspective. International Journal of Geographical Information Science 25(8), 1269-1281 (2011).
  6. Kali R. The city as a giant component: a random graph approach to Zipf's law. — Applied Economics Letters 10: 717-720(4), 2003.
  7. Axtell, Robert L. Zipf distribution of US firm sizes. American Association for the Advancement of Science (2001).
  8. Rozenfeld H., Rybski D., Andrade JS., Batty M., Stanley. Laws of Population Growth. Proc. Nat. Acad. Sci. 105, 18702–18707 (2008).
  9. О’Салливан А. Экономика города. — М.: Инфра-М, 2002. — С. 122. — 706 с. — ISBN 5-16-000673-7.
  10. Gabaix, Xavier. Zipf's Law for Cities: An Explanation. Quarterly Journal of Economics 114 (3): 739–67 (1999).
  11. Фаттахов Р.В., Строев П.В. Пространственное развитие России: вызовы современности и формирование точек экономического роста. Финансовый университет при Правительстве Российской Федерации (22.06.2015).
  12. Wentian Li Закон Ципфа работает и для случайных текстов = Random Texts Exhibit Zipf’s-Law-Like Word Frequency Distribution. — Santa Fe Institute, 1991. — С. 8.