Квантитативная лингвистика

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Квантитати́вная лингви́стика (англ. quantitative linguistics) — раздел общей лингвистики и, в частности, математической лингвистики. Квантитативная лингвистика (КЛ) исследует язык при помощи статистических методов; её конечная цель — сформулировать законы, по которым функционирует язык и, в конечном счете, построить общую теорию языка в виде совокупности взаимосвязанных законов функционирования языков[1]:1-16 Специально для этой цели была создана[кем?] синергетическая лингвистика (Synergetic linguistics).[1]:760-774 КЛ эмпирически основывается на результатах языковой статистики, которая, в свою очередь, может интерпретироваться как статистика языков или статистика лингвистического объекта. Эта область знаний не обязательно связана с фундаментальными научными целями. Корпусная лингвистика и компьютерная лингвистика также вносят свой вклад в КЛ, поставляя важные эмпирические данные.

История[править | править код]

Самые ранние концепции КЛ относятся к древнегреческой и древнеиндийской культурам. Один из исторических источников включает приложения комбинаторики к лингвистическим реалиям[2], другой основывается на элементарных статистических исследованиях, которые можно найти под заголовками колометрия и стихометрия.[3]

Языковые законы в квантитативной лингвистике[править | править код]

В КЛ под законом понимается класс гипотез, выведенных из теоретических допущений, математически сформулированных, взаимосвязанных с другими законами в этой области и в достаточном объёме и успешно проверенных на эмпирических данных, то есть таких, которые нельзя было опровергнуть несмотря на многочисленные попытки. Köhler пишет о законах КЛ: «Более того, можно показать, что эти свойства лингвистических элементов и отношений между ними подчиняются универсальным законам, которые могут быть сформулированы строго математически, так же как и законы естественных наук. Нужно иметь в виду в данном контексте, что эти законы стохастической природы; они не соблюдаются в каждом отдельном случае (в этом не было бы необходимости и возможности); они скорее определяют вероятности событий или количественные отношения изучаемых явлений. Каждому из упомянутых выше примеров легко найти противоположные, тем не менее эти случаи не нарушают соответствующих законов, поскольку вариации вокруг статистического среднего не только допустимы, но даже и необходимы, так как сами они квантитативно точно определяются соответствующими законами. Ситуация такая же, как и в естественных науках, которые уже давно отказались от старых детерминистских и каузальных (причинно-следственных) взглядов на мир и заменили их на статистические/вероятностные модели»[4].

Некоторые языковые (лингвистические) законы[править | править код]

Существует целый ряд языковых законов, среди которых[5]:

  • Закон диверсификации: Если лингвистические категории (такие, например, как части речи или грамматические окончания) появляются в различных формах, то можно сказать, что частоты их появления в текстах контролируются определёнными законами.
  • Закон распределение длин (или, в более общем виде, многокомпонентности). Исследование частот различных языковых единиц с точки зрения их длин в текстах и словарях регулярно приводит к выявлению целого ряда распределений, в зависимости от изучаемой единицы. На данный момент были изучены следующие единицы:
    • Закон распределения длин морфов;
    • Закон распределения длин ритмических единиц[6];
    • Закон распределения длин предложений;
    • Закон распределения длин слогов;
    • Закон распределения длин слов[7][8];

Другие языковые единицы, которые также подчиняются этому закону, — это, например, буквы (символы) различной сложности, длины так называемых hrebs и речевых актов. Это же справедливо и для распределений звуков (фонов) различной длительности (долготы).

  • Закон Мартина: Этот закон касается лексических цепочек, которые образуются при поиске дефиниций (определений) слов в словаре, затем дефиниций только что найденных дефиниций и т. д. В конце концов все эти дефиниции образуют иерархию всё более и более общих значений, при этом дефиниций становится тем меньше, чем более общее значение получается. Среди уровней данной иерархии существует целый ряд подчиняющихся закону отношений.
  • Закон Менцерата (также, в особенности в лингвистике, известный как закон Менцерата-Альтмана): Данный закон гласит, что размеры составляющих конструкции уменьшаются с увеличением самой изучаемой конструкции. Чем длиннее, например, предложение (измеренное количеством входящих в его состав придаточных предложений), тем короче входящие в его состав придаточные предложения (измеренные количеством слов), или: чем длиннее слово (в слогах или морфах), тем короче слоги или их звучание.
  • Законы частотно-рангового распределения: Практически любая языковая единица подчиняется этим закономерностям. Приведём лишь несколько примеров:
    • Слова в тексте организованы в соответствии с частотой их появления в тексте, и каждому из них присвоен номер ранга и соответствующая частота. Со времён Джорджа Кингсли Ципфа (и его известного закона) предлагалось большое количество математических моделей, описывающих отношения между рангом и частотой.
    • Можно наблюдать похожее распределение между рангом и частотой звуков, фонем и букв.
    • Словесные ассоциации: ранг и частота ассоциаций реагируют на (словесный) стимул.
  • Закон изменения языка: процессы роста в языке (как, например, расширение словаря), распространение иностранных и заимствованных слов, изменения во флективной системе — подчиняются закону, известному в КЛ как закон Пиотровского, и соответствуют моделям роста в других научных дисциплинах. Закон Пиотровского — это частный случай так называемой логистической модели (ср. с логистическим уравнением). Было показано, что он затрагивает и процессы усвоение языка (ср. закон усвоения языка).
  • Закон текстового блока: лингвистические единицы (напр., слова, буквы, синтаксические функции и конструкции) демонстрируют определённые распределения частот в одинаково больших блоках текстов.
  • Закон Ципфа: частота слова обратно пропорциональна его порядковому номеру в списках частотности[9].

Стилистика[править | править код]

Изучение поэтического и непоэтического стилей может основываться на статистических методах; более того, возможно проводить соответствующие исследования на основе особых форм (параметров), которые языковые законы принимают в текстах различных стилей. В таких случаях КЛ проводит исследование в стилистике: одна из итоговых целей — доказать существование стилистического феномена, ссылаясь на действие языкового закона (причём настолько объективно, насколько это вообще возможно. Одно из главных предположений КЛ состоит в том, что некоторые законы (например, закон распределения длин слов) требуют различных моделей, по крайне мере различных значений параметров закона (распределений или функций), в зависимости от типа текста. Если изучаются поэтические тексты, то методы КЛ образуют поддисциплину, которая называется «Квантитативное изучение литературы» (Стилометрия)[10].

Литература[править | править код]

  • Karl-Heinz Best: Quantitative Linguistik. Eine Annäherung. 3., stark überarbeitete und ergänzte Auflage. Peust & Gutschmidt, Göttingen 2006, ISBN 3-933043-17-4.
  • Karl-Heinz Best, Otto Rottmann: Quantitative Linguistics, an Invitation. RAM-Verlag, Lüdenscheid 2017. ISBN 978-3-942303-51-4.
  • Peter Grzybek, Emmerich Kelih: Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft. In: Reinhard Köhler, Gabriel Altmann, Gabriel, Rajmund G. Piotrowski (eds.): Quantitative Linguistik - Quantitative Linguistics. Ein internationales Handbuch – An International Handbook. de Gruyter, Berlin/ New York 2005, p. 23-64. ISBN 3-11-015578-8.
  • Emmerich Kelih: Geschichte der Anwendung quantitativer Verfahren in der russischen Sprach- und Literaturwissenschaft. Kovač, Hamburg 2008. ISBN 978-3-8300-3575-6.
  • Sebastian Kempgen: Russische Sprachstatistik. Systematischer Überblick und Bibliographie. Verlag Otto Sagner, München 1995. ISBN 3-87690-617-2.
  • В. В. Левицкий: Квантитативные методы в лингвистике. Нова книга, Винница 2007. ISBN 978-966-382-046-0.
  • A.V. Zenkov, A Method of Text Attribution Based on the Statistics of Numerals // Journal of Quantitative Linguistics. 2018, Vol. 25, No.3, p. 256–270. DOI: 10.1080/09296174.2017.1371915.

Примечания[править | править код]

  1. 1 2 Reinhard Köhler. Gegenstand und Arbeitsweise der Quantitativen Linguistik // Quantitative Linguistics / Reinhard Köhler, Gabriel Altmann, Rajmund G. Piotrowski (Hrsg.). — Berlin/ New York: Ein internationales Handbuch. de Gruyter, 2005. — ISBN 3-11-015578-8.
  2. N.L. Biggs: The Roots of Combinatorics. In: Historia Mathematica 6, 1979, S. 109—136.
  3. Adam Pawłowski: Prolegomena to the History of Corpus and Quantitative Linguistics. Greek Antiquity. In: Glottotheory 1, 2008, S. 48-54.
  4. cf. note 1, p. 1-2.
  5. cf. references: Köhler, Altmann, Piotrowski (eds.) (2005)
  6. Marina Knaus: Zur Verteilung rhythmischer Einheiten in russischer Prosa. In: Glottometrics 16, 2008, p. 57-62. (PDF ram-verlag.eu)
  7. Ioan-Iovitz Popescu, et alii: Word length: aspects and languages. In: Reinhard Köhler, Gabriel Altmann (eds.): Issues in Quantitative Linguistics 3. Dedicated to Karl-Heinz Best on the occasion of his 70th birthday. Lüdenscheid: RAM-Verlag 2013, p. 224-281. ISBN 978-3-942303-12-5.
  8. Ioan-Iovitz Popescu, Karl-Heinz Best, Gabriel Altmann: Unified Modelling of Length in Language. Lüdenscheid: RAM-Verlag 2014. ISBN 978-3-942303-26-2.
  9. H. Guiter, M. V. Arapov (eds.): Studies on Zipf’s Law. Bochum: Brockmeyer 1982. ISBN 3-88339-244-8.
  10. Alexander Mehler: Eigenschaften der textuellen Einheiten und Systeme. In: Reinhard Köhler, Gabriel Altmann, Rajmund G. Piotrowski (Hrsg.): Quantitative Linguistik — Quantitative Linguistics. Ein internationales Handbuch. de Gruyter, Berlin/ New York 2005, p. 325—348, esp. Quantitative Stilistik, p. 339—340. ISBN 3-11-015578-8; Vivien Altmann, Gabriel Altmann: Anleitung zu quantitativen Textanalysen. Methoden und Anwendungen. Lüdenscheid: RAM-Verlag 2008, ISBN 978-3-9802659-5-9.