Квантитативная лингвистика

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Квантитати́вная лингви́стика (англ. quantitative linguistics) — это раздел общей лингвистики и, в частности, математической лингвистики. Квантитативная лингвистика (КЛ) исследует язык при помощи статистических методов; её конечная цель — сформулировать законы, по которым функционирует язык и, в конечном счете, построить общую теорию языка в виде совокупности взаимосвязанных законов функционирования языков[1] Специально для этой цели была создана синергетическая лингвистика (Synergetic linguistics).[2] КЛ эмпирически основывается на результатах языковой статистики, которая, в свою очередь, может интерпретироваться как статистика языков или статистика лингвистического объекта. Эта область знаний не обязательно связана с фундаментальными научными целями. Корпусная лингвистика и компьютерная лингвистика также вносят свой вклад в КЛ, поставляя важные эмпирические данные.

История[править | править вики-текст]

Самые ранние концепции КЛ относятся к древнегреческой и древнеиндийской культурам. Один из исторических источников включает приложения комбинаторики к лингвистическим реалиям[3], другой основывается на элементарных статистических исследованиях, которые можно найти под заголовками колометрия и стихометрия.[4]

Языковые законы в квантитативной лингвистике[править | править вики-текст]

В КЛ под законом понимается класс гипотез, выведенных из теоретических допущений, математически сформулированных, взаимосвязанных с другими законами в этой области и в достаточном объёме и успешно проверенных на эмпирических данных, то есть таких, которые нельзя было опровергнуть несмотря на многочисленные попытки. Köhler пишет о законах КЛ: «Более того, можно показать, что эти свойства лингвистических элементов и отношений между ними подчиняются универсальным законам, которые могут быть сформулированы строго математически также как и законы естественных наук. Нужно иметь в виду в данном контексте, что эти законы стохастической природы; они не соблюдаются в каждом отдельном случае (в этом не было бы необходиомсти и возможности); они скорее определяют вероятности событий или количественные отношения изучаемых явлений. Легко найти противоположные примеры каждому из упомянутых выше примеров; тем не менее, эти случаи не нарушают соответствующих законов, поскольку вариации вокруг статистического среднего не только допустимы, но и даже необходимы; сами они квантитативно точно определяются соответствующими законами. Ситуация такая же, как и в естественных науках, которые уже давно отказались от старых детерминистских и каузальных (причинно-следственных) взглядов на мир и заменили их на статистические/вероятностные модели.»[5]

Некоторые языковые (лингвистические) законы[править | править вики-текст]

Существует целый ряд языковых законов, среди которых[6]:

  • Закон диверсификации: Если лингвистические категории (такие, например, как части речи или грамматические окончания) появляются в различных формах, то можно сказать, что частоты их появления в текстах контролируются определенными законами.
  • Распределение длин (или, в более общем виде, многокомпонентности). Исследование частот различных языковых единиц с точки зрения их длин в текстах и словарях регулярно приводит к выявлению целого ряда распределений, в зависимости от изучаемой единицы. На данный момент были изучены следующие единицы:
    • Закон распределения длин морфов;
    • Закон распределения длин ритмических единиц;
    • Закон распределения длин предложений;
    • Закон распределения длин слогов;
    • Закон распределения длин слов;

Другие языковые единицы, которые также подчиняются этому закону, — это, например, буквы (символы) различной сложности, длины так называемых hrebs и речевых актов. Это же справедливо и для распределений звуков (фонов) различной длительности (долготы).

  • Закон Мартина: Этот закон касается лексических цепочек, которые образуются при поиске дефиниций (определений) слов в словаре, затем дефиниций только что найденных дефиниций и т. д. В конце концов все эти дефиниции образуют иерархию всё более и более общих значений, при этом дефиниций становится тем меньше, чем более общее значение получается. Среди уровней данной иерархии существует целый ряд подчиняющихся закону отношений.
  • Закон Менцерата (также, в особенности в лингвистике, известный как закон Менцерата-Альтмана): Данный закон гласит, что размеры составляющих конструкции уменьшаются с увеличением самой изучаемой конструкции. Чем длиннее, например, предложение (измеренное количеством входящих в его состав придаточных предложений), тем короче входящие в его состав придаточные предложения (измеренные количеством слов), или: чем длиннее слово (в слогах или морфах), тем короче слоги или слова в звуках.
  • Законы частотно-рангового распределения: Практически любая языковая единица подчиняется этим закономерностям. Приведем лишь несколько примеров:
    • Слова в тексте организованы в соответствии с частотой их появления в тексте, и каждому из них присвоен номер ранга и соответствующая частота. Со времен Джорджа Кингсли Ципфа (широкоизвестный закон Ципфа), предлагалось большое количество математических моделей, описывающих отношения между рангом и частотой.
    • Можно наблюдать похожее распределение между рангом и частотой звуков, фонем и букв.
    • Словесные ассоциации: Ранг и частота ассоциаций реагируют на (словесный) стимул.
  • Закон изменения языка: Процессы роста в языке (как, например, рост словаря), распространение иностранных и заимствованных слов, изменения в флективной системе и т. д. подчиняются закону, известному в КЛ как закон Пиотровского, и соответствуют моделям роста в других научных дисциплинах. Закон Пиотровского — это частный случай так называемой логистической модели (ср. с логистическим уравнением). Было показано, что он затрагивает и процессы усвоение языка (ср. закон усвоения языка).
  • Закон текстового блока: Лингвистические единицы (напр., слова, буквы, синтаксические функции и конструкции) демонстрируют определенное распределение частоты в одинаково больших блоках текстов.
  • Закон Ципфа: Частота слова обратно пропорциональна его порядковому номеру в списках частотности.[7]

Стилистика[править | править вики-текст]

Изучение поэтического и непоэтического стилей может основываться на статистических методах; более того, возможно проводить соответствующие исследования на основе особых форм (параметров), которые языковые законы принимают в текстах различных стилей. В таких случаях КЛ проводит исследование в стилистике: одна из итоговых целей — доказать настолько объективно, насколько это возможно, по крайней мере в одной области действий существование стилистического феномена, ссылаясь на действие языкового закона. Одно из главных предположений КЛ состоит в том, что некоторые законы (например, закон распределения длин слов) требуют различных моделей, по крайне мере различных значений параметров закона (распределений или функций), в зависимости от типа текста, к которому принадлежит этот текст. Если изучаются поэтические тексты, то методы КЛ образуют поддисциплину, которая называется «Квантитативное изучение литературы» (Стилометрия).[8]

Литература[править | править вики-текст]

  • Karl-Heinz Best: Quantitative Linguistik. Eine Annäherung. 3., stark überarbeitete und ergänzte Auflage. Peust & Gutschmidt, Göttingen 2006, ISBN 3-933043-17-4.
  • Emmerich Kelih: Geschichte der Anwendung quantitativer Verfahren in der russischen Sprach- und Literaturwissenschaft. Kovač, Hamburg 2008. ISBN 978-3-8300-3575-6.
  • В. В. Левицкий: Квантитативные методы в лингвистике. Нова книга, Винница 2007. ISBN 978-966-382-046-0.
  • О. В. Филатов: Методика поиска степени родства языков по чередованию гласных и согласных букв в письменных источниках. Журнал научных публикаций аспирантов и докторантов, № 9, 2014. ISSN 1991-3087

Примечания[править | править вики-текст]

  1. Reinhard Köhler: Gegenstand und Arbeitsweise der Quantitativen Linguistik. In: Reinhard Köhler, Gabriel Altmann, Rajmund G. Piotrowski (Hrsg.): Quantitative Linguistik — Quantitative Linguistics. Ein internationales Handbuch. de Gruyter, Berlin/ New York 2005, S. 1-16. ISBN 3-11-015578-8.
  2. Reinhard Köhler: Synergetic linguistics. In: Reinhard Köhler, Gabriel Altmann, Rajmund G. Piotrowski (Hrsg.): Quantitative Linguistik — Quantitative Linguistics. Ein internationales Handbuch. de Gruyter, Berlin/ New York 2005, S. 760—774. ISBN 3-11-015578-8.
  3. N.L. Biggs: The Roots of Combinatorics. In: Historia Mathematica 6, 1979, S. 109—136.
  4. Adam Pawłowski: Prolegomena to the History of Corpus and Quantitative Linguistics. Greek Antiquity. In: Glottotheory 1, 2008, S. 48-54.
  5. cf. note 1, p. 1-2.
  6. cf. references: Köhler, Altmann, Piotrowski (eds.) (2005)
  7. H. Guiter, M. V. Arapov (eds.): Studies on Zipf’s Law. Bochum: Brockmeyer 1982. ISBN 3-88339-244-8.
  8. Alexander Mehler: Eigenschaften der textuellen Einheiten und Systeme. In: Reinhard Köhler, Gabriel Altmann, Rajmund G. Piotrowski (Hrsg.): Quantitative Linguistik — Quantitative Linguistics. Ein internationales Handbuch. de Gruyter, Berlin/ New York 2005, p. 325—348, esp. Quantitative Stilistik, p. 339—340. ISBN 3-11-015578-8; Vivien Altmann, Gabriel Altmann: Anleitung zu quantitativen Textanalysen. Methoden und Anwendungen. Lüdenscheid: RAM-Verlag 2008, ISBN 978-3-9802659-5-9.