Корпус современного американского английского языка

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Корпус современного американского английского (англ. Corpus of Contemporary American English, COCA) — электронный корпус текстов, созданный профессором корпусной лингвистики Марком Дэвисом[en] из Brigham Young University в 2000—2003 годах на основе текстов журнала Time, написанных с 1923 года[1].

Это наибольший (450 млн слов) корпус текстов американского варианта английского языка и единственный свободно доступный корпус на этом языке, включающий большое разнообразие текстов различных жанров. Он составлен из более чем 160 тыс. текстов, включая по 20 млн слов за каждый год с 1990 по 2011. Это наиболее широко используемый структурированный корпус текстов, ежемесячно его используют примерно 10 000 человек.

Состав[править | править вики-текст]

Другие корпусы Дэвиса[править | править вики-текст]

TIME Magazine corpus[править | править вики-текст]

Корпус составлен более чем из 275000 статей из архива журнала TIME и содержит больше 100 миллионов слов из текстов, написанных с 1923 по 2006 год. TIME Magazine Corpus интегрирован в общую систему других корпусов, созданных Марком Дэвисом (которая также включает в себя базы данных Corpus of Historical American English (COHA), Corpus del Español или Corpus of American Soap Operas)[2].

Принцип работы[править | править вики-текст]

Архитектура корпуса построена по принципу других проектов Марка Дэвиса, например корпуса современного американского английского языка — Corpus of Contemporary American English (COCA). Существует центральная база n-граммов, которая содержит информацию о каждом из ста миллионов слов корпуса. Они связаны с таблицами, позволяющими анализировать регистр, а также с отдельными таблицами для синонимов, лемм и форм, появляющихся у слова с течением времени.

Разметка текстов производилась с помощью CLAWS-теггера (Constituent Likelihood Automatic Word-tagging System)[3]. Эта же программа использовалась при создании других корпусов Марка Дэвиса, а также Британского национального корпуса.

Оборудование для корпуса было подобрано так, чтобы обеспечить крайне быстрый поиск — как правило, он занимает менее секунды даже для самых сложных запросов, содержащих словоформу, часть речи, частоту и регистр.

Возможности использования[править | править вики-текст]

TIME Magazine Corpus позволяет производить поиск как отдельных слов и словосочетаний, так и специфических грамматических форм или синонимических рядов, а также увидеть контекст их употребления и изменение частоты использования.

Корпус позволяет исследовать:

  • изменение частоты и контекста использования слов и фраз, связанных с переменами в культурной и социальной жизни общества
  • языковые перемены в морфологии и грамматических конструкциях
  • колебания частоты использования тех или иных групп слов со временем
  • семантические изменения слов на протяжении XX века

Доступ[править | править вики-текст]

Доступ к корпусу предоставляется бесплатно.

Необходима регистрация с предоставлением электронного адреса либо информации об организации и статусе пользователя в зависимости от требуемого уровня доступа. Уровней доступа пять в трёх категориях: not researcher, semi-researcher, researcher. Все они различаются объёмом предоставляемой информации в сутки (если начинающему пользователю доступно совершение 100 запросов в день, то профессор или аспирант, зарегистрированный в качестве исследователя, за тот же период времени может выполнить поиск 600 раз).

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

  1. Kauhanen, Henri The Corpus of Contemporary American English: Background and history. VARIENG (21 марта 2011). Проверено 13 октября 2011.
  2. Список корпусов, созданных Марком Дэвисом. По данным Google Analytics на март 2012 года, к услугам этой базы данных ежемесячно прибегают более 100 тысяч уникальных пользователей.
  3. CLAWS part-of-speech tagger for English

Ссылки[править | править вики-текст]