Национальный корпус русского языка

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
Национальный корпус русского языка
URL ruscorpora.ru
Коммерческий нет
Тип сайта образовательный/научный проект
Регистрация есть: необходима для получения доступа к текстам; лицензионное соглашение
Язык(-и) русский/английский
Расположение сервера Россия
Владелец Институт русского языка имени В. В. Виноградова РАН
Начало работы 2003
Текущий статус работает и развивается
Рейтинг Alexa
 295 516 (1 октября 2017)[1]

Национа́льный ко́рпус ру́сского языка́ (НКРЯ) — доступный для поиска электронный онлайн-корпус русских текстов. Открыт 29 апреля 2004 года. Также доступен для поиска исторический корпус церковнославянских, древнерусских (XI—XIV века) и среднерусских (XV — начало XVIII века) текстов.

Составители[править | править код]

Работы по созданию корпуса были начаты в 2001 году группой лингвистов из Москвы, Санкт-Петербурга, Воронежа и других городов.

В программе по созданию Национального корпуса русского языка участвуют специалисты следующих организаций[2]:

Состав корпуса[править | править код]

В корпус входят как письменные тексты (художественные, мемуары, публицистика, научная, религиозная литература, повседневная печатная продукция), так и записи устных текстов (публичной речи и частных бесед).

В корпус также входят подкорпусы поэтических и диалектных текстов, корпусы параллельных текстов (для следующих языков доступны параллельные корпусы с русским: английский, армянский, белорусский, болгарский, бурятский, испанский, итальянский, китайский, латышский, немецкий, польский, украинский, французский, шведский, эстонский и многоязычный), отдельный газетный корпус (материалы СМИ начала XXI века), церковнославянский корпус (богослужебные тексты, современные (XIX—XX век) и более ранних периодов), исторический (в том числе древнерусский, старорусский, берестяных грамот), синтаксический, акцентологический, мультимедийный и обучающий подкорпусы.

С 2010 года в составе исторического подкорпуса Национального корпуса русского языка доступен текстовый корпус берестяных грамот с полной морфологической разметкой. Тексты берестяных грамот в составе корпуса интерактивно связаны с их представлением на сайте gramota.ru[4].

Объём корпуса[править | править код]

Объём основного корпуса на 7 апреля 2018 года составлял 283 млн словоупотреблений, а общий объём корпусов превышает 600 млн словоупотреблений[5].

Тексты снабжены метаразметкой (по дате создания, автору, жанру и т. п.); словоформы в текстах снабжены автоматической морфологической и семантической разметкой; параллельные тексты выровнены; тексты поэтического корпуса снабжены также особой метрической разметкой.

1,5 % текстов снабжены морфологической[6] и семантической[7] разметкой со снятой вручную омонимией («дезамбигуированный подкорпус»).

Корпус Число текстов Число предложений Число словоупотреблений % словоупотреблений
** дезамбигуированная часть корпуса 2 тыс. 500 тыс. 6 млн 1.6 %
* Основной корпус 84 тыс. 19,1 млн 209 млн 57.3 %
Весь корпус 342 тыс. 32 млн 364 млн 100 %

Доступ[править | править код]

В настоящее время свободным и бесплатным является только поиск по корпусу. Сайт корпуса и поиск по нему поддерживаются компанией «Яндекс», сотрудники которой принимали участие также в разработке программного обеспечения корпуса. Доступ ко всему корпусу невозможен в связи с законом об авторских правах. Для получения доступа к 1/6 размеченной части подкорпуса необходимо зарегистрироваться и принять лицензионное соглашение[8].

См. также[править | править код]

Примечания[править | править код]

  1. Глобальный рейтинг сайта «Национальный корпус русского языка» (англ.). Alexa Internet. Дата обращения 1 октября 2017.
  2. Участники проекта. Национальный корпус русского языка. Дата обращения 7 марта 2018.
  3. О проекте. Параллельные корпуса письменных текстов. Национальный корпус русского языка. Дата обращения 7 марта 2018.
  4. Зализняк А. А., Янин В. Л., Гиппиус А. А. Новгородские грамоты на бересте (из раскопок 2001—2014 гг.). Том XII. — М.: Языки славянской культуры, 2015. — 288 с.
  5. Национальный корпус русского языка. ruscorpora.ru. Дата обращения 7 марта 2018.
  6. Морфология. Национальный корпус русского языка. Дата обращения 7 марта 2018.
  7. Семантика. Национальный корпус русского языка. Дата обращения 7 марта 2018.
  8. Использование корпуса. Лицензионное соглашение. Национальный корпус русского языка. Дата обращения 7 марта 2018.

Литература[править | править код]

Ссылки[править | править код]