Национальный корпус русского языка

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
Национальный корпус русского языка
URL:

http://ruscorpora.ru/

Коммерческий:

нет

Тип сайта:

образовательный/научный проект

Регистрация:

есть: необходима для получения доступа к текстам; лицензионное соглашение

Язык(и):

русский/английский

Расположение сервера:

Россия

Владелец:

Институт русского языка им. В. В. Виноградова РАН

Начало работы:

2004

Текущий статус:

работает и развивается

Национа́льный ко́рпус ру́сского языка́ (НКРЯ) — доступный для поиска электронный онлайновый корпус русских текстов. Открыт 29 апреля 2004 года по адресу http://ruscorpora.ru/. Также доступен для поиска исторический корпус церковнославянских, древнерусских (XI—XIV века) и среднерусских (XV — начало XVIII века) текстов.

Составители[править | править вики-текст]

Работы по созданию Корпуса были начаты в 2001 году группой лингвистов из Москвы, Санкт-Петербурга, Воронежа и других городов.

В программе по созданию Национального корпуса русского языка участвуют специалисты следующих организаций[1]:

Состав корпуса[править | править вики-текст]

В Корпус входят как письменные тексты (художественные, мемуары, публицистика, научная, религиозная литература, повседневная печатная продукция), так и записи устных текстов (публичной речи и частных бесед).

В корпус также входят подкорпуса поэтических и диалектных текстов, корпуса параллельных текстов (для следующих языков доступны параллельные корпуса с русским: английский, немецкий, украинский, белорусский; размещены также 10 многоязычных текстов, переведённых на 10-20 языков каждый), отдельный газетный корпус (материалы СМИ начала XXI века), церковнославянский корпус (богослужебных тексты, современные (XIX—XX век) и более ранних периодов), синтаксический, акцентологический, мультимедийный и обучающий подкорпусы.

Объём корпуса[править | править вики-текст]

Объём основного корпуса на 17 января 2013 года составлял 230 млн словоупотреблений, а общий объем корпусов — 384 млн словоупотреблений[3].

1,5 % текстов снабжены морфологической[4] и семантической[5] разметкой.

Корпус Число текстов Число предложений Число словоупотреблений % словоупотреблений
** размеченная часть корпуса 2 тыс. 500 тыс. 6 млн 1.5 %
* Основной корпус 84 тыс. 19.1 млн 230 млн 60 %
Весь корпус 342 тыс. 32 млн 384 млн 100 %

Доступ[править | править вики-текст]

В настоящее время свободным и бесплатным является только поиск по корпусу. Сайт корпуса и поиск по нему поддерживаются компанией «Яндекс», сотрудники которой принимали участие также в разработке программного обеспечения Корпуса. Доступ ко всему корпусу невозможен в связи с законом об авторских правах. Для получения доступа к 1/6 размеченной части подкорпуса необходимо зарегистрироваться и принять лицензионное соглашение[6].

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

Литература[править | править вики-текст]

Ссылки[править | править вики-текст]