Генеральный интернет-корпус русского языка

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
Генеральный интернет-корпус русского языка
URL

webcorpora.ru

Коммерческий

нет

Тип сайта

образовательный/научный проект

Регистрация

есть: необходима для получения доступа к поиску

Язык(-и)

русский

Расположение сервера

Россия

Начало работы

2012 год

Текущий статус

работает и развивается

Рейтинг Alexa

 11 960 651 (9 сентября 2017)[1]

Генера́льный интерне́т-ко́рпус ру́сского языка́ (ГИКРЯ) — доступный для поиска электронный онлайновый корпус русских текстов из сети интернет. Открыт в 2013 году. Корпус включает в себя текстовые материалы из блогосферы, социальных сетей, с крупнейших новостных ресурсов и из литературных журналов.

Цели проекта[править | править вики-текст]

Проект имеет статус учебно-научного, и многие задачи компьютерной лингвистики решаются независимыми исследователями и научными группами на материале, полученном ГИКРЯ. В то время как другие корпусные проекты фокусируют свое внимание на художественной литературе и отредактированных текстах, Генеральный интернет-корпус предоставляет российским лингвистам своевременную[2] возможность изучать язык как он есть, со всеми региональными и сленговыми особенностями.

Корпус дает возможность производить:

В разное время НИР и самостоятельные исследования на материале проекта вели студенты, аспиранты и сотрудники МГУ, МФТИ, РГГУ, НГУ, НИУ ВШЭ, ИЯ РАН, ЮФУ, ЧГУ, ВГПУ, ИСАА МГУ.

Научные руководители проекта:

В создании и поддержке проекта участвовали:

Объём и состав корпуса[править | править вики-текст]

Объём корпуса на лето 2016 года составляет 19,8 миллиарда словоупотреблений, из них 49 % приходится на «Вконтакте», 40 % — на Живой Журнал, еще по 4 % — на Блоги Mail.ru и Новости, и 2 % — на Журнальный Зал[5]. В сегменте Новостей собраны материалы из источников: РИА Новости, Регнум, Лента.ру, Росбалт. Тексты снабжены метаразметкой (по дате создания текста, полу, месту и году рождения автора, интернет-жанру и так далее); все тексты снабжены автоматической морфологической разметкой и лемматизированы[5]. Большую часть текстов создают записи за 20132014 годы, хотя на некоторых сегментах, например, в Журнальном Зале, собраны тексты начиная с 1994 года[6].

Подкорпус Слов, млн Текстов
Блоги Mail.Ru 707 9882120
ВКонтакте 9820 193770717
Живой Журнал 8110 73229158
Журнальный Зал 313 56547
Новостной подкорпус (РИА, Regnum, Lenta.ru, Росбалт) 851 2964897
Весь корпус 19801 279903439

ГИКРЯ является одним из немногих мега-корпусов, достигающих объемом нескольких миллиардов слов.

Корпус Языки Доступ Сайт Объем Возможности
COW: Free, Large Web Corpora in European Languages Английский, французский, немецкий, испанский, шведский, нидерландский бесплатно, после регистрации, возможен ознакомительный доступ без регистрации https://webcorpora.org/ порядка 30 млрд слов формат KWIC, морфоразметка, поиск по CQP, разметка и поиск по дате, URL, стране, городу и т. д.
Sketch Engine Английский, французский, немецкий, итальянский, арабский, русский, испанский, португальский, корейский, японский, китайский; больше языков доступны платно платно, после регистрации, возможен ознакомительный доступ https://www.sketchengine.co.uk/ 86 млрд слов конкордансы, скетч-грамматика, тезаурусы, KWIC, морфоразметка, поиск по CQP
Aranea Corpora Английский, русский, финский, французский, немецкий, венгерский, испанский, итальянский, голландский, польский, словацкий бесплатно, после регистрации, возможен ознакомительный доступ без регистрации http://sketch.juls.savba.sk/aranea_about/ около 14 млрд слов noSketch Engine, конкордансы, скетч-грамматика, KWIC, морфоразметка, поиск по CQP, сравнение результатов запросов на разных языках
ГИКРЯ Генеральный интернет-корпус русского языка Русский бесплатно, регистрация по запросу http://www.webcorpora.ru/ 20 млрд слов формат KWIC, морфоразметка, конкордансы, поиск по CQP, разметка и поиск по дате, стране, городу, сегменту рунета, полу, году и месту рождения автора, пересылка результатов пользователями друг другу
CORPUS OF GLOBAL WEB-BASED ENGLISH (GloWbE) Английский, спецификация 20 стран мира без регистрации http://corpus.byu.edu/glowbe/ 1,9 млрд слов KWIC, конкордансы, коллокаты, сравнение результатов по диалектам, CQP, можно скачать весь корпус целиком

Доступ[править | править вики-текст]

В настоящее время интерфейс корпуса находится в стадии бета-тестирования, поэтому доступ к поиску по корпусу предоставляется и является бесплатным, однако предоставляется по заявке.

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

Литература[править | править вики-текст]

Ссылки[править | править вики-текст]