Генеральный интернет-корпус русского языка

Генеральный интернет-корпус русского языка
Генеральный интернет-корпус русского языка
URL	webcorpora.ru
Коммерческий	нет
Тип сайта	образовательный/научный проект
Регистрация	есть: необходима для получения доступа к поиску
Язык (-и)	русский
Расположение сервера	Россия
Начало работы	2012 год
Текущий статус	работает и развивается

Генера́льный интерне́т-ко́рпус ру́сского языка́ (ГИКРЯ) — доступный для поиска электронный онлайновый корпус русских текстов из сети интернет. Открыт в 2013 году. Корпус включает в себя текстовые материалы из блогосферы, социальных сетей, с крупнейших новостных ресурсов и из литературных журналов.

Цели проекта[править | править код]

Проект имеет статус учебно-научного, и многие задачи компьютерной лингвистики решаются независимыми исследователями и научными группами на материале, полученном ГИКРЯ. В то время как другие корпусные проекты фокусируют свое внимание на художественной литературе и отредактированных текстах, Генеральный интернет-корпус предоставляет российским лингвистам своевременную^[1] возможность изучать язык как он есть, со всеми региональными и сленговыми особенностями.

Корпус дает возможность производить:

Лингвистические исследования широкого спектра: диалектологические исследования, изучение дистрибуции слов, изучение языка социальных сетей, изучение влияния гендерных, возрастных и других факторов на язык, частотности слов, устойчивых выражений и различных конструкций, стилистических особенностей текстов разных сегментов интернета и так далее;
Анализ соцсетей;
Машинное обучение на базе корпуса^[2], улучшение алгоритмов автоматической разметки.

В разное время НИР и самостоятельные исследования на материале проекта вели студенты, аспиранты и сотрудники МГУ, МФТИ, РГГУ, НГУ, НИУ ВШЭ, ИЯ РАН, ЮФУ, ЧГУ, ВГПУ, ИСАА МГУ.

Научные руководители проекта:

Беликов В. И.— МГУ, РГГУ, Москва, Россия;
Селегей В. П. — РГГУ; МФТИ; ABBYY, Москва, Россия;
Шаров С. А. — РГГУ, Москва, Россия; University of Leeds, Великобритания^[3].

В создании и поддержке проекта участвовали:

Объём и состав корпуса[править | править код]

Объём корпуса на лето 2016 года составляет 19,8 миллиарда словоупотреблений, из них 49 % приходится на «Вконтакте», 40 % — на Живой Журнал, еще по 4 % — на Блоги@Mail.ru и Новости, и 2 % — на Журнальный зал^[4]. В сегменте Новостей собраны материалы из источников: РИА Новости, Regnum, Lenta.ru, Росбалт. Тексты снабжены метаразметкой (по дате создания текста, полу, месту и году рождения автора, интернет-жанру и так далее); все тексты снабжены автоматической морфологической разметкой и лемматизированы^[4]. Большую часть текстов создают записи за 2013—2014 годы, хотя на некоторых сегментах, например, в Журнальном зале, собраны тексты начиная с 1994 года^[5].

Подкорпус	Слов, млн	Текстов
Блоги@Mail.ru	707	9 882 120
ВКонтакте	9820	193 770 717
Живой Журнал	8110	73 229 158
Журнальный зал	313	56 547
Новостной подкорпус (РИА Новости, Regnum, Lenta.ru, Росбалт)	851	2 964 897
Весь корпус	19 801	279 903 439

ГИКРЯ является одним из немногих мегакорпусов, достигающих объемом нескольких миллиардов слов.

Корпус	Языки	Доступ	Сайт	Объем	Возможности
COW: Free, Large Web Corpora in European Languages	Английский, французский, немецкий, испанский, шведский, нидерландский	бесплатно, после регистрации, возможен ознакомительный доступ без регистрации	https://web.archive.org/web/20160221212019/https://webcorpora.org/	порядка 30 млрд слов	формат KWIC, морфоразметка, поиск по CQP, разметка и поиск по дате, URL, стране, городу и т. д.
Sketch Engine	английский, французский, немецкий, итальянский, арабский, русский, испанский, португальский, корейский, японский, китайский; больше языков доступны платно	платно, после регистрации, возможен ознакомительный доступ	https://www.sketchengine.co.uk/	86 млрд слов	конкордансы, скетч-грамматика, тезаурусы, KWIC, морфоразметка, поиск по CQP
Aranea Corpora	английский, русский, финский, французский, немецкий, венгерский, испанский, итальянский, голландский, польский, словацкий	бесплатно, после регистрации, возможен ознакомительный доступ без регистрации	http://sketch.juls.savba.sk/aranea_about/	около 14 млрд слов	noSketch Engine, конкордансы, скетч-грамматика, KWIC, морфоразметка, поиск по CQP, сравнение результатов запросов на разных языках
ГИКРЯ Генеральный интернет-корпус русского языка	русский	бесплатно, регистрация по запросу	http://www.webcorpora.ru/	20 млрд слов	формат KWIC, морфоразметка, конкордансы, поиск по CQP, разметка и поиск по дате, стране, городу, сегменту рунета, полу, году и месту рождения автора, пересылка результатов пользователями друг другу
CORPUS OF GLOBAL WEB-BASED ENGLISH (GloWbE)	английский, спецификация 20 стран мира	без регистрации	http://corpus.byu.edu/glowbe/	1,9 млрд слов	KWIC, конкордансы, коллокаты, сравнение результатов по диалектам, CQP, можно скачать весь корпус целиком

Доступ[править | править код]

В настоящее время интерфейс корпуса находится в стадии бета-тестирования, поэтому доступ к поиску по корпусу предоставляется и является бесплатным, однако предоставляется по заявке.

См. также[править | править код]

Примечания[править | править код]

↑ ВЛАДИМИР БЕЛИКОВ (рус.). Дата обращения: 26 декабря 2019. Архивировано 16 ноября 2019 года.
↑ Automatic Classification of Web Texts Using Functional Text Dimensions (неопр.). Дата обращения: 8 июня 2016. Архивировано 26 июня 2016 года.
↑ Коллектив | ГИКРЯ (рус.). Дата обращения: 26 декабря 2019. Архивировано 5 января 2020 года.
↑ ¹ ² Корпус | ГИКРЯ (рус.). Дата обращения: 26 декабря 2019. Архивировано 3 декабря 2019 года.
↑ #geekrya #geekrya_stats За какие.. | ГИКРЯ Генеральный интернет-корпус русского языка | VK

Литература[править | править код]

Ссылки[править | править код]

Официальный сайт ГИКРЯ

[1] ВЛАДИМИР БЕЛИКОВ (рус.). Дата обращения: 26 декабря 2019. Архивировано 16 ноября 2019 года.

[2] Automatic Classification of Web Texts Using Functional Text Dimensions (неопр.). Дата обращения: 8 июня 2016. Архивировано 26 июня 2016 года.

[3] Коллектив | ГИКРЯ (рус.). Дата обращения: 26 декабря 2019. Архивировано 5 января 2020 года.

[autogenerated1-4] ¹ ² Корпус | ГИКРЯ (рус.). Дата обращения: 26 декабря 2019. Архивировано 3 декабря 2019 года.

[5] #geekrya #geekrya_stats За какие.. | ГИКРЯ Генеральный интернет-корпус русского языка | VK

[1]

[2]

[3]

[4]

[5]

Корпусная лингвистика
Англоязычные корпусы	Национальный корпус американского английского Bank of English Bergen Corpus of London Teenage Language Британский национальный корпус Brown Corpus Buckeye Corpus Cambridge English Corpus Корпус современного американского английского языка Enron Corpus International Corpus of English Lancaster-Oslo-Bergen Corpus Oxford English Corpus PropBank Spoken English Corpus TIMIT VerbNet Wellington Corpus of Spoken New Zealand English
Русскоязычные корпусы	Генеральный интернет-корпус русского языка Национальный корпус русского языка Открытый корпус русского языка СинТагРус Тюбингенский корпус русского языка Уппсальский корпус русских текстов Хельсинкский аннотированный корпус русского языка
Корпусы на других языках	Bijankhan Corpus CHILDES Корпус хорватского языка Национальный корпус хорватского Europarl Corpus Мангеймский корпус немецкого языка Корпус Хамшахри Национальный корпус польского языка Neo-Assyrian Text Corpus Project Коранический корпус Национальный корпус шотландского языка Slovenian National Corpus TalkBank Татоэба Tehran Monolingual Corpus Tekstaro de Esperanto Thesaurus Linguae Graecae
Организации	Консорциум BNC COBUILD

Генеральный интернет-корпус русского языка

Содержание

Цели проекта[править | править код]

Объём и состав корпуса[править | править код]

Доступ[править | править код]

См. также[править | править код]

Примечания[править | править код]

Литература[править | править код]

Ссылки[править | править код]

Навигация

Генеральный интернет-корпус русского языка

Цели проекта[править | править код]

Объём и состав корпуса[править | править код]

Доступ[править | править код]

См. также[править | править код]

Примечания[править | править код]

Литература[править | править код]

Ссылки[править | править код]

Навигация

Поиск