Корпус текстов

Внешние видеофайлы
Внешние видеофайлы
	Орехов Б. В. «Интернет-коллекции текстов на малых языках России: методика сбора, очистки и анализа» // Семинар «Компьютерная лингвистика», 2016

В лингвистике кóрпус (множественное число — кóрпусы^[1]) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке. Корпус текстов является предметом исследования корпусной лингвистики.

Основные свойства корпуса[править | править код]

Среди множества определений корпуса можно выделить его главные свойства:

электронный — в современном понимании корпус должен быть в электронном виде
репрезентативный — должен хорошо «представлять» объект, который моделирует
размеченный — главное отличие корпуса от коллекции текстов
прагматически ориентированный — должен быть создан под определённую задачу

Классификация корпусов[править | править код]

Классифицировать корпусы можно по различным признакам: цель создания корпуса, тип языковых данных, «литературность», жанр, динамичность, тип разметки, объём текстов и так далее. По критерию параллельности, например, корпусы можно разделить на одноязычные, двуязычные и многоязычные. Многоязычные и двуязычные делятся на два типа:

параллельные — множество текстов и их переводов на один или несколько языков.
сопоставимые (псевдопараллельные) — оригинальные тексты на двух или нескольких языках.

Разметка корпусов[править | править код]

Разметка заключается в приписывании текстам и их компонентам специальных тегов: лингвистических и внешних (экстралингвистических). Выделяют следующие лингвистические типы разметки: морфологическая, семантическая, синтаксическая, анафорическая, просодическая, дискурсная и т. д. К некоторым корпусам применяются дальнейшие структурные уровни анализа. В частности, некоторые небольшие корпусы могут быть полностью синтаксически размечены. Такие корпусы обычно называют глубоко аннотированными или синтаксическими, а сама синтаксическая структура при этом является деревом зависимостей.

Ручная разметка (аннотирование) текстов — дорогостоящая и трудоемкая задача. На данный момент в открытом доступе представлены различные программные средства для разметки корпусов^[3]. Условно их можно разделить на обособленные (stand-alone) и веб-ориентированные (web-based). При этом акцент разработчиков в последние годы сместился в сторону веб-приложений. Данные системы обладают рядом преимуществ:

возможность одновременной разметки одного документа несколькими людьми
не требуют установки дополнительных программных средств, кроме браузера
гибкое разграничение прав доступа
отображение текущего прогресса процесса разметки
возможность модификации размечаемого корпуса

Интернет как корпус[править | править код]

Современные технологии позволяют создавать «веб-корпусы», то есть корпусы, полученные путём обработки интернет-источников:

Веб-корпус представляет собой особый вид лингвистического корпуса, который создан путем постепенной загрузки текстов из интернета при помощи автоматизированных процедур, которые на лету определяют язык и кодировку отдельных веб страниц, удаляют шаблоны, элементы навигации, ссылки и рекламу (т. н. boilerplate), осуществляют трансформацию на текст, фильтрацию, нормализацию и дедупликацию полученных документов, которые затем можно обработать традиционными инструментами корпусной лингвистики (токенизация, мирфосинтаксическая и синтаксическая аннотация) и внедрить в поисковую корпусную систему. Создание веб-корпуса не только намного дешевле, но прежде всего его размер может быть даже на порядок больше традиционных корпусов^[4].
— Владимѝр Бенко ARANEA — СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ

Применение[править | править код]

Корпус — основное понятие и база данных корпусной лингвистики. Анализ и обработка разных типов корпусов являются предметом большинства работ в области компьютерной лингвистики (например, извлечение ключевых слов), распознавания речи и машинного перевода, в которых корпусы часто применяются при создании скрытых марковских моделей для маркирования частей речи и других задач. Корпусы и частотные словари могут быть полезны в обучении иностранным языкам.

Корпусы текстов русского языка[править | править код]

См. также[править | править код]

Примечания[править | править код]

↑ ГРАМОТА.РУ – справочно-информационный интернет-портал «Русский язык» | Словари | Проверка слова (неопр.). gramota.ru. Дата обращения: 26 декабря 2019. Архивировано 17 сентября 2019 года.
↑ Диаграмма создана по материалам книги "Захаров В. П., Богданова С. Ю. Корпусная лингвистика: учебник. 3-е изд., перераб. —СПб.: Изд-во С.-Петерб. ун-та, 2020. — 234 с."
↑ Ванюшкин, Гращенко, 2017.
↑ ARANEA : СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ — Сообщество "Письменное наследие" (неопр.). textualheritage.org. Дата обращения: 26 декабря 2019. Архивировано 9 августа 2020 года.
↑ Глазкова, А. (2018), "Автоматический поиск фрагментов, содержащих биографическую информацию, в тексте на естественном языке", Труды Института системного программирования РАН, 30(6): 221–236, doi:10.15514/ISPRAS-2018-30(6)-12
↑ Рубцова, Ю. (2015), "Построение корпуса текстов для настройки тонового классификатора", Программные продукты и системы, 1(109): 72–78, doi:10.15827/0236-235x.109.072-078 Источник (неопр.). Дата обращения: 24 августа 2020. Архивировано 7 августа 2020 года.

Литература[править | править код]

Ванюшкин А.С., Гращенко Л.А. Оценка алгоритмов извлечения ключевых слов: инструментарий и ресурсы // Новые информационные технологии в автоматизированных системах. — 2017. — Вып. 20. — ISSN 2227-0973.
Николаев И. С., Митренина О. В., Ландо Т. М. Прикладная и компьютерная лингвистика. — М.: URSS, 2016. — 320 с.

[1] ГРАМОТА.РУ – справочно-информационный интернет-портал «Русский язык» | Словари | Проверка слова (неопр.). gramota.ru. Дата обращения: 26 декабря 2019. Архивировано 17 сентября 2019 года.

[2] Диаграмма создана по материалам книги "Захаров В. П., Богданова С. Ю. Корпусная лингвистика: учебник. 3-е изд., перераб. —СПб.: Изд-во С.-Петерб. ун-та, 2020. — 234 с."

[_888ba3dfab8467bf-3] Ванюшкин, Гращенко, 2017.

[4] ARANEA : СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ — Сообщество "Письменное наследие" (неопр.). textualheritage.org. Дата обращения: 26 декабря 2019. Архивировано 9 августа 2020 года.

[5] Глазкова, А. (2018), "Автоматический поиск фрагментов, содержащих биографическую информацию, в тексте на естественном языке", Труды Института системного программирования РАН, 30(6): 221–236, doi:10.15514/ISPRAS-2018-30(6)-12

[6] Рубцова, Ю. (2015), "Построение корпуса текстов для настройки тонового классификатора", Программные продукты и системы, 1(109): 72–78, doi:10.15827/0236-235x.109.072-078 Источник (неопр.). Дата обращения: 24 августа 2020. Архивировано 7 августа 2020 года.

[1]

[2]

[3]

[4]

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Сегментация текста^[en] Частеречная разметка Поверхностно-синтаксический анализ Обработка сложных слов^[en] Извлечение коллокаций^[en] Стемминг Лемматизация Распознавание именованных сущностей^[en] Разрешение кореферентности Анализ тональности текста Извлечение концептов^[en] Синтаксический анализ Разрешение лексической многозначности Извлечение терминологии^[en] Извлечение информации Идентификация языка Определение регистра^[en]
Реферирование	Извлечение предложений^[en] Генерация реферата Многодокументное реферирование^[en] Упрощение текста^[en]
Машинный перевод	Автоматизированный Гибридный Интерлингвальный^[en] На основе правил На основе примеров На основе словаря^[en] На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений^[en] Конкордансер Предиктивный ввод текста Система проверки грамматики^[en] Система проверки правописания Угадывание синтаксиса^[en]
Интерфейс на естественном языке^[en]	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература

Корпус текстов

Содержание

Основные свойства корпуса[править | править код]

Классификация корпусов[править | править код]

Разметка корпусов[править | править код]

Интернет как корпус[править | править код]

Применение[править | править код]

Корпусы текстов русского языка[править | править код]

См. также[править | править код]

Примечания[править | править код]

Литература[править | править код]

Навигация

Корпус текстов

Основные свойства корпуса[править | править код]

Классификация корпусов[править | править код]

Разметка корпусов[править | править код]

Интернет как корпус[править | править код]

Применение[править | править код]

Корпусы текстов русского языка[править | править код]

См. также[править | править код]

Примечания[править | править код]

Литература[править | править код]

Навигация

Поиск