Корпус текстов

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

В лингвистике, кóрпус (во множественном числе допустимы две формы: кóрпусы и корпусá) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке.

Основные свойства корпуса[править | править вики-текст]

Среди множества определений корпуса можно выделить его главные свойства:

  • электронный - в современном понимании корпус должнем быть в электронном виде
  • репрезентативный - должен хорошо "представлять" объект, который моделирует
  • размеченный - главное отличие корпуса от коллекции текстов
  • прагматически ориентированный - должен быть создан под определенную задачу

Классификация корпусов[править | править вики-текст]

Классификацировать корпуса можно по различным признакам: цель создания корпуса, тип языковых данных, "литературность", жанр, динамичность, тип разметки, объем текстов и т.д. По критерию параллельности, например, корпуса можно разделить на одноязычные, двуязычные и многоязычные. Многоязычные и двуязычные делятся на два типа:

  1. параллельные - множество текстов и их переводов на один или несколько языков
  2. сопоставимые (псевдопараллельные) - оригинальные тексты на двух или нескольких языках

Разметка корпусов[править | править вики-текст]

Разметка заключается в приписывании текстам и их компонентам специальных тегов: лингвистических и внешних (экстралингвистических). Выделяют следующие лингвистические типы разметки: морфологическая, семантическая, синтаксическая, анафорическая, просодическая, дискурсная и т.д. К некоторым корпусам применяются дальнейшие структурные уровни анализа. В частности, некоторые небольшие корпусы могут быть полностью синтаксически размечены. Такие корпусы обычно называют глубоко аннотированными или синтаксическими, а сама синтаксическая структура при этом является деревом зависимостей. Ручная разметка (аннотирование) текстов - дорогостоящая и трудоемкая задача. На данный момент в открытом доступе представлены различные программные средства для разметки корпусов[1]. Условно их можно разделить на обособленные (stand-alone) и веб-ориентированные (web-based). При этом акцент разработчиков в последние годы сместился в сторону веб-приложений. Данные системы обладают рядом преимуществ:

  • возможность одновременной разметки одного документа несколькими людьми
  • не требуют установки дополнительных программных средств, кроме браузера
  • гибкое разграничение прав доступа
  • отображение текущего прогресса процесса разметки
  • возможность модификации размечаемого корпуса

Интернет как корпус[править | править вики-текст]

Современные технологии позволяют создавать «веб-корпуса», то есть корпуса, полученные путём обработки интернет источников:

Веб-корпус представляет собой особый вид лингвистического корпуса, который создан путем постепенной загрузки текстов из интернета при помощи автоматизированных процедур, которые на лету определяют язык и кодировку отдельных веб страниц, удаляют шаблоны, элементы навигации, ссылки и рекламу (т. н. boilerplate), осуществляют трансформацию на текст, фильтрацию, нормализацию и дедупликацию полученных документов, которые затем можно обработать традиционными инструментами корпусной лингвистики (токенизация, мирфосинтаксическая и синтаксическая аннотация) и внедрить в поисковую корпусную систему. Создание веб-корпуса не только намного дешевле, но прежде всего его размер может быть даже на порядок больше традиционных корпусов[2].

Владимѝр Бенко ARANEA - СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ

Применение[править | править вики-текст]

Корпус — основное понятие и база данных корпусной лингвистики. Анализ и обработка разных типов корпусов являются предметом большинства работ в области компьютерной лингвистики (например, извлечение ключевых слов), распознавания речи и машинного перевода, в которых корпусы часто применяются при создании скрытых марковских моделей для маркирования частей речи и других задач. Корпусы и частотные словари могут быть полезны в обучении иностранным языкам.

Корпуса текстов русского языка[править | править вики-текст]

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

Литература[править | править вики-текст]