Лемма (лингвистика)

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Ле́мма (англ. lemma) — начальная, словарная форма слова [1]. В русском языке для существительных и прилагательных это форма именительного падежа единственного числа, для глаголов и глагольных форм - форма инфинитива. Базовое понятие в области корпусной лингвистики, и автоматической обработки естественного языка. Процесс автоматического приведения слов текста к леммам называется лемматизация.

Например, фраза "Утром рано мама Милы мыла раму мылом" после лемматизации будет выглядеть так: утро, рано, мама, Мила, мыть, рама, мыло.

Лемма в корпусной лингвистике[править | править код]

В корпусной лингвистике поиск по лемме даёт контексты с упоминанием всех словоформ данной лексемы. Например, поиск по лемме кот даст контексты, содержащие кот, кота, коту, котами, котов и т.д. Этот тип поиска противопоставляется поиску по словоформе (word form search): в этом случае поиск по словоформе коту даст контексты содержащие именно эту грамматическую форму единственного числа дательного падежа.[2]

Лемма в информационном поиске и SEO оптимизации[править | править код]

  • лемматизация запросов исключает дубли. Например, «куплю дом в Питере» и «купить дом Санкт-Петербург» — это одинаковые запросы
  • ключи в исходной форме гораздо проще отсортировать
  • появляется возможность оценить частотность того или иного запроса[3]

Примечания[править | править код]

  1. Большакова Е. И., Воронцов К. В., Ефремова Н. Э., Клышинский Э. С., Лукашевич Н. В., Сапин А. С. Автоматическая обработка текстов на естественном языке и анализ данных: учеб. пособие. — М.: НИУ ВШЭ, 2017.
  2. Описание поиска по лемме (англ.). SketchEngine.
  3. Лемматизация в SEO (рус.).

Литература[править | править код]