Статистический машинный перевод

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Статистический машинный перевод — (Statistical machine translation — SMT)[1] — разновидность машинного перевода, где перевод генерируется на основе статистических моделей, параметры которых являются производными от анализа двуязычных корпусов текста (text corpora).

Статистический машинный перевод противопоставляют системам машинного перевода, основанным на правилах Rule-Based Machine Translation (RBMT) и на примерах Example-Based MT (EBMT).

Первые идеи статистического машинного перевода были опубликованы Уорреном Уивером (Warren Weaver), в 1949 году. «Вторая волна» — начало 1990-х, IBM. «Третья волна» — Google, Microsoft, Language Weaver, Яндекс …

Разработчики систем машинного перевода для улучшения качества вводят некоторые «сквозные» правила, тем самым превращая чисто статистические системы в Гибридный машинный перевод. Добавление некоторых правил, то есть создание гибридных систем, несколько улучшает качество переводов, особенно при недостаточном объёме входных данных, используемых при построении индекса машинного переводчика.

Основы[править | править вики-текст]

Преимущества SMT[править | править вики-текст]

  • Быстрая настройка
  • Легко добавлять новые направления перевода
  • Гладкость перевода

Недостатки SMT[править | править вики-текст]

  • «Дефицит» параллельных корпусов
  • Многочисленные грамматические ошибки
  • Нестабильность перевода

Языковые модели[править | править вики-текст]

В качестве языковой модели в системах статистического перевода используются преимущественно различные модификации n-граммной модели, утверждающей, что «грамматичность» выбора очередного слова при формировании текста определяется только тем, какие (n-1) слов идут перед ним[2].

  • n-граммы.
    •  — Достоинства: — высокое качество перевода для фраз, которые целиком помещаются в n-граммную модель.
    •  — Недостатки: — качественный перевод возможен только для фраз, которые целиком помещаются в n-граммную модель.

Статистические модели перевода[править | править вики-текст]

  • по словам (Word-based translation — WBT)[3]
  • по фразам (Phrase-based translation — PBT)[4][5]
  • по синтаксису (Syntax-based translation — SBT)[6]
  • по иерархическим фразам (Hierarchical phrase-based translation — HPBT)[7]

См. также[править | править вики-текст]

Источники[править | править вики-текст]