Качество машинного перевода

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

В настоящее время, несмотря на большие достижения в разработке программ для автоматизации перевода, машинный перевод все ещё не способен выдавать адекватный и эквивалентный результат, поэтому возникает вопрос об оценке текстов, переведенных с помощью автоматизированного компьютерного перевода [1].

Оценка качества перевода[править | править код]

На сегодняшний день существуют различные системы машинного перевода, некоторые из них выполняют перевод на довольно высоком уровне. Но для того, чтобы выявить, какие именно системы подходят для работы с теми или иными языками или типами текстов, необходимо осуществлять тестирование этих систем и анализировать качество перевода на основе больших фрагментов текстов.

Японский ученый Макато Нагао, специалист по компьютерным наукам, предложил шкалу оценки машинного перевода на основе лингвостилистического анализа, от пяти до одного балла [2].

  • 1 балл — смысл предложения понятен и не возникает никаких вопросов, грамматика, словоупотребление и стиль соответствуют общей структуре текста и не требуют постредактирования
  • 2 балла — смысл предложения понятен, но возникают большие проблемы с грамматикой, словоупотреблением и стилем.
  • 3 балла — общий смысл предложения понятен, но смысл некоторых его частей вызывает сомнение из-за неправильного грамматического строя.
  • 4 балла — присутствуют ошибки словоупотребления и стилистики, требуется обращение к оригиналу.
  • 5 баллов — в предложении имеется большое количество грамматических, слово-употребительных и стилистических ошибок, смысл предложения с трудом можно понять после внимательного изучения.

Для автоматической оценки работы машинных переводчиков зачастую используются показатель Word Error Rate или WER, метрики BLEU и NIST. Эти инструменты позволяют успешно сравнивать работу разных систем МП и оценивать улучшения в работе конкретной системы [3].

BLEU[править | править код]

Метрика BLEU (Bilingual Evaluation Understudy) на данный момент самая популярная в современной оценке МП. Позволяет учитывать не только точность перевода отдельных слов, но и цепочек слов (N-граммы) [МП: обзор методов].

Метрика BLEU была разработана сотрудниками компании IBM и является одной из самых простых в использовании метрик оценки машинного перевода. Алгоритм BLEU оценивает качество перевода по шкале от 0 до 100 на основании сравнения машинного перевода с человеческим и поиска общих слов и фраз. Основная идея разработчиков метрики состоит в том, что чем лучше машинный перевод, тем больше он должен быть похож на человеческий [4].

Лучше всего такая метрика работает не на уровне предложений, а на уровне большого текста. На маленьком объёме текста метрика зачастую обнуляется из-за отсутствия совпадающих 4-грамм и работает некорректно. Существуют также доработанные варианты метрики, которые подходят для сравнения на уровне предложения.

NIST[править | править код]

Метрика NIST была разработана на основе BLEU, но имеет одно фундаментальное отличие. Если для получения высокой оценки BLEU важнее правильный порядок слов, то NIST выше оценивает правильный выбор лексики [5].

WER[править | править код]

Word Error Rate, или взвешенное расстояние Левенштейна, позволяет измерять расстояние между машинным и образцовым переводом так же, как мы измеряем расстояние между словарным словом и словом с опечаткой (считая символами не буквы, а целые слова) [МП: обзор методов]. По сути WER измеряет минимальное количество изменений, которые необходимо сделать, чтобы из результата работы МП получить эталонный перевод [6]. При этом WER может учитывать различные варианты эталонного перевода с разным порядком слов [5].

Примечания[править | править код]

  1. Архивированная копия. Дата обращения: 8 января 2021. Архивировано 11 января 2021 года.
  2. Maschinelle Übersetzung[de]
  3. [Vilar, 2006]
  4. [Молчанов, 2013]
  5. 1 2 [Zhang, 2004]
  6. [Koehn, 2010]

Ссылки[править | править код]

  • [1] Архивная копия от 11 января 2021 на Wayback Machine
  • [2] Архивная копия от 2 апреля 2022 на Wayback Machine
  • [Vilar D., Jia Xu, D’Haro L., Ney H. Error Analysis of Machine Translation Output. In International Conference on Language Resources and Evaluation, pages 697—702, Genoa, Italy, 2006.]
  • [Машинный перевод: обзор методов и оценка качества. URL: http://lpcs.math.msu.su/~pentus/mfk2015/Lecture07_20151021.pdf Архивная копия от 9 января 2021 на Wayback Machine]
  • [Молчанов А. Статистические и гибридные методы перевода в технологиях компании ПРОМТ. М., 2013.]
  • [Koehn, P. Statistical Machine Translation. Cambridge, UK, 2010.]
  • [Zhang Y., Vogel S., Waibel A. Interpreting BLEU/NIST Scores: How Much Improvement do We Need to Have a Better System? // Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC-2004), Lisbon, Portugal, 2004.]