Качество машинного перевода

В настоящее время, несмотря на большие достижения в разработке программ для автоматизации перевода, машинный перевод все ещё не способен выдавать адекватный и эквивалентный результат, поэтому возникает вопрос об оценке текстов, переведенных с помощью автоматизированного компьютерного перевода ^[1].

Оценка качества перевода[править | править код]

На сегодняшний день существуют различные системы машинного перевода, некоторые из них выполняют перевод на довольно высоком уровне. Но для того, чтобы выявить, какие именно системы подходят для работы с теми или иными языками или типами текстов, необходимо осуществлять тестирование этих систем и анализировать качество перевода на основе больших фрагментов текстов.

Японский ученый Макато Нагао, специалист по компьютерным наукам, предложил шкалу оценки машинного перевода на основе лингвостилистического анализа, от пяти до одного балла ^[2].

1 балл — смысл предложения понятен и не возникает никаких вопросов, грамматика, словоупотребление и стиль соответствуют общей структуре текста и не требуют постредактирования
2 балла — смысл предложения понятен, но возникают большие проблемы с грамматикой, словоупотреблением и стилем.
3 балла — общий смысл предложения понятен, но смысл некоторых его частей вызывает сомнение из-за неправильного грамматического строя.
4 балла — присутствуют ошибки словоупотребления и стилистики, требуется обращение к оригиналу.
5 баллов — в предложении имеется большое количество грамматических, слово-употребительных и стилистических ошибок, смысл предложения с трудом можно понять после внимательного изучения.

Для автоматической оценки работы машинных переводчиков зачастую используются показатель Word Error Rate или WER, метрики BLEU и NIST. Эти инструменты позволяют успешно сравнивать работу разных систем МП и оценивать улучшения в работе конкретной системы ^[3].

BLEU[править | править код]

Метрика BLEU (Bilingual Evaluation Understudy) на данный момент самая популярная в современной оценке МП. Позволяет учитывать не только точность перевода отдельных слов, но и цепочек слов (N-граммы) [МП: обзор методов].

Метрика BLEU была разработана сотрудниками компании IBM и является одной из самых простых в использовании метрик оценки машинного перевода. Алгоритм BLEU оценивает качество перевода по шкале от 0 до 100 на основании сравнения машинного перевода с человеческим и поиска общих слов и фраз. Основная идея разработчиков метрики состоит в том, что чем лучше машинный перевод, тем больше он должен быть похож на человеческий ^[4].

Лучше всего такая метрика работает не на уровне предложений, а на уровне большого текста. На маленьком объёме текста метрика зачастую обнуляется из-за отсутствия совпадающих 4-грамм и работает некорректно. Существуют также доработанные варианты метрики, которые подходят для сравнения на уровне предложения.

NIST[править | править код]

Метрика NIST была разработана на основе BLEU, но имеет одно фундаментальное отличие. Если для получения высокой оценки BLEU важнее правильный порядок слов, то NIST выше оценивает правильный выбор лексики ^[5].

WER[править | править код]

Word Error Rate, или взвешенное расстояние Левенштейна, позволяет измерять расстояние между машинным и образцовым переводом так же, как мы измеряем расстояние между словарным словом и словом с опечаткой (считая символами не буквы, а целые слова) [МП: обзор методов]. По сути WER измеряет минимальное количество изменений, которые необходимо сделать, чтобы из результата работы МП получить эталонный перевод ^[6]. При этом WER может учитывать различные варианты эталонного перевода с разным порядком слов ^[5].

Примечания[править | править код]

↑ Архивированная копия (неопр.). Дата обращения: 8 января 2021. Архивировано 11 января 2021 года.
↑ Maschinelle Übersetzung^[de]
↑ [Vilar, 2006]
↑ [Молчанов, 2013]
↑ ¹ ² [Zhang, 2004]
↑ [Koehn, 2010]

Ссылки[править | править код]

[1] Архивная копия от 11 января 2021 на Wayback Machine
[2] Архивная копия от 2 апреля 2022 на Wayback Machine
[Vilar D., Jia Xu, D’Haro L., Ney H. Error Analysis of Machine Translation Output. In International Conference on Language Resources and Evaluation, pages 697—702, Genoa, Italy, 2006.]
[Машинный перевод: обзор методов и оценка качества. URL: http://lpcs.math.msu.su/~pentus/mfk2015/Lecture07_20151021.pdf Архивная копия от 9 января 2021 на Wayback Machine]
[Молчанов А. Статистические и гибридные методы перевода в технологиях компании ПРОМТ. М., 2013.]
[Koehn, P. Statistical Machine Translation. Cambridge, UK, 2010.]
[Zhang Y., Vogel S., Waibel A. Interpreting BLEU/NIST Scores: How Much Improvement do We Need to Have a Better System? // Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC-2004), Lisbon, Portugal, 2004.]

[1] Архивированная копия (неопр.). Дата обращения: 8 января 2021. Архивировано 11 января 2021 года.

[2] Maschinelle Übersetzung^[de]

[3] [Vilar, 2006]

[4] [Молчанов, 2013]

[автоссылка1-5] ¹ ² [Zhang, 2004]

[6] [Koehn, 2010]

[1]

[2]

[3]

[4]

[5]

[6]

Качество машинного перевода

Содержание

Оценка качества перевода[править | править код]

BLEU[править | править код]

NIST[править | править код]

WER[править | править код]

Примечания[править | править код]

Ссылки[править | править код]

Навигация

Качество машинного перевода

Оценка качества перевода[править | править код]

BLEU[править | править код]

NIST[править | править код]

WER[править | править код]

Примечания[править | править код]

Ссылки[править | править код]

Навигация

Поиск