Качество машинного перевода
Эту статью предлагается удалить. |
В настоящее время, несмотря на большие достижения в разработке программ для автоматизации перевода, машинный перевод все ещё не способен выдавать адекватный и эквивалентный результат, поэтому возникает вопрос об оценке текстов, переведенных с помощью автоматизированного компьютерного перевода [1].
Оценка качества перевода[править | править код]
На сегодняшний день существуют различные системы машинного перевода, некоторые из них выполняют перевод на довольно высоком уровне. Но для того, чтобы выявить, какие именно системы подходят для работы с теми или иными языками или типами текстов, необходимо осуществлять тестирование этих систем и анализировать качество перевода на основе больших фрагментов текстов.
Японский ученый Макато Нагао, специалист по компьютерным наукам, предложил шкалу оценки машинного перевода на основе лингвостилистического анализа, от пяти до одного балла [2].
- 1 балл — смысл предложения понятен и не возникает никаких вопросов, грамматика, словоупотребление и стиль соответствуют общей структуре текста и не требуют постредактирования
- 2 балла — смысл предложения понятен, но возникают большие проблемы с грамматикой, словоупотреблением и стилем.
- 3 балла — общий смысл предложения понятен, но смысл некоторых его частей вызывает сомнение из-за неправильного грамматического строя.
- 4 балла — присутствуют ошибки словоупотребления и стилистики, требуется обращение к оригиналу.
- 5 баллов — в предложении имеется большое количество грамматических, слово-употребительных и стилистических ошибок, смысл предложения с трудом можно понять после внимательного изучения.
Для автоматической оценки работы машинных переводчиков зачастую используются показатель Word Error Rate или WER, метрики BLEU и NIST. Эти инструменты позволяют успешно сравнивать работу разных систем МП и оценивать улучшения в работе конкретной системы [3].
BLEU[править | править код]
Метрика BLEU (Bilingual Evaluation Understudy) на данный момент самая популярная в современной оценке МП. Позволяет учитывать не только точность перевода отдельных слов, но и цепочек слов (N-граммы) [МП: обзор методов].
Метрика BLEU была разработана сотрудниками компании IBM и является одной из самых простых в использовании метрик оценки машинного перевода. Алгоритм BLEU оценивает качество перевода по шкале от 0 до 100 на основании сравнения машинного перевода с человеческим и поиска общих слов и фраз. Основная идея разработчиков метрики состоит в том, что чем лучше машинный перевод, тем больше он должен быть похож на человеческий [4].
Лучше всего такая метрика работает не на уровне предложений, а на уровне большого текста. На маленьком объёме текста метрика зачастую обнуляется из-за отсутствия совпадающих 4-грамм и работает некорректно. Существуют также доработанные варианты метрики, которые подходят для сравнения на уровне предложения.
NIST[править | править код]
Метрика NIST была разработана на основе BLEU, но имеет одно фундаментальное отличие. Если для получения высокой оценки BLEU важнее правильный порядок слов, то NIST выше оценивает правильный выбор лексики [5].
WER[править | править код]
Word Error Rate, или взвешенное расстояние Левенштейна, позволяет измерять расстояние между машинным и образцовым переводом так же, как мы измеряем расстояние между словарным словом и словом с опечаткой (считая символами не буквы, а целые слова) [МП: обзор методов]. По сути WER измеряет минимальное количество изменений, которые необходимо сделать, чтобы из результата работы МП получить эталонный перевод [6]. При этом WER может учитывать различные варианты эталонного перевода с разным порядком слов [5].
Примечания[править | править код]
- ↑ Архивированная копия . Дата обращения: 8 января 2021. Архивировано 11 января 2021 года.
- ↑ Maschinelle Übersetzung
- ↑ [Vilar, 2006]
- ↑ [Молчанов, 2013]
- ↑ 1 2 [Zhang, 2004]
- ↑ [Koehn, 2010]
Ссылки[править | править код]
- [1] Архивная копия от 11 января 2021 на Wayback Machine
- [2] Архивная копия от 2 апреля 2022 на Wayback Machine
- [Vilar D., Jia Xu, D’Haro L., Ney H. Error Analysis of Machine Translation Output. In International Conference on Language Resources and Evaluation, pages 697—702, Genoa, Italy, 2006.]
- [Машинный перевод: обзор методов и оценка качества. URL: http://lpcs.math.msu.su/~pentus/mfk2015/Lecture07_20151021.pdf Архивная копия от 9 января 2021 на Wayback Machine]
- [Молчанов А. Статистические и гибридные методы перевода в технологиях компании ПРОМТ. М., 2013.]
- [Koehn, P. Statistical Machine Translation. Cambridge, UK, 2010.]
- [Zhang Y., Vogel S., Waibel A. Interpreting BLEU/NIST Scores: How Much Improvement do We Need to Have a Better System? // Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC-2004), Lisbon, Portugal, 2004.]
На эту статью не ссылаются другие статьи Википедии. |