Интерактивный машинный перевод: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
Содержимое удалено Содержимое добавлено
Создано переводом страницы «Interactive machine translation»
(нет различий)

Версия от 12:52, 3 августа 2016

Интерактивный машинный Перевод (ИМП), специальный подраздел области компьютерного перевода. При этом парадигма перевода в том, что компьютерное программное обеспечение помогает переводчику, пытаясь спрогнозировать текст, который пользователю пришлось бы вводить, учитывая всю информацию, которую он имеет в наличии. Когда такое предположение неправильно, система предоставляет пользователю обратную связь, а новое предсказание выполняется с учетом новой информации. Такой процесс повторяется до перевода, который соответствует ожиданиям пользователя.

Интерактивный машинный перевод особенно интересен для перевода текстов в областях, где на выход не допускается перевод с ошибками, и поэтому требуется человек-пользователь, чтобы внести изменения в перевод, предоставляемый системой. В таких случаях, интерактивный машинный перевод улучшается, чтобы обеспечить преимущества для потенциальных пользователей.[1][2] Тем не менее, нет никаких коммерческих программ , реализующий интерактивный машинный перевод и пока работа происходит в сфере научных исследований.

История

Исторически, интерактивный машинный перевод рождается как развитие парадигмы автоматизированного перевода, где переводчик и системы машинного перевода предназначены для работы в тандеме.[3] Эта первая работа была расширена в исследовательском проекте TransType, финансируемым Канадским правительством. В этом проекте человеко-компьютерное взаимодействие было нацелено на получение конечного текста путём внедрения методик машинного перевода на основе данных в среду интерактивного перевода с целью достижения лучших качеств обоих методик: эффективность автоматической системы и надежность человека-переводчика.

Позже, более масштабный исследовательский проект, TransType2,[1] [2] , финансируемый Европейской комиссией продолжил эту работу, анализируя внедрение в процесс полной системы машинного перевода, с целью получения гипотез полного перевода, которые человек-пользователь может изменить или принять. Если пользователь решает изменить гипотезу, система пытается наилучшим образом использовать эту обратную связь для того, чтобы произвести новый перевод гипотезы, который учитывает изменения, внесенные пользователем.

Еще совсем недавно, CASMACAT,[4] также финансируемая Европейской комиссией, была направлена на разработки новых видов помощи переводчикам и интеграцию их в новую среду разработки, состоящую из редактора, сервера, а также инструментов анализа и визуализации. Среда разработки  была спроектирована по модульному принципу и может быть объединена с существующими средствами автоматизированного перевода. Кроме того, среда CASMACAT может учиться из взаимодействия с переводчиком обновляя и корректируя свои модели сразу на основе выбора перевода пользователем.[5][6]

Последние работы с участием широкого круга пользователей[7] выявили тот факт, что интерактивный машинный перевод может использоваться даже теми пользователями, которые не говорят на языке оригинала для того, чтобы достичь почти профессионального качества перевода. Кроме того, это также говорит о том, что интерактивный сценарий более выгоден, чем классический сценарий пост-издания.

Процесс

Интерактивный процесс машинного перевода начинается с того, что система предлагает гипотезу перевода пользователю. Затем пользователь может как принять предложение целиком, так и  изменить его, если он считает, что существуют некоторые ошибки. Как правило, при изменении заданного слова, предполагается, что префикс до это слово является правильным, т.е. схема взаимодействия - слева направо. После того, как пользователь изменил слово, которое он считает неверным, система предлагает новый суффикс, т. е. оставшуюся часть предложения. Такой процесс продолжается до тех пор, пока перевод не удовлетворит пользователя.

Хотя это объяснение на уровне слов, предыдущий процесс может также осуществляться на уровне символов, и, следовательно, система обеспечивает суффикс всякий раз, когда переводчик вводит одиночный символ. Кроме того, продолжаются усилия по изменению типичной схемы взаимодействия слева направо для того, чтобы сделать взаимодействие человека и машины проще.[8][9]

Аналогичный подход используется в инструменте перевода Caitra.

Оценка

Оценка является сложным вопросом в интерактивном машинном переводе. В идеале оценка должна проводиться в экспериментах с участием пользователей. Однако, учитывая высокую денежную стоимость, это означает, что это редко бывает. Более того, даже при рассмотрении переводчиков для выполнения истинной оценки интерактивных технологий машинного перевода, не понятно, что должно быть измерено в подобных экспериментах, поскольку существует много различных переменных, которые должны быть приняты во внимание и не могут быть контролируемы, как например, требуемое пользователю время для того чтобы привыкнуть к процессу. В проекте CASMACAT, некоторые полевые исследования были проведены, чтобы изучить некоторые из этих переменных.[10][11][12]

Для быстрой оценки в лабораторных условиях интерактивного машинного перевода оценивается с помощью количества нажатий клавиш или количества введенных слов. Такие критерии пытаются измерить, сколько нажатий клавиш или введенных слов пользователем нужно ввести прежде чем получить окончательный перевод документа.[2]

Различия с классическим автоматизированным переводом

Хотя интерактивный машинный перевод является под-областью автоматизированного перевода, главной привлекательной обсуждаемого в отношении последнего является интерактивность. В классическом автоматизированном переводе, система перевода может предложить в лучшем случае одину гипотезу перевода, и затем пользователь должен отредактировать такие гипотезы. В отличие от этого, в интерактивном машинном переводе, система выдает перевод новой гипотезы каждый раз, когда пользователь взаимодействует с системой, т. е. после каждого введенного слова (или буквы).

См. также

References

  1. 1 2 Casacuberta, Francisco; Civera, Jorge; Cubel, Elsa; Lagarda, Antonio L.; Lapalme, Guy; Macklovitch, Elliott; Vidal, Enrique (2009). "Human interaction for high quality machine translation" (PDF). Communications of the ACM. 52 (10): 135—138. doi:10.1145/1562764.1562798.
  2. 1 2 3 Barrachina, Sergio; Bender, Oliver; Casacuberta, Francisco; Civera, Jorge; Cubel, Elsa; Khadivi, Shahram; Lagarda, Antonio L.; Ney, Hermann; Tomás, Jesús; Vidal, Enrique (2009). "Statistical approaches to computer-assisted translation" (PDF). Computational Linguistics. 25 (1): 3—28. doi:10.1162/coli.2008.07-055-r2-06-29.
  3. Foster, George; Isabelle, Pierre; Plamondon, Pierre (1997). "Target-text mediated interactive machine translation" (PDF). Machine Translation. 12 (1): 175—194. doi:10.1023/a:1007999327580.
  4. Alabau, Vicent; Buck, Christian; Carl, Michael; Casacuberta, Francisco; Garcia-Martinez, Mercedes; Germann, Ulrich; Gonzalez-Rubio, Jesus; Hill, Robin; Koehn, Philipp; Leiva, Luis; Mesa-Lao, Barto; Ortiz, Daniel; Saint-Amand, Herve; Sanchis, German; Tsoukala, Chara (April 2014). "CASMACAT: A Computer-assisted Translation Workbench" (PDF). Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. Los Angeles, California: Association for Computational Linguistics. pp. 25—28. {{cite conference}}: Неизвестный параметр |booktitle= игнорируется (|book-title= предлагается) (справка)
  5. Ortiz-Martinez, Daniel; Garcia-Varea, Ismael; Casacuberta, Francisco (June 2010). "Online Learning for Interactive Statistical Machine Translation" (PDF). Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the ACL. Association for Computational Linguistics. pp. 546—554. {{cite conference}}: Неизвестный параметр |booktitle= игнорируется (|book-title= предлагается) (справка)
  6. Martinez-Gomez, Pascual; Sanchis-Trilles, German; Casacuberta, Francisco (September 2012). "Online adaptation strategies for statistical machine translation in post-editing scenarios". Pattern Recognition. 45. Elsevier: 3193—3203. doi:10.1016/j.patcog.2012.01.011.
  7. Koehn, Philipp (June 2010). "Enabling Monolingual Translators: Post-Editing vs. Options" (PDF). Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics (HLT/NAACL). Los Angeles, California: Association for Computational Linguistics. pp. 537—545. {{cite conference}}: Неизвестный параметр |booktitle= игнорируется (|book-title= предлагается) (справка)
  8. Sanchis-Trilles, Germán; Ortiz-Martínez, Daniel; Civera, Jorge; Casacuberta, Francisco; Vidal, Enrique; Hoang, Hieu (October 2008). "Improving Interactive Machine Translation via Mouse Actions" (PDF). Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing (EMNLP). Honolulu, Hawaii: Association for Computational Linguistics. pp. 485—494. {{cite conference}}: Неизвестный параметр |booktitle= игнорируется (|book-title= предлагается) (справка)
  9. González-Rubio, Jesús; Ortiz-Martínez, Daniel; Casacuberta, Francisco (July 2010). "Balancing User Effort and Translation Error in Interactive Machine Translation via Confidence Measures" (PDF). Proceedings of the ACL 2010 Conference Short Papers (ACL). Uppsala, Sweden: Association for Computational Linguistics. pp. 173—177. {{cite conference}}: Неизвестный параметр |booktitle= игнорируется (|book-title= предлагается) (справка)
  10. Underwood, Nancy; Mesa-Lao, Bartolomé; García-Martínez, Mercedes; Carl, Michael; Alabau, Vicent; González-Rubio, Jesús; Leiva, Luis; Sanchis-Trilles, Germán; Ortiz-Martínez, Daniel; Casacuberta, Francisco (May 2014). "Evaluating the Effects of Interactivity in a Post-Editing Workbench" (PDF). Proceedings of the 29th edition of the Language Resources and Evaluation Conference (LREC). Reykjavik, Iceland. pp. 553—559. {{cite conference}}: Неизвестный параметр |booktitle= игнорируется (|book-title= предлагается) (справка)
  11. Ortiz-Martínez, Daniel. Integrating Online and Active Learning in a Computer-Assisted Translation Workbench // New Directions in Empirical Translation Process Research: Exploring the CRITT TPR-DB / Daniel Ortiz-Martínez, Jesús González-Rubio, Vicent Alabau … [и др.]. — Springer, August 2015. — P. 54–73.
  12. Alabau, Vicent. Learning Advanced Post-editing // New Directions in Empirical Translation Process Research: Exploring the CRITT TPR-DB / Vicent Alabau, Michael Carl, Francisco Casacuberta … [и др.]. — Springer, August 2015. — P. 95–111.

Внешние ссылки