Предредактирование

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Предварительное редактирование, или предредактирование (англ. pre-editing), — процесс подготовки документа перед применением машинного перевода. Основная цель предварительного редактирования — это сокращение объёма работы после редактирования путём адаптации исходного документа для улучшения качества машинного перевода. Предварительное редактирование также может быть полезным для проектов по переводу с помощью человека, поскольку оно может увеличить объём памяти переводов.

Как правило, предварительное редактирование целесообразно применять, когда в документе применяется более трёх языков перевода. В этом случае предварительное редактирование должно облегчить процесс машинного перевода за счёт проверки орфографии и грамматики, исключения сложной или запутанной синтаксической структуры и проверки соответствия терминов. Однако это также применимо к плохо конвертированным файлам[1]. Предварительная лингвистическая обработка важнее, чем предварительное редактирование стиля документа, поскольку ошибки могут сильнее повлиять на качество машинного перевода.

Необходимость предредактирования

[править | править код]

Использование машинного перевода для перевода текстов, написанных на понятном машине языке, могло бы обеспечить высокое качество автоматического перевода, однако основная масса текстов создаётся на неограниченном естественном языке, то есть автор такого текста не использует какой-либо предписывающий язык, который бы учитывал особенности использования автоматического перевода в целом или какой-то отдельной системы машинного перевода. В этом случае машинный переводчик сталкивается с проблемами, ухудшающими машинную переводимость текста[2].

Маркеры необходимости предредактирования

[править | править код]

Машинная переводимость научно-технических текстов с русского языка на английский язык рассматривается в исследовании О. И. Бабиной.[2] Там приводится перечень маркеров в русскоязычном тексте, которые могут отрицательно влиять на переводимость текста:

  • длина предложения более 20 слов. При работе со сложными предложениями приходится разрабатывать техники их разбиения на части, чтобы оперировать синтаксически простыми блоками;
  • наличие лексической, падежной и грамматической омонимии;
  • наличие предлогов «при», «от», «из», которые по-разному могут переводиться на английский язык;
  • разделение контекстно зависимых элементов;
  • необходимость синтаксической трансформации;
  • эллипсис.

Выделенные маркеры позволяют формализовать и автоматизировать проведение оценки «пригодности» текста для машинного перевода: наличие слишком большого количества маркеров указывает на необходимость предредактирования текстов или свидетельствует о необходимости от-казаться от использования машинного переводчика. Сегодня разрабатываются различные средства автоматизации оценки перевода (ориентированные на определённые системы и языки), позволяющие дать числовую характеристику переводимости текста (оценить индекс переводимости), используя автоматическую оценку наличия маркеров в тексте.[3]

Примечания

[править | править код]
  1. Johanna Gerlach, Victoria Porro Rodriguez, Pierrette Bouillon, Sabine Lehmann. Combining pre-editing and post-editing to improve SMT of user-generated content. — 2013. — С. 45. Архивировано 1 октября 2023 года.
  2. 1 2 Машинная переводимость русскоязычных научно-технических текстов. cyberleninka.ru. Дата обращения: 4 апреля 2024. Архивировано 4 апреля 2024 года.
  3. Povlsen C., Underwood N., Music B., Neville A. Evaluating Text-type Suitability for Machine Translation a Case Study on an English-Danish MT System (англ.) / A. Rubio, N. Gallardo, R. Castro & A. Tejada (eds.). — 1998. — 27-31 p.