Память переводов

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Память переводов (ПП, англ. translation memory, TM, иногда также называемая «накопитель переводов») — база данных, содержащая набор ранее переведенных сегментов текста.

Описание[править | править вики-текст]

Одна запись в такой базе данных соответствует сегменту или «единице перевода» (англ. translation unit), за которую обычно принимается одно предложение (реже — часть сложносочинённого предложения, либо абзац). Если единица перевода исходного текста в точности совпадает с единицей перевода, хранящейся в базе (точное соответствие, англ. exact match), она может быть автоматически подставлена в перевод. Новый сегмент может также слегка отличаться от хранящегося в базе (нечёткое соответствие, англ. fuzzy match). Такой сегмент может быть также подставлен в перевод, но переводчик будет должен внести необходимые изменения.

Помимо ускорения процесса перевода повторяющихся фрагментов и изменений, внесенных в уже переведенные тексты (например, новых версий программных продуктов или изменений в законодательстве), системы ПП также обеспечивают единообразие перевода терминологии в одинаковых фрагментах, что особенно важно при техническом переводе. С другой стороны, если переводчик регулярно подставляет в свой перевод точные соответствия, извлеченные из баз переводов, без контроля их использования в новом контексте, качество переведенного текста может ухудшиться.

В каждой конкретной системе ПП данные хранятся в своем собственном формате (текстовый формат в Wordfast, база данных Access в Deja Vu), но существует международный стандарт TMX (англ. Translation Memory eXchange format), который основан на XML и который может генерироваться практически всеми системами ПП. Благодаря этому сделанные переводы можно использовать в разных приложениях, то есть переводчик работающий с OmegaT может использовать ПП, созданную в ТРАДОСе и наоборот.

Большинство систем ПП как минимум поддерживают создание и использование словарей пользователя, создание новых баз данных на основе параллельных текстов (англ. alignment), а также полуавтоматическое извлечение терминологии из оригинальных и параллельных текстов.

Популярные программные системы ПП[править | править вики-текст]

В соответствии с обзорами использования систем ПП к наиболее популярным системам относятся[1][2]:

  • Deja Vu
  • OmegaT (бесплатная система, распространяемая по лицензии GNU GPL)
  • SDLX[3]
  • Trados (наиболее популярная программа, долгое время бывшая стандартом ПП)
  • STAR Transit
  • Wordfast (реализована как набор макросов для MS Word, новая версия 2009 года является отдельным приложением)

В английской Википедии есть список, сравнивающий возможности различных систем.

Стандарты и форматы памяти переводов[4][править | править вики-текст]

  • TMX (Translation Memory Exchange Format — Обмен памятью переводов) формат. Этот стандарт обеспечивает взаимный обмен между разными поставщиками памяти переводов. TMX является общепринятым форматом в среде переводчиков и лучше всего подходит для импорта и экспорта памяти переводов. Последняя версия этого формата — 1.4b позволяет восстанавливать исходные документы и их перевод из файла TMX.
  • TBX (Termbase Exchange format — Обмен терминологическими базами). Это принятый LISA (Ассоциации индустрии локализации) формат сейчас пересматривается и переиздается согласно ISO 30042. Этот стандарт позволяет проводить обмен терминологией, в том числе детальной лексической информацией. Основная база TBX определяется стандартами: ISO 12620, ISO 12200 и ISO 16642. ISO 12620 обеспечивает реестр четко определенных «категорий данных» со стандартизованными именами, которые функционируют как типы элементов данных или предопределенные значения. ISO 12200 (известен также как MARTIF) предоставляет основу для каркасной структуры TBX. ISO 16642 (известен также как Terminological Markup Framework — Структура терминологической разметки) включает структурную метамодель для терминологических языков разметки (Terminology Markup Languages) в целом.
  • SRX создан для улучшения формата TMX и большей эффективности обмена памятью переводов между программами. Возможность указывать правила сегментации, которые использовались в предыдущем переводе, повышает эффективность отождествления сегментов в текущем тексте с содержимым ПП.
  • GMX GILT означает Globalization, Internationalization, Localization, and Translation (Глобализация, интернационализация, локализация, перевод). Стандарт GILT Metrics состоит из трех частей: GMX-V для показателей объема, GMX-C для показателей сложности, GMX-Q для показателей качества. Предложенный стандарт GILT Metrics направлен на квантификацию объема работ и требований качества при реализации задач GILT.
  • OLIF — открытый стандарт, совместимый с XML, который используется для обмена терминологическими и лексическими данными. Хотя изначально он применялся в качестве способа обмена лексическими данными между частными лексиконами машинного перевода, постепенно этот формат превратился в более общий стандарт терминологического обмена.
  • XLIFF (XML Localisation Interchange File Format — XML формат для взаимного обмена при локализации), создан как единый формат файлов для взаимного обмена, который распознается всеми программными средствами локализации. XLIFF — это наилучший в современной индустрии переводов способ обмена информацией в формате XML.
  • TransWS (Translation Web Services — переводческие веб-сервисы), определяет требуемые параметры вызова веб-сервисов при отправлении и получении файлов и сообщений, имеющих отношение к проектам локализации. Задумывался как развернутая система автоматизации процесса локализации с использованием сервисов в сети Интернет.
  • xml:tm, этот подход к памяти переводов основан на концепции текстовой памяти, которая позволяет совмещать авторскую память и память переводов. Формат xml:tm был передан Lisa OSCAR компанией XML-INTL.

Преимущества и недостатки[править | править вики-текст]

Преимущества[править | править вики-текст]

  • Сокращение времени и объема работы переводчика
  • Улучшение последовательности перевода, особенно при работе группы переводчиков над одним проектом.
  • Увеличение прибыли за счет увеличения производительности труда переводчика, группы переводчиков
  • Повышение качества услуг за счет увеличения точности и единообразия перевода терминов, особенно в специализированных текстах.

Недостатки[править | править вики-текст]

  • Может делать перевод более «сухим»; утрачивается сама суть текста, если перевод с использованием накопителя переводов выполняется переводчиком низкой квалификации
  • Часто отсутствует связь предлагаемого программой предложения/текста с соседними предложениями и с текстом в целом
  • Оригинал должен быть в электронном виде
  • Одна незамеченная ошибка может распространиться на весь проект
  • Необходимо обучение самой программе, а при смене работы — возможно, и не один раз (если работодатели работают с разными программами ТМ)
  • Подходит не ко всем видам текстов
  • Высокая стоимость лицензионного ПО

См. также[править | править вики-текст]

Литература[править | править вики-текст]

  • Грабовский В. Н. Технология Translation Memory // Мосты. Журнал переводчиков. 2004. № 2. — С. 57-62.

Ссылки[править | править вики-текст]

Примечания[править | править вики-текст]

  1. См. стр. 26 в Imperial College London Translation Memories Survey 2006 (PDF)
  2. ITI Translation Memory Survey, 2007 (недоступная ссылка с 13-05-2013 (518 дней))
  3. В результате приобретения в июне 2005 года компании Trados британской компанией SDL International в 2006 появился единый продукт TRADOS SDLX 2006
  4. Стандарты Localization Industry Standards Association (LISA)