Битекст

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Параллельный текст (битекст) — текст на одном языке вместе с его переводом на другой язык. «Выравнивание параллельного текста» — это идентификация соответствующих друг другу предложений в обеих половинах параллельного текста. Большие собрания параллельных текстов называются «параллельным корпусом» (англ. parallel corpora). Выравнивание параллельного корпуса на уровне предложений является необходимой предпосылкой для различных аспектов лингвистических исследований. В процессе перевода предложения могут разделяться, сливаться, удаляться, вставляться или менять последовательность. В связи с этим выравнивание часто становится сложной задачей.

Битекст[править | править вики-текст]

В сфере исследований в области перевода «битекст» — это совмещенный документ, состоящий из версий соответствующего текста на исходном и целевом языках. Битексты создаются с помощью специальных компьютерных программ, которые называются «инструментами для выравнивания» (alignment tool) или «инструментами для битекста» (bitext tool), которые позволяют автоматически выравнивать оригинальную версию текста и его перевод. Подобные программы, как правило, приводят в соответствие два текста (оригинал и перевод) по каждому предложению. Собрание битекстов называется «битекстовой базой данных» или «двуязычным корпусом» и может использоваться в качестве справочника и для поиска нужных сочетаний.

История[править | править вики-текст]

Идея битекста принадлежит Брайану Хэррису (Brian Harris), который первым написал исследование по данной концепции в 1988 году, и была впоследствии развита группой ученых при Университете Монреаля (Université de Montréal), называвшейся RALI (Recherche appliquée en linguistique informatique или Applied Research in Computational Linguistics — «Прикладные исследования в вычислительной лингвистике»). Группа состояла из программистов и лингвистов, изучавших естественную обработку текста. Известными промоутерами концепции битекста являются Пьер Изабель (Pierre Isabelle) и Клод Бедар (Claude Bédard).

Битексты и память переводов[править | править вики-текст]

Идея «битекста» имеет много общего с концепцией памяти переводов. Главное различие между ними в том, что память переводов представляет собой базу данных, в которой сегменты текста (соответствующие друг другу предложения) расположены таким способом, при котором они не связаны с оригинальным контекстом, то есть оригинальная последовательность предложений теряется. Битекст же сохраняет изначальную последовательность предложений. Стандартным форматом для обмена базами данных памяти переводов между разными программами автоматизированного перевода является формат ТМХ (XML словарь, опубликованный LISA (Ассоциация отрасли локализации -Localisation Industries Association). ТМХ позволяет сохранять оригинальный порядок предложений. Битексты создаются в качестве справочного инструмента для консультаций специалистов-переводчиков, а не автоматизированных программ. Поэтому небольшие ошибки выравнивания или неточности, которые могут привести к сбоям в памяти переводов, для них не имеют значения.

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

Литература[править | править вики-текст]

  • Ушакова Т. Читаем параллельные тексты (Подробное описание методики чтения параллельных текстов).

Ссылки[править | править вики-текст]

Параллельные корпусы в Интернете[править | править вики-текст]

Программы для выравнивания параллельных текстов[править | править вики-текст]

  • hunalign — полностью автоматическое средство, учитывающее статистику переводов отдельных слов, но требующее достаточного большого корпуса для надежной работы
  • Trados Winalign
  • Wordfast tools — реализованы в виде набора макросов MS Word, в отличие от программы Wordfast, работающей как память переводов, средства выравнивания (для пополнения ПП) доступны бесплатно.
  • ABBYY Aligner - программа для ПК, позволяющая автоматически выравнивать параллельные тексты.
  • ABBYY Aligner Online - бесплатный web-сервис, позволяющий выравнивать небольшие параллельные тексты.

Документация[править | править вики-текст]