Гибридный машинный перевод

Гибридный машинный перевод (Hybrid machine translation — HMT) — интеграция разных подходов машинного перевода из возможных вариантов МП:^[1]

Rule-based machine translation (RBMT) — Машинный перевод на основе правил.
Corpus-based machine translation (CBMT) — Машинный перевод на корпусах текстов.
- Example-based machine translation (EBMT) Машинный перевод на примерах.
- Statistical machine translation (SMT) — Статистический машинный перевод.

Ожидается, что с помощью гибридной архитектуры удастся объединить преимущества этих подходов.^[1] Машинный перевод на сегодняшний день представлен двумя основными технологиями: Статистический машинный перевод (Statistical machine translation — SMT) и Машинный перевод на основе правил (Rule-Based Machine Translation — RBMT).^[2]

Разработчики software Hybrid MT[править | править код]

AppTek HMT^[3] «TranSphere®» — полная интеграция SMT и RBMT методологий.
Asia Online^[4] «SAIC’s OmnifluentTM Human Language Technology».
LinguaSys^[5] «Carabao Machine Translation engine».
Systran^[6]^[7] «SYSTRAN’s hybrid engine»
Polytechnic University of Valencia^[8]
PROMT^[2] «PROMT DeepHybrid»^[9]

Подходы[править | править код]

Многоуровненвый[править | править код]

Этот подход к гибридному машинному переводу предполагает параллельное выполнение нескольких систем машинного перевода. Окончательный результат получается путем объединения результатов всех подсистем. Чаще всего в этих системах используются подсистемы статистического и основанного на правилах перевода, но были изучены и другие комбинации. Например, исследователи из Университета Карнеги-Меллона добились определенного успеха, объединив подсистемы перевода на основе примеров , передачи , знаний и статистического перевода в одну систему машинного перевода.

Статистическая генерация правил[править | править код]

Этот подход включает использование статистических данных для создания лексических и синтаксических правил. Затем ввод обрабатывается с использованием этих правил, как если бы это был переводчик на основе правил . Этот подход пытается избежать сложной и отнимающей много времени задачи создания набора всеобъемлющих, детализированных лингвистических правил путем извлечения этих правил из учебного корпуса. Этот подход по-прежнему страдает от многих проблем нормального статистического машинного перевода , а именно от того, что точность перевода будет сильно зависеть от сходства входного текста с текстом обучающего корпуса. В результате этот метод имел наибольший успех в приложениях, ориентированных на конкретную предметную область, и имеет те же трудности с адаптацией предметной области, что и многие системы статистического машинного перевода.

Многопроходный[править | править код]

Этот подход предполагает последовательную обработку ввода несколько раз. Наиболее распространенный метод, используемый в системах многопроходного машинного перевода, - это предварительная обработка ввода с помощью системы машинного перевода на основе правил . Выходные данные основанного на правилах препроцессора передаются в систему статистического машинного перевода , которая производит окончательный результат. Этот метод используется для ограничения объема информации, которую необходимо учитывать статистической системе, что значительно снижает требуемую вычислительную мощность. Это также устраняет необходимость в системе, основанной на правилах, быть полной системой перевода для языка, что значительно снижает количество человеческих усилий и труда, необходимых для создания системы.

На основе уверенности[править | править код]

Этот подход отличается от других гибридных подходов тем, что в большинстве случаев используется только одна технология перевода. Для каждого переведенного предложения создается показатель достоверности, на основе которого можно принять решение, попробовать ли вторичную технологию перевода или продолжить работу с исходным переводом. Omniscien Technologies - одна из компаний, использующих этот подход, при этом NMT является основной технологией, но возвращается к SMT, если показатель достоверности ниже порогового значения или длина предложения очень короткая (например, 1 или 2 слова). SMT также используется, когда общие шаблоны ошибок, такие как несколько повторяющихся слов, появляются последовательно, как это часто бывает с NMT, когда механизм внимания сбит с толку.

Гибридная технология «SMT и RBMT»[править | править код]

Гибридная технология перевода предполагает использование статистических методов для построения словарных баз автоматическим путём на основе параллельных корпусов, формирования нескольких возможных переводов как на лексическом уровне, так и на уровне синтаксической структуры предложения выходного языка, применения постредактирования в автоматическом режиме и выбор лучшего (наиболее вероятного) перевода из возможных на основе языковой модели, построенной по определенному корпусу выходного языка.^[2]

Hybrid (SMT + RBMT) System различаются: (п.2.4.3^[4])

Rule-based MT с пост-обработкой статистического подхода.
Statistical MT с предварительной обработкой по Rule-based подходу.
Полная интеграция RBMT и SMT.^[3]

Статистический МП стремится использовать лингвистические данные, а системы с «классическим» подходом, основанном на правилах, применяют статистические методы.^[2] Добавление некоторых "сквозных" правил, то есть создание гибридных систем, несколько^{[сколько?]} улучшает качество переводов, особенно при недостаточном объеме входных данных, используемых при построении индексных файлов хранения лингвистической информации машинного переводчика, базирующегося на N-граммах.^[10]

Объединение RBMT и статистического машинного перевода:

Лингвистический анализ входного предложения;
Порождение вариантов перевода;
Использование статистических технологий;
Оценка и выбор лучшего варианта перевода с использованием Языковой модели.^[11]^[12]^[13]

Этапы Гибридной технологии SMT и RBMT:^[2]

Обучение RBMT на основе параллельного корпуса с использованием статистических технологий;
Эксплуатация на основе натренированной системы.

Архитектура Гибридной технологии «SMT и RBMT»[править | править код]

В гибридном машинном переводе RBMT-система дополнена двумя компонентами^[14]: модулем статистического постредактирования и модулем языковых моделей. Статистическое постредактирование позволяет сгладить RB-перевод, приближая его к естественному языку и при этом сохраняя четкую структуру синтезируемого текста. Языковые модели используются для оценки гладкости и грамматической правильности вариантов перевода, порождаемых гибридной системой.

Типичная архитектура HMT:^[14]

Параллельный корпус;
Обучение;
Языковая модель;
Данные для постредактирования;
Правила синтеза;
Словарь терминологии.
Эксплуатация:
- — Гибридный перевод.

Принцип работы HMT[править | править код]

Совмещение, казалось бы, несовместимых методов перевода, а именно классической технологии машинного перевода Машинный перевод на основе правил (Rule-Based MT) и Статистический машинный перевод (Statistical MT) можно реализовать в гибридной технологии перевода.^[15] Кардинальное отличие нового решения состоит в том, что вместо одного варианта перевода программа порождает множество переводов, число которых у одного предложения, в зависимости от многозначности слов, конструкций, и результатов статистической обработки, может доходить до нескольких сотен. Далее вероятностная модель языка позволяет выбрать самый вероятный из предложенных вариантов.

Алгоритм работы типичной HMT:^[2]

Создание терминологического словаря из параллельных текстов для RBMT автоматическим путём.
Порождение всех возможных вариантов перевода на основе:
- — лексических вариантов;
- — вариантов синтеза разных конструкций;
- — применения постредактирования.
Выбор лучшего варианта, через реализованную Языковую модель.

Преимущества и недостатки[править | править код]

Что даёт гибридная технология перевода?

Быструю автоматическую настройку на основе Translation Memories заказчика;
Терминологическую точность перевода, а также единство стиля;
Получение дополнительных полезных данных — двуязычного терминологического словаря.

Преимущества и недостатки Машинного перевода на основе правил[править | править код]

Преимущества RBMT:^[16]

Сохраняются:

— синтаксическая и морфологическая точность;
— стабильность и предсказуемость результата;
— возможность настройки на предметную область.

Недостатки RBMT:

— трудоемкость и длительность разработки;
— необходимость поддерживать и актуализировать лингвистические БД;
— «машинный акцент» при переводе.

Недостатки нивелируются за счет использования параллельных корпусов и статистических методов.

— автоматическая настройка лингвистических баз данных (быстрое и качественное извлечение терминологии),
— исчезает «машинный» акцент при переводе (варианты синтеза и постредактирование).

Преимущества и недостатки Статистических систем перевода[править | править код]

Преимущества SMT:^[17]

— быстрая настройка;
— легко добавлять новые направления перевода;
— гладкость перевода.

Недостатки SMT:

— «Дефицит» параллельных корпусов;
— многочисленные грамматические ошибки;
— нестабильность перевода.

См. также[править | править код]

Примечания[править | править код]

↑ ¹ ² Архивированная копия (неопр.). Дата обращения: 27 марта 2013. Архивировано 13 марта 2016 года.
↑ ¹ ² ³ ⁴ ⁵ ⁶ Гибридная технология перевода.-Ю.Епифанцева,ООО<ПРОМТ>,Конференция "Рос.интернет-технологии",2011 (неопр.). Архивировано 8 апреля 2013 года.
↑ ¹ ² Request Rejected (неопр.). Дата обращения: 29 марта 2013. Архивировано 4 марта 2016 года.
↑ ¹ ² http://nlp.amrita.edu:8080/project/mhrd/ms/Final_Thesis.pdf (недоступная ссылка)
↑ Архивированная копия (неопр.). Дата обращения: 29 марта 2013. Архивировано из оригинала 4 марта 2016 года.
↑ SYSTRAN's machine translation technology (неопр.). Дата обращения: 1 апреля 2013. Архивировано 8 апреля 2013 года.
↑ SYSTRAN Hybrid Technology (неопр.). Дата обращения: 1 апреля 2013. Архивировано 8 апреля 2013 года.
↑ http://web.iti.upv.es/~fcn/Students/ta/Talk-ToniL-PRACT_ISSUES-13_4p.pdf (недоступная ссылка)
↑ Архивированная копия (неопр.). Дата обращения: 29 марта 2013. Архивировано 12 мая 2015 года.
↑ Архивированная копия (неопр.). Дата обращения: 17 апреля 2013. Архивировано из оригинала 19 апреля 2014 года.
↑ Архивированная копия (неопр.). Дата обращения: 1 апреля 2013. Архивировано 4 марта 2016 года.
↑ Архивированная копия (неопр.). Дата обращения: 1 апреля 2013. Архивировано 5 марта 2016 года.
↑ Об автоматной аппроксимации реальных языков - скачать бесплатно автореферат на тему Дискретная математика и математическая кибернетика. Заказать доставку диссертации по матема … (неопр.) Дата обращения: 4 апреля 2013. Архивировано 8 апреля 2013 года.
↑ ¹ ² Зачем нужна гибридная технология перевода.-А.Молчанов,ООО«ПРОМТ»,Конференция "AINL",2013 (неопр.). Архивировано 8 апреля 2013 года.
↑ Компания PROMT - переводчики и словари для перевода текста с английского, русского, немецкого, французского, испанского, португальского и итальянского языков (неопр.). Дата обращения: 23 марта 2013. Архивировано из оригинала 8 апреля 2013 года.
↑ Архивированная копия (неопр.). Дата обращения: 27 марта 2013. Архивировано из оригинала 9 ноября 2012 года.
↑ Зачем нужна гибридная технология перевода.-А.Молчанов,ООО<ПРОМТ>,Конференция "AINL",2013 (неопр.). Архивировано 8 апреля 2013 года.

[Hybrid_iaiRef-1] ¹ ² Архивированная копия (неопр.). Дата обращения: 27 марта 2013. Архивировано 13 марта 2016 года.

[ritconfRef-2] ¹ ² ³ ⁴ ⁵ ⁶ Гибридная технология перевода.-Ю.Епифанцева,ООО<ПРОМТ>,Конференция "Рос.интернет-технологии",2011 (неопр.). Архивировано 8 апреля 2013 года.

[AppTekRef-3] ¹ ² Request Rejected (неопр.). Дата обращения: 29 марта 2013. Архивировано 4 марта 2016 года.

[AsiaOnlineRef-4] ¹ ² http://nlp.amrita.edu:8080/project/mhrd/ms/Final_Thesis.pdf (недоступная ссылка)

[LinguaSysRef-5] Архивированная копия (неопр.). Дата обращения: 29 марта 2013. Архивировано из оригинала 4 марта 2016 года.

[systranRef-6] SYSTRAN's machine translation technology (неопр.). Дата обращения: 1 апреля 2013. Архивировано 8 апреля 2013 года.

[systransoftRef-7] SYSTRAN Hybrid Technology (неопр.). Дата обращения: 1 апреля 2013. Архивировано 8 апреля 2013 года.

[PolytechnicRef-8] ttp://web.iti.upv.es/~fcn/Students/ta/Talk-ToniL-PRACT_ISSUES-13_4p.pdf (недоступная ссылка)

[PROMTDeepHybridRef-9] Архивированная копия (неопр.). Дата обращения: 29 марта 2013. Архивировано 12 мая 2015 года.

[landeRef-10] Архивированная копия (неопр.). Дата обращения: 17 апреля 2013. Архивировано из оригинала 19 апреля 2014 года.

[kholodRef-11] Архивированная копия (неопр.). Дата обращения: 1 апреля 2013. Архивировано 4 марта 2016 года.

[stavsuRef-12] Архивированная копия (неопр.). Дата обращения: 1 апреля 2013. Архивировано 5 марта 2016 года.

[fizmathimRef-13] Об автоматной аппроксимации реальных языков - скачать бесплатно автореферат на тему Дискретная математика и математическая кибернетика. Заказать доставку диссертации по матема … (неопр.) Дата обращения: 4 апреля 2013. Архивировано 8 апреля 2013 года.

[Hybrid_promtRef-14] ¹ ² Зачем нужна гибридная технология перевода.-А.Молчанов,ООО«ПРОМТ»,Конференция "AINL",2013 (неопр.). Архивировано 8 апреля 2013 года.

[promtpressRef-15] Компания PROMT - переводчики и словари для перевода текста с английского, русского, немецкого, французского, испанского, португальского и итальянского языков (неопр.). Дата обращения: 23 марта 2013. Архивировано из оригинала 8 апреля 2013 года.

[promt_RBMTRef-16] Архивированная копия (неопр.). Дата обращения: 27 марта 2013. Архивировано из оригинала 9 ноября 2012 года.

[autogenerated1-17] Зачем нужна гибридная технология перевода.-А.Молчанов,ООО<ПРОМТ>,Конференция "AINL",2013 (неопр.). Архивировано 8 апреля 2013 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Сегментация текста^[en] Частеречная разметка Поверхностно-синтаксический анализ Обработка сложных слов^[en] Извлечение коллокаций^[en] Стемминг Лемматизация Распознавание именованных сущностей^[en] Разрешение кореферентности Анализ тональности текста Извлечение концептов^[en] Синтаксический анализ Разрешение лексической многозначности Извлечение терминологии^[en] Извлечение информации Идентификация языка Определение регистра^[en]
Реферирование	Извлечение предложений^[en] Генерация реферата Многодокументное реферирование^[en] Упрощение текста^[en]
Машинный перевод	Автоматизированный Гибридный Интерлингвальный^[en] На основе правил На основе примеров На основе словаря^[en] На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений^[en] Конкордансер Предиктивный ввод текста Система проверки грамматики^[en] Система проверки правописания Угадывание синтаксиса^[en]
Интерфейс на естественном языке^[en]	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература

Гибридный машинный перевод

Содержание

Разработчики software Hybrid MT[править | править код]

Подходы[править | править код]

Многоуровненвый[править | править код]

Статистическая генерация правил[править | править код]

Многопроходный[править | править код]

На основе уверенности[править | править код]

Гибридная технология «SMT и RBMT»[править | править код]

Архитектура Гибридной технологии «SMT и RBMT»[править | править код]

Принцип работы HMT[править | править код]

Преимущества и недостатки[править | править код]

Преимущества и недостатки Машинного перевода на основе правил[править | править код]

Преимущества и недостатки Статистических систем перевода[править | править код]

См. также[править | править код]

Примечания[править | править код]

Навигация

Гибридный машинный перевод

Разработчики software Hybrid MT[править | править код]

Подходы[править | править код]

Многоуровненвый[править | править код]

Статистическая генерация правил[править | править код]

Многопроходный[править | править код]

На основе уверенности[править | править код]

Гибридная технология «SMT и RBMT»[править | править код]

Архитектура Гибридной технологии «SMT и RBMT»[править | править код]

Принцип работы HMT[править | править код]

Преимущества и недостатки[править | править код]

Преимущества и недостатки Машинного перевода на основе правил[править | править код]

Преимущества и недостатки Статистических систем перевода[править | править код]

См. также[править | править код]

Примечания[править | править код]

Навигация

Поиск