Синхронный автоматический перевод

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Синхронный автоматический перевод (Speech-to-Speech Real-Time Translation) — «моментальный» машинный перевод речи, с одного естественного языка на другой, с помощью специальных программных и технических средств[источник не указан 1329 дней]. Так же называется направление научных исследований, связанных с построением подобных систем[источник не указан 1329 дней].

В отличие от печатного текста или искусственных сигналов, естественная речь не допускает простого и однозначного членения на элементы (фонемы, слова, фразы), поскольку они не имеют явных физических границ. Границы слов в потоке речи автоматически могут быть определены лишь в ходе распознавания посредством подбора оптимальной последовательности слов, наилучшим образом согласующейся с входным потоком речи по акустическим, лингвистическим, семантическим и иным критериям. [1]

История[править | править вики-текст]

Июнь 2012 года — Программа для автоматического синхронного перевода (Технологический институт города Карлсруэ (федеральная земля Баден-Вюртемберг, Германия).[1] Устройство переводит устные лекции преподавателей института с немецкого на английский язык и воспроизводит перевод в виде субтитров. [2]

Октябрь 2012 года — Автоматический, почти синхронный голосовой перевод с английского на путунхуа. Разработчик — Microsoft.[2] Система машинного обучения, на основе искусственных нейронных сетей (Deep Neural Networks), которая сокращает непонимание до каждого седьмого−восьмого слова. Но самое большое достижение — это, генерация речи с сохранением модуляций голоса говорящего.[3]

Ноябрь 2012 года — Открывшийся сервис, японского мобильного оператора NTT Docomo, позволяет абонентам, говорящим на разных языках общаться в режиме реального времени.[4] Языки, поддерживаемые сервисом: (японский <-> английский), (японский <-> корейский), (японский <-> китайский).[5]

Май 2015 года - Появился Blabber Messenger, который переводит речь на 14 языков, а чат на 88.

Принцип работы[править | править вики-текст]

Процесс электронного перевода речи (S2S Real-Time Translation), как правило, включает следующие три этапа)[6] [7]:

  1. автоматическое распознавание речи (ASR — automatic speech recognition) — преобразование речи в текст;
  2. машинный перевод (MAT — Machine-Assisted Translation); — автоматический перевод текста с одного языка на другой.
  3. синтез речи (TTS — text-to-speech) — технология, которая даёт возможность произнести текст голосом, приближенным к естественному.

Говорящий на языке A говорит в микрофон, а модуль распознавания речи признаёт[что?] произнесённое. Происходит сравнение входных данных с фонологическими моделями, состоящими из большого количества речевых библиотек. Отфильтрованное таким образом, используя словарь и грамматику языка А, преобразуется в строку слов, основанную на массиве фразы языка[неизвестный термин] А. Модуль автоматического перевода преобразует эту строку. Ранние системы заменяли каждое слово, с соответствующим словом в языке B. Более совершенные системы не используют дословный перевод, а принимают во внимание весь контекст фразы, чтобы произвести соответствующий перевод. Созданный перевод передаётся в модуль синтеза речи, который оценивает произношение и интонацию, соответствующую ряду слов из массива речевых данных языка B. Данные, соответствующие фразе, отбираются, соединяются и выводятся в необходимой потребителю форме на языке В.

Системы перевода речи[править | править вики-текст]

Системы перевода речи (ST — Speech Translation)[8], состоят из двух основных компонентов: Автоматическое распознавание речи (ASR — automatic speech recognition) и Машинный перевод (MAT — Machine-Assisted Translation) и различаются:

  • Работающие «на клиенте» (client-based).
  • По принципу «клиент-сервер» (client-server) (OnLine service).

Распознавание слитной спонтанной речи — конечная цель всех усилий по распознаванию речи. Автоматическое распознавание речи разделяют, на привязку и её отсутствие, к голосу конкретного человека.

Если рассматривать классическую схему «наука-технологии-практические системы», то, наиболее серьезные проблемы в которых будет работать практическая система автоматического распознавания или понимания речи, возникают при условиях:[9]

  •  — произвольный, наивный пользователь;
  •  — спонтанная речь, сопровождаемая аграмматизмами и речевым «мусором»;
  •  — наличие акустических помех и искажений, в том числе меняющихся;
  •  — наличие речевых помех.

Обобщённая классификация систем распознавания речи. См.( [10])

Традиционно системы машинного перевода делятся на категории:[11][12][13]

  • Rule-Based Machine Translation (RBMT) — системы, основанные на правилах, которые описывают языковые структуры и их преобразования.
  • Example-Based MT (EBMT) — системы на примерах двух текстов, один из которых является переводом другого.
  • Statistical Machine Translation (SMT) — статистический машинный перевод[14] — разновидность машинного перевода текста, основанная на сравнении больших объёмов языковых пар.
  • Hybrid Machine Translation (SMT + RBMT) — Гибридные модели «… где ожидается прорыв в качестве перевода».[13]

Границы между системами Example-based и Rule-based не очень чёткие, поскольку и те и другие используют словари и правила работы со словарями.

Статистический машинный перевод[править | править вики-текст]

Статистический машинный перевод основан на поиске наиболее вероятного перевода предложения, с использованием данных двуязычного корпуса (Parallel Corpora) — Битекст. В результате при выполнении перевода компьютер не оперирует лингвистическими алгоритмами, а вычисляет вероятность применения того или иного слова или выражения. Слово или последовательность слов, имеющие оптимальную вероятность, считаются наиболее соответствующими переводу исходного текста и подставляются компьютером в получаемый в результате текст. В статистическом машинном переводе ставится задача не перевода текста, а задача его расшифровки.

Типичная архитектура статистических систем МП.[15][16]

  • Одноязычный корпус (язык перевода).
  • Языковая модель — набор n-грамм (последовательностей словоформ длины n) из корпуса текстов.
  • Параллельный корпус.
  • Фразовая таблица — таблица соответствий фраз исходного корпуса и корпуса переводов с некоторыми статистическими коэффициентами.
  • Статистический декодер — среди всех возможных вариантов перевода, выбирает наиболее вероятный.

В качестве языковой модели в системах статистического перевода используются преимущественно различные модификации n-граммной модели, утверждающей, что <грамматичность> выбора очередного слова при формировании текста определяется только тем, какие(n-1)слов идут перед ним.[16]

  • n-граммы.
    •  — Достоинства: — высокое качество перевода, для фраз, которые целиком помещаются в n-граммную модель.
    •  — Недостатки: — качественный перевод возможен только для фраз, которые целиком помещаются в n-граммную модель.

Преимущества SMT

  • Быстрая настройка
  • Легко добавлять новые направления перевода
  • Гладкость перевода

Недостатки SMT

  • <Дефицит> параллельных корпусов
  • Многочисленные грамматические ошибки
  • Нестабильность перевода

Системы, которые не используют обучение, называются «Speaker Independent» системы. Системы, использующие обучение, — «Speaker Dependent» системы.

Системы МП, основанные на правилах «Rule-Based»[править | править вики-текст]

Системы машинного перевода основанные на правилах (Rule-Based Machine Translation), подразделяются:[13][17]

  • системы пословного перевода;
  • трансферные системы (Transfer) — преобразуют структуры входного языка в грамматические конструкции выходного языка;
  • интерлингвистические системы (Interlingua)- промежуточный язык описания смысла.

Компоненты типичной RBMT:

  • Лингвистические базы данных: — двуязычные словари; — файлы имен, транслитерации; — морфологические таблицы.
  • Модуль перевода: — грамматические правила; — алгоритмы перевода.

Особенности RBMT систем:

  • Преимущества: — синтаксическая и морфологическая точность; — стабильность и предсказуемость результата; — возможность настройки на предметную область.
  • Недостатки: — трудоемкость и длительность разработки, — необходимость поддерживать и актуализировать лингвистические БД; — «машинный акцент» при переводе.

Гибридные модели SMT + RBMT[править | править вики-текст]

Архитектура Гибридной технологии:[13]

  • Обучение: Параллельный корпус->Обучение: — Модель языка; — Данные для постредактирования; — Правила синтеза; — Словарь терминологии.
  • Эксплуатация: Гибридный перевод.

Этапы Гибридной технологии:

  • Обучение RBMT на основе параллельного корпуса с использованием статистических технологий;
  • Эксплуатация на основе натренированной системы.

Системы синтеза речи[править | править вики-текст]

Типичная архитектура «Text-to-Speech» System.[18]

  • Анализ текста: — Определение структуры текста; — Нормализация текста; — Лингвистический анализ.
  • Фонетический анализ: — Графо — Фонетическое преобразование.
  • Анализ просодики: — Шаг & Длительность словосочетаний.
  • Синтез речи (Speech Synthesis): — Рендеринг голоса.

В свою очередь, синтез речи разделяют на группы[19]:

  • параметрический синтез;
  • конкатенативный, или компиляционный (компилятивный) синтез;
  • синтез по правилам;
  • предметно-ориентированный синтез.

Шумоочистка[править | править вики-текст]

Источники шумов в речевых системах:[20] — помехи от микрофонов, провода, АЦП (аналогово-цифровой преобразователь), внешние шумы, возникающие в окружении говорящего.

Классификация шумов относительно их характеристик:

  • периодический / непериодический шум;
  • ширина диапазона частот, в котором распределяется энергия шума: — широкополосные (ширина полосы частот более 1 кГц) и узкополосные шумы (ширина полосы частот менее 1 кГц);
  • речевой шум, состоящий из голосов людей, окружающих говорящего.

Наиболее опасным по своему влиянию на речевой сигнал и наиболее трудноудаляемым шумом считается белый шум: — непериодичный шум, спектральная плотность которого равномерно распределена по всей области частот.

В области систем распознавания речи в шуме, существует следующие подходы:

  • Разработчики не обращают внимания на шум.
  • Сначала избавляются от шума, а затем распознают очищенный речевой сигнал. Эта концепция обычно используется при разработке систем шумоочистки в качестве дополнительного модуля систем распознавания.
  • Распознавание зашумленного сигнала без его предварительного улучшения, при котором изучается, каким же образом человек распознает и понимает зашумленную речь; ведь он не производит предварительной фильтрации речевого сигнала для того, чтобы очистить его от шума.

Методы достижения помехозащищённости:

  • сводятся либо к выделению некоторых инвариантных относительно шума признаков, либо к обучению в условиях шума или модификации эталонов распознавания с использованием оценки уровня шумов.

Слабым местом подобных методов является ненадежная работа систем распознавания, настроенных на распознавание в шуме, в условиях отсутствия шумов, а также сильная зависимость от физических характеристик шума.

  • Вычисление коэффициентов линейного предсказания. В качестве элементов эталонов, вместо численных значений используются вероятностные распределения (среднее математическое, дисперсия).
  • Цифровая обработкой сигнала: — методы маскировки шумов (численные значения, сравнимые с характеристиками шума, игнорируются или используются с меньшими весовыми коэффициентами) и методы шумоподавления с использованием нескольких микрофонов (например, очистка от низкочастотных шумов с использованием микрофона с одной стороны устройства и высокочастотных — с другой стороны).
  • Очистка полезного сигнала от посторонних шумов, с использованием массивов микрофонов, моделирующих направленный микрофон с переменным лучом направления (простейший метод «задержки и суммирования» или более сложный с модификацией весов микрофонов).

Модели и методы оптимизации[править | править вики-текст]

Большинство существующих метрик автоматической оценки машинного перевода, основаны на сравнении с человеческим эталоном.[15]

При обучении Speech Translation System, применяют следующие методы оптимизаций качества и скорости перевода: [8] [21] [22] [23]

  • Каскадное ASR/WER с MT/BLEU

Автоматическое распознавание речи (ASR — automatic speech recognition)

  • ASR/WER (Word Error Rate) — вероятность ошибки в кодовом слове;
  • ASR/PER (Position-independent Word Error Rate)- вероятность ошибок позиционно-независимых слов (в разных предложениях);
  • ASR/CSR (Command Success Rate) — вероятность успешного выполнения команды.

Машинный перевод (MAT — Machine-Assisted Translation)

  • MT/BLEU (Bilingual Evaluation Understudy) — вероятность совпадение перевода с образцом.

Особенности[править | править вики-текст]

Помимо проблем, связанных с переводом текста, синхронный перевод речи имеет дело с особыми проблемами, включая бессвязность разговорного языка, меньше ограничений грамматики разговорного языка, неясной границы слова разговорного языка и коррекции ошибок распознавания речи. Кроме того, у синхронного перевода есть свои преимущества по сравнению с переводом текста, в том числе менее сложную структуру разговорного языка и меньше лексики в разговорном языке.[3]

По мере роста мощностей аппаратных устройств, можно ожидать появления машинных переводчиков c меньшим количеством ошибок в переводе, что является главной проблемой всех электронных переводчиков речи. Ситуация ухудшается в случае принадлежности говорящих к разным языковым группам. Например, английский язык относится к германской группе индоевропейской семьи языков, а китайский — к китайско-тибетской языковой суперсемье. Различия между ними очень велики, и сделать правильный перевод нелегко, к тому же одно и то же слово может означать два и более разных по смыслу вариантов перевода в другом языке. По этим причинам процентное количество ошибок при переводе далеких друг от друга языков остается все ещё высоким. В отличие, например, от перевода языков родственных — к примеру, русского и украинского. [4]

Стандарты[править | править вики-текст]

Когда много стран начнут исследовать и развивать речевой перевод, будет необходимо стандартизировать интерфейсы и форматы данных, чтобы гарантировать, что системы взаимно совместимы.

Международное объединенное исследование, создаётся речевыми консорциумами перевода:

  • (C-STAR) Consortium for Speech Translation Advanced Research — международный консорциум по переводу речи для объединенного исследования речевого перевода;
  • (A-STAR) Asia-Pacific — для Азиатско-Тихоокеанского региона.

Они были основаны как международная объединённая исследовательская организация, по проектированию форматов двуязычных стандартов, которые важны, для продвижения научных исследований этой технологии и стандартизации интерфейсов и форматов данных, чтобы соединить речевой модуль перевода на международном уровне.[5]

Оценки качества перевода[править | править вики-текст]

  • BLEU (Bilingual Evaluation Understudy) — алгоритм оценки-оптимизации качества текста, машинного перевода.
  • WER (Word Error Rate) — алгоритм оценки-оптимизации качества текста, машинного перевода.
  • Классификатор «Речь/не речь» (speech/non-speech) — определяющий вероятность правильного распознавания речи. Компромисс между определением, голос как шум или шум как голос (Type I and type II errors).

См. также[править | править вики-текст]

Литература[править | править вики-текст]

Ссылки[править | править вики-текст]

Примечания[править | править вики-текст]

  1. http://www.proceedings.spiiras.nw.ru/data/src/2010/12/00/spyproc-2010-12-00-01.pdf
  2. Speech Recognition Breakthrough for the Spoken, Translated Word - Microsoft Research. Проверено 17 февраля 2013. Архивировано 15 марта 2013 года.
  3. Microsoft показывает почти мгновенный перевод с английского языка на китайский / Хабрахабр. Архивировано 15 марта 2013 года.
  4. Японцы презентовали систему автоматического перевода телефонных разговоров. Архивировано 15 марта 2013 года.
  5. NTT DOCOMO to Introduce Mobile Translation of Conversations and Signage | Press Center | NTT DOCOMO Global. Проверено 13 февраля 2013. Архивировано 16 февраля 2013 года.
  6. IBM Research | Speech-to-Speech Translation. Проверено 17 февраля 2013. Архивировано 15 марта 2013 года.
  7. http://csl.anthropomatik.kit.edu/downloads/PaulikSchultz_ASRU2005.pdf
  8. 1 2 http://research.microsoft.com/en-us/um/people/xiaohe/publication/icassp11_wer_st_final.pdf
  9. Современные проблемы в области распознавания речи. - Auditech.Ltd. Проверено 3 марта 2013. Архивировано 15 марта 2013 года.
  10. Account Suspended
  11. en:Machine translation
  12. http://www.cs.tut.fi/~puhtunn/lecture-01.pdf
  13. 1 2 3 4 http://www.promt.ru/images/deep_hybrid.pdf
  14. http://research.microsoft.com/pubs/152136/28msp05-lecturenotes-proof.pdf
  15. 1 2 http://www.promt.ru/images/ainl_molchanov_promt.pdf
  16. 1 2 Статистическая система машинного перевода (Distributed statistical machine translation system) | Ilya (w-495) Nikitin - Academia.edu. Проверено 19 марта 2013. Архивировано 22 марта 2013 года.
  17. Статистическая система машинного перевода (Distributed statistical machine translation system) | Ilya (w-495) Nikitin - Academia.edu. Проверено 18 марта 2013. Архивировано 22 марта 2013 года.
  18. http://www.library.wisc.edu/selectedtocs/bd025.pdf
  19. Сорокин В. Н. Синтез речи. — М.: Наука, 1992, с. 392.
  20. http://www.sovmu.spbu.ru/main/sno/uzmf2/uzmf2_22.pdf
  21. http://www.lrec-conf.org/proceedings/lrec2008/pdf/785_paper.pdf
  22. http://acl.ldc.upenn.edu/J/J03/J03-1005.pdf
  23. http://iosrjournals.org/iosr-jce/papers/Vol5-issue1/G0513136.pdf