Машинный перевод на основе трансформации
Машинный перевод на основе трансформации является разновидностью машинного перевода (MП). В настоящее время это один из наиболее распространённых методов машинного перевода. В отличие от более простой модели прямого MП, MП на основе трансформации разделяет процесс перевод на три этапа: анализ текста на исходном языке для определения его грамматической структуры, перевод результирующей структуры в структуру, подходящую для производства текста на языке перевода, и генерацию текста. Таким образом, системы МП на основе трансформации способны использовать знания исходного языка и языка перевода[1].
Устройство
[править | править код]В основе перевода на основе трансформации и межъязыкового машинного перевода лежит одна и та же идея, согласно которой для того чтобы осуществить перевод, необходимо получить промежуточное представление. С его помощью можно зафиксировать смысл первоначального предложения, чтобы затем построить правильный перевод. В межъязыковом МП такое промежуточное представление должно быть независимым и от исходного языка, и от языка перевода, в то время как в случае с MП, основанном на переносе, имеет место определённая степень зависимости от конкретной пары языков. Способы работы систем МП на основе трансформации существенным образом различаются, однако в целом они следуют одной и той же схеме: применяют наборы лингвистических правил, определяемых соответствиями между структурой исходного языка и языка перевода. Первый этап включает анализ входного текста с точки зрения морфологии и синтаксиса (иногда также семантики) для создания промежуточного представления. Из полученного представления с использованием двуязычных словарей и правил грамматического построения формируется перевод. Данная стратегия позволяет получить достаточно качественный перевод с точностью соответствия оригиналу порядка 90% (впрочем, точность в большой степени зависит от конкретной языковой пары и определяется степенью близости двух конкретных языков).
Процесс перевода
[править | править код]В системе МП на основе правил исходный текст сначала анализируется с точки зрения морфологии и синтаксиса с целью получения синтаксического представления. Данное представление в дальнейшем может быть изменено в сторону меньшей конкретизации, в связи с необходимостью уделять повышенное внимание наиболее существенным для перевода фрагментам, игнорируя при этом другие виды информации. В процессе трансформации окончательное представление (все ещё существующее на исходном языке) преобразуется в представление того же уровня конкретизации на языке перевода. Эти два представления носят название промежуточных представлений. Процесс трансформации представления на языке перевода в готовый текст состоит из аналогичных этапов, произведённых в обратном порядке.
Анализ и трансформация
[править | править код]До того момента как будет получен финальный результат, возможно обращение к различным методам анализа и трансформации. Наряду со статистическими подходами может быть увеличено число генерирующих гибридных систем. Выбираемые методы и приоритеты в значительной мере зависят от устройства самой системы. Тем не менее, большинство существующих систем включает как минимум следующие этапы:
- Морфологический анализ. Поверхностные формы входного текста классифицируются по принадлежности к частям речи (существительное, глагол и т. д.) и по грамматическим категориям (число, род, время и т. д.). Как правило, на данном этапе проводятся все возможные виды анализа для каждой из поверхностных форм одновременно со словарной формой слова.
- Лексическая категоризация. В любом тексте могут присутствовать слова, имеющие более одного значения, что создаёт неоднозначность в процессе анализа. Лексическая категоризация обращает внимание на контекст, в котором употреблено слово, чтобы попытаться определить его верное значение. Данный процесс может включать в себя маркирование частей речи, а также разрешение смысловой омонимии.
- Лексическая трансформация. Процесс главным образом включает перевод словарного значения. Производится поиск начальной формы слова в словаре и выбор перевода.
- Структурная трансформация. В отличие от предыдущих этапов, где речь шла о словах, на данном этапе речь идёт об образованиях более крупного порядка, таких как фразы и фрагменты текста. Характерными особенностями этого этапа являются необходимость согласования грамматических категорий, таких как род и число, а также изменения порядка слов или фраз.
- Морфологическая трансформация. На основе данных, полученных на этапе структурной трансформации создаются окончательные готовые формы на языке перевода.
Виды трансформаций
[править | править код]Одной из основных особенностей систем МП на основе трансформации является стадия, на которой происходит перевод промежуточного представление текста на исходном языке в промежуточное представление текста на языке перевода. Этот процесс может происходить на одном из уровней лингвистического анализа или в промежутке между ними. Уровни представлены ниже:
- Поверхностная (синтаксическая) трансформация. Этот уровень характеризуется передачей синтаксических структур между исходным языком и языком перевода. Он применим к языкам одного типа или принадлежащим одной семье, например, если говорить о романских языках, между испанским, каталонский, французским, итальянкой и т. д.
- Глубокая (семантика) трансформация. На этом уровне создается семантическое представление, зависящее от исходного языка. Оно может состоять из нескольких структур, передающих определённый смысл. На данном уровне трансформации, как правило, происходит создание предикатов. Также перевод обычно требует структурной трансформации. Этот уровень используется для перевода между языками, которые отдаленно связаны друг с другом (например, между парами испанский-английский или испанский-баскский, и т. д.)
См. также
[править | править код]Примечания
[править | править код]- ↑ Jurafsky, Daniel; Martin, James H. (2009). Speech and Language Processing. Pearson. pp. 906—908.