Нейронный машинный перевод Google

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Нейронный машинный перевод Google (GNMT) — это система нейронного машинного перевода (NMT), разработанная компанией Google и представленная в ноябре 2016 года, которая использует искусственную нейронную сеть для повышения беглости и точности перевода в Google Переводчике.[1][2][3]

GNMT улучшает качество перевода, применяя метод машинного перевода на основе примеров (EBMT), в котором система “обучается на миллионах примеров”.[2] Предлагаемая архитектура системного обучения GNMT была впервые опробована на более, чем ста языках, поддерживаемых Google Переводчиком.[2] Благодаря большой сквозной структуре, система со временем учится создавать более качественные и естественные переводы.[1] GNMT способна переводить предложения целиком, а не по частям.[1] Сеть GNMT может выполнять интерлингвальный машинный перевод, кодируя семантику предложения вместо того, чтобы запоминать переводы отдельных фраз.[2][4]

История[править | править код]

Проект Google Brain был создан в 2011 году в “секретной исследовательской лаборатории Google X”[5] Джеффом Дином, сотрудником Google, Грегом Коррадо, исследователем из Google, и Эндрю Ыном, профессором компьютерных наук Стэнфордского университета.[6][7][8] Работа Ына легла в основу одного из самых больших технологических прорывов в Google и Стэнфорде.[5]

В сентябре 2016 года исследовательская группа Google объявила о разработке системы перевода GNMT, и к ноябрю Google Переводчик начал использовать нейронный машинный перевод (NMT) вместо прежних статистических методов (SMT)[1][9][10][11], которые использовались с октября 2007 года внутри собственной закрытой SMT системы.[12][13]

Система NMT внутри Google Переводчика использует большую искусственную нейронную сеть, пригодную для глубинного обучения.[1][2][3] Изучая миллионы примеров, GNMT улучшает качество перевода, используя более широкий контекст для вывода наиболее подходящего перевода. Затем результат перестраивается и адаптируется для соответствия грамматике человеческого языка. GNMT не создала свой внутренний универсальный язык, а скорее стремилась найти общее между многими языками, что должно быть интересно больше для психологов и лингвистов, чем для специалистов в области информатики.[14] Новый движок перевода был включен в обе стороны для девяти языков: английского, французского, немецкого, испанского, португальского, китайского, японского, корейского и турецкого в 2016 году.[15] В марте 2017 года были добавлены ещё три языка: русский, хинди и вьетнамский.[16] В том же месяце с помощью сообщества Google Переводчика была добавлена поддержка иврита и арабского языка.[17] Далее в конце апреля 2017 года была добавлена поддержка девяти индийских языков, а именно: хинди, бенгали, маратхи, гуджарати, пенджаби, тамильский, телугу, малаялам и каннада.[18]

Языки, поддерживаемые GNMT[править | править код]

Ниже приведён список языковых пар, в которых для перевода используется модель нейронного машинного перевода Google (NMT). По состоянию на июль 2017 года для всех языков поддерживается только перевод на английский язык и обратно:[19]

Языковая пара Коды языков
1 Африкаанс <-> Английский af <-> en
2 Арабский <-> Английский ar <-> en
3 Болгарский <-> Английский bg <-> en
4 Китайский (упрощенный) <-> Английский zh-CN <-> en
5 Китайский (традиционный) <-> Английский zh-TW <-> en
6 Хорватский <-> Английский hr <-> en
7 Чешский <-> Английский cs <-> en
8 Датский <-> Английский da <-> en
9 Голландский <-> Английский nl <-> en
10 Французский <-> Английский fr <-> en
11 Немецкий <-> Английский de <-> en
12 Греческий <-> Английский el <-> en
13 Иврит <-> Английский iw <-> en
14 Хинди <-> Английский hi <-> en
15 Исландский <-> Английский is <-> en
16 Индонезийский <-> Английский id <-> en
17 Итальянский <-> Английский it <-> en
18 Японский <-> Английский ja <-> en
19 Корейский <-> Английский ko <-> en
20 Норвежский <-> Английский no <-> en
21 Польский <-> Английский pl <-> en
22 Португальский <-> Английский pt <-> en
23 Румынский <-> Английский ro <-> en
24 Русский <-> Английский ru <-> en
25 Словацкий <-> Английский sk <-> en
26 Испанский <-> Английский es <-> en
27 Шведский <-> Английский sv <-> en
28 Тайский <-> Английский th <-> en
29 Турецкий <-> Английский tr <-> en
30 Вьетнамский <-> Английский vi <-> en

Прямой перевод[править | править код]

Утверждается, что система GNMT лучше предыдущего варианта Google Переводчика тем, что она может выполнять “прямой перевод”, т.е. переводить с одного языка на другой напрямую (например, с японского на корейский).[2] Ранее Google Переводчик сначала переводил с исходного языка на английский, а затем с английского на конечный язык вместо прямого перевода с одного языка на другой.[4]

См. также[править | править код]

Примечания[править | править код]

  1. 1 2 3 4 5 Barak Turovsky (November 15, 2016), "Found in translation: More accurate, fluent sentences in Google Translate", Google Blog, Дата обращения: 11 января 2017 Архивная копия от 7 апреля 2017 на Wayback Machine
  2. 1 2 3 4 5 6 Mike Schuster, Melvin Johnson, and Nikhil Thorat. Zero-Shot Translation with Google’s Multilingual Neural Machine Translation System. Google Research Blog (22 ноября 2016). Дата обращения: 11 января 2017. Архивная копия от 10 июля 2017 на Wayback Machine
  3. 1 2 Gil Fewster (January 5, 2017), "The mind-blowing AI announcement from Google that you probably missed", freeCodeCamp, Дата обращения: 11 января 2017 Архивная копия от 31 мая 2017 на Wayback Machine
  4. 1 2 Boitet, Christian; Blanchon, Hervé; Seligman, Mark; Bellynck, Valérie MT on and for the Web (PDF) (2010). Дата обращения: 1 декабря 2016. Архивировано из оригинала 29 марта 2017 года.
  5. 1 2 Robert D. Hof. A Chinese Internet Giant Starts to Dream: Baidu is a fixture of online life in China, but it wants to become a global power. Can one of the world’s leading artificial intelligence researchers help it challenge Silicon Valley’s biggest companies? Technology Review (14 августа 2014). Дата обращения: 11 января 2017. Архивировано 8 января 2020 года.
  6. Jeff Dean and Andrew Ng. Using large-scale brain simulations for machine learning and A.I. Official Google Blog (26 июня 2012). Дата обращения: 26 января 2015. Архивировано 23 августа 2020 года.
  7. Google's Large Scale Deep Neural Networks Project. Дата обращения: 25 октября 2015. Архивировано 16 февраля 2019 года.
  8. Markoff, John How Many Computers to Identify a Cat? 16,000. New York Times (25 июня 2012). Дата обращения: 11 февраля 2014. Архивировано 9 мая 2017 года.
  9. Katyanna Quach (November 17, 2016), Google's neural network learns to translate languages it hasn't been trained on: First time machine translation has used true transfer learning, Дата обращения: 11 января 2017 Архивная копия от 22 сентября 2017 на Wayback Machine
  10. Lewis-Kraus, Gideon (2016-12-14). "The Great A.I. Awakening". The New York Times. Архивировано 5 мая 2017. Дата обращения: 11 января 2017.
  11. Le, Quoc; Schuster, Mike A Neural Network for Machine Translation, at Production Scale. Google Research Blog. Google (27 сентября 2016). Дата обращения: 1 декабря 2016. Архивировано 7 мая 2018 года.
  12. Google Switches to its Own Translation System Архивная копия от 29 апреля 2017 на Wayback Machine, October 22, 2007
  13. Barry Schwartz. Google Translate Drops SYSTRAN for Home-Brewed Translation. Search Engine Land (23 октября 2007). Дата обращения: 4 мая 2017. Архивировано 21 мая 2017 года.
  14. Chris McDonald (January 7, 2017), Commenting on Gil Fewster's January 5th article in the Atlantic, Дата обращения: 11 января 2017 Архивная копия от 22 июня 2017 на Wayback Machine
  15. Turovsky, Barak Found in translation: More accurate, fluent sentences in Google Translate. The Keyword Google Blog. Google (15 ноября 2016). Дата обращения: 1 декабря 2016. Архивировано 14 апреля 2020 года.
  16. Turovsky, Barak Higher quality neural translations for a bunch more languages. The Keyword Google Blog. Google. Дата обращения: 6 марта 2017. Архивировано 7 марта 2017 года.
  17. Novet, Jordan Google now provides AI-powered translations for Arabic and Hebrew. VentureBeat (30 марта 2017). Архивировано 1 января 2020 года.
  18. Turovsky, Barak Making the internet more inclusive in India. The Keyword (25 апреля 2017). Архивировано 11 ноября 2020 года.
  19. Translation API Language Support. Google Cloud Platform (4 мая 2017). Архивировано 16 сентября 2017 года.

Ссылки[править | править код]