Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Нейронный машинный перевод (NMT) - это подход к машинному переводу, который использует искусственную нейронную сеть для прогнозирования вероятности последовательности слов, обычно моделируя целые предложения в единой интегрированной модели.

Свойства [ править ]

Им требуется лишь небольшая часть памяти, необходимой для традиционных моделей статистического машинного перевода (SMT). Кроме того, в отличие от обычных систем перевода, все части нейронной модели перевода обучаются совместно (от начала до конца), чтобы максимизировать производительность перевода. [1] [2] [3]

История [ править ]

Приложения глубокого обучения впервые появились в области распознавания речи в 1990-х годах. Первая научная статья об использовании нейронных сетей в машинном переводе появилась в 2014 году, после чего в последующие несколько лет последовал большой прогресс. (NMT с большим словарем, приложение для создания подписей к изображениям, Subword-NMT, Multilingual NMT, Multi-Source NMT, Character-dec NMT, Zero-Resource NMT, Google, Fully Character-NMT, Zero-Shot NMT в 2017 г.) В 2015 г. был первым появлением системы NMT на публичном конкурсе машинного перевода (OpenMT'15). WMT'15 также впервые имел соперника по NMT; в следующем году среди победителей уже было 90% систем NMT. [4]

Работы [ править ]

NMT отходит от статистических подходов на основе фраз , в которых используются отдельно разработанные подкомпоненты. [5] Нейронный машинный перевод (NMT) не является радикальным шагом вперед по сравнению с тем, что традиционно делается в статистическом машинном переводе (SMT). Его основным отличием является использование векторных представлений («вложений», «непрерывных пространственных представлений») для слов и внутренних состояний. Структура моделей проще, чем модели, основанные на фразах. Не существует отдельной языковой модели, модели перевода и модели переупорядочения, а есть только одна модель последовательности, которая предсказывает одно слово за раз. Однако это предсказание последовательности зависит от всего исходного предложения и всей уже созданной целевой последовательности. Модели NMT используют глубокое обучение ирепрезентативное обучение .

Моделирование последовательности слов сначала обычно выполнялось с использованием рекуррентной нейронной сети (RNN). Двунаправленная рекуррентная нейронная сеть, известная как кодировщик , используется нейронной сетью для кодирования исходного предложения для второй RNN, известного как декодер , который используется для предсказания слов на целевом языке . [6] Рекуррентные нейронные сети сталкиваются с трудностями при кодировании длинных входных данных в один вектор. Это может быть компенсировано механизмом внимания [7].что позволяет декодеру фокусироваться на разных частях ввода при генерации каждого слова вывода. Существуют и другие модели охвата, решающие проблемы в таких механизмах внимания, такие как игнорирование прошлой информации о согласовании, приводящей к чрезмерному и недостаточному переводу. [8]

Сверточные нейронные сети (Convnets) в принципе несколько лучше подходят для длинных непрерывных последовательностей, но изначально не использовались из-за нескольких недостатков. Они были успешно компенсированы в 2017 году с помощью «механизмов внимания». [9]

Архитектура преобразователя [10], основанная на внимании, остается доминирующей архитектурой для нескольких языковых пар. [11]

Ссылки [ править ]

  1. ^ Kalchbrenner, Нал; Блансом, Филипп (2013). «Рекуррентные модели непрерывного перевода» . Труды ассоциации компьютерной лингвистики : 1700–1709.
  2. ^ Суцкевер, Илья; Виньялс, Ориол; Ле, Куок Вьет (2014). «Последовательность для последовательного обучения с помощью нейронных сетей». arXiv : 1409.3215 [ cs.CL ].
  3. ^ Kyunghyun Cho; Барт ван Мерриенбоер; Дмитрий Богданов; Йошуа Бенжио (3 сентября 2014 г.). «О свойствах нейронного машинного перевода: подходы кодировщик – декодер». arXiv : 1409.1259 [ cs.CL ].
  4. ^ Боджар, Ондрей; Чаттерджи, Раджен; Федерманн, Кристиан; Грэм, Иветт; Хаддоу, Барри; Гек, Матиас; Йепес, Антонио Химено; Коэн, Филипп; Логачева, Варвара; Монц, Кристоф; Негри, Маттео; Невеол, Орели; Невес, Мариана; Попель, Мартин; Пост, Мэтт; Рубино, Рафаэль; Скартон, Каролина; Specia, Лючия; Турчи, Марко; Верспур, Карин; Зампиери, Маркос (2016). «Результаты конференции по машинному переводу 2016 года» (PDF) . ACL 2016 Первая конференция по машинному переводу (WMT16) . Ассоциация компьютерной лингвистики: 131–198. Архивировано из оригинального (PDF) 27 января 2018 года . Проверено 27 января 2018 .
  5. ^ Волк, Кшиштоф; Марасек, Кшиштоф (2015). «Машинный перевод на основе нейронных сетей для медицинских текстов. На основе текстов листовок Европейского агентства по лекарственным средствам». Процедуры информатики . 64 (64): 2–9. arXiv : 1509.08644 . Bibcode : 2015arXiv150908644W . DOI : 10.1016 / j.procs.2015.08.456 . S2CID 15218663 . 
  6. ^ Dzmitry Bahdanau; Чо Кёнхён; Йошуа Бенжио (2014). «Нейронный машинный перевод путем совместного обучения выравниванию и переводу». arXiv : 1409.0473 [ cs.CL ].
  7. ^ Bahdanau, Dzmitry; Чо, Кёнхён; Бенжио, Йошуа (01.09.2014). «Нейронный машинный перевод путем совместного обучения выравниванию и переводу». arXiv : 1409.0473 [ cs.CL ].
  8. ^ Ту, Чжаопэн; Лу, Чжэндун; Лю, Ян; Лю, Сяохуа; Ли, Ханг (2016). «Моделирование покрытия для нейронного машинного перевода». arXiv : 1601.04811 [ cs.CL ].
  9. ^ Колдеви, Девин (2017-08-29). «DeepL обучает других онлайн-переводчиков с умным машинным обучением» . TechCrunch . Проверено 27 января 2018 .
  10. ^ Васвани, Ашиш; Шазир, Ноам; Пармар, Ники; Uszkoreit, Jakob; Джонс, Ллион; Gomez, Aidan N .; Кайзер, Лукаш; Полосухин, Илья (05.12.2017). «Внимание - все, что вам нужно». arXiv : 1706.03762 [ cs.CL ].
  11. ^ Барро, Лоик; Бояр, Ондржей; Costa-jussà, Marta R .; Федерманн, Кристиан; Фишель, Марк; Грэм, Иветт; Хаддоу, Барри; Гек, Матиас; Коэн, Филипп; Малмаси, Шервин; Монц, Кристоф (август 2019 г.). «Результаты конференции по машинному переводу 2019 г. (WMT19)» . Труды Четвертой конференции по машинному переводу (Том 2: Общие задания, день 1) . Флоренция, Италия: Ассоциация компьютерной лингвистики: 1–61. DOI : 10.18653 / v1 / W19-5301 .