Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Статистический машинный перевод ( SMT ) - это парадигма машинного перевода, в которой переводы создаются на основе статистических моделей , параметры которых выводятся из анализа двуязычных текстовых корпусов . Статистический подход контрастирует с основанными на правилах подходами к машинному переводу, а также с машинным переводом на основе примеров . [1]

Первые идеи статистического машинного перевода были введены Уоррен Уивер в 1949 году [2] , включая идеи применения Клода Шеннона «s теории информации . Статистический машинный перевод был вновь введен в конце 1980 - х и начале 1990 исследователями IBM «s Томаса Уотсона Научно - исследовательский центр [3] [4] [5] и способствовал значительному всплеску интереса к машинному переводу в последнее . До появления нейронного машинного перевода это был наиболее широко изученный метод машинного перевода.

Основа [ править ]

Идея статистического машинного перевода исходит из теории информации . Документ переводится в соответствии с распределением вероятности того, что строка на целевом языке (например, английском) является переводом строки на исходном языке (например, французском).

К проблеме моделирования распределения вероятностей подходили разными способами . Один из подходов, который хорошо подходит для компьютерной реализации, заключается в применении теоремы Байеса , то есть где модель перевода - это вероятность того, что исходная строка является переводом целевой строки, а языковая модель - это вероятность увидеть эту строку целевого языка. . Эта декомпозиция привлекательна тем, что разбивает задачу на две подзадачи. Чтобы найти лучший перевод , выберите тот, который дает наибольшую вероятность:

.

Для строгой реализации этого потребуется выполнить исчерпывающий поиск, перебирая все строки на родном языке. Эффективное выполнение поиска - это работа декодера машинного перевода, который использует внешнюю строку, эвристику и другие методы, чтобы ограничить пространство поиска и в то же время сохранить приемлемое качество. Этот компромисс между качеством и использованием времени также можно найти в распознавании речи .

Поскольку системы перевода не могут хранить все собственные строки и их переводы, документ обычно переводится предложение за предложением, но даже этого недостаточно. Языковые модели обычно аппроксимируются сглаженными моделями n -грамм , и аналогичные подходы были применены к моделям перевода, но есть дополнительная сложность из-за разной длины предложений и порядка слов в языках.

Статистические модели перевода изначально основывались на словах (модели 1-5 из модели IBM Hidden Markov от Stephan Vogel [6] и Model 6 от Franz-Joseph Och [7] ), но значительные успехи были достигнуты с введением моделей на основе фраз . [8] Более поздние работы включали синтаксис или квазисинтаксические структуры. [9]

Преимущества [ править ]

Наиболее часто цитируется [ править ] Преимущества статистического машинного перевода через подход на основе правил являются:

  • Более эффективное использование человеческих ресурсов и данных
    • Есть много параллельных корпусов в машиночитаемом формате и даже больше одноязычных данных.
    • Как правило, системы SMT не адаптированы к какой-либо конкретной паре языков.
    • Системы перевода на основе правил требуют ручной разработки лингвистических правил, что может быть дорогостоящим и часто не распространяется на другие языки.
  • Более свободный перевод благодаря использованию языковой модели

Недостатки [ править ]

  • Создание корпуса может быть дорогостоящим.
  • Конкретные ошибки сложно предсказать и исправить.
  • Результаты могут иметь поверхностную беглость, которая маскирует проблемы с переводом. [10]
  • Статистический машинный перевод обычно хуже работает для языковых пар со значительно различающимся порядком слов.
  • Преимущества, полученные при переводе между западноевропейскими языками, не отражают результатов для других языковых пар из-за меньшего размера учебных корпусов и больших грамматических различий.

Словесный перевод [ править ]

В словесном переводе основной единицей перевода является слово на некотором естественном языке. Обычно количество слов в переведенных предложениях разное из-за сложных слов, морфологии и идиом. Отношение длин последовательностей переведенных слов называется плодородием, которое показывает, сколько иностранных слов производит каждое родное слово. Теория информации обязательно предполагает, что все они охватывают одну и ту же концепцию. На практике это не совсем так. Например, английское слово corner может быть переведено на испанский как rincón или esquina , в зависимости от того, означает ли оно внутренний или внешний угол.

Простой словарный перевод не может переводить между языками с разной рождаемостью. Системы перевода слов на основе можно относительно просто сделать , чтобы справиться с высоким уровнем рождаемости, таким образом, чтобы они могли сопоставить одно слово на несколько слов, но не иначе о [ править ] . Например, если бы мы переводили с английского на французский, каждое слово на английском могло бы дать любое количество французских слов, а иногда и вовсе их. Но нет способа сгруппировать два английских слова, образовав одно французское слово.

Примером системы перевода слов является свободно доступный пакет GIZA ++ ( GPLed ), который включает программу обучения моделям IBM, а также модели HMM и Model 6. [7]

Словесный перевод сегодня широко не используется; Фразовые системы более распространены. Большинство систем, основанных на фразах, все еще используют GIZA ++ для выравнивания корпуса [ необходима цитата ] . Выравнивания используются для извлечения фраз или вывода синтаксических правил. [11] А сопоставление слов в двухтексте по-прежнему активно обсуждается в сообществе. Из-за преобладания GIZA ++ в настоящее время существует несколько распределенных его реализаций в сети. [12]

Фразовый перевод [ править ]

В переводе на основе фраз цель состоит в том, чтобы уменьшить ограничения перевода на основе слов путем перевода целых последовательностей слов, длина которых может различаться. Последовательности слов называются блоками или фразами, но обычно это не лингвистические фразы , а фраземы, найденные с помощью статистических методов из корпусов. Было показано, что ограничение фраз лингвистическими фразами (синтаксически мотивированные группы слов, см. Синтаксические категории ) снижает качество перевода. [13]

Выбранные фразы далее отображаются один к одному на основе таблицы перевода фраз, и их можно переупорядочить. Эту таблицу можно изучить на основе выравнивания слов или непосредственно из параллельного корпуса. Вторая модель обучается с использованием алгоритма максимизации ожидания , аналогично модели IBM, основанной на словах . [14]

Перевод на основе синтаксиса [ править ]

Перевод на основе синтаксиса основан на идее перевода синтаксических единиц, а не отдельных слов или цепочек слов (как в машинном переводе на основе фраз), то есть (частичных) деревьев синтаксического анализа предложений / высказываний. [15] Идея перевода на основе синтаксиса в машинном переводе довольно старая, хотя ее статистический аналог не получил широкого распространения до появления сильных стохастических синтаксических анализаторов в 1990-х годах. Примеры этого подхода включают МП на основе DOP и, в последнее время, синхронные контекстно-свободные грамматики .

Иерархический фразовый перевод [ править ]

Иерархический фразовый перевод сочетает в себе сильные стороны фразового и синтаксического перевода. Он использует правила синхронной контекстно-свободной грамматики , но грамматики могут быть построены путем расширения методов фразового перевода без ссылки на лингвистически мотивированные синтаксические составляющие. Эта идея была впервые представлена ​​в системе Chiang Hiero (2005). [9]

Языковые модели [ править ]

Модель языка является важным компонентом любой статистической системы машинного перевода, которая помогает в принятии перевода как FLUENT , насколько это возможно. Это функция, которая берет переведенное предложение и возвращает вероятность того, что его произнесет носитель языка. Хорошая языковая модель, например, приписывает более высокую вероятность предложению «дом маленький», чем предложению «маленький дом». Помимо порядка слов , языковые модели также могут помочь в выборе слова: если иностранное слово имеет несколько возможных переводов, эти функции могут дать лучшие вероятности для определенных переводов в определенных контекстах на целевом языке. [14]

Проблемы со статистическим машинным переводом [ править ]

Проблемы, с которыми сталкивается статистический машинный перевод, включают:

Выравнивание предложений [ править ]

В параллельных корпусах отдельные предложения на одном языке могут быть переведены в несколько предложений на другом и наоборот. [15] Длинные предложения могут быть разбиты, короткие предложения могут быть объединены. Есть даже некоторые языки, в которых используются системы письма без четкого указания конца предложения (например, тайский). Выравнивание предложений может быть выполнено с помощью алгоритма выравнивания Гейла-Черча . С помощью этой и других математических моделей возможен эффективный поиск и извлечение совмещения предложений с наивысшей оценкой.

Выравнивание слов [ править ]

Выравнивание предложений обычно обеспечивается корпусом или вышеупомянутым алгоритмом выравнивания Гейла-Черча . Однако, чтобы изучить, например, модель перевода, нам нужно знать, какие слова совпадают в паре предложений источника и цели. Решения - это модели IBM или подход HMM.

Одна из представленных проблем - это служебные слова, которые не имеют четкого эквивалента в целевом языке. Например, при переводе с английского на немецкий предложение «Джон здесь не живет» слово «действительно» не имеет четкого соответствия в переведенном предложении «John wohnt hier nicht». Посредством логических рассуждений его можно выровнять со словами «wohnt» (поскольку в английском языке оно содержит грамматическую информацию для слова «live») или «nicht» (поскольку оно появляется в предложении только потому, что оно отрицается), или оно может быть невыровненный. [14]

Статистические аномалии [ править ]

Реальные обучающие наборы могут отменять переводы, скажем, собственных существительных. Например, фраза «Я села на поезд до Берлина» неправильно переводится как «Я села на поезд до Парижа» из-за большого количества слов «поезд до Парижа» в обучающей выборке.

Идиомы [ править ]

В зависимости от используемых корпусов идиомы могут не переводиться «идиоматически». Например, если использовать канадский Hansard в качестве двуязычного корпуса, «услышать» почти всегда можно перевести как «Браво!». ведь в парламенте «Слушай, слушай!» становится «Браво!».[16]

Эта проблема связана с выравниванием слов, поскольку в очень специфических контекстах идиоматическое выражение может совпадать со словами, которые приводят к идиоматическому выражению того же значения на целевом языке. Однако это маловероятно, поскольку выравнивание обычно не работает ни в каком другом контексте. По этой причине идиомы следует подвергать только фразовому выравниванию, поскольку они не могут быть подвергнуты дальнейшей декомпозиции без потери своего значения. Таким образом, эта проблема характерна для словесного перевода. [14]

Различный порядок слов [ править ]

Порядок слов в языках различается. Некоторая классификация может быть сделана, указав типичный порядок субъекта (S), глагола (V) и объекта (O) в предложении, и можно говорить, например, о языках SVO или VSO. Существуют также дополнительные различия в порядке слов, например, где расположены модификаторы для существительных или где одни и те же слова используются в качестве вопроса или утверждения.

При распознавании речи речевой сигнал и соответствующее текстовое представление могут отображаться друг в друга блоками по порядку. Это не всегда бывает с одним и тем же текстом на двух языках. Для SMT машинный переводчик может управлять только небольшими последовательностями слов, и разработчик программы должен продумать порядок слов. Попытки найти решения включали модели переупорядочения, в которых распределение изменений местоположения для каждого элемента перевода угадывается на основе выровненного двухстороннего текста. Различные изменения местоположения могут быть ранжированы с помощью языковой модели и могут быть выбраны лучшие.

Недавно голосовой коммуникатор Skype начал тестировать перевод речи. [17] Однако машинный перевод следует за технологическими тенденциями в речи с меньшей скоростью, чем распознавание речи. Фактически, некоторые идеи из исследований в области распознавания речи были заимствованы статистическим машинным переводом. [18]

Слова вне словарного запаса (OOV) [ править ]

Системы SMT обычно хранят разные словоформы как отдельные символы без какого-либо отношения друг к другу, и словоформы или фразы, которых не было в обучающих данных, не могут быть переведены. Это может быть из-за отсутствия данных для обучения, изменений в человеческой сфере, в которой используется система, или различий в морфологии.

Мобильные устройства [ править ]

Быстрое увеличение вычислительной мощности планшетов и смартфонов в сочетании с широкой доступностью высокоскоростного мобильного доступа в Интернет позволяет им запускать системы машинного перевода. Уже разработаны экспериментальные системы для оказания помощи иностранным работникам здравоохранения в развивающихся странах. Подобные системы уже доступны на рынке. Например, компания Apple «s IOS 8 позволяет пользователям диктовать текстовые сообщения . Встроенная система ASR распознает речь, и результаты распознавания редактируются онлайн-системой. [19]

Такие проекты, как Advanced Research Research (Универсальный перевод речи) (U-STAR1, продолжение проекта A-STAR) и EU-BRIDGE2, в настоящее время проводят исследования по переводу полных предложений, распознаваемых из устной речи. В последние годы наблюдается рост интереса к сочетанию распознавания речи, машинного перевода и синтеза речи . Для преобразования речи в речь списки n лучших передаются из ASR в систему статистического машинного перевода. Однако при объединении этих систем возникают проблемы, связанные с сегментацией предложений, ненормализацией и предсказанием знаков препинания, необходимыми для качественного перевода. [20]

Системы, реализующие статистический машинный перевод [ править ]

  • Google Translate (начал переход на нейронный машинный перевод в 2016 году) [21]
  • Microsoft Translator (начал переход на нейронный машинный перевод в 2016 году) [22]
  • Omniscien Technologies [ необходима ссылка ]
  • SYSTRAN (начал переход на нейронный машинный перевод в 2016 году) [23]
  • Яндекс.Переведен (перешел на гибридный подход с нейронным машинным переводом в 2017 г.) [24]

См. Также [ править ]

  • AppTek
  • Модель языка кеширования
  • Duolingo
  • Europarl corpus
  • Машинный перевод на основе примеров
  • переводчик Google
  • Гибридный машинный перевод
  • Переводчик Microsoft
  • Моисей (машинный перевод) , бесплатное программное обеспечение
  • Машинный перевод на основе правил
  • SDL Language Weaver
  • Статистический анализ

Примечания и ссылки [ править ]

  1. ^ Филипп Коэн (2009). Статистический машинный перевод . Издательство Кембриджского университета. п. 27. ISBN 978-0521874151. Проверено 22 марта 2015 года . Статистический машинный перевод связан с другими управляемыми данными методами машинного перевода, такими как более ранняя работа по машинному переводу на основе примеров. Сравните это с системами, основанными на правилах, созданных вручную.
  2. ^ В. Уивер (1955). Перевод (1949). В: Машинный перевод языков , MIT Press, Кембридж, Массачусетс.
  3. ^ П. Браун; Джон Кок , С. Делла Пьетра, В. Делла Пьетра, Фредерик Елинек , Роберт Л. Мерсер , П. Руссен (1988). «Статистический подход к языковому переводу» . Coling'88 . Ассоциация компьютерной лингвистики. 1 : 71–76 . Проверено 22 марта 2015 года .CS1 maint: multiple names: authors list (link)
  4. ^ П. Браун; Джон Кок , С. Делла Пьетра, В. Делла Пьетра, Фредерик Елинек , Джон Д. Лафферти , Роберт Л. Мерсер , П. Руссен (1990). «Статистический подход к машинному переводу» . Компьютерная лингвистика . MIT Press. 16 (2): 79–85 . Проверено 22 марта 2015 года .CS1 maint: multiple names: authors list (link)
  5. ^ П. Браун; С. Делла Пьетра, В. Делла Пьетра и Р. Мерсер (1993). «Математика статистического машинного перевода: оценка параметров» . Компьютерная лингвистика . MIT Press. 19 (2): 263–311 . Проверено 22 марта 2015 года .CS1 maint: multiple names: authors list (link)
  6. ^ С. Фогель, Х. Ней и К. Тиллманн. 1996. Выравнивание слов в статистическом переводе на основе HMM . В COLING '96: 16-я Международная конференция по компьютерной лингвистике, стр. 836-841, Копенгаген, Дания.
  7. ^ a b Оч, Франц Иосиф; Ней, Германн (2003). «Систематическое сравнение различных статистических моделей сопоставления» . Компьютерная лингвистика . 29 : 19–51. DOI : 10.1162 / 089120103321337421 .
  8. ^ П. Koehn, FJ Оч и D. Marcu (2003). Статистический фразовый перевод . В материалах совместной конференции по технологиям человеческого языка и ежегодного собрания Североамериканского отделения Ассоциации компьютерной лингвистики (HLT / NAACL) .
  9. ^ а б Д. Чианг (2005). Иерархическая модель на основе фраз для статистического машинного перевода . В материалах 43-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL'05) .
  10. Чжоу, Шарон (25 июля 2018 г.). «Превзошел ли ИИ людей в переводе? Даже близко!» . Скайнет сегодня . Проверено 2 августа 2018 .
  11. ^ П. Коэн, Х. Хоанг, А. Берч, К. Каллисон-Берч, М. Федерико, Н. Бертольди, Б. Коуэн, В. Шен, К. Моран, Р. Зенс, К. Дайер, О. Боджар , А. Константин, Э. Хербст. 2007. Моисей: набор инструментов с открытым исходным кодом для статистического машинного перевода . ACL 2007, Демонстрационная сессия, Прага, Чехия
  12. ^ Q. Гао, С. Фогель, " Параллельные реализации инструмента выравнивания слов ", Разработка программного обеспечения, тестирование и обеспечение качества для обработки естественного языка, стр. 49-57, июнь 2008 г.
  13. ^ Филипп Коэн, Франц Йозеф Оч, Даниэль Марку: Статистический фразовый перевод (2003)
  14. ^ а б в г Коэн, Филипп (2010). Статистический машинный перевод . Издательство Кембриджского университета. ISBN 978-0-521-87415-1.
  15. ^ a b Филип Уильямс; Рико Сеннрих; Мэтт Пост; Филипп Коэн (1 августа 2016 г.). Статистический машинный перевод на основе синтаксиса . Издатели Morgan & Claypool. ISBN 978-1-62705-502-4.
  16. ^ WJ Hutchins и H. Somers. (1992). Введение в машинный перевод , 18.3: 322. ISBN 978-0-12-362830-5 
  17. ^ Предварительный просмотр переводчика Skype
  18. ^ Wołk, K .; Марасек, К. (07.04.2014). «Статистический перевод речи в реальном времени». Достижения в интеллектуальных системах и вычислениях . Springer. 275 : 107–114. arXiv : 1509.09090 . DOI : 10.1007 / 978-3-319-05951-8_11 . ISBN 978-3-319-05950-1. ISSN  2194-5357 . S2CID  15361632 .
  19. ^ Wołk K .; Марасек К. (2014). Статистические системы машинного перевода речи с польского на английский для IWSLT 2014 . Материалы 11-го международного семинара по устному переводу, озеро Тахо, США.
  20. ^ Wołk K .; Марасек К. (2013). Статистические системы машинного перевода речи с польского на английский для IWSLT 2013 . Материалы 10-го международного семинара по устному переводу, Гейдельберг, Германия. С. 113–119. arXiv : 1509.09097 .
  21. ^ Туровский, Barak (2016-11-15). "Найдено в переводе: Более точные, плавные предложения в Google Translate" . Google . Проверено 3 октября 2019 .
  22. ^ «Машинный перевод» . Переводчик Microsoft для бизнеса . Проверено 3 октября 2019 .
  23. ^ Vashee, Kirti (2016-12-22). "Продолжающаяся эволюция нейронных MT от SYSTRAN" . eMpTy Pages . Проверено 3 октября 2019 .
  24. ^ «Одна модель лучше двух. Яндекс.Переводчик запускает гибридную систему машинного перевода» . Блог Яндекса . 2017-09-14 . Проверено 3 октября 2019 .

Внешние ссылки [ править ]

  • Статистический машинный перевод - включает в себя введение в исследования, конференции, корпуса и списки программного обеспечения
  • Moses: современная SMT-система с открытым исходным кодом
  • Интернет-перевод - инструмент статистического машинного перевода
  • Аннотированный список ресурсов для статистической обработки естественного языка - включает ссылки на свободно доступное программное обеспечение для статистического машинного перевода.
  • Гаруда ДИКТИ - открытый национальный журнал