Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Машинный перевод , иногда обозначаемый аббревиатурой MT [1] (не путать с компьютерным переводом , машинным переводом , выполняемым человеком, или интерактивным переводом ), - это подраздел компьютерной лингвистики , изучающий использование программного обеспечения для перевода. текст или речь с одного языка на другой.

На базовом уровне МП выполняет механическую замену слов на одном языке словами на другом, но одно это редко дает хороший перевод, потому что требуется распознавание целых фраз и их ближайших аналогов на целевом языке. Не все слова на одном языке имеют эквивалентные слова на другом языке, и многие слова имеют более одного значения.

Решение этой проблемы с помощью корпусных статистических и нейронных методов - это быстро развивающаяся область, которая ведет к лучшим переводам, устранению различий в лингвистической типологии , переводу идиом и изоляции аномалий. [2] [ не удалось проверить ]

Текущее программное обеспечение машинного перевода часто позволяет настраивать его по предметной области или профессии (например, отчеты о погоде ), улучшая результат за счет ограничения объема допустимых замен. Этот метод особенно эффективен в областях, где используется формальный или шаблонный язык. Отсюда следует, что машинный перевод правительственных и юридических документов дает более полезный результат, чем разговор или менее стандартизованный текст.

Улучшить качество вывода можно также за счет вмешательства человека: например, некоторые системы могут переводить более точно, если пользователь однозначно определил, какие слова в тексте являются собственными именами. С помощью этих методов машинное обучение оказалось полезным в качестве инструмента для помощи переводчикам и, в очень ограниченном числе случаев, может даже производить выходные данные, которые можно использовать как есть (например, сводки погоды).

Прогресс и потенциал машинного перевода были предметом споров на протяжении всей его истории. С 1950 - х годов, ряд ученых, первый и в первую очередь Иегошуа Бар-Гилель , [3] поставили под сомнение возможность достижения полностью автоматического машинного перевода высокого качества. [4] [ необходима страница ]

История [ править ]

Истоки [ править ]

Истоки машинного перевода можно проследить до работы Аль-Кинди , арабского криптографа 9-го века, который разработал методы системного языкового перевода, включая криптоанализ , частотный анализ , а также вероятность и статистику , которые используются в современном машинном переводе. [5] Идея машинного перевода появилась позже в 17 веке. В 1629 году Рене Декарт предложил универсальный язык с эквивалентными идеями на разных языках, разделяющих один символ. [6]

Идея использования цифровых компьютеров для перевода естественных языков была предложена еще в 1946 году английским AD Бутом и одновременно Уорреном Уивером из Фонда Рокфеллера . «Меморандум, написанный Уорреном Уивером в 1949 году, является, пожалуй, самой влиятельной публикацией на заре машинного перевода». [7] [8] За ними последовали и другие. В 1954 г. была проведена демонстрация машины APEXC в Биркбек-колледже ( Лондонский университет).) элементарного перевода с английского на французский. В то время было опубликовано несколько статей по этой теме и даже статьи в популярных журналах (например, статья Клива и Захарова в сентябрьском номере журнала Wireless World за 1955 год ). Аналогичное приложение, также впервые разработанное в колледже Биркбек в то время, считывало и составляло тексты Брайля с помощью компьютера.

1950-е [ править ]

Первый исследователь в этой области, Иегошуа Бар-Хиллель, начал свои исследования в Массачусетском технологическом институте (1951 г.). Группа исследователей машинного обучения Джорджтаунского университета под руководством профессора Майкла Заречнака последовала (1951) с публичной демонстрацией своей экспериментальной системы Джорджтаун-IBM в 1954 году. Исследовательские программы МТ появились в Японии [9] [10] и России (1955). и первая конференция MT была проведена в Лондоне (1956). [11] [12]

Дэвид Г. Хейс «писал об автоматизированной языковой обработке еще в 1957 году» и «был руководителем проекта по компьютерной лингвистике в Rand с 1955 по 1968 год». [13]

1960–1975 [ править ]

Исследователи продолжали работать в этой области, когда в США была создана Ассоциация машинного перевода и компьютерной лингвистики (1962 г.), а Национальная академия наук сформировала Консультативный комитет по автоматической обработке языков (ALPAC) для изучения машинного перевода (1964 г.). Однако реальный прогресс был намного медленнее, и после отчета ALPAC (1966), который обнаружил, что десятилетние исследования не оправдали ожиданий, финансирование было значительно сокращено. [14] Согласно отчету 1972 года директора отдела оборонных исследований и разработок (DDR&E), возможность крупномасштабного МТ была восстановлена ​​благодаря успеху системы Логос МТ в переводе военных наставлений на вьетнамский язык во время этого конфликта.

Французский текстильный институт также использовал машинный перевод для перевода рефератов с французского, английского, немецкого и испанского языков и на них (1970); Университет Бригама Янга начал проект по автоматическому переводу мормонских текстов (1971 г.).

1975 и позже [ править ]

SYSTRAN , который «первым начал работу в этой области по контрактам с правительством США» [1] в 1960-х годах, использовался Xerox для перевода технических руководств (1978). Начиная с конца 1980-х годов, когда вычислительные мощности увеличивались и становились менее дорогими, все больший интерес проявляли к статистическим моделям машинного перевода . МТ стал более популярным после появления компьютеров. [15] Первая система внедрения SYSTRAN была внедрена в 1988 году онлайн-службой Французской почтовой службы под названием Minitel. [16]Были также созданы различные компании, занимающиеся МТ, в том числе Trados (1984), которая первой разработала и выпустила на рынок технологию памяти переводов (1989). Первая коммерческая система машинного перевода для русского / английского / немецко-украинского языков была разработана в Харьковском государственном университете (1991).

К 1998 году «всего за 29,95 доллара» можно было «купить программу для перевода в одном направлении между английским и основным европейским языком по вашему выбору» для работы на ПК. [1]

MT в Интернете началось с SYSTRAN, предлагавшего бесплатный перевод небольших текстов (1996 г.), а затем предоставляемого через AltaVista Babelfish [1], который обрабатывал 500 000 запросов в день (1997 г.). [17] Вторым бесплатным переводческим сервисом в сети была GlobaLink от Lernout & Hauspie. [1] Журнал Atlantic Magazine писал в 1998 году, что «Systran's Babelfish и GlobaLink's Comprende» справились с «Не полагайтесь на это» с «компетентным исполнением». [18]

Франц Йозеф Ох (будущий глава отдела разработки переводов в Google) выиграл соревнование DARPA по скоростному машинному программированию (2003). [19] За это время были внесены другие новшества, включая MOSES, статистический механизм машинного перевода с открытым исходным кодом (2007 г.), службу перевода текста / SMS для мобильных телефонов в Японии (2008 г.) и мобильный телефон со встроенной функцией преобразования речи в речь. функциональность для английского, японского и китайского языков (2009 г.). В 2012 году Google объявил, что Google Translate переводит примерно столько текста, чтобы заполнить 1 миллион книг за один день.

Процесс перевода [ править ]

Процесс перевода человеком можно описать как:

  1. Декодирование в смысл этого исходного текста ; и
  2. Re - кодирующий этот смысл в целевом языке.

За этой якобы простой процедурой скрывается сложная когнитивная операция. Чтобы полностью расшифровать значение исходного текста , переводчик должен интерпретировать и анализировать все особенности текста, процесс, который требует глубоких знаний грамматики , семантики , синтаксиса , идиом и т. Д. Исходного языка. , а также культура его носителей. Переводчику необходимы такие же глубокие знания, чтобы перекодировать значение на целевом языке. [20]

В этом и заключается проблема машинного перевода: как запрограммировать компьютер, который будет «понимать» текст, как это делает человек, и который будет «создавать» новый текст на целевом языке, который звучит так, как если бы он был написан человеком . Если не использовать «базу знаний», МП обеспечивает только общее, хотя и несовершенное, приближение к исходному тексту, получение его «сути» (процесс, называемый «составление»). Этого достаточно для многих целей, в том числе для наилучшего использования ограниченного и дорогостоящего времени переводчика-человека, зарезервированного для тех случаев, когда без полной точности не обойтись.

Подходы [ править ]

Пирамида Бернара Вокуа показывает сравнительную глубину промежуточного представления, пика межъязыкового машинного перевода , за которым следует перевод на основе перевода, а затем прямой перевод.

Машинный перевод может использовать метод, основанный на лингвистических правилах , что означает, что слова будут переводиться лингвистическим способом - наиболее подходящие (устно говорящие) слова целевого языка заменят те, что на исходном языке. [ необходима цитата ]

Часто утверждают, что для успеха машинного перевода в первую очередь необходимо решить проблему понимания естественного языка . [21]

Как правило, основанные на правилах методы анализируют текст, обычно создавая промежуточное символическое представление, из которого создается текст на целевом языке. В зависимости от характера промежуточного представления подход описывается как межъязыковой машинный перевод или машинный перевод на основе переноса . Эти методы требуют обширного словаря с морфологической , синтаксической и семантической информацией, а также большого набора правил.

При наличии достаточного количества данных программы машинного перевода часто работают достаточно хорошо, чтобы носитель одного языка мог понять приблизительное значение того, что написано другим носителем языка. Сложность состоит в том, чтобы получить достаточно данных нужного типа для поддержки конкретного метода. Например, для методов, основанных на грамматике, не требуется большой многоязычный корпус данных, необходимый для работы статистических методов. Но тогда грамматические методы нуждаются в квалифицированном лингвисте, который тщательно разработает грамматику, которую они используют.

Для перевода между тесно связанными языками может использоваться техника, называемая машинным переводом на основе правил .

На основе правил [ править ]

Парадигма машинного перевода на основе правил включает машинный перевод на основе переноса, межъязыковой машинный перевод и парадигмы машинного перевода на основе словарей. Этот тип перевода используется в основном при создании словарей и грамматических программ. В отличие от других методов, RBMT включает больше информации о лингвистике исходного и целевого языков, используя морфологические и синтаксические правила и семантический анализ.обоих языков. Базовый подход включает связывание структуры входного предложения со структурой выходного предложения с помощью синтаксического анализатора и анализатора исходного языка, генератора целевого языка и переводной лексики для фактического перевода. Самым большим недостатком RBMT является то, что все должно быть явным: орфографические вариации и ошибочный ввод должны быть сделаны частью анализатора исходного языка, чтобы справиться с этим, а правила лексического выбора должны быть написаны для всех случаев двусмысленности. Сама по себе адаптация к новым доменам не так уж и сложна, поскольку основная грамматика одинакова для всех доменов, а специфическая для домена корректировка ограничивается настройкой лексического выбора.

Машинный перевод на основе переноса [ править ]

Машинный перевод на основе перевода похож на межъязычный машинный перевод в том, что он создает перевод из промежуточного представления, которое имитирует значение исходного предложения. В отличие от межъязыкового МП, это частично зависит от языковой пары, участвующей в переводе.

Межъязычный [ править ]

Межъязыковой машинный перевод - это один из примеров подходов к машинному переводу, основанных на правилах. При таком подходе исходный язык, то есть текст, который должен быть переведен, преобразуется в межъязыковой язык, то есть "языково-нейтральное" представление, которое не зависит от любого языка. Целевой язык затем генерируется из интерлингва . Одним из основных преимуществ этой системы является то, что интерлингва становится более ценным по мере увеличения числа целевых языков, в которые он может быть переведен. Однако единственной системой межъязыкового машинного перевода, которая была введена в действие на коммерческом уровне, является система KANT (Nyberg and Mitamura, 1992), которая предназначена для перевода технического английского языка Caterpillar (CTE) на другие языки.

На основе словаря [ править ]

Машинный перевод может использовать метод, основанный на словарных статьях, что означает, что слова будут переведены, как они есть в словаре.

Статистические [ править ]

Статистический машинный перевод пытается генерировать переводы с использованием статистических методов на основе двуязычных текстовых корпусов, таких как канадский корпус Hansard , англо-французский отчет канадского парламента и EUROPARL , отчет Европейского парламента . При наличии таких корпусов можно добиться хороших результатов при переводе похожих текстов, но такие корпуса все еще редки для многих языковых пар. Первой программой статистического машинного перевода была CANDIDE от IBM . Google использовал SYSTRAN в течение нескольких лет, но в октябре 2007 года перешел на метод статистического перевода [22].В 2005 году Google улучшил свои возможности внутреннего перевода, использовав около 200 миллиардов слов из материалов Организации Объединенных Наций для обучения своей системы; точность перевода улучшена. [23] Google Translate и аналогичные программы статистического перевода работают, обнаруживая закономерности в сотнях миллионов документов, которые ранее были переведены людьми, и делают разумные предположения на основе полученных результатов. Как правило, чем больше переведенных людьми документов доступно на данном языке, тем больше вероятность того, что перевод будет хорошего качества. [24]Новые подходы к статистическому машинному переводу, такие как METIS II и PRESEMT, используют минимальный размер корпуса и вместо этого сосредоточены на выводе синтаксической структуры посредством распознавания образов. При дальнейшем развитии это может позволить статистическому машинному переводу работать с одноязычным корпусом текста. [25] Самым большим недостатком SMT является его зависимость от огромного количества параллельных текстов, его проблемы с языками, богатыми морфологией (особенно с переводом на такие языки), и его неспособность исправлять одиночные ошибки.

На основе примера [ править ]

Машинный перевод на основе примеров (EBMT) был предложен Макото Нагао в 1984 году. [26] [27] Машинный перевод на основе примеров основан на идее аналогии. В этом подходе используется корпус, содержащий тексты, которые уже были переведены. Для предложения, которое нужно перевести, из этого корпуса выбираются предложения, которые содержат похожие суб-предложения. [28] Подобные предложения затем используются для перевода дополнительных компонентов исходного предложения на целевой язык, и эти фразы объединяются, чтобы сформировать полный перевод.

Гибридный MT [ править ]

Гибридный машинный перевод (HMT) использует сильные стороны статистических и основанных на правилах методологий перевода. [29] Некоторые организации MT заявляют о гибридном подходе, который использует как правила, так и статистику. Подходы различаются по нескольким причинам:

  • Статистическая обработка правил : переводы выполняются с использованием механизма, основанного на правилах. Затем статистика используется для корректировки / исправления вывода механизма правил.
  • Статистика, управляемая правилами : правила используются для предварительной обработки данных, чтобы лучше направлять статистический механизм. Правила также используются для постобработки статистических выходных данных для выполнения таких функций, как нормализация. Этот подход имеет гораздо больше возможностей, гибкости и контроля при переводе. Он также обеспечивает обширный контроль над тем, как контент обрабатывается как во время предварительного перевода (например, разметка контента и непереводимые термины), так и после перевода (например, исправления и корректировки после перевода).

Совсем недавно, с появлением Neural MT, появилась новая версия гибридного машинного перевода, которая сочетает в себе преимущества правил, статистического и нейронного машинного перевода. Такой подход позволяет извлечь выгоду из предварительной и постобработки в рабочем процессе, основанного на правилах, а также извлечь выгоду из NMT и SMT. Обратной стороной является присущая ему сложность, которая делает подход подходящим только для конкретных случаев использования. Одним из сторонников этого подхода для сложных случаев использования является Omniscien Technologies.

Neural MT [ править ]

Глубокое изучение на основе подхода к МП, нейронный машинный перевод сделал быстрый прогресс в последние года, и Google объявил свои услуги по переводу в настоящее время использует эту технологию в предпочтении своих предыдущие статистических методов. [30] Команда Microsoft достигла человеческого паритета на WMT-2017 в 2018 году, и это стало исторической вехой. [31]

Основные проблемы [ править ]

Машинный перевод может приводить к появлению некоторых непонятных фраз.
Сломанный китайский "沒有 進入" из машинного перевода в Бали, Индонезия . Сломанное китайское предложение звучит как «записи не существует» или «еще не вошли».

Устранение неоднозначности [ править ]

Устранение смысловой неоднозначности касается поиска подходящего перевода, когда слово может иметь более одного значения. Впервые проблема была поднята в 1950-х годах Иегошуа Бар-Гиллелем . [32] Он указал, что без «универсальной энциклопедии» машина никогда не сможет различать два значения слова. [33] Сегодня существует множество подходов, направленных на преодоление этой проблемы. Их можно условно разделить на «мелкие» подходы и «глубокие» подходы.

Поверхностные подходы предполагают отсутствие знания текста. Они просто применяют статистические методы к словам, окружающим двусмысленное слово. Глубокие подходы предполагают всестороннее знание слова. Пока что неглубокие подходы были более успешными. [34]

Клод Пирон , давний переводчик Организации Объединенных Наций и Всемирной организации здравоохранения , написал, что машинный перевод в лучшем случае автоматизирует более легкую часть работы переводчика; более сложная и трудоемкая часть обычно включает в себя проведение обширных исследований для устранения двусмысленностей в исходном тексте , которые требуют устранения грамматических и лексических требований целевого языка :

Почему переводчику нужен целый рабочий день, чтобы перевести пять страниц, а не час или два? ..... Около 90% среднего текста соответствует этим простым условиям. Но, к сожалению, есть еще 10%. Это та часть, которая требует шести [больше] часов работы. Есть неясности, которые необходимо разрешить. Например, автор исходного текста, австралийский врач, привел в пример эпидемию, объявленную во время Второй мировой войны в «японском лагере для военнопленных». Он говорил об американском лагере с японскими военнопленными или японском лагере с американскими военнопленными? У английского два смысла. Поэтому необходимо провести исследование, возможно, до телефонного звонка в Австралию. [35]

Идеальный глубокий подход потребовал бы, чтобы программное обеспечение для перевода самостоятельно провело все исследования, необходимые для такого рода устранения неоднозначности; но для этого потребуется более высокий уровень ИИ, чем это было до сих пор. Поверхностный подход, который просто угадывает смысл двусмысленной английской фразы, которую упоминает Пирон (возможно, основываясь на том, какой тип лагеря для военнопленных чаще упоминается в данном корпусе), имел бы разумные шансы на справедливое предположение. довольно часто. Поверхностный подход, включающий «спрашивать пользователя о каждой двусмысленности», по оценке Пирона, автоматизирует только около 25% работы профессионального переводчика, а более сложные 75% предстоит сделать человеку.

Нестандартная речь [ править ]

Одна из основных проблем машинного перевода - это неспособность переводить нестандартный язык с той же точностью, что и стандартный язык. MT на основе эвристических или статистических данных принимает входные данные из различных источников в стандартной форме языка. Перевод, основанный на правилах, по своей природе не включает общих нестандартных употреблений. Это вызывает ошибки при переводе с местного источника или на разговорный язык. Ограничения на перевод повседневной речи создают проблемы при использовании машинного перевода на мобильных устройствах.

Именованные сущности [ править ]

При извлечении информации именованные объекты в узком смысле относятся к конкретным или абстрактным объектам реального мира, таким как люди, организации, компании и места, которые имеют собственное имя: Джордж Вашингтон, Чикаго, Microsoft. Это также относится к выражениям времени, пространства и количества, таким как 1 июля 2011 года, 500 долларов.

В предложении «Смит является президентом Fabrionix» и Смит, и Fabrionix являются именованными организациями и могут быть уточнены по имени или другой информации; «президент» - нет, поскольку Смит раньше мог занимать другую должность в Fabrionix, например, вице-президентом. Термин « жесткое обозначение» - это то, что определяет эти способы анализа в статистическом машинном переводе.

Именованные объекты должны быть сначала указаны в тексте; в противном случае они могут быть ошибочно переведены как существительные нарицательные, что, скорее всего, не повлияет на рейтинг BLEU перевода, но изменит удобочитаемость текста. [36] Они могут быть опущены в выходном переводе, что также повлияет на читаемость текста и сообщение.

Транслитерация включает поиск букв на целевом языке, которые наиболее точно соответствуют имени на исходном языке. Это, однако, иногда приводило к ухудшению качества перевода. [37] Для «Южной Калифорнии» первое слово следует переводить напрямую, а второе слово следует транслитерировать. Машины часто транслитерируют оба, потому что они рассматривают их как одно целое. Подобные слова трудно обрабатывать машинным переводчикам, даже если они имеют компонент транслитерации.

Использование списка «не переводить», который преследует ту же конечную цель - транслитерацию в отличие от перевода. [38] по- прежнему полагается на правильную идентификацию названных сущностей.

Третий подход - это модель на основе классов. Именованные сущности заменяются токеном, представляющим их «класс»; «Тед» и «Эрика» будут заменены маркером класса «человек». Тогда статистическое распределение и использование имен людей в целом можно проанализировать вместо того, чтобы смотреть на распределения «Тед» и «Эрика» по отдельности, так что вероятность данного имени на определенном языке не повлияет на присвоенную вероятность. перевода. В исследовании Стэнфорда по улучшению этой области перевода приводятся примеры того, что «Дэвид собирается на прогулку» и «Анкит собирается на прогулку» присваиваются разные вероятности для английского языка в качестве целевого из-за разного количества повторений. для каждого имени в обучающих данных.Разочаровывающий результат того же исследования, проведенного Стэнфордским университетом (и других попыток улучшить перевод именованного распознавания), заключается в том, что во много раз уменьшениеБаллы BLEU для перевода будут результатом включения методов для перевода именованных сущностей. [38]

В некоторой степени связаны фразы «пить чай с молоком» и «пить чай с Молли».

Перевод из многопараллельных источников [ править ]

Некоторая работа была проделана с использованием многопараллельных корпусов , то есть основного текста, переведенного на 3 или более языков. Используя эти методы, текст, который был переведен на 2 или более языков, можно использовать в комбинации для обеспечения более точного перевода на третий язык по сравнению с тем, если бы использовался только один из этих исходных языков отдельно. [39] [40] [41]

Онтологии в МП [ править ]

Онтология представляет собой формальное представление знаний , которая включает понятие (такие как объекты, процессы и т.д.) в области и некоторые отношения между ними. Если хранимая информация носит лингвистический характер, можно говорить о лексике. [42] В НЛП онтологии могут использоваться как источник знаний для систем машинного перевода. Имея доступ к обширной базе знаний, системы могут самостоятельно разрешать многие (особенно лексические) двусмысленности. В следующих классических примерах мы, люди, можем интерпретировать предложную фразу в соответствии с контекстом, потому что мы используем наши знания о мире, хранящиеся в наших лексиконах:

«Я видел человека / звезду / молекулу в микроскоп / телескоп / бинокль». [42]

Система машинного перевода изначально не могла бы различать значения, потому что синтаксис не меняется. Однако с достаточно большой онтологией в качестве источника знаний возможные интерпретации неоднозначных слов в конкретном контексте могут быть сокращены. Другие области применения для онтологий в рамках НЛП включают извлечение информации , извлечение информации и текста обобщению . [42]

Создание онтологий [ править ]

Онтология, созданная для системы машинного перевода PANGLOSS в 1993 году, может служить примером того, как онтология для целей НЛП может быть скомпилирована: [43]

  • Чтобы помочь синтаксическому анализу в активных модулях системы машинного перевода, необходима крупномасштабная онтология.
  • В примере PANGLOSS около 50 000 узлов должны были быть включены в меньшую, созданную вручную верхнюю (абстрактную) область онтологии. Из-за своего размера его пришлось создавать автоматически.
  • Целью было объединить два ресурса LDOCE online и WordNet, чтобы объединить преимущества обоих: краткие определения из Longman и семантические отношения, позволяющие полуавтоматическую систематизацию онтологии из WordNet.
    • Матч определения алгоритм был создан для автоматического слияния правильных значений многозначных слов между двумя интернетами - ресурсами, основываясь на словах , что определения этих значений имеют в общем в LDOCE и WordNet. Используя матрицу сходства , алгоритм обеспечил совпадение значений, включая коэффициент достоверности. Однако сам по себе этот алгоритм не мог правильно сопоставить все значения.
    • Поэтому был создан второй алгоритм сопоставления иерархии, который использует таксономические иерархии, найденные в WordNet (глубокие иерархии) и частично в LDOCE (плоские иерархии). Это работает, сначала сопоставляя однозначные значения, а затем ограничивая пространство поиска только соответствующими предками и потомками этих сопоставленных значений. Таким образом, алгоритм сопоставил локально однозначные значения (например, хотя слово печать как таковое неоднозначно, в субиерархии животных есть только одно значение слова «печать» ).
  • Оба алгоритма дополняли друг друга и помогли построить крупномасштабную онтологию для системы машинного перевода. Иерархии WordNet вместе с соответствующими определениями LDOCE были подчинены верхней области онтологии . В результате система PANGLOSS MT смогла использовать эту базу знаний, в основном, в ее элементе создания.

Приложения [ править ]

Хотя ни одна система не обеспечивает святого Грааля полностью автоматического высококачественного машинного перевода неограниченного текста, многие полностью автоматизированные системы обеспечивают приемлемый результат. [44] [45] [46] Качество машинного перевода существенно улучшается, если домен ограничен и контролируется. [47]

Несмотря на присущие им ограничения, программы машинного перевода используются по всему миру. Вероятно, крупнейшим институциональным пользователем является Европейская комиссия . MOLTO проект, например, координируется Университетом Гетеборга , получил более 2.375 млн евро проект поддержки со стороны ЕС , чтобы создать надежный инструмент для перевода , который охватывает большинство языков ЕС. [48] Дальнейшее развитие систем машинного перевода происходит в то время, когда сокращение бюджета на перевод, выполняемый людьми, может усилить зависимость ЕС от надежных программ машинного перевода. [49]Европейская комиссия выделила 3,072 миллиона евро (через свою программу ISA) на создание MT @ EC, программы статистического машинного перевода, адаптированной к административным потребностям ЕС, для замены предыдущей системы машинного перевода, основанной на правилах. [50]

В 2005 году Google заявила, что многообещающие результаты были получены с использованием собственной системы статистического машинного перевода. [51] Механизм статистического перевода, используемый в языковых инструментах Google для арабского <-> английского и китайского <-> английского, набрал 0,4281 балла по сравнению с занявшим второе место по шкале IBM BLEU-4, равным 0,3954 (лето 2006 г.), в проведенных тестах. Национальным институтом стандартов и технологий. [52] [53] [54]

В связи с недавним акцентом на терроризме военные источники в Соединенных Штатах вкладывают значительные суммы денег в разработку естественного языка. In-Q-Tel [55] ( фонд венчурного капитала , в значительной степени финансируемый разведывательным сообществом США для стимулирования новых технологий через предпринимателей из частного сектора) создал такие компании, как Language Weaver . В настоящее время военное сообщество заинтересовано в переводе и обработке таких языков, как арабский , пушту и дари . [ необходима цитата ]На этих языках основное внимание уделяется ключевым фразам и быстрому общению между военнослужащими и гражданскими лицами с помощью приложений для мобильных телефонов. [56] Управление технологий обработки информации в DARPA размещает такие программы, как TIDES и Babylon translator . ВВС США заключили контракт на 1 миллион долларов на разработку технологии языкового перевода. [57]

Заметный рост социальных сетей в Интернете в последние годы создал еще одну нишу для применения программного обеспечения машинного перевода - в таких утилитах, как Facebook, или в клиентах обмена мгновенными сообщениями, таких как Skype, GoogleTalk, MSN Messenger и т. Д., Что позволяет пользователям говорить разные языки для общения друг с другом. Приложения машинного перевода также были выпущены для большинства мобильных устройств, включая мобильные телефоны, карманные ПК, КПК и т. Д. Из-за их портативности такие инструменты стали называть мобильным переводом. инструменты, позволяющие создавать мобильные деловые сети между партнерами, говорящими на разных языках, или облегчающие изучение иностранных языков и поездки без сопровождения в зарубежные страны без необходимости участия переводчика-человека.

Несмотря на то, что в 1966 году Консультативный комитет по автоматизированной обработке языков, созданный правительством США, назвал его недостойным конкурентом человеческого перевода, [58] качество машинного перевода в настоящее время улучшено до такого уровня, что его применение в онлайн-сотрудничестве и область медицины изучается. Применение этой технологии в медицинских учреждениях, где отсутствуют переводчики, является еще одной темой исследования, но возникают трудности из-за важности точных переводов в медицинских диагнозах. [59]

Оценка [ править ]

На оценку систем машинного перевода влияет множество факторов. Эти факторы включают предполагаемое использование перевода, характер программного обеспечения для машинного перевода и характер процесса перевода.

Разные программы могут хорошо работать для разных целей. Например, статистический машинный перевод (SMT) обычно превосходит машинный перевод на основе примеров (EBMT), но исследователи обнаружили, что при оценке перевода с английского на французский язык EBMT работает лучше. [60] Та же концепция применяется к техническим документам, которые SMT легче переводить из-за их формального языка.

Однако в некоторых приложениях, например описаниях продуктов, написанных на контролируемом языке , система машинного перевода на основе словарей обеспечивает удовлетворительные переводы, которые не требуют вмешательства человека, за исключением проверки качества. [61]

Существуют различные способы оценки качества вывода систем машинного перевода. Самым старым из них является использование судей [62] для оценки качества перевода. Несмотря на то, что человеческая оценка требует много времени, это по-прежнему самый надежный метод сравнения различных систем, таких как системы, основанные на правилах, и статистические системы. [63] Автоматические средства оценки включают BLEU , NIST , METEOR и LEPOR . [64]

Полагаясь исключительно на неотредактированный машинный перевод, игнорируется тот факт, что общение на человеческом языке связано с контекстом и что человеку нужно понять контекст исходного текста с разумной степенью вероятности. Безусловно, даже переводы, созданные человеком, подвержены ошибкам. Следовательно, чтобы гарантировать, что созданный машиной перевод будет полезен для человека и что будет достигнуто качество, доступное для публикации, такие переводы должны быть просмотрены и отредактированы человеком. [65] Покойный Клод Пирон писал, что машинный перевод в лучшем случае автоматизирует более легкую часть работы переводчика; более сложная и трудоемкая часть обычно включает в себя обширное исследование для решениядвусмысленности в исходном тексте , которые требуют устранения грамматических и лексических требований целевого языка. Такое исследование является необходимой прелюдией к предварительному редактированию, необходимому для обеспечения ввода для программного обеспечения машинного перевода, чтобы результат не был бессмысленным . [66]

Помимо проблем с устранением неоднозначности, снижение точности может происходить из-за различных уровней обучающих данных для программ машинного перевода. Как машинный перевод, основанный на примерах, так и статистический машинный перевод полагаются на огромное количество реальных примеров предложений в качестве основы для перевода, и когда анализируется слишком много или слишком мало предложений, точность оказывается под угрозой. Исследователи обнаружили, что когда программа обучается на 203 529 парах предложений, точность фактически снижается. [60] Оптимальный уровень обучающих данных кажется чуть более 100 000 предложений, возможно, потому, что по мере увеличения обучающих данных количество возможных предложений увеличивается, что затрудняет поиск точного совпадения перевода.

Машинный перевод как инструмент обучения [ править ]

Хотя были опасения по поводу точности машинного перевода, д-р Ана Нино из Манчестерского университета исследовала некоторые преимущества использования машинного перевода в классе. Один из таких педагогических методов называется «использование машинного обучения как плохой модели». [67] МП как плохая модель заставляет изучающего язык выявлять несоответствия или неправильные аспекты перевода; в свою очередь, человек (будем надеяться) будет лучше владеть языком. Доктор Нино цитирует, что этот обучающий инструмент был внедрен в конце 1980-х годов. В конце различных семестров д-ру Нино удалось получить результаты опроса студентов, которые использовали машинный перевод как плохую модель (а также другие модели). В подавляющем большинстве студенты чувствовали, что они наблюдали улучшение понимания, лексического поиска и увеличения уверенность в своем изучаемом языке. [67]

Машинный перевод и жестовые языки [ править ]

В начале 2000-х годов возможности машинного перевода между устным и жестовым языками были сильно ограничены. Было распространено мнение, что глухие люди могут пользоваться услугами традиционных переводчиков. Однако ударение, интонация, высота звука и время в разговорных языках передаются по-разному, чем в жестовых языках. Следовательно, глухой человек может неправильно истолковать или запутаться в значении письменного текста, основанного на разговорной речи. [68]

Исследователи Чжао и др. (2000) разработали прототип под названием TEAM (перевод с английского на ASL машинным переводом), который выполнял переводы с английского на американский жестовый язык (ASL). Программа сначала проанализирует синтаксические, грамматические и морфологические аспекты английского текста. После этого шага программа обратилась к синтезатору знаков, который действовал как словарь для ASL. В этом синтезаторе содержится процесс, которому необходимо следовать, чтобы заполнить знаки ASL, а также значения этих знаков. После того, как весь текст будет проанализирован и знаки, необходимые для завершения перевода, будут помещены в синтезатор, появится компьютерно-созданный человек, который будет использовать ASL, чтобы подписать английский текст для пользователя. [68]

Авторские права [ править ]

Только работа , которые являются оригинальными подлежит авторскую защиту, поэтому некоторые ученые утверждают , что результаты машинного перевода не имеют права на защиту авторских прав , потому что МТ не предполагает творчество . [69] Авторские права относятся к производной работе ; автор оригинального произведения на языке оригинала не теряет своих прав при переводе произведения: переводчик должен иметь разрешение на публикацию перевода.

См. Также [ править ]

  • AI-полный
  • Модель языка кеширования
  • Сравнение приложений машинного перевода
  • Сравнение различных подходов к машинному переводу
  • Компьютерная лингвистика
  • Компьютерный перевод и память переводов
  • Управляемый язык в машинном переводе
  • Контролируемый естественный язык
  • Письменное пособие на иностранном языке
  • Нечеткое соответствие
  • История машинного перевода
  • Технология человеческого языка
  • Юмор в переводе («ревуны»)
  • Язык и коммуникационные технологии
  • Языковой барьер
  • Список новых технологий
  • Список исследовательских лабораторий по машинному переводу
  • Мобильный перевод
  • Нейронный машинный перевод
  • OpenLogos
  • Phraselator
  • Размещение
  • Псевдо-перевод
  • Перевод в оба конца
  • Статистический машинный перевод
  • Перевод
  • Память переводов
  • ULTRA (система машинного перевода)
  • Универсальный сетевой язык
  • Универсальный переводчик

Заметки [ править ]

  1. ^ a b c d e Стивен Будянски (декабрь 1998 г.). "Утрачено при переводе". Атлантический журнал . С. 81–84.
  2. ^ Альбат, Томас Фриц. «Системы и методы автоматической оценки времени перевода». Патент США 0185235, 19 июля 2012 г.
  3. Иегошуа Бар-Гиллель (1964). Язык и информация: избранные очерки их теории и применения . Ридинг, Массачусетс: Эддисон-Уэсли. С. 174–179.
  4. ^ Мадсен, Матиас Винтер (2009). Пределы машинного перевода . Диссертация на степень магистра Копенгагенского университета . Дата обращения 12 мая 2020 .
  5. Перейти ↑ DuPont, Quinn (январь 2018). «Криптологические истоки машинного перевода: от аль-Кинди до Уивера» . Современный (8).
  6. ^ Джеймс Ноулсон (1975). Универсальные языковые схемы в Англии и Франции, 1600-1800 гг . Университет Торонто Пресс. ISBN 978-0-8020-5296-4.
  7. ^ Дж. Хатчинс (2000). «Уоррен Уивер и запуск MT». Первые годы машинного перевода (PDF) . Семантический ученый . Исследования по истории языковых наук. 97 . п. 17. doi : 10.1075 / sihols.97.05hut . ISBN  978-90-272-4586-1. S2CID  163460375 .
  8. ^ "Уоррен Уивер, американский математик" . 13 июля 2020.
  9. ^ 上 野, 俊 夫 (13 августа 1986 г.)パ ー ソ ナ ル コ ン ピ ュ ー タ に る 機械 翻 訳 プ グ ラ ム の 制作(на японском языке). Токио: (株) ラ ッ セ ル 社. п. 16. ISBN 494762700X.わ が 国 で は 1956 年 、 当時 の 試 験 所 が 英 和 翻 ヤ マ ト 」を 実 験 る。 機械い る。 (перевод (с помощью Google translate ): в 1959 году в Японии Национальный институт передовых промышленных наук и технологий (AIST) протестировал надлежащую англо-японскую переводческую машину Yamato , которая в 1964 году сообщила, что она достигла уровня мощности, превышающего оценку 90 баллов по учебнику 1 класса младшей школы.)
  10. ^ "機械 翻 訳 専 用 機「 や ま と 」- コ ン ピ ュ ー タ 博物館" .
  11. ^ Най, Мэри Джо (2016). «Говоря на языках: многовековая охота науки за общим языком» . Дистилляции . 2 (1): 40–43 . Проверено 20 марта 2018 года .
  12. ^ Гордин, Майкл Д. (2015). Научный Бабель: Как была создана наука до и после Global English . Чикаго, Иллинойс: Издательство Чикагского университета. ISBN 9780226000299.
  13. Вольфганг Саксон (28 июля 1995 г.). «Дэвид Г. Хейс, 66 лет, разработчик изучения языка с помощью компьютера» . Нью-Йорк Таймс . писал о компьютерной языковой обработке еще в 1957 году ... был руководителем проекта по компьютерной лингвистике в Rand с 1955 по 1968 год.
  14. ^ 上 野, 俊 夫 (13 августа 1986 г.)パ ー ソ ナ ル コ ン ピ ュ ー タ に る 機械 翻 訳 プ グ ラ ム の 制作(на японском языке). Токио: (株) ラ ッ セ ル 社. п. 16. ISBN 494762700X.
  15. ^ Schank, Roger C. (2014). Концептуальная обработка информации . Нью-Йорк: Эльзевир. п. 5. ISBN 9781483258799.
  16. ^ Фарвелл, Дэвид; Гербер, Лори; Хови, Эдуард (29 июня 2003 г.). Машинный перевод и информационный суп: Третья конференция Американской ассоциации машинного перевода, AMTA'98, Лангхорн, Пенсильвания, США, 28–31 октября 1998 г. Материалы . Берлин: Springer. п. 276. ISBN. 3540652590.
  17. Бэррон, Бренда (18 ноября 2019 г.). «Вавилонская рыба: что случилось с приложением-оригиналом ?: Мы расследуем» . Digital.com . Проверено 22 ноября 2019 .
  18. ^ и привел и другие примеры
  19. Перейти ↑ Chan, Sin-Wai (2015). Энциклопедия переводческих технологий Рутледж . Оксон: Рутледж. п. 385. ISBN 9780415524841.
  20. ^ Бай Липин, «Сходство и различие в переводе». Взято из « Сходства и различия в переводе»: материалы Международной конференции по сходству и переводу , стр. 339. Eds. Стефано Ардуини и Роберт Ходжсон. 2-е изд. Рим : Edizioni di storia e letteratura, 2007. ISBN 9788884983749 
  21. ^ Джон Лербергер (1988). Машинный перевод: лингвистические характеристики систем машинного перевода и общая методология оценки . Издательство Джона Бенджамина. ISBN 90-272-3124-9.
  22. ^ Чита, Alex (22 октября 2007). «Google переходит на собственную систему перевода» . Googlesystem.blogspot.com . Проверено 13 августа 2012 года .
  23. ^ "Переводчик Google: универсальный язык" . Blog.outer-court.com. 25 января 2007 . Проверено 12 июня 2012 года .
  24. ^ "Внутри Google Translate - Google Translate" .
  25. ^ http://www.mt-archive.info/10/HyTra-2013-Tambouratzis.pdf
  26. Nagao, M. 1981. Структура механического перевода между японским и английским по принципу аналогии , в «Искусственный и человеческий интеллект», A. Elithorn и R. Banerji (ред.) North-Holland, стр. 173–180, 1984.
  27. ^ "Ассоциация компьютерной лингвистики - 2003 ACL Lifetime Achievement Award" . Ассоциация компьютерной лингвистики. Архивировано из оригинального 12 июня 2010 года . Проверено 10 марта 2010 года .
  28. ^ "Kitt.cl.uzh.ch [CL Wiki]" (PDF) .
  29. ^ Адам Борец (2 марта 2009). «Борец, Адам», AppTek запускает программное обеспечение гибридного машинного перевода «SpeechTechMag.com (опубликовано 2 марта 2009 г.)» . Speechtechmag.com . Проверено 12 июня 2012 года .
  30. ^ "Нейронная сеть Google учится переводить языки, на которых она не была обучена" .
  31. ^ https://blogs.microsoft.com/ai/chinese-to-english-translator-milestone/ . Отсутствует или пусто |title=( справка )
  32. Вехи в машинном переводе - № 6: Бар-Гиллель и невозможность FAHQT. Архивировано 12 марта 2007 г. в Wayback Machine Джоном Хатчинсом.
  33. ^ Бар-Гиллель (1960), «Автоматический перевод языков». Доступно в Интернете по адресу http://www.mt-archive.info/Bar-Hillel-1960.pdf
  34. ^ Гибридные подходы к машинному переводу . Коста-Юсса, Марта Р., Рапп, Рейнхард, Ламберт, Патрик, Эберле, Курт, Банчс, Рафаэль Э., Бабич, Богдан. Швейцария. ISBN 9783319213101. OCLC  953581497 .CS1 maint: другие ( ссылка )
  35. ^ Пирон , Le Défi де Langues (Язык Вызова), Париж, L'Harmattan, 1994.
  36. ^ http://www.cl.cam.ac.uk/~ar283/eacl03/workshops03/W03-w1_eacl03babych.local.pdf
  37. ^ Hermajakob, У., Найт, К., и Хал, D. (2008). Перевод имен в статистическом машинном переводе. Обучение транслитерации . Ассоциация компьютерной лингвистики. 389–397.
  38. ^ а б http://nlp.stanford.edu/courses/cs224n/2010/reports/singla-nirajuec.pdf
  39. ^ https://dowobeha.github.io/papers/amta08.pdf
  40. ^ http://homepages.inf.ed.ac.uk/mlap/Papers/acl07.pdf
  41. ^ https://www.jair.org/media/3540/live-3540-6293-jair.pdf
  42. ^ a b c Фоссен, Пик: Онтологии . В: Митков, Руслан (ред.) (2003): Справочник по компьютерной лингвистике, глава 25. Оксфорд: Oxford University Press.
  43. ^ Рыцарь, Кевин (1994). « Построение большой онтологии для машинного перевода (1993) ». arXiv : cmp-lg / 9407029 . Цитировать журнал требует |journal=( помощь )
  44. ^ Мелби, Алан. Возможность языка (Амстердам: Benjamins, 1995, 27–41) . Benjamins.com. 1995. ISBN. 9789027216144. Проверено 12 июня 2012 года .
  45. Адам (14 февраля 2006 г.). "Вутен, Адам." Простая модель, описывающая технологию перевода "T&I Business (14 февраля 2006 г.)" . Tandibusiness.blogspot.com . Проверено 12 июня 2012 года .
  46. Приложение III к «Современному состоянию автоматического перевода языков», Advances in Computers, vol.1 (1960), p.158-163. Перепечатано в Y.Bar-Hillel: Language and information (Reading, Mass .: Addison-Wesley, 1964), стр.174-179 " (PDF) . Проверено 12 июня 2012 года .
  47. ^ «Качественное решение для машинного перевода от Ta с вами» (на испанском языке). Tauyou.com. 15 апреля 2009 . Проверено 12 июня 2012 года .
  48. ^ "molto-project.eu" . molto-project.eu . Проверено 12 июня 2012 года .
  49. ^ Шпигель ONLINE, Гамбург, Германия (13 сентября 2013). «У Google Translate амбициозные цели в области машинного перевода» . SPIEGEL ONLINE .CS1 maint: несколько имен: список авторов ( ссылка )
  50. ^ «Служба машинного перевода» . 5 августа 2011 г.
  51. ^ Блог Google: Машины делают перевод ( Франц Ох )
  52. ^ «Гир, Дэвид,« Статистический перевод пользуется уважением », стр. 18–21, IEEE Computer, октябрь 2005 г.». Ieeexplore.ieee.org. 27 сентября 2011 г. doi : 10.1109 / MC.2005.353 . S2CID 7088166 .  Цитировать журнал требует |journal=( помощь )
  53. ^ Ratliff, Evan (4 января 2009). "Рэтклифф, Эван" Me Translate Pretty One Day ", Wired, декабрь 2006 г." . Проводной . Проверено 12 июня 2012 года .
  54. ^ " " Официальные результаты оценки машинного перевода NIST за 2006 г. ", 1 ноября 2006 г." . Itl.nist.gov . Проверено 12 июня 2012 года .
  55. ^ "In-Q-Tel" . In-Q-Tel. Архивировано из оригинального 20 мая 2016 года . Проверено 12 июня 2012 года .
  56. ^ Gallafent, Alex (26 апреля 2011). «Машинный перевод для военных» . PRI - это мир . Проверено 17 сентября 2013 года .
  57. Джексон, Уильям (9 сентября 2003 г.). «GCN - ВВС хочет построить универсальный переводчик» . Gcn.com . Проверено 12 июня 2012 года .
  58. ^ http://www.nap.edu/html/alpac_lm/ARC000005.pdf
  59. ^ «Использование машинного перевода в клинической практике» .
  60. ^ а б Вей, Энди; Нано Гоф (20 сентября 2005 г.). «Сравнение машинного перевода на основе примеров и статистического». Инженерия естественного языка . 11 (3): 295–309. DOI : 10.1017 / S1351324905003888 .
  61. ^ Muegge (2006), « Полностью автоматическая машина высокого качества Перевод Ограниченной текста: Социологическое исследование » в Транслейтинг и компьютер 28. Труды двадцать восьмой международной конференции по переводу и компьютера, 16-17 ноября 2006, Лондон , Лондон: Аслиб. ISBN 978-0-85142-483-5 . 
  62. ^ «Сравнение систем MT по оценке человека, май 2008 г.» . Morphologic.hu. Архивировано из оригинального 19 апреля 2012 года . Проверено 12 июня 2012 года .
  63. Перейти ↑ Anderson, DD (1995). Машинный перевод как инструмент изучения второго языка . КАЛИКО Журнал. 13 (1). 68–96.
  64. ^ Хан и др. (2012), « LEPOR: надежная метрика оценки для машинного перевода с расширенными факторами », в материалах 24-й Международной конференции по компьютерной лингвистике (COLING 2012): плакаты, страницы 441–450 , Мумбаи, Индия.
  65. ^ Дж. М. Коэн замечает (стр. 14): «Научный перевод - это цель эпохи, которая свела бы все виды деятельности к методам . Однако невозможно представить себе машину для литературного перевода менее сложную, чем сам человеческий мозг, со всеми его знаниями. , чтение и дискриминация ".
  66. ^ См. Ежегодно выполняемые тесты NIST с 2001 г. и Bilingual Evaluation Understudy.
  67. ^ a b Нино, Ана. « Машинный перевод в изучении иностранных языков: восприятие изучающими язык и преподавателями его преимуществ и недостатков » ReCALL: журнал EUROCALL 21.2 (май 2009 г.) 241–258.
  68. ^ a b Чжао, Л., Киппер, К., Шулер, В., Фоглер, К., и Палмер, М. (2000). Система машинного перевода с английского на американский жестовый язык . Конспект лекций по информатике, 1934: 54–67.
  69. ^ "Машинный перевод: нет авторских прав на результат?" . Переводчик SEO, цитируется Zimbabwe Independent . Проверено 24 ноября 2012 года .

Дальнейшее чтение [ править ]

  • Коэн, JM (1986), «Перевод», Encyclopedia Americana , 27 , стр. 12–15
  • Хатчинс, У. Джон ; Сомерс, Гарольд Л. (1992). Введение в машинный перевод . Лондон: Academic Press. ISBN 0-12-362830-X.
  • Льюис-Краус, Гидеон, «Башня болтовни», журнал New York Times , 7 июня 2015 г., стр. 48–52.

Внешние ссылки [ править ]

  • Преимущества и недостатки машинного перевода
  • Почему Google никогда не заменит бюро переводов
  • Международная ассоциация машинного перевода (IAMT)
  • Машинный перевод Архив по Джону Хатчинс . Электронное хранилище (и библиография) статей, книг и статей в области машинного перевода и компьютерных технологий перевода.
  • Машинный перевод (компьютерный перевод) - Публикации Джона Хатчинса (включая PDF-файлы нескольких книг по машинному переводу)
  • Машинный перевод и языки меньшинств
  • Джон Хатчинс 1999