История машинного перевода

Машинный перевод - это подраздел компьютерной лингвистики , изучающий использование программного обеспечения для перевода текста или речи с одного естественного языка на другой.

В 1950-х годах машинный перевод стал реальностью в исследованиях, хотя ссылки на эту тему можно найти уже в 17 веке. Эксперимент Georgetown , в котором участвовал успешный полностью автоматический перевод более чем шестьдесят русских предложений на английский язык в 1954 году, был одним из самых ранних зарегистрированных проектов. ^[1]^[2] Исследователи Джорджтаунского эксперимента подтвердили свою веру в то, что машинный перевод станет решенной проблемой в течение трех-пяти лет. ^[3]^{[ нужен лучший источник ]} В Советском Союзе вскоре после этого были проведены аналогичные эксперименты. ^[4]Следовательно, успех эксперимента положил начало эре значительного финансирования исследований машинного перевода в Соединенных Штатах. Достигнутый прогресс был намного медленнее, чем ожидалось; в 1966 году отчет ALPAC показал, что десять лет исследований не оправдали ожиданий эксперимента в Джорджтауне и привели к резкому сокращению финансирования ^{[ необходима цитата ]} .

Возрос интерес к статистическим моделям машинного перевода , которые стали более распространенными и менее дорогостоящими в 1980-х годах по мере увеличения доступной вычислительной мощности.

Хотя не существует автономной системы «полностью автоматического высококачественного перевода неограниченного текста» ^[5]^[6]^[7] , сейчас доступно множество программ, способных обеспечить полезный вывод в строгих ограничениях. Некоторые из этих программ доступны в Интернете, например, Google Translate и система SYSTRAN , на которой работает BabelFish от AltaVista (с 9 мая 2008 года - Yahoo's Babelfish).

Начало

Истоки машинного перевода можно проследить до работы Аль-Кинди , арабского криптографа 9-го века, который разработал методы системного языкового перевода, включая криптоанализ , частотный анализ , а также вероятность и статистику , которые используются в современном машинном переводе. ^[8] Идея машинного перевода появилась позже в 17 веке. В 1629 году Рене Декарт предложил универсальный язык с эквивалентными идеями на разных языках, разделяющих один символ. ^[9]

В середине 1930-х годов Жорж Арцруни подал заявку на первые патенты на «переводческие машины» на автоматический двуязычный словарь с использованием бумажной ленты . Русский Петр Троянский представил более подробное предложение ^[10]^[11], которое включало как двуязычный словарь, так и метод работы с грамматическими ролями между языками, основанный на грамматической системе эсперанто . Эта система была разделена на три этапа: первый этап состоял из редактора, говорящего на родном языке, для преобразования слов в их логические формы и выполнения синтаксических функций; на втором этапе машина должна «перевести» эти формы на целевой язык; и на третьем этапе для нормализации этого вывода требовался редактор с родным языком на целевом языке. Предложение Троянского оставалось неизвестным до конца 1950-х годов, когда компьютеры были широко известны и широко использовались.

Ранние годы

Первый набор предложений по машинному переводу на базе компьютера был представлен в 1949 году Уорреном Уивером , исследователем из Фонда Рокфеллера , « Меморандум о переводе ». ^[12] Эти предложения были основаны на теории информации , успехах во взломе кода во время Второй мировой войны и теориях об универсальных принципах, лежащих в основе естественного языка .

Через несколько лет после того, как Уивер представил свои предложения, во многих университетах США начались серьезные исследования. 7 января 1954 года эксперимент Джорджтауна-IBM был проведен в Нью-Йорке в головном офисе IBM. Это была первая публичная демонстрация системы машинного перевода. Демонстрация широко освещалась в газетах и вызвала общественный интерес. Однако сама система была не более чем «игрушечной» системой. В нем было всего 250 слов и 49 тщательно отобранных русских предложений были переведены на английский язык - в основном в области химии . Тем не менее, он поддержал идею о неизбежности машинного перевода и стимулировал финансирование исследований не только в США, но и во всем мире. ^[3]

Ранние системы использовали большие двуязычные словари и закодированные вручную правила для фиксации порядка слов в окончательном результате, что в конечном итоге считалось слишком ограничивающим в лингвистических разработках в то время. Например, генеративная лингвистика и трансформационная грамматика использовались для улучшения качества переводов. В этот период были установлены операционные системы. Военно- воздушные силы США использовали систему, произведенную IBM и Вашингтонским университетом , а Комиссия по атомной энергии и Евратом в Италии использовали систему, разработанную в Джорджтаунском университете . Несмотря на то, что качество продукции было низким, оно отвечало многим потребностям клиентов, особенно с точки зрения скорости. ^{[ необходима цитата ]}

В конце 1950-х годов правительство США попросило Иегошуа Бар-Гиллеля изучить машинный перевод, чтобы оценить возможность полностью автоматического машинного перевода высокого качества. Бар-Гиллель описал проблему семантической двусмысленности или двусмысленности, как показано в следующем предложении:

Маленький Джон искал свой ящик с игрушками. Наконец он нашел это. Коробка была в ручке.

Слово перо может иметь два значения: первое - то, что используется для письма чернилами; второе значение - какой-то контейнер. Для человека значение очевидно, но Бар-Гиллель утверждал, что без «универсальной энциклопедии» машина никогда не сможет справиться с этой проблемой. В то время этот тип семантической неоднозначности можно было решить только путем написания исходных текстов для машинного перевода на контролируемом языке, который использует словарь, в котором каждое слово имеет ровно одно значение. ^{[ необходима цитата ]}

1960-е, отчет ALPAC и семидесятые годы.

Исследования 1960-х годов как в Советском Союзе, так и в США были сосредоточены в основном на русско-английской языковой паре. Объектами перевода были в основном научно-технические документы, например статьи из научных журналов . Сделанных черновых переводов было достаточно, чтобы получить общее представление о статьях. Если в статье обсуждалась тема, которая считалась конфиденциальной, ее отправляли переводчику-человеку для полного перевода; в противном случае он был отброшен.

Большой удар по исследованиям в области машинного перевода был нанесен в 1966 году с публикацией отчета ALPAC . Отчет был заказан правительством США и представлен ALPAC , Консультативным комитетом по автоматической обработке языков, группой из семи ученых, созванной правительством США в 1964 году. Правительство США было обеспокоено отсутствием прогресса, несмотря на значительные расходы. . В отчете сделан вывод о том, что машинный перевод дороже, менее точен и медленнее, чем перевод, выполняемый человеком, и что, несмотря на затраты, машинный перевод вряд ли достигнет качества переводчика-человека в ближайшем будущем.

Однако в отчете рекомендуется разработать инструменты для помощи переводчикам - например, автоматические словари - и продолжить поддержку некоторых исследований в области компьютерной лингвистики.

Публикация отчета оказала глубокое влияние на исследования машинного перевода в Соединенных Штатах и, в меньшей степени, в Советском Союзе и Великобритании. Исследования, по крайней мере, в США, были почти полностью заброшены на более чем десятилетие. Однако в Канаде, Франции и Германии исследования продолжались. В США главным исключением были основатели Systran ( Питер Тома ) и Logos (Бернард Скотт), которые основали свои компании в 1968 и 1970 годах соответственно и служили Министерству обороны США. В 1970 году система Systran была установлена для ВВС США , а затем Комиссией Европейских сообществ в 1976 году. Система METEO , разработанная в Университете Монреаля , была установлена в Канаде в 1977 году для перевода прогнозов погоды с английского языка. на французский язык и переводил около 80 000 слов в день или 30 миллионов слов в год, пока 30 сентября 2001 г. не был заменен системой конкурентов ^[13].

В то время как исследования в 1960-х годах были сосредоточены на ограниченных языковых парах и материалах, спрос в 1970-х годах был на недорогие системы, которые могли бы переводить ряд технических и коммерческих документов. Этот спрос был вызван ростом глобализации и спросом на перевод в Канаде, Европе и Японии. ^{[ необходима цитата ]}

1980-е и начало 1990-х годов

К 1980-м годам увеличилось как разнообразие, так и количество установленных систем машинного перевода. Был использован ряд систем, основанных на технологии мэйнфреймов , таких как Systran , Logos , Ariane-G5 и Metal . ^{[ необходима цитата ]}

В результате повышения доступности микрокомпьютеров появился рынок систем машинного перевода более низкого уровня. Этим воспользовались многие компании в Европе, Японии и США. Системы также были представлены на рынке Китая, Восточной Европы, Кореи и Советского Союза . ^{[ необходима цитата ]}

В 80-е годы МП особенно активно развивались в Японии. С компьютерами пятого поколения Япония намеревалась опередить своих конкурентов в области компьютерного оборудования и программного обеспечения, а один проект, в котором оказались вовлечены многие крупные японские производители электроники, заключался в создании программного обеспечения для перевода на английский язык и с английского (Fujitsu, Toshiba, NTT, Brother, Catena , Matsushita, Mitsubishi, Sharp, Sanyo, Hitachi, NEC, Panasonic, Kodensha, Nova, Oki). ^{[ необходима цитата ]}

Исследования 80-х годов прошлого века обычно основывались на переводе с помощью некоторых промежуточных лингвистических представлений, включающих морфологический, синтаксический и семантический анализ. ^{[ необходима цитата ]}

В конце 80-х годов прошлого века появилось множество новых методов машинного перевода. Одна система была разработана в IBM , основанная на статистических методах . Макото Нагао и его группа использовали методы, основанные на большом количестве примеров перевода, технику, которая теперь называется машинным переводом на основе примеров . ^[14]^[15] Определяющей чертой обоих этих подходов было пренебрежение синтаксическими и семантическими правилами и использование вместо них манипуляций с большими текстовыми корпусами .

В 1990-х годах, воодушевленные успехами в распознавании и синтезе речи , начались исследования в области перевода речи с развитием немецкого проекта Verbmobil .

Система Forward Area Language Converter (FALCon), технология машинного перевода, разработанная Исследовательской лабораторией армии , была задействована в 1997 году для перевода документов для солдат в Боснии. ^[16]

Значительный рост использования машинного перевода произошел в результате появления более дешевых и более мощных компьютеров. Это было в начале 1990-х годов, когда в машинном переводе произошел переход от больших мэйнфреймов к персональным компьютерам и рабочим станциям . Две компании, которые какое-то время лидировали на рынке ПК, - это Globalink и MicroTac, после чего слияние двух компаний (в декабре 1994 г.) оказалось в интересах обеих компаний. Примерно в это же время Intergraph и Systran также начали предлагать версии для ПК. Сайты стали доступны в Интернете, таких как AltaVista «s Babel Fish ( с использованием технологии Systran) и Google Language Tools (также первоначально используя Systran технологии исключительно).

2000-е

За последние несколько лет в области машинного перевода произошли серьезные изменения. В настоящее время проводится большое количество исследований в области статистического машинного перевода и машинного перевода на основе примеров . В области перевода речи исследования были сосредоточены на переходе от систем с ограничением по предметной области к системам с неограниченным доменом. В различных исследовательских проектах в Европе (например, TC-STAR) ^[17] и в США (STR-DUST и US-DARPA-GALE) ^{[18] были разработаны} решения для автоматического перевода парламентских речей и новостей. В этих сценариях область содержания больше не ограничивается какой-либо определенной областью, а, скорее, речи, которые необходимо перевести, охватывают множество тем. Совсем недавно французско-немецкий проект Quaero исследует возможность использования машинного перевода для многоязычного Интернета. Проект направлен на перевод не только веб-страниц, но также видео и аудио файлов в Интернете.

Сегодня лишь несколько компаний используют статистический машинный перевод в коммерческих целях. Возродился интерес к гибридизации, когда исследователи объединяют синтаксические и морфологические (т. Е. Лингвистические) знания в статистические системы, а также объединяют статистику с существующими системами, основанными на правилах. ^{[ необходима цитата ]}

Смотрите также

История обработки естественного языка
Отчет ALPAC
Автоматизированный перевод
Отчет о Лайтхилле
Машинный перевод

Заметки

^ Най, Мэри Джо (2016). «Говоря на языках: многовековая охота науки за общим языком» . Дистилляции . 2 (1): 40–43 . Проверено 22 марта 2018 .
^ Гордин, Майкл Д. (2015). Научный Бабель: Как была создана наука до и после Global English . Чикаго, Иллинойс: Издательство Чикагского университета. ISBN 9780226000299.
^ а б Хатчинс, Дж. (2005). «История машинного перевода в двух словах» (PDF) .^{[ самостоятельно опубликованный источник ]}
^ Мэдсен, Матиас Винтер (23 декабря 2009 г.). Пределы машинного перевода (Диссертация). Копенгагенский университет. п. 11.
^ Мелби, Алан К. (1995). Возможность языка . Амстердам: Дж. Бенджаминс. С. 27–41. ISBN 9027216142.
^ Вутен, Адам (14 февраля 2006 г.). «Простая модель, описывающая технологию перевода» . T&I Business . Архивировано из оригинального 16 июля 2012 года.
^ «Приложение III к« Текущему статусу автоматического перевода языков » » (PDF) . Достижения в области компьютеров . 1960. С. 158–163. Перепечатано в Я. Бар-Гиллель (1964). Язык и информация . Массачусетс: Эддисон-Уэсли. С. 174–179.
^ Дюпон, Куинн (январь 2018 г.). «Криптологические истоки машинного перевода: от аль-Кинди до Уивера» . Современный (8).
^ 浜口, 稔 (30 апреля 1993 г.).英仏普遍言語計画. 工作舎. С. 70–71. ISBN 978-4-87502-214-5.普遍的文字の構築といЮ -初期の試みに言及すпереводときは1629年11月にデカルトがメルセンヌに宛てた手紙から始まる,というのが通り相場となっている.しかし,この問題への関心を最初に誘発した多くの要因を吟味してみると,ある種の共通の書字という構想は明らかに,ずっと以前から比較的なじみ深いものになっていたようである. ...フランシス·ベイコンは, 1605年出版の学問の進歩についてそのような真正文字の体系は便利でと述べいたпереведено с
Ноулсон, Джеймс (1975). УНИВЕРСАЛЬНЫЕ ЯЗЫКОВЫЕ СХЕМЫ В АНГЛИИ И ФРАНЦИИ 1600-1800 .
^ 別所, 照彦; 棚橋, 善照 (15 октября 1960 г.). «翻訳». В 木, 英彦; 喜安, 善市 (ред.).自動翻訳デ・ユ・パノフ著(на японском языке) (1 изд.). Токио: （株）みすず書房. стр. 10–11.翻訳のある程度の機械化 1933 年にペ・ペ・トンスキーが企てたらく最初でああ。彼の翻訳に際し,単語を選別しかつ印刷する機械」をつくることを提案した.この発明でペ· Friday , ·トロヤンスキーは特許をとったが,当時それを実現することは巧くいかなかった. ( перевод (с помощью Google translate ): Это может быть почти первый случай машинного перевода, который Петр Петрович Троянский пробовал в 1933 году. Он представил, что «искалечить машину, которая выбирает слова и печатает их при переводе с одного языка на другой или на несколько. языков одновременно ». Он получил патент на это изобретение, но его не удалось реализовать в то время.)
^ 別所, 照彦; 沢辺, 弘 (25 февраля 1964 г.).翻訳機械（文庫クセジュ現代知識の焦点） (на японском языке) (1 изд.). Токио: （株）白水社. п. 39.モスクワで1933年に特許をとったロシア人スミルノフ·トロヤンスキーの発明は,同時にいくつかの言語を翻訳し,遠方まで送ることを可能とするように見えた. (Перевод (помогает Google перевести ): Изобретение, запатентованное Петром Петровичем Троянским в 1933 году, казалось, способно переводить на несколько языков одновременно и отправлять их куда-то далеко.), переведено с
Делавени, Эмиль. LA MACHINE A TRADUIRE (Коллекция QUE SAIS-JE? № 834) (на французском языке). Прессы Universitaires de France.
^ «Меморандум Уивера» . Март 1949. Архивировано из оригинала 5 октября 2006 года.
^ «ПРОЦЕСС ЗАКУПКИ» . Канадский международный торговый суд . 30 июля 2002 года Архивировано из оригинала 6 июля 2011 года . Проверено 10 февраля 2007 года .
^ Нагао, Макото (1984). «Структура механического перевода между японским и английским языком по принципу аналогии» (PDF) . Порядок проведения Международного симпозиума НАТО по искусственному и человеческому интеллекту . Нью-Йорк: Elsevier North-Holland, Inc., стр. 173–180. ISBN 0-444-86545-4.
^ "Ассоциация компьютерной лингвистики - 2003 ACL Lifetime Achievement Award" . Ассоциация компьютерной лингвистики. Архивировано из оригинального 12 июня 2010 года . Проверено 10 марта 2010 года .
^ Уайт, Джон С. (31 июля 2003 г.). Представляя машинный перевод в информационном будущем: 4-я конференция Ассоциации машинного перевода в Северной и Южной Америке, AMTA 2000, Куэрнавака, Мексика, 10-14 октября 2000 г. Материалы . Springer. ISBN 9783540399650.
^ «ТС-Стар» . Проверено 25 октября 2010 года .
^ "США-ДАРПА-ГЕЙЛ" . Архивировано из оригинального 11 ноября 2010 года . Проверено 25 октября 2010 года .

дальнейшее чтение

Хатчинс, У. Джон (1986). Машинный перевод: прошлое, настоящее, будущее . Серия Эллис Хорвуд в компьютерах и их приложениях. Чичестер: Эллис Хорвуд. ISBN 0470203137.

[Nye-1] Най, Мэри Джо (2016). «Говоря на языках: многовековая охота науки за общим языком» . Дистилляции . 2 (1): 40–43 . Проверено 22 марта 2018 .

[Babel-2] Гордин, Майкл Д. (2015). Научный Бабель: Как была создана наука до и после Global English . Чикаго, Иллинойс: Издательство Чикагского университета. ISBN 9780226000299.

[nutshell-3] а б Хатчинс, Дж. (2005). «История машинного перевода в двух словах» (PDF) .^{[ самостоятельно опубликованный источник ]}

[4] Мэдсен, Матиас Винтер (23 декабря 2009 г.). Пределы машинного перевода (Диссертация). Копенгагенский университет. п. 11.

[5] Мелби, Алан К. (1995). Возможность языка . Амстердам: Дж. Бенджаминс. С. 27–41. ISBN 9027216142.

[6] Вутен, Адам (14 февраля 2006 г.). «Простая модель, описывающая технологию перевода» . T&I Business . Архивировано из оригинального 16 июля 2012 года.

[7] «Приложение III к« Текущему статусу автоматического перевода языков » » (PDF) . Достижения в области компьютеров . 1960. С. 158–163. Перепечатано в Я. Бар-Гиллель (1964). Язык и информация . Массачусетс: Эддисон-Уэсли. С. 174–179.

[8] Дюпон, Куинн (январь 2018 г.). «Криптологические истоки машинного перевода: от аль-Кинди до Уивера» . Современный (8).

[9] 浜口, 稔 (30 апреля 1993 г.).英仏普遍言語計画. 工作舎. С. 70–71. ISBN 978-4-87502-214-5.普遍的文字の構築といЮ -初期の試みに言及すпереводときは1629年11月にデカルトがメルセンヌに宛てた手紙から始まる,というのが通り相場となっている.しかし,この問題への関心を最初に誘発した多くの要因を吟味してみると,ある種の共通の書字という構想は明らかに,ずっと以前から比較的なじみ深いものになっていたようである. ...フランシス·ベイコンは, 1605年出版の学問の進歩についてそのような真正文字の体系は便利でと述べいたпереведено с
Ноулсон, Джеймс (1975). УНИВЕРСАЛЬНЫЕ ЯЗЫКОВЫЕ СХЕМЫ В АНГЛИИ И ФРАНЦИИ 1600-1800 .

[10] 別所, 照彦; 棚橋, 善照 (15 октября 1960 г.). «翻訳». В 木, 英彦; 喜安, 善市 (ред.).自動翻訳デ・ユ・パノフ著(на японском языке) (1 изд.). Токио: （株）みすず書房. стр. 10–11.翻訳のある程度の機械化 1933 年にペ・ペ・トンスキーが企てたらく最初でああ。彼の翻訳に際し,単語を選別しかつ印刷する機械」をつくることを提案した.この発明でペ· Friday , ·トロヤンスキーは特許をとったが,当時それを実現することは巧くいかなかった. ( перевод (с помощью Google translate ): Это может быть почти первый случай машинного перевода, который Петр Петрович Троянский пробовал в 1933 году. Он представил, что «искалечить машину, которая выбирает слова и печатает их при переводе с одного языка на другой или на несколько. языков одновременно ». Он получил патент на это изобретение, но его не удалось реализовать в то время.)

[11] 別所, 照彦; 沢辺, 弘 (25 февраля 1964 г.).翻訳機械（文庫クセジュ現代知識の焦点） (на японском языке) (1 изд.). Токио: （株）白水社. п. 39.モスクワで1933年に特許をとったロシア人スミルノフ·トロヤンスキーの発明は,同時にいくつかの言語を翻訳し,遠方まで送ることを可能とするように見えた. (Перевод (помогает Google перевести ): Изобретение, запатентованное Петром Петровичем Троянским в 1933 году, казалось, способно переводить на несколько языков одновременно и отправлять их куда-то далеко.), переведено с
Делавени, Эмиль. LA MACHINE A TRADUIRE (Коллекция QUE SAIS-JE? № 834) (на французском языке). Прессы Universitaires de France.

[12] «Меморандум Уивера» . Март 1949. Архивировано из оригинала 5 октября 2006 года.

[13] «ПРОЦЕСС ЗАКУПКИ» . Канадский международный торговый суд . 30 июля 2002 года Архивировано из оригинала 6 июля 2011 года . Проверено 10 февраля 2007 года .

[14] Нагао, Макото (1984). «Структура механического перевода между японским и английским языком по принципу аналогии» (PDF) . Порядок проведения Международного симпозиума НАТО по искусственному и человеческому интеллекту . Нью-Йорк: Elsevier North-Holland, Inc., стр. 173–180. ISBN 0-444-86545-4.

[15] "Ассоциация компьютерной лингвистики - 2003 ACL Lifetime Achievement Award" . Ассоциация компьютерной лингвистики. Архивировано из оригинального 12 июня 2010 года . Проверено 10 марта 2010 года .

[16] Уайт, Джон С. (31 июля 2003 г.). Представляя машинный перевод в информационном будущем: 4-я конференция Ассоциации машинного перевода в Северной и Южной Америке, AMTA 2000, Куэрнавака, Мексика, 10-14 октября 2000 г. Материалы . Springer. ISBN 9783540399650.

[17] «ТС-Стар» . Проверено 25 октября 2010 года .

[18] "США-ДАРПА-ГЕЙЛ" . Архивировано из оригинального 11 ноября 2010 года . Проверено 25 октября 2010 года .

[1]