Машинный перевод - это подраздел компьютерной лингвистики , изучающий использование программного обеспечения для перевода текста или речи с одного естественного языка на другой.
В 1950-х годах машинный перевод стал реальностью в исследованиях, хотя ссылки на эту тему можно найти уже в 17 веке. Эксперимент Georgetown , в котором участвовал успешный полностью автоматический перевод более чем шестьдесят русских предложений на английский язык в 1954 году, был одним из самых ранних зарегистрированных проектов. [1] [2] Исследователи Джорджтаунского эксперимента подтвердили свою веру в то, что машинный перевод станет решенной проблемой в течение трех-пяти лет. [3] [ нужен лучший источник ] В Советском Союзе вскоре после этого были проведены аналогичные эксперименты. [4]Следовательно, успех эксперимента положил начало эре значительного финансирования исследований машинного перевода в Соединенных Штатах. Достигнутый прогресс был намного медленнее, чем ожидалось; в 1966 году отчет ALPAC показал, что десять лет исследований не оправдали ожиданий эксперимента в Джорджтауне и привели к резкому сокращению финансирования [ необходима цитата ] .
Возрос интерес к статистическим моделям машинного перевода , которые стали более распространенными и менее дорогостоящими в 1980-х годах по мере увеличения доступной вычислительной мощности.
Хотя не существует автономной системы «полностью автоматического высококачественного перевода неограниченного текста» [5] [6] [7] , сейчас доступно множество программ, способных обеспечить полезный вывод в строгих ограничениях. Некоторые из этих программ доступны в Интернете, например, Google Translate и система SYSTRAN , на которой работает BabelFish от AltaVista (с 9 мая 2008 года - Yahoo's Babelfish).
Начало
Истоки машинного перевода можно проследить до работы Аль-Кинди , арабского криптографа 9-го века, который разработал методы системного языкового перевода, включая криптоанализ , частотный анализ , а также вероятность и статистику , которые используются в современном машинном переводе. [8] Идея машинного перевода появилась позже в 17 веке. В 1629 году Рене Декарт предложил универсальный язык с эквивалентными идеями на разных языках, разделяющих один символ. [9]
В середине 1930-х годов Жорж Арцруни подал заявку на первые патенты на «переводческие машины» на автоматический двуязычный словарь с использованием бумажной ленты . Русский Петр Троянский представил более подробное предложение [10] [11], которое включало как двуязычный словарь, так и метод работы с грамматическими ролями между языками, основанный на грамматической системе эсперанто . Эта система была разделена на три этапа: первый этап состоял из редактора, говорящего на родном языке, для преобразования слов в их логические формы и выполнения синтаксических функций; на втором этапе машина должна «перевести» эти формы на целевой язык; и на третьем этапе для нормализации этого вывода требовался редактор с родным языком на целевом языке. Предложение Троянского оставалось неизвестным до конца 1950-х годов, когда компьютеры были широко известны и широко использовались.
Ранние годы
Первый набор предложений по машинному переводу на базе компьютера был представлен в 1949 году Уорреном Уивером , исследователем из Фонда Рокфеллера , « Меморандум о переводе ». [12] Эти предложения были основаны на теории информации , успехах во взломе кода во время Второй мировой войны и теориях об универсальных принципах, лежащих в основе естественного языка .
Через несколько лет после того, как Уивер представил свои предложения, во многих университетах США начались серьезные исследования. 7 января 1954 года эксперимент Джорджтауна-IBM был проведен в Нью-Йорке в головном офисе IBM. Это была первая публичная демонстрация системы машинного перевода. Демонстрация широко освещалась в газетах и вызвала общественный интерес. Однако сама система была не более чем «игрушечной» системой. В нем было всего 250 слов и 49 тщательно отобранных русских предложений были переведены на английский язык - в основном в области химии . Тем не менее, он поддержал идею о неизбежности машинного перевода и стимулировал финансирование исследований не только в США, но и во всем мире. [3]
Ранние системы использовали большие двуязычные словари и закодированные вручную правила для фиксации порядка слов в окончательном результате, что в конечном итоге считалось слишком ограничивающим в лингвистических разработках в то время. Например, генеративная лингвистика и трансформационная грамматика использовались для улучшения качества переводов. В этот период были установлены операционные системы. Военно- воздушные силы США использовали систему, произведенную IBM и Вашингтонским университетом , а Комиссия по атомной энергии и Евратом в Италии использовали систему, разработанную в Джорджтаунском университете . Несмотря на то, что качество продукции было низким, оно отвечало многим потребностям клиентов, особенно с точки зрения скорости. [ необходима цитата ]
В конце 1950-х годов правительство США попросило Иегошуа Бар-Гиллеля изучить машинный перевод, чтобы оценить возможность полностью автоматического машинного перевода высокого качества. Бар-Гиллель описал проблему семантической двусмысленности или двусмысленности, как показано в следующем предложении:
Маленький Джон искал свой ящик с игрушками. Наконец он нашел это. Коробка была в ручке.
Слово перо может иметь два значения: первое - то, что используется для письма чернилами; второе значение - какой-то контейнер. Для человека значение очевидно, но Бар-Гиллель утверждал, что без «универсальной энциклопедии» машина никогда не сможет справиться с этой проблемой. В то время этот тип семантической неоднозначности можно было решить только путем написания исходных текстов для машинного перевода на контролируемом языке, который использует словарь, в котором каждое слово имеет ровно одно значение. [ необходима цитата ]
1960-е, отчет ALPAC и семидесятые годы.
Исследования 1960-х годов как в Советском Союзе, так и в США были сосредоточены в основном на русско-английской языковой паре. Объектами перевода были в основном научно-технические документы, например статьи из научных журналов . Сделанных черновых переводов было достаточно, чтобы получить общее представление о статьях. Если в статье обсуждалась тема, которая считалась конфиденциальной, ее отправляли переводчику-человеку для полного перевода; в противном случае он был отброшен.
Большой удар по исследованиям в области машинного перевода был нанесен в 1966 году с публикацией отчета ALPAC . Отчет был заказан правительством США и представлен ALPAC , Консультативным комитетом по автоматической обработке языков, группой из семи ученых, созванной правительством США в 1964 году. Правительство США было обеспокоено отсутствием прогресса, несмотря на значительные расходы. . В отчете сделан вывод о том, что машинный перевод дороже, менее точен и медленнее, чем перевод, выполняемый человеком, и что, несмотря на затраты, машинный перевод вряд ли достигнет качества переводчика-человека в ближайшем будущем.
Однако в отчете рекомендуется разработать инструменты для помощи переводчикам - например, автоматические словари - и продолжить поддержку некоторых исследований в области компьютерной лингвистики.
Публикация отчета оказала глубокое влияние на исследования машинного перевода в Соединенных Штатах и, в меньшей степени, в Советском Союзе и Великобритании. Исследования, по крайней мере, в США, были почти полностью заброшены на более чем десятилетие. Однако в Канаде, Франции и Германии исследования продолжались. В США главным исключением были основатели Systran ( Питер Тома ) и Logos (Бернард Скотт), которые основали свои компании в 1968 и 1970 годах соответственно и служили Министерству обороны США. В 1970 году система Systran была установлена для ВВС США , а затем Комиссией Европейских сообществ в 1976 году. Система METEO , разработанная в Университете Монреаля , была установлена в Канаде в 1977 году для перевода прогнозов погоды с английского языка. на французский язык и переводил около 80 000 слов в день или 30 миллионов слов в год, пока 30 сентября 2001 г. не был заменен системой конкурентов [13].
В то время как исследования в 1960-х годах были сосредоточены на ограниченных языковых парах и материалах, спрос в 1970-х годах был на недорогие системы, которые могли бы переводить ряд технических и коммерческих документов. Этот спрос был вызван ростом глобализации и спросом на перевод в Канаде, Европе и Японии. [ необходима цитата ]
1980-е и начало 1990-х годов
К 1980-м годам увеличилось как разнообразие, так и количество установленных систем машинного перевода. Был использован ряд систем, основанных на технологии мэйнфреймов , таких как Systran , Logos , Ariane-G5 и Metal . [ необходима цитата ]
В результате повышения доступности микрокомпьютеров появился рынок систем машинного перевода более низкого уровня. Этим воспользовались многие компании в Европе, Японии и США. Системы также были представлены на рынке Китая, Восточной Европы, Кореи и Советского Союза . [ необходима цитата ]
В 80-е годы МП особенно активно развивались в Японии. С компьютерами пятого поколения Япония намеревалась опередить своих конкурентов в области компьютерного оборудования и программного обеспечения, а один проект, в котором оказались вовлечены многие крупные японские производители электроники, заключался в создании программного обеспечения для перевода на английский язык и с английского (Fujitsu, Toshiba, NTT, Brother, Catena , Matsushita, Mitsubishi, Sharp, Sanyo, Hitachi, NEC, Panasonic, Kodensha, Nova, Oki). [ необходима цитата ]
Исследования 80-х годов прошлого века обычно основывались на переводе с помощью некоторых промежуточных лингвистических представлений, включающих морфологический, синтаксический и семантический анализ. [ необходима цитата ]
В конце 80-х годов прошлого века появилось множество новых методов машинного перевода. Одна система была разработана в IBM , основанная на статистических методах . Макото Нагао и его группа использовали методы, основанные на большом количестве примеров перевода, технику, которая теперь называется машинным переводом на основе примеров . [14] [15] Определяющей чертой обоих этих подходов было пренебрежение синтаксическими и семантическими правилами и использование вместо них манипуляций с большими текстовыми корпусами .
В 1990-х годах, воодушевленные успехами в распознавании и синтезе речи , начались исследования в области перевода речи с развитием немецкого проекта Verbmobil .
Система Forward Area Language Converter (FALCon), технология машинного перевода, разработанная Исследовательской лабораторией армии , была задействована в 1997 году для перевода документов для солдат в Боснии. [16]
Значительный рост использования машинного перевода произошел в результате появления более дешевых и более мощных компьютеров. Это было в начале 1990-х годов, когда в машинном переводе произошел переход от больших мэйнфреймов к персональным компьютерам и рабочим станциям . Две компании, которые какое-то время лидировали на рынке ПК, - это Globalink и MicroTac, после чего слияние двух компаний (в декабре 1994 г.) оказалось в интересах обеих компаний. Примерно в это же время Intergraph и Systran также начали предлагать версии для ПК. Сайты стали доступны в Интернете, таких как AltaVista «s Babel Fish ( с использованием технологии Systran) и Google Language Tools (также первоначально используя Systran технологии исключительно).
2000-е
За последние несколько лет в области машинного перевода произошли серьезные изменения. В настоящее время проводится большое количество исследований в области статистического машинного перевода и машинного перевода на основе примеров . В области перевода речи исследования были сосредоточены на переходе от систем с ограничением по предметной области к системам с неограниченным доменом. В различных исследовательских проектах в Европе (например, TC-STAR) [17] и в США (STR-DUST и US-DARPA-GALE) [18] были разработаны решения для автоматического перевода парламентских речей и новостей. В этих сценариях область содержания больше не ограничивается какой-либо определенной областью, а, скорее, речи, которые необходимо перевести, охватывают множество тем. Совсем недавно французско-немецкий проект Quaero исследует возможность использования машинного перевода для многоязычного Интернета. Проект направлен на перевод не только веб-страниц, но также видео и аудио файлов в Интернете.
Сегодня лишь несколько компаний используют статистический машинный перевод в коммерческих целях. Возродился интерес к гибридизации, когда исследователи объединяют синтаксические и морфологические (т. Е. Лингвистические) знания в статистические системы, а также объединяют статистику с существующими системами, основанными на правилах. [ необходима цитата ]
Смотрите также
- История обработки естественного языка
- Отчет ALPAC
- Автоматизированный перевод
- Отчет о Лайтхилле
- Машинный перевод
Заметки
- ^ Най, Мэри Джо (2016). «Говоря на языках: многовековая охота науки за общим языком» . Дистилляции . 2 (1): 40–43 . Проверено 22 марта 2018 .
- ^ Гордин, Майкл Д. (2015). Научный Бабель: Как была создана наука до и после Global English . Чикаго, Иллинойс: Издательство Чикагского университета. ISBN 9780226000299.
- ^ а б Хатчинс, Дж. (2005). «История машинного перевода в двух словах» (PDF) .[ самостоятельно опубликованный источник ]
- ^ Мэдсен, Матиас Винтер (23 декабря 2009 г.). Пределы машинного перевода (Диссертация). Копенгагенский университет. п. 11.
- ^ Мелби, Алан К. (1995). Возможность языка . Амстердам: Дж. Бенджаминс. С. 27–41. ISBN 9027216142.
- ^ Вутен, Адам (14 февраля 2006 г.). «Простая модель, описывающая технологию перевода» . T&I Business . Архивировано из оригинального 16 июля 2012 года.
- ^ «Приложение III к« Текущему статусу автоматического перевода языков » » (PDF) . Достижения в области компьютеров . 1960. С. 158–163. Перепечатано в Я. Бар-Гиллель (1964). Язык и информация . Массачусетс: Эддисон-Уэсли. С. 174–179.
- ^ Дюпон, Куинн (январь 2018 г.). «Криптологические истоки машинного перевода: от аль-Кинди до Уивера» . Современный (8).
- ^ 浜 口, 稔 (30 апреля 1993 г.).英 仏 普遍 言語 計画. 工作 舎. С. 70–71. ISBN 978-4-87502-214-5.
普遍的文字の構築といЮ -初期の試みに言及すпереводときは1629年11月にデカルトがメルセンヌに宛てた手紙から始まる,というのが通り相場となっている.しかし,この問題への関心を最初に誘発した多くの要因を吟味してみると,ある種の共通の書字という構想は明らかに,ずっと以前から比較的なじみ深いものになっていたようである. ...フランシス·ベイコンは, 1605年出版の学問 の 進 歩 に つ い てそ の よ う な 真正 文字 の 体系 は 便利 で と 述 べ い た
переведено с
Ноулсон, Джеймс (1975). УНИВЕРСАЛЬНЫЕ ЯЗЫКОВЫЕ СХЕМЫ В АНГЛИИ И ФРАНЦИИ 1600-1800 . - ^ 別 所, 照 彦; 棚 橋, 善 照 (15 октября 1960 г.). «翻 訳». В 木, 英 彦; 喜 安, 善 市 (ред.).自動 翻 訳 デ ・ ユ ・ パ ノ フ 著(на японском языке) (1 изд.). Токио: (株) み す ず 書房. стр. 10–11.
翻 訳 の あ る 程度 の 機械化 1933 年 に ペ ・ ペ ・ ト ン ス キ ー が 企 て た ら く 最初 で あ あ。 彼の翻訳に際し,単語を選別しかつ印刷する機械」をつくることを提案した.この発明でペ· Friday , ·トロヤンスキーは特許をとったが,当時それを実現することは巧くいかなかった. ( перевод (с помощью Google translate ): Это может быть почти первый случай машинного перевода, который Петр Петрович Троянский пробовал в 1933 году. Он представил, что «искалечить машину, которая выбирает слова и печатает их при переводе с одного языка на другой или на несколько. языков одновременно ». Он получил патент на это изобретение, но его не удалось реализовать в то время.)
- ^ 別 所, 照 彦; 沢 辺, 弘 (25 февраля 1964 г.).翻 訳 機械 (文庫 ク セ ジ ュ 現代 知識 の 焦点) (на японском языке) (1 изд.). Токио: (株) 白水 社. п. 39.
モスクワで1933年に特許をとったロシア人スミルノフ·トロヤンスキーの発明は,同時にいくつかの言語を翻訳し,遠方まで送ることを可能とするように見えた. (Перевод (помогает Google перевести ): Изобретение, запатентованное Петром Петровичем Троянским в 1933 году, казалось, способно переводить на несколько языков одновременно и отправлять их куда-то далеко.)
, переведено с
Делавени, Эмиль. LA MACHINE A TRADUIRE (Коллекция QUE SAIS-JE? № 834) (на французском языке). Прессы Universitaires de France. - ^ «Меморандум Уивера» . Март 1949. Архивировано из оригинала 5 октября 2006 года.
- ^ «ПРОЦЕСС ЗАКУПКИ» . Канадский международный торговый суд . 30 июля 2002 года Архивировано из оригинала 6 июля 2011 года . Проверено 10 февраля 2007 года .
- ^ Нагао, Макото (1984). «Структура механического перевода между японским и английским языком по принципу аналогии» (PDF) . Порядок проведения Международного симпозиума НАТО по искусственному и человеческому интеллекту . Нью-Йорк: Elsevier North-Holland, Inc., стр. 173–180. ISBN 0-444-86545-4.
- ^ "Ассоциация компьютерной лингвистики - 2003 ACL Lifetime Achievement Award" . Ассоциация компьютерной лингвистики. Архивировано из оригинального 12 июня 2010 года . Проверено 10 марта 2010 года .
- ^ Уайт, Джон С. (31 июля 2003 г.). Представляя машинный перевод в информационном будущем: 4-я конференция Ассоциации машинного перевода в Северной и Южной Америке, AMTA 2000, Куэрнавака, Мексика, 10-14 октября 2000 г. Материалы . Springer. ISBN 9783540399650.
- ^ «ТС-Стар» . Проверено 25 октября 2010 года .
- ^ "США-ДАРПА-ГЕЙЛ" . Архивировано из оригинального 11 ноября 2010 года . Проверено 25 октября 2010 года .
Рекомендации
- Хатчинс, Дж. (2005). «Вехи в машинном переводе - №6: Бар-Гиллель и невозможность FAHQT]» (PDF) .
- Ван Слайп, Жорж (1983). Лучший перевод для лучшего общения . Париж: Pergamon Press. ISBN 9780080305349.
дальнейшее чтение
- Хатчинс, У. Джон (1986). Машинный перевод: прошлое, настоящее, будущее . Серия Эллис Хорвуд в компьютерах и их приложениях. Чичестер: Эллис Хорвуд. ISBN 0470203137.