Интерактивный машинный перевод

Интерактивный машинный перевод ( IMT ) - это особая область компьютерного перевода . Согласно этой парадигме перевода компьютерное программное обеспечение, которое помогает человеку-переводчику, пытается предсказать текст, который пользователь собирается ввести, принимая во внимание всю доступную информацию. Когда такое предсказание неверно и пользователь предоставляет системе обратную связь , новое предсказание выполняется с учетом новой доступной информации. Такой процесс повторяется до тех пор, пока предоставленный перевод не будет соответствовать ожиданиям пользователя.

Интерактивный машинный перевод особенно интересен при переводе текстов в областях, где недопустимо выводить перевод, содержащий ошибки, и, следовательно, требуется, чтобы пользователь-человек исправлял переводы, предоставленные системой. Доказано, что в таких случаях интерактивный машинный перевод приносит пользу потенциальным пользователям. ^[1]^[2] Тем не менее, существует немного коммерческого программного обеспечения , реализующего интерактивный машинный перевод, и работа, выполняемая в этой области, в основном ограничивается академическими исследованиями .

История

Исторически интерактивный машинный перевод родился как эволюция парадигмы автоматизированного перевода , в которой человеческий переводчик и система машинного перевода должны были работать как тандем . ^[3] Эта первая работа была расширена в рамках исследовательского проекта TransType, финансируемого канадским правительством. В этом проекте человеческое взаимодействие было направлено на создание целевого текста впервые за счет внедрения методов машинного перевода, управляемого данными , в интерактивную среду перевода с целью достижения лучших из обоих участников: эффективности автоматической системы и надежность человеческих переводчиков.

Позднее масштабный исследовательский проект TransType2 ^[1]^[2], финансируемый Европейской комиссией, расширил эту работу, проанализировав включение в процесс полной системы машинного перевода с целью выработки полной гипотезы перевода, которая пользователю-человеку разрешено вносить поправки или принимать. Если пользователь решает исправить гипотезу, система затем пытается наилучшим образом использовать такую обратную связь , чтобы создать новую гипотезу перевода, которая учитывает модификации, внесенные пользователем.

Совсем недавно CASMACAT ^[4], также финансируемый Европейской комиссией , был нацелен на разработку новых видов помощи переводчикам-людям и интегрировал их в новую рабочую среду, состоящую из редактора, сервера, а также инструментов анализа и визуализации. Верстак был разработан по модульному принципу и может быть объединен с существующими средствами компьютерного перевода. Кроме того, инструментальные средства CASMACAT могут учиться в процессе взаимодействия с переводчиком-человеком, мгновенно обновляя и адаптируя свои модели в зависимости от выбора перевода пользователем. ^[5]^[6]

Недавняя работа по включению обширной оценки с участием пользователей-людей ^[7] показала тот факт, что интерактивный машинный перевод может использоваться даже пользователями, которые не говорят на исходном языке, для достижения почти профессионального качества перевода. Более того, это также прояснило тот факт, что интерактивный сценарий более выгоден, чем классический сценарий пост-редакции.

Описанные ранее подходы основаны на тесно связанной базовой системе машинного перевода на основе корпуса (обычно это система статистического машинного перевода ), которая используется как стеклянный ящик , поэтому наследуя недостатки систем перевода и ограничивая использование интерактивного машинного перевода для некоторые сценарии. По этой причине был разработан подход, который использует любые двуязычные ресурсы (не ограничиваясь машинным переводом) в качестве « черного ящика» для обеспечения интерактивного машинного перевода. ^[8] Этот подход не может извлечь столько информации из используемых двуязычных ресурсов из-за природы взаимодействия «черный ящик», но может использовать любой ресурс, доступный пользователю. Forecat - это интерактивная реализация машинного перевода в виде черного ящика, доступная как в виде веб-приложения (которое включает в себя веб-страницу и интерфейс веб-служб), так и в качестве плагина для OmegaT (Forecat-OmegaT).

Процесс

Процесс интерактивного машинного перевода начинается с того, что система предлагает пользователю гипотезу перевода. Затем пользователь может принять полное предложение как правильное или изменить его, если сочтет ошибку. Обычно при изменении данного слова предполагается, что префикс до этого слова правильный, что приводит к схеме взаимодействия слева направо. После того, как пользователь изменил слово, которое считается неправильным, система предлагает новый суффикс, то есть оставшуюся часть предложения. Такой процесс продолжается до тех пор, пока предоставленный перевод не удовлетворит пользователя.

Хотя это объясняется на уровне слов, предыдущий процесс также может быть реализован на уровне символов, и, следовательно, система предоставляет суффикс всякий раз, когда переводчик-человек вводит один символ. Кроме того, предпринимаются постоянные усилия по изменению типичной схемы взаимодействия слева направо, чтобы упростить взаимодействие человека с машиной . ^[9]^[10]

Похожий подход используется в переводчике Caitra .

Оценка

В интерактивном машинном переводе оценка - сложная задача. В идеале оценка должна проводиться в экспериментах с участием людей-пользователей. Однако, учитывая высокую денежную стоимость, это может произойти редко. Более того, даже если рассматривать переводчиков-людей для проведения истинной оценки методов интерактивного машинного перевода, неясно, что следует измерять в таких экспериментах, поскольку существует множество различных переменных, которые следует принимать во внимание и которые нельзя контролировать, например это, например, время, которое требуется пользователю, чтобы привыкнуть к процессу. В проекте CASMACAT были проведены полевые испытания для изучения некоторых из этих переменных. ^[11]^[12]^[13]

Для быстрой оценки в лабораторных условиях интерактивный машинный перевод измеряется с помощью соотношения штрихов клавиш или слов . Такие критерии пытаются измерить, сколько нажатий клавиш или слов нужно было ввести пользователю перед созданием окончательного переведенного документа. ^[2]

Отличия от классического автоматизированного перевода

Хотя интерактивный машинный перевод является частью компьютерного перевода , главная привлекательность первого по сравнению со вторым - интерактивность. В классическом автоматизированном переводе система перевода может предложить одну гипотезу перевода в лучшем случае, а затем пользователю необходимо отредактировать эту гипотезу. Напротив, в интерактивном машинном переводе система выдает новую гипотезу перевода каждый раз, когда пользователь взаимодействует с системой, то есть после того, как было введено каждое слово (или буква).

Смотрите также

Внешние ссылки

Демонстрация интерактивного машинного перевода Lilt
Демонстрация интерактивного машинного перевода
Веб-страница проекта TransType
Веб-страница проекта TransType2
Веб-страница проекта MIPRCV
Прогноз
Forecat-OmegaT

[Casacuberta_2009-1] Casacuberta, Франсиско; Чивера, Хорхе; Кубель, Эльза; Lagarda, Antonio L .; Лапальм, Гай; Маклович, Эллиотт; Видаль, Энрике (2009). «Взаимодействие человека для качественного машинного перевода» (PDF) . Коммуникации ACM . 52 (10): 135–138. DOI : 10.1145 / 1562764.1562798 . Архивировано из оригинального (PDF) 06.07.2011.

[Barrachina_2009-2] а б в Баррачина, Серджио; Бендер, Оливер; Казакуберта, Франсиско; Чивера, Хорхе; Кубель, Эльза; Хадиви, Шахрам; Lagarda, Antonio L .; Ней, Германн; Томас, Хесус; Видаль, Энрике (2009). «Статистические подходы к автоматизированному переводу» (PDF) . Компьютерная лингвистика . 25 (1): 3–28. DOI : 10,1162 / coli.2008.07-055-r2-06-29 .

[3] Фостер, Джордж; Изабель, Пьер; Пламондон, Пьер (1997). «Интерактивный машинный перевод с опосредованным целевым текстом». Машинный перевод . 12 (1): 175–194. DOI : 10.1023 / а: 1007999327580 .

[4] Алабау, Висент; Бак, Кристиан; Карл, Майкл; Казакуберта, Франсиско; Гарсия-Мартинес, «Мерседес»; Германн, Ульрих; Гонсалес-Рубио, Хесус; Хилл, Робин; Коэн, Филипп; Лейва, Луис; Меса-Лао, Барто; Ортис, Даниэль; Сен-Аманд, Эрве; Санчис, немец; Цукала, Чара (апрель 2014 г.). «CASMACAT: автоматизированная система перевода» (PDF) . Труды 14-й конференции Европейского отделения Ассоциации компьютерной лингвистики . Лос-Анджелес, Калифорния: Ассоциация компьютерной лингвистики. С. 25–28.

[5] Ортис-Мартинес, Даниэль; Гарсия-Вареа, Исмаил; Казакуберта, Франциско (июнь 2010 г.). «Онлайн-обучение для интерактивного статистического машинного перевода» (PDF) . Человеческий язык Технология: Ежегодная конференция Североамериканской главы из ACL 2010 . Ассоциация компьютерной лингвистики. С. 546–554.

[6] Мартинес-Гомес, Паскуаль; Санчис-Триллес, немецкий язык; Казакуберта, Франциско (сентябрь 2012 г.). «Стратегии онлайн-адаптации для статистического машинного перевода в сценариях постредактирования». Распознавание образов . Эльзевир. 45 (9): 3193–3203. DOI : 10.1016 / j.patcog.2012.01.011 . hdl : 10251/37324 .

[7] Коэн, Филипп (июнь 2010 г.). «Включение одноязычных переводчиков: постредактирование и опции» (PDF) . Человеческий язык Технологии: Ежегодная конференция 2010 североамериканского отделения Ассоциации компьютерной лингвистики (HLT / NAACL) . Лос-Анджелес, Калифорния: Ассоциация компьютерной лингвистики. С. 537–545.

[8] Хуан Антонио, Перес-Ортис; Торрегроса, Даниэль; Форкада, Микель (2014). «Интеграция разнородных двуязычных ресурсов методом черного ящика в интерактивную систему перевода» . Материалы семинара EACL 2014 по человеческому и компьютерному переводу . Лос-Анджелес, Калифорния: Ассоциация компьютерной лингвистики. С. 57–65.

[9] Санчис-Трилес, Херман; Ортис-Мартинес, Даниэль; Чивера, Хорхе; Казакуберта, Франсиско; Видаль, Энрике; Хоанг, Хиеу (октябрь 2008 г.). «Улучшение интерактивного машинного перевода с помощью действий мыши» (PDF) . Труды конференции 2008 г. по эмпирическим методам обработки естественного языка (EMNLP) . Гонолулу, Гавайи: Ассоциация компьютерной лингвистики. С. 485–494.

[10] Гонсалес-Рубио, Хесус; Ортис-Мартинес, Даниэль; Казакуберта, Франциско (июль 2010 г.). «Уравновешивание усилий пользователей и ошибок перевода в интерактивном машинном переводе с помощью мер доверия» (PDF) . Материалы конференции ACL 2010 Short Papers (ACL) . Упсала, Швеция: Ассоциация компьютерной лингвистики. С. 173–177.

[11] Андервуд, Нэнси; Меса-Лао, Бартоломе; Гарсиа-Мартинес, «Мерседес»; Карл, Майкл; Алабау, Висент; Гонсалес-Рубио, Хесус; Лейва, Луис; Санчис-Трилес, Херман; Ортис-Мартинес, Даниэль; Казакуберта, Франциско (май 2014 г.). «Оценка эффектов интерактивности в инструментальных средствах постредактирования» (PDF) . Материалы 29-й конференции по языковым ресурсам и оценке (LREC) . Рейкьявик, Исландия. С. 553–559.

[12] Ортис-Мартинес, Даниэль; Гонсалес-Рубио, Хесус; Алабау, Висент; Санчис-Трилес, Херман; Казакуберта, Франциско (август 2015 г.). «Интеграция онлайн-обучения и активного обучения в системе автоматизированного перевода». Новые направления в эмпирических исследованиях процесса перевода: изучение CRITT TPR-DB . Springer. С. 54–73.

[13] Алабау, Висент; Карл, Майкл; Казакуберта, Франсиско; Гарсиа-Мартинес, «Мерседес»; Меса-Лао, Бартоломе; Ортис-Мартинес, Даниэль; Гонсалес-Рубио, Хесус; Санчис-Трилес, Херман; Шеффер, Мориц (август 2015 г.). «Обучение продвинутому постредактированию». Новые направления в эмпирических исследованиях процесса перевода: изучение CRITT TPR-DB . Springer. С. 95–111.

[1]