Оценка машинного перевода

Применялись различные методы оценки машинного перевода . В этой статье основное внимание уделяется оценке результатов машинного перевода , а не оценке производительности или удобства использования.

Перевод туда и обратно [ править ]

Обычный способ оценки качества машинного перевода для непрофессионалов - это перевод с исходного языка на целевой и обратно на исходный язык с помощью того же механизма. Хотя интуитивно это может показаться хорошим методом оценки, было показано, что двусторонний перевод является «плохим показателем качества». ^[1] Причина, по которой это такой плохой предсказатель качества, довольно интуитивна. При двустороннем переводе тестируется не одна система, а две системы: языковая пара движка для перевода на целевой язык и языковая пара, переводящая обратно с целевого языка.

Рассмотрим следующие примеры двустороннего перевода, выполненного с английского на итальянский и португальский языки из Somers (2005):

Первоначальный текст	Выберите эту ссылку, чтобы перейти на нашу домашнюю страницу.
Переведено	Выберите этот коллега для защиты домашней страницы.
Переведено обратно	Выбирает это соединение для просмотра нашей домашней страницы.

Первоначальный текст	Око за око
Переведено	Melharuco para o tat
Переведено обратно	Око за око

В первом примере, где текст переводится на итальянский, а затем обратно на английский - английский текст значительно искажен, но итальянский можно использовать для перевода. Во втором примере текст, переведенный обратно на английский, идеален, но португальский перевод не имеет смысла; Программа подумала, что «синица» была ссылкой на « синицу» (птицу) , которая была предназначена для «тат», слова, которое она не понимала.

Хотя двусторонний перевод может быть полезен для получения «лишнего удовольствия» ^[2], методология недостаточна для серьезного изучения качества машинного перевода.

Оценка человека [ править ]

В этом разделе рассматриваются два крупномасштабных оценочных исследования, оказавших значительное влияние на эту область, - исследование ALPAC 1966 и исследование ARPA. ^[3]

Консультативный комитет по автоматической обработке языков (ALPAC) [ править ]

Одной из составных частей отчета ALPAC было исследование, в котором сравнивались различные уровни человеческого перевода с результатами машинного перевода с использованием людей в качестве судей. Судьи-люди были специально обучены для этой цели. В оценочном исследовании сравнивалась система машинного перевода, переводящая с русского на английский, с переводчиками-людьми по двум переменным.

Изучаемыми переменными были «разборчивость» и «верность». Разборчивость была мерой того, насколько «понятным» было предложение, и оценивалась по шкале от 1 до 9. Верность была мерой того, сколько информации сохранилось в переведенном предложении по сравнению с оригиналом, и оценивалась по шкале от 0 до 9. Каждая точка на шкале была связана с текстовым описанием. Например, цифра 3 по шкале разборчивости была описана как «В целом непонятно; это имеет тенденцию восприниматься как бессмыслица, но после значительного размышления и изучения можно, по крайней мере, выдвинуть гипотезу, подразумеваемую предложением». ^[4]

Разборчивость измерялась без ссылки на оригинал, а верность - косвенно. Было представлено переведенное предложение, и после его прочтения и усвоения содержания было представлено исходное предложение. Судьям было предложено оценить исходный приговор по информативности. Итак, чем информативнее исходное предложение, тем ниже качество перевода.

Исследование показало, что переменные сильно коррелировали, когда человеческое суждение усреднялось по каждому предложению. Вариации между оценщиками было мало, но исследователи рекомендовали , что , по крайней мере, три или четыре оценщики должны быть использованы. Методология оценки позволила легко отделить переводы, выполненные людьми, от переводов, выполняемых машинами.

В исследовании сделан вывод о том, что «можно сделать высоконадежные оценки качества человеческих и машинных переводов». ^[4]

Агентство перспективных исследовательских проектов (ARPA) [ править ]

В рамках программы «Технологии естественного языка» Агентство перспективных исследовательских проектов (ARPA) разработало методологию оценки систем машинного перевода и продолжает проводить оценки на основе этой методологии. Программа оценки была начата в 1991 году и продолжается по сей день. Подробности программы можно найти в White et al. (1994) и Уайт (1995).

Программа оценки включала тестирование нескольких систем, основанных на различных теоретических подходах; статистические, основанные на правилах и с участием человека. Ряд методов оценки результатов этих систем был протестирован в 1992 году, и самые последние подходящие методы были выбраны для включения в программы на последующие годы. Методы были; оценка понимания, оценка группой качества и оценка, основанная на адекватности и беглости.

Оценка понимания направлена на прямое сравнение систем на основе результатов тестов на понимание прочитанного с несколькими вариантами ответов, как в работе Church et al. (1993). Выбранные тексты представляли собой набор статей на английском языке на тему финансовых новостей. Эти статьи были переведены профессиональными переводчиками на несколько языковых пар, а затем переведены обратно на английский язык с помощью систем машинного перевода. Было решено, что этого недостаточно для отдельного метода сравнения систем, и от этого отказались из-за проблем с изменением значения в процессе перевода с английского языка.

Идея экспертной оценки качества заключалась в том, чтобы представить переводы группе экспертов, носителей английского языка, которые были профессиональными переводчиками, и заставить их оценить их. Оценки проводились на основе метрики, смоделированной на основе стандартной метрики правительства США, используемой для оценки переводов, выполняемых человеком. Это было хорошо с точки зрения того, что метрика была «внешне мотивированной» ^[3], поскольку она не была специально разработана для машинного перевода. Однако групповую оценку качества было очень сложно организовать с точки зрения логистики, поскольку для этого требовалось собрать несколько экспертов в одном месте на неделю или более, и, кроме того, они должны были прийти к консенсусу. От этого метода тоже отказались.

Наряду с модифицированной формой оценки понимания (переименованной в оценку информативности), наиболее популярным методом было получение оценок от одноязычных судей для сегментов документа. Судьям был представлен сегмент, и их попросили оценить его по двум переменным: адекватность и беглость речи. Адекватность - это оценка того, сколько информации передается между оригиналом и переводом, а беглость - это оценка того, насколько хорошо английский. Было обнаружено, что этот метод охватывает соответствующие части оценки группой качества, но в то же время его проще использовать, поскольку он не требует экспертной оценки.

Системы измерения, основанные на адекватности и беглости, наряду с информативностью, теперь являются стандартной методологией для программы оценки ARPA. ^[5]

Автоматическая оценка [ править ]

В контексте этой статьи метрика - это измерение. Метрика, оценивающая вывод машинного перевода, представляет качество вывода. Качество перевода по своей сути субъективно, объективного или измеримого «хорошего» нет. Следовательно, любая метрика должна присваивать оценки качества, чтобы они коррелировали с человеческим мнением о качестве. То есть метрика должна высоко оценивать переводы, которые люди высоко оценивают, и давать низкие оценки тем людям, которые дают низкие оценки. Человеческое суждение является эталоном для оценки автоматических показателей, поскольку люди являются конечными пользователями любых результатов перевода.

Мерой оценки метрик является корреляция с человеческим суждением. Обычно это делается на двух уровнях, на уровне предложения, где баллы рассчитываются по метрике для набора переведенных предложений, а затем соотносятся с человеческим суждением для тех же предложений. И на уровне корпуса, где оценки по предложениям агрегируются как для человеческих суждений, так и для метрических суждений, и затем эти агрегированные оценки коррелируются. Цифры корреляции на уровне предложения редко сообщаются, хотя Banerjee et al. (2005) приводят цифры корреляции, которые показывают, что, по крайней мере, для их метрики, корреляция на уровне предложений значительно хуже, чем корреляция на уровне корпуса.

Хотя широко об этом не сообщается, было отмечено, что жанр или область текста влияет на корреляцию, полученную при использовании показателей. Кафлин (2003) сообщает, что сравнение текста-кандидата с переводом одной ссылки не оказывает отрицательного влияния на корреляцию показателей при работе с текстом ограниченной области.

Даже если метрика хорошо коррелирует с человеческим мнением в одном исследовании по одному корпусу, эта успешная корреляция не может быть перенесена на другой корпус. Хорошая производительность метрики для разных типов текста или доменов важна для повторного использования метрики. Метрика, которая работает только для текста в определенном домене, полезна, но менее полезна, чем метрика, которая работает во многих доменах, потому что создание новой метрики для каждой новой оценки или домена нежелательно.

Еще одним важным фактором полезности метрики оценки является наличие хорошей корреляции даже при работе с небольшими объемами данных, то есть предложениями-кандидатами и справочными переводами. Туриан и др. (2003) отмечают, что «Любая мера оценки МП менее надежна при более коротких переводах», и показывают, что увеличение объема данных повышает надежность метрики. Однако они добавляют, что «... надежность более коротких текстов, таких как одно предложение или даже одна фраза, очень желательна, потому что надежная мера оценки МП может значительно ускорить исследовательский анализ данных». ^[6]

Banerjee et al. (2005) выделяют пять атрибутов, которыми должна обладать хорошая автоматическая метрика; корреляция, чувствительность, последовательность, надежность и универсальность. Любая хорошая метрика должна сильно коррелировать с человеческим суждением, она должна быть последовательной, давая аналогичные результаты той же системе машинного перевода для аналогичного текста. Он должен быть чувствительным к различиям между системами машинного перевода и надежным в том смысле, что системы машинного обучения, набравшие одинаковые оценки, должны работать одинаково. Наконец, метрика должна быть общей, то есть она должна работать с разными текстовыми доменами , в широком диапазоне сценариев и задач машинного перевода.

Цель этого подраздела - дать обзор современного состояния автоматических показателей для оценки машинного перевода. ^[7]

BLEU [ править ]

BLEU был одним из первых показателей, показавших высокую корреляцию с человеческими оценками качества. В настоящее время метрика является одной из самых популярных в данной области. Центральная идея, лежащая в основе метрики, заключается в том, что «чем ближе машинный перевод к профессиональному человеческому переводу, тем он лучше». ^[8] Показатель вычисляет баллы для отдельных сегментов, обычно предложений, а затем усредняет эти баллы по всему корпусу для получения окончательной оценки. Было показано, что это сильно коррелирует с человеческими суждениями о качестве на уровне корпуса. ^[9]

BLEU использует измененную форму точности для сравнения перевода кандидата с переводами нескольких ссылок. Показатель изменяет простую точность, поскольку известно, что системы машинного перевода генерируют больше слов, чем содержится в справочном тексте. Ни одна другая метрика машинного перевода еще не значительно превзошла BLEU в отношении корреляции с человеческим мнением по языковым парам. ^[10]

NIST [ править ]

Метрика NIST основана на метрике BLEU , но с некоторыми изменениями. В то время как BLEU просто вычисляет точность n-грамм, добавляя равный вес каждому из них, NIST также вычисляет, насколько информативным является конкретный n-грамм . То есть, когда найден правильный n-грамм , чем реже встречается n-грамм, тем больший вес ему придается. ^[11] Например, если биграмма «на» правильно совпадает, она получает меньший вес, чем правильное сопоставление биграммы «интересные вычисления», так как это с меньшей вероятностью произойдет. NIST также отличается от BLEU расчетом штрафа за краткость, поскольку небольшие вариации длины перевода не так сильно влияют на общую оценку.

Частота ошибок в словах [ править ]

Коэффициент ошибок в словах (WER) - это показатель, основанный на расстоянии Левенштейна , где расстояние Левенштейна работает на уровне символа, а WER работает на уровне слова. Первоначально он использовался для измерения производительности систем распознавания речи , но также используется для оценки машинного перевода. Показатель основан на подсчете количества слов, которые различаются между частью машинно-переведенного текста и справочным переводом.

Связанная метрика - это независимая от позиции частота ошибок по словам (PER), которая позволяет переупорядочивать слова и последовательности слов между переведенным текстом и справочным переводом.

МЕТЕОР [ править ]

Метрика METEOR предназначена для устранения некоторых недостатков, присущих метрике BLEU. Показатель основан на взвешенном среднем гармоническом значении точности униграммы и вызова униграммы. Этот показатель был разработан после исследования Лави (2004) значимости отзыва в показателях оценки. Их исследование показало, что показатели, основанные на воспоминаниях, неизменно достигают более высокой корреляции, чем показатели, основанные только на точности, ср. BLEU и NIST. ^[12]

METEOR также включает некоторые другие функции, которых нет в других показателях, такие как сопоставление синонимов, где вместо сопоставления только по точной словоформе метрика также сопоставляется по синонимам. Например, слово «хорошо» в справочной визуализации и «хорошо» в переводе считается совпадением. Метрика также включает в себя стеммер, который лемматизирует слова и совпадения в лемматизированных формах. Реализация метрики является модульной, поскольку алгоритмы сопоставления слов реализованы в виде модулей, а новые модули, реализующие различные стратегии сопоставления, могут быть легко добавлены.

ЛЕПОР [ править ]

Новая метрика оценки МП LEPOR была предложена как комбинация многих факторов оценки, включая существующие (точность, отзыв) и модифицированные (штраф за длину предложения и штраф за порядок слов на основе n-граммов). Эксперименты были протестированы на восьми языковых парах из ACL-WMT2011, включая английский-другой (испанский, французский, немецкий и чешский) и обратное, и показали, что LEPOR дает более высокую корреляцию на системном уровне с человеческими суждениями, чем некоторые существующие метрики, такие как BLEU, Meteor-1.3, TER, AMBER и MP4IBM1. ^[13] В статье представлена расширенная версия метрики LEPOR, hLEPOR. ^[14]hLEPOR использует среднее гармоническое для объединения подфакторов разработанной метрики. Кроме того, они разрабатывают набор параметров для настройки весов субфакторов в соответствии с различными языковыми парами. Результаты совместной задачи ACL-WMT13 Metrics ^[15] показывают, что hLEPOR дает наивысший балл корреляции Пирсона с человеческим мнением о языковой паре английский-русский в дополнение к наивысшему среднему баллу по пяти языковым парам (английский-русский). Немецкий, французский, испанский, чешский, русский). Подробные результаты задачи метрики WMT13 представлены в статье. ^[16]

Существуют некоторые исследования по оценке машинного перевода ^[17]^[18]^{[19], в} которых люди вводили более подробную информацию о том, какие виды человеческих методов оценки они использовали и как они работают, такие как разборчивость, точность, беглость, адекватность, понимание и информативность и т. д. Для автоматической оценки также были сделаны некоторые четкие классификации, такие как методы лексического сходства, применение лингвистических характеристик и подполя этих двух аспектов. Например, для лексического сходства он содержит расстояние редактирования, точность, отзыв и порядок слов; что касается языкового признака, он делится на синтаксический признак и семантический признак соответственно.

См. Также [ править ]

Сравнение приложений машинного перевода
Удобство использования программного обеспечения для машинного перевода

Заметки [ править ]

↑ Somers (2005).
^ Гаспари (2006)
^ а б Уайт и др. (1994)
^ а б АЛЬПАК (1966)
↑ Белый (1995)
^ Туриан и др. (2003)
^ Хотя показатели описываются как для оценки машинного перевода, на практике они также могут использоваться для измерения качества перевода, выполненного человеком. Те же показатели использовались даже для обнаружения плагиата, подробности см. В Somers et al. (2006).
^ Папинени и др. (2002)
^ Папинени и др. (2002), Кафлин (2003)
^ Грэм и Болдуин (2014)
^ Доддингтон (2002)
^ Лави (2004)
↑ Хан (2012)
^ Хан и др. (2013a)
^ ACL-WMT (2013)
^ Хан и др. (2013b)
^ Евроматрикс. (2007).
^ Dorr et al. ()
↑ Хан и Вонг. (2016)

Ссылки [ править ]

Банерджи, С. и Лави, А. (2005) «МЕТЕОР: автоматическая метрика для оценки машинного обучения с улучшенной корреляцией с человеческими суждениями» в материалах семинара по внутренним и внешним методам оценки для машинного обучения и / или обобщению на 43-м ежегодном совещании Ассоциация компьютерной лингвистики (ACL-2005), Анн-Арбор, Мичиган, июнь 2005 г.
Черч, К. и Хови, Э. (1993) "Хорошие приложения для вялого машинного перевода". Машинный перевод , 8 стр. 239–258.
Кафлин, Д. (2003) «Сопоставление автоматизированных и человеческих оценок качества машинного перевода» в MT Summit IX, Новый Орлеан, США, стр. 23–27.
Доддингтон, Г. (2002) "Автоматическая оценка качества машинного перевода с использованием статистики совпадений n-граммов". Труды конференции по технологиям человеческого языка (HLT), Сан-Диего, Калифорния, стр. 128–132.
Гаспари, Ф. (2006) «Посмотрите, кто переводит. Выдача себя за другое лицо, китайский шепот и развлечения с машинным переводом в Интернете» в материалах 11-й ежегодной конференции Европейской ассоциации машинного перевода.
Грэм, Ю. и Т. Болдуин. (2014) «Тестирование значимости повышенной корреляции с человеческим суждением». Труды EMNLP 2014, Доха, Катар
Лави, А., Сагае, К. и Джаяраман, С. (2004) «Значение отзыва в автоматических показателях для оценки MT» в Proceedings of AMTA 2004, Вашингтон, округ Колумбия. Сентябрь 2004 г.
Папинени К., Рукос С., Уорд Т. и Чжу В.Дж. (2002). «BLEU: метод автоматической оценки машинного перевода» в ACL-2002: 40-е ежегодное собрание Ассоциации компьютерной лингвистики, стр. 311–318
Сомерс, Х. (2005) " Туда и обратно: для чего он нужен? "
Сомерс, Х., Гаспари, Ф. и Ана Ниньо (2006) «Обнаружение ненадлежащего использования бесплатного онлайн-машинного перевода изучающими языки - частный случай обнаружения плагиата». Материалы 11-й ежегодной конференции Европейской ассоциации машинного перевода, Университет Осло (Норвегия), стр. 41–48
ALPAC (1966) "Языки и машины: компьютеры в переводе и лингвистике". Отчет Консультативного комитета по автоматической обработке языка, Отдел поведенческих наук, Национальная академия наук, Национальный исследовательский совет. Вашингтон, округ Колумбия: Национальная академия наук, Национальный исследовательский совет, 1966 г. (Публикация 1416.)
Туриан Дж., Шен Л. и Меламед И. Д. (2003) «Оценка машинного перевода и его оценка». Proceedings of the MT Summit IX, New Orleans, USA, 2003 pp. 386–393.
Уайт, Дж., О'Коннелл, Т. и О'Мара, Ф. (1994) "Методологии оценки ARPA MT: эволюция, уроки и будущие подходы". Труды 1-й конференции Ассоциации машинного перевода в Северной и Южной Америке. Колумбия, Мэриленд, стр. 193–205.
Уайт, Дж. (1995) "Подходы к оценке МП черного ящика". Материалы MT Summit V
Хан, ALF, Вонг, Д.Ф. и Чао, LS (2012) «LEPOR: надежная метрика оценки для машинного перевода с расширенными факторами» в материалах 24-й Международной конференции по компьютерной лингвистике (COLING 2012): плакаты, Мумбаи, Индия. Инструмент с открытым исходным кодом, стр. 441–450
Han, ALF, Wong, DF, Chao, LS, He, L., Lu, Y., Xing, J., and Zeng, X. (2013a) «Независимая от языка модель для оценки машинного перевода с усиленными факторами» in Proceedings саммита по машинному переводу XIV, Ницца, Франция. Международная ассоциация машинного перевода. Инструмент с открытым исходным кодом
ACL-WMT. (2013) " ЗАДАЧА ПО МЕТРИКАМ ACL-WMT13 "
Han, ALF, Wong, DF, Chao, LS, Lu, Y., He, L., Wang, Y., и Zhou, J. (2013b) «Описание настраиваемых систем оценки машинного перевода в задаче метрик WMT13» в Труды восьмого семинара по статистическому машинному переводу, ACL-WMT13, София, Болгария. Ассоциация компьютерной лингвистики. Электронная статья, стр. 414–421
Хан, ALF, и Вонг, Д.Ф. (2016) «Machine Translation Evaluation: A Survey» в arXiv: 1605.04515 [cs.CL] , [1] стр. 1–14, май 2016 г.
Евроматрикс. 2007. 1.3: Обзор оценки машинного перевода. Публичное распространение. Проект финансируется Европейским сообществом в рамках Шестой рамочной программы исследований и технологического развития.
Бонни Дорр , Мэтт Сновер, Нитин Маднани. Часть 5: Оценка машинного перевода. Редактор: Бонни Дорр. Книжная глава.

Дальнейшее чтение [ править ]

Архив машинного перевода: Предметный указатель: Публикации после 2000 г. (см. Подзаголовок « Оценка» )
Архив машинного перевода: Предметный указатель: публикации до 2000 г. (см. Подзаголовок " Оценка" )
Оценка машинного перевода: обзор: публикации до 2015 г.

Программное обеспечение для автоматизированной оценки [ править ]

Asia Online Language Studio - поддерживает BLEU, TER, F-Measure, METEOR
BLEU
F-мера
NIST
МЕТЕОР
TER
ТЕРП
ЛЕПОР
ХЛЕПОРА
KantanAnalytics - оценка качества машинного перевода на уровне сегмента

[1] Somers (2005).

[2] Гаспари (2006)

[White_et_al._1994-3] а б Уайт и др. (1994)

[ALPAC_1966-4] а б АЛЬПАК (1966)

[5] Белый (1995)

[6] Туриан и др. (2003)

[7] Хотя показатели описываются как для оценки машинного перевода, на практике они также могут использоваться для измерения качества перевода, выполненного человеком. Те же показатели использовались даже для обнаружения плагиата, подробности см. В Somers et al. (2006).

[8] Папинени и др. (2002)

[9] Папинени и др. (2002), Кафлин (2003)

[10] Грэм и Болдуин (2014)

[11] Доддингтон (2002)

[12] Лави (2004)

[13] Хан (2012)

[14] Хан и др. (2013a)

[15] ACL-WMT (2013)

[16] Хан и др. (2013b)

[17] Евроматрикс. (2007).

[18] Dorr et al. ()

[19] Хан и Вонг. (2016)

[1]