BLEU ( дублер двуязычной оценки ) - это алгоритм оценки качества текста, переведенного с одного естественного языка на другой. Качество считается соответствием результатов работы машины и человека: «чем ближе машинный перевод к профессиональному человеческому переводу, тем он лучше» - это центральная идея BLEU. [1] BLEU был одним из первых показателей, заявивших о высокой корреляции с человеческими оценками качества, [2] [3] и остается одним из самых популярных автоматизированных и недорогих показателей.
Баллы рассчитываются для отдельных переведенных сегментов - обычно предложений - путем сравнения их с набором качественных справочных переводов. Затем эти оценки усредняются по всему корпусу, чтобы оценить общее качество перевода. Разборчивость или грамматическая правильность не принимаются во внимание [ цитата необходима ] .
Вывод BLEU всегда представляет собой число от 0 до 1. Это значение указывает, насколько похож текст-кандидат на справочные тексты, причем значения, близкие к 1, представляют собой более похожие тексты. Некоторые переводы, выполненные человеком, получат оценку 1, поскольку это будет означать, что кандидат идентичен одному из эталонных переводов. По этой причине нет необходимости получать оценку 1. Поскольку существует больше возможностей для сопоставления, добавление дополнительных переводов ссылок увеличит оценку BLEU. [4]
Алгоритм
BLEU использует измененную форму точности для сравнения перевода кандидата с переводами нескольких ссылок. Показатель изменяет простую точность, поскольку известно, что системы машинного перевода генерируют больше слов, чем в справочном тексте. Это проиллюстрировано в следующем примере от Papineni et al. (2002),
Кандидат | в | в | в | в | в | в | в |
---|---|---|---|---|---|---|---|
Ссылка 1 | в | Кот | является | на | в | мат | |
Ссылка 2 | там | является | а | Кот | на | в | мат |
Из семи слов в переводе кандидата все они присутствуют в справочных переводах. Таким образом, тексту-кандидату дается точность униграммы,
где - количество слов кандидата, найденных в справочнике, и - общее количество слов в кандидате. Это высший балл, несмотря на то, что в приведенном выше переводе кандидата мало что осталось от любой из ссылок.
Модификация, которую делает BLEU, довольно проста. Для каждого слова в переводе-кандидате алгоритм берет максимальное общее количество,, в любом из справочных переводов. В приведенном выше примере слово «the» встречается дважды в ссылке 1 и один раз в ссылке 2. Таким образом,.
Для кандидатского перевода счет каждого слова обрезается максимум до за это слово. В этом случае "the" имеет а также , таким образом обрезается до 2. Эти отсеченные значениязатем суммируются по всем отдельным словам кандидата. Затем эта сумма делится на общее количество униграмм в переводе кандидата. В приведенном выше примере модифицированная оценка точности униграммы будет:
Однако на практике использование отдельных слов в качестве единицы сравнения не является оптимальным. Вместо этого BLEU вычисляет ту же модифицированную метрику точности, используя n-граммы . Длина, которая имеет «наибольшую корреляцию с одноязычными человеческими суждениями» [5], оказалась равной четырем. Установлено, что баллы униграммы учитывают адекватность перевода и объем сохраненной информации. Более длинные баллы в n -граммах определяют беглость перевода или то, насколько он читается как «хороший английский».
Модель | Набор граммов | Счет |
---|---|---|
Юниграмма | "the", "the", "cat" | |
Сгруппированная юниграмма | «the» * 2, «cat» * 1 | |
Биграмма | "the", "кошка" |
Одна проблема с оценками BLEU заключается в том, что они, как правило, предпочитают короткие переводы, которые могут давать очень высокие оценки точности, даже с использованием модифицированной точности. Примером возможного перевода тех же ссылок, что и выше, может быть:
- Кот
В этом примере измененная точность униграммы будет:
поскольку слово «the» и слово «cat» встречаются в кандидате по одному разу, а общее количество слов равно двум. Модифицированная точность биграмм будетв качестве биграммы «кот» появляется в кандидате один раз. Было указано, что точность обычно сочетается с отзывом, чтобы преодолеть эту проблему [6] , поскольку отзыв униграммы в этом примере был бы или же . Проблема в том, что, поскольку существует несколько переводов справочников, плохой перевод может легко иметь завышенный отзыв, например, перевод, состоящий из всех слов в каждой из ссылок. [7]
Чтобы получить оценку для всего корпуса, модифицированные оценки точности для сегментов объединяются с использованием среднего геометрического, умноженного на штраф за краткость, чтобы предотвратить получение слишком высоких оценок очень короткими кандидатами. Пусть r - общая длина корпуса ссылок, а c - общая длина корпуса переводов. Еслиприменяется штраф за краткость, определяемый как . (В случае нескольких справочных предложений r берется как сумма длин предложений, длина которых наиболее близка к длине предложений-кандидатов. Однако в версии метрики, используемой оценками NIST до 2009 г., вместо этого использовалось самое короткое ссылочное предложение.)
iBLEU - это интерактивная версия BLEU, которая позволяет пользователю визуально проверять оценки BLEU, полученные при переводе кандидатов. Это также позволяет сравнивать две разные системы визуально и в интерактивном режиме, что полезно для разработки системы. [8]
Представление
Часто сообщалось, что BLEU хорошо коррелирует с человеческим суждением [9] [10] [11] и остается эталоном для оценки любой новой метрики оценки. Однако был высказан ряд критических замечаний. Было отмечено, что, хотя в принципе BLEU способен оценивать переводы любого языка, в его нынешней форме он не может работать с языками, в которых отсутствуют границы слов. [12]
Утверждалось, что, хотя BLEU имеет значительные преимущества, нет никакой гарантии, что увеличение показателя BLEU является показателем улучшения качества перевода. [13] Существует внутренняя системная проблема с любой метрикой, основанная на сравнении с одним или несколькими ссылочными переводами: в реальной жизни предложения можно переводить разными способами, иногда без дублирования. Таким образом, метод сравнения того, насколько компьютерный перевод отличается от нескольких переводов, выполненных человеком, ошибочен. HyTER - еще одна автоматизированная метрика машинного перевода, которая сравнивается с очень многими переводами в справочной грамматике, созданной переводчиками-людьми; [1] недостатком является то, что человеческие усилия, затраченные на правильное определение комбинаторно многих способов передать смысл перевода на практике, означает, что HyTER также является лишь приблизительным.
Смотрите также
Заметки
- ^ Papineni, K., et al. (2002)
- ^ Papineni, K., et al. (2002)
- Перейти ↑ Coughlin, D. (2003)
- ^ Papineni, K., et al. (2002)
- ^ Papineni, K., et al. (2002)
- ^ Papineni, K., et al. (2002)
- Перейти ↑ Coughlin, D. (2003)
- ^ Доддингтон, Г. (2002)
- ^ Denoual, Е. и Лепаж, Y. (2005)
- ^ Callison-Burch, К., Osborne, М. и Koehn, P. (2006)
- ^ Ли, А. и Przybocki, M. (2005)
- ^ Callison-Burch, К., Osborne, М. и Koehn, P. (2006)
- Перейти ↑ Lin, C. и Och, F. (2004)
- ^ Callison-Burch, К., Osborne, М. и Koehn, P. (2006)
- ^ Маднани, Н. (2011)
Рекомендации
- ^ Дрейер, Маркус (2012). «HyTER: семантика эквивалента смысла для оценки перевода» . Proc. NAACL 2012: HLT : 162–171 . Проверено 22 января 2015 года . CS1 maint: обескураженный параметр ( ссылка )
Библиография
- Папинени, К .; Roukos, S .; Ward, T .; Чжу, WJ (2002). BLEU: метод автоматической оценки машинного перевода (PDF) . ACL-2002: 40-е ежегодное собрание Ассоциации компьютерной лингвистики. С. 311–318. CiteSeerX 10.1.1.19.9416 .
- Папинени К., Рукос С., Уорд Т., Хендерсон Дж. И Ридер Ф. (2002). « Комплексная и диагностическая оценка машинного обучения на основе корпуса: первоначальные результаты для арабского, китайского, французского и испанского языков » в Proceedings of Human Language Technology 2002, Сан-Диего, стр. 132–137.
- Каллисон-Берч, К., Осборн, М. и Коэн, П. (2006) « Переоценка роли BLEU в исследованиях машинного перевода » на 11-й конференции Европейского отделения Ассоциации компьютерной лингвистики: EACL 2006, стр. 249–256
- Доддингтон, Г. (2002) « Автоматическая оценка качества машинного перевода с использованием статистики совпадений n-граммов » в Proceedings of the Human Language Technology Conference (HLT), San Diego, CA pp. 128–132
- Кафлин, Д. (2003) « Сопоставление автоматизированных и человеческих оценок качества машинного перевода » в MT Summit IX, Новый Орлеан, США, стр. 23–27.
- Денуал, Э. и Лепаж, Ю. (2005) « BLEU в символах: к автоматической оценке машинного перевода на языках без разделителей слов » в Сопроводительном томе к материалам Второй международной совместной конференции по обработке естественного языка, стр. 81–86
- Ли, А. и Пшибоцки, М. (2005) Официальные результаты оценки машинного перевода NIST 2005
- Лин, К. и Оч, Ф. (2004) « Автоматическая оценка качества машинного перевода с использованием статистики самых длинных общих подпоследовательностей и пропусков биграмм » в материалах 42-го ежегодного собрания Ассоциации компьютерной лингвистики .
- Маднани, Н. (2011). « iBLEU: интерактивная оценка и отладка систем статистического машинного перевода » в «Труды пятой Международной конференции IEEE по семантическим вычислениям (демонстрации), Пало-Альто, Калифорния», стр. 213–214