ЛЕПОР


LEPOR ( штраф за длину , точность, разность позиций в n-граммах, штраф и отзыв ) — это автоматическая независимая от языка метрика оценки машинного перевода с настраиваемыми параметрами и усиленными коэффициентами.

Поскольку IBM предложила и реализовала систему BLEU [1] в качестве автоматической метрики для оценки машинного перевода (MT), [2] было предложено множество других методов для ее пересмотра или улучшения, таких как TER, METEOR , [3] и т. д. Однако в традиционных метриках автоматической оценки существуют некоторые проблемы.. Некоторые метрики хорошо работают на одних языках, но плохо работают на других языках, что обычно называют проблемой языковой предвзятости. Некоторые показатели зависят от множества языковых особенностей или лингвистической информации, что затрудняет повторение экспериментов другими исследователями. LEPOR — это метрика автоматической оценки, которая пытается решить некоторые из существующих проблем. [4] LEPOR разработан с дополнительными факторами и соответствующими настраиваемыми параметрами для решения проблемы языковой предвзятости. Кроме того, в улучшенной версии LEPOR, т. е. hLEPOR, [5] он пытается использовать оптимизированные лингвистические признаки, извлеченные из банков деревьев . Другой расширенной версией LEPOR является метрика nLEPOR [6] .который добавляет функции n-граммы к предыдущим факторам. На данный момент метрика LEPOR превратилась в серию LEPOR. [7] [8]

Метрики LEPOR изучались и анализировались многими исследователями из разных областей, таких как машинный перевод, [9] генерация естественного языка , [10] и поиск, [11] и не только. Метрики LEPOR привлекают все больше внимания ученых, занимающихся обработкой естественного языка .

LEPOR [12] разработан с учетом таких факторов, как повышенный штраф за длину, точность , штраф за порядок слов в n-граммах и отзыв .. Расширенный штраф за длину гарантирует, что перевод гипотезы, который обычно переводится системами машинного перевода, будет наказан, если он длиннее или короче эталонного перевода. Оценка точности отражает точность перевода гипотезы. Оценка отзыва отражает верность перевода гипотезы эталонному переводу или исходному языку. Штрафной коэффициент порядка слов на основе n-грамм разработан для разных порядков позиций между переводом гипотезы и эталонным переводом. Фактор штрафа за порядок слов оказался полезным многими исследователями, такими как работа Вонга и Кита (2008). [13]

В свете того, что метрики сопоставления строк на поверхности слов подвергались критике за отсутствие синтаксиса и семантической осведомленности, более усовершенствованная метрика LEPOR (hLEPOR) исследует интеграцию лингвистических функций, таких как часть речи (POS). [14] [15] POS вводится как определенная функциональность как синтаксической, так и семантической точки зрения, например, если токен выходного предложения является глаголом, хотя ожидается, что это будет существительное, то должно быть наказание; Кроме того, если POS тот же, но точное слово не то же самое, например, хороший против хорошего, тогда этот кандидат получит определенный кредит. Затем общий балл hLEPOR рассчитывается как комбинация балла на уровне слова и балла на уровне POS с набором весов. В nLEPOR также активно изучаются знания об n-граммах, вдохновленные языковым моделированием.[16] [17] В дополнение к знанию n-грамм для расчета штрафа за разницу в позициях n-грамм, n-грамма также применяется к точности n-грамм и отзыву n-грамм в nLEPOR, а параметр n является регулируемым коэффициентом. . В дополнение к знаниям POS в hLEPOR, структура фразы из информации о разборе включена в новый вариант HPPR. [18] При моделировании оценки HPPR набор структур фраз, таких как именная фраза, глагольная фраза, предложная фраза, наречная фраза, учитываются во время сопоставления из текста-кандидата с эталонным текстом.

Метрики LEPOR изначально были реализованы на языке программирования Perl [19] , а недавно версия Python [20] стала доступна другим исследователям и инженерам [21] с объявлением в прессе [22] от компании Logrus Global Language Service.