Машинный перевод на основе примеров


Машинный перевод на основе примеров (англ. Example-based machine translation, EBMT) — это метод машинного перевода, который часто характеризуется использованием двуязычного корпуса с параллельными текстами в качестве основной базы знаний во время выполнения перевода. По сути, это перевод по аналогии, который может рассматриваться как применение метода рассуждений на основе прецедентов к машинному обучению.

В основе машинного перевода на примерах лежит идея перевода по аналогии. Применительно к процессу перевода человеком, мысль о том, что перевод выполняется по аналогии, является отказом от идеи, что люди переводят предложения, делая глубокий лингвистический анализ. Вместо этого, данная мысль основана на убеждении, что люди переводят, сначала разбирая предложения на определённые фразы, затем переводят эти фразы, и, наконец, правильно составляют эти фрагменты в одно длинное предложение. Переводы по фразам выполняются по аналогии с предыдущими переводами. Принцип перевода по аналогии кодируется в машинном переводе на основе примеров посредством примеров переводов, которые используются для обучения такой системы. Другие подходы к машинному переводу, включая статистический машинный перевод, также используют двуязычные корпуса для изучения процесса перевода.

Машинный перевод на основе примеров был впервые предложен Макото Нагао в 1984 году[1]. Нагао указывал на то, что данный вид перевода специально адаптирован для перевода, если это касается двух совершенно разных языков, таких как английский и японский. В этом случае одно предложение может быть переведено на несколько хорошо структурированных предложений на другом языке, поэтому нет смысла делать глубокий лингвистический анализ, характерный для машинного перевода на основе правил.

В общем, система EBMT состоит из трех компонентов: поиска соответствий, рекомбинации и выравнивания[2][3].

Системы машинного перевода на основе примеров состоят из двуязычных параллельных корпусов, содержащих пары предложений, как пример, приведённый в таблице выше. Пары предложений содержат предложения на одном языке с их переводом на другой. В данном примере показан пример минимальной пары, что означает, что предложения отличаются лишь одним элементом. Эти предложения упрощают запоминание переводов частей предложения. Например, система машинного перевода на основе примеров запомнит три единицы перевода из приведённого выше примера:

Составление этих единиц может использоваться для создания новых переводов в будущем. Например, если бы нас обучали, используя текст, содержащий предложения:President Kennedy was shot dead during the parade и The convict escaped on July 15th, мы могли бы перевести предложение The convict was shot dead during the parade, заменив соответствующие части предложений.