Машинный перевод на основе правил

Машинный перевод на основе правил ( RBMT ; «Классический подход» МП) — это системы машинного перевода , основанные на лингвистической информации об исходном и целевом языках, в основном извлеченной из (одноязычных, двуязычных или многоязычных) словарей и грамматик , охватывающих основные семантические, морфологические и синтаксические закономерности каждого языка соответственно. Имея входные предложения (на каком-то исходном языке), система RBMT формирует их для вывода предложений (на каком-то целевом языке) на основе морфологического, синтаксического и семантического анализа как исходного, так и целевого языков, задействованных в конкретной переводческой задаче.

История

Первые системы RBMT были разработаны в начале 1970-х годов. Важнейшими этапами этой эволюции стало появление следующих систем RBMT:

Систран ( http://www.systran.de/ )
Японские системы машинного перевода ( http://aamt.info/english/mtsys.htm , http://www.wtec.org/loyola/ar93_94/mt.htm )
ЕВРОТРА ( Евротра )

Сегодня другие распространенные системы RBMT включают:

Типы РБМТ

Существует три различных типа систем машинного перевода, основанных на правилах:

Прямые системы ( машинный перевод на основе словаря ) сопоставляют ввод и вывод с помощью основных правил.
Системы передачи RBMT ( машинный перевод на основе передачи ) используют морфологический и синтаксический анализ.
Межъязыковые системы RBMT ( Interlingua ) используют абстрактное значение. ^[1]^[2]

Системы RBMT также можно охарактеризовать как системы, противоположные системам машинного перевода , основанным на примерах (машинный перевод на основе примеров ), тогда как системы гибридного машинного перевода используют многие принципы, полученные из RBMT.

Основные принципы

Основной подход систем RBMT основан на связывании структуры заданного входного предложения со структурой требуемого выходного предложения, обязательно сохраняя их уникальное значение. Следующий пример может проиллюстрировать общий фрейм RBMT:

Девушка ест яблоко. Исходный язык = английский; Требуемый целевой язык = немецкий

Как минимум, чтобы получить немецкий перевод этого английского предложения, нужно:

Словарь, который сопоставит каждое английское слово с соответствующим немецким словом.
Правила, представляющие структуру регулярного английского предложения.
Правила, представляющие структуру регулярного немецкого предложения.

И, наконец, нужны правила, по которым можно связать эти две структуры вместе.

Соответственно, можно выделить следующие этапы перевода :

1- й: получение базовой информации о частях речи каждого исходного слова:

а = инд.статья; девушка = существительное; ест = глагол; ан = индекс.статья; яблоко = существительное

2-й: получение синтаксической информации о глаголе «есть»:

НП-есть-НП; здесь: есть – Настоящее простое, 3-е лицо, единственное число, Действительный залог

3- й: разбор исходного предложения:

(NP яблоко) = объект еды

Часто только частичного анализа достаточно, чтобы добраться до синтаксической структуры исходного предложения и сопоставить его со структурой целевого предложения.

4-й: перевести английские слова на немецкий язык

a (category = indef.article) => ein (category = indef.article)

девушка (категория = существительное) => Mädchen (категория = существительное)

есть (категория = глагол) => essen (категория = глагол)

an (category = indef. article) => ein (category = indef.article)

яблоко (категория = существительное) => Apfel (категория = существительное)

5-е: Преобразование словарных статей в соответствующие флективные формы (окончательное поколение ):

Девушка ест яблоко. => Ein Mädchen isst einen Apfel.

Составные части

Система RBMT содержит:

морфологический анализатор ИЯ - анализирует слово исходного языка и предоставляет морфологическую информацию;
синтаксический анализатор SL - это синтаксический анализатор, который анализирует предложения исходного языка;
переводчик - используется для перевода слова исходного языка на целевой язык;
морфологический генератор ПЯ - работает как генератор соответствующих слов целевого языка для заданной грамматической информации;
синтаксический анализатор TL - работает как составитель подходящих предложений целевого языка;
Несколько словарей , точнее минимум три словаря:

словарь SL - необходим морфологическому анализатору исходного языка для морфологического анализа,

двуязычный словарь - используется переводчиком для перевода слов исходного языка в слова целевого языка,

словарь TL - необходим морфологическому генератору целевого языка для генерации слов целевого языка. ^[3]

Система RBMT использует следующее:

Исходная грамматика для входного языка, которая строит синтаксические конструкции из входных предложений;
Исходный лексикон , который охватывает весь допустимый словарь в домене;
Правила отображения источника , которые указывают, как синтаксические заголовки и грамматические функции в исходном языке отображаются на понятия предметной области и семантические роли в промежуточном языке;
модель / онтологию предметной области, которая определяет классы понятий предметной области и ограничивает наполнители семантических ролей для каждого класса;
Правила целевого сопоставления , которые указывают, как понятия предметной области и семантические роли в промежуточном языке сопоставляются с синтаксическими заголовками и грамматическими функциями в целевом языке;
целевой лексикон , который содержит соответствующие целевые лексемы для каждой концепции предметной области;
Целевая грамматика для целевого языка, которая реализует целевые синтаксические конструкции в виде линеаризованных выходных предложений. ^[4]

Преимущества

Никаких двуязычных текстов не требуется. Это позволяет создавать системы перевода для языков, не имеющих общих текстов или вообще не имеющих оцифрованных данных.
Независимость от домена. Правила обычно пишутся независимо от домена, поэтому подавляющее большинство правил будут «просто работать» в каждом домене, и только в нескольких конкретных случаях для каждого домена могут потребоваться правила, написанные для них.
Нет качественного потолка. Каждая ошибка может быть исправлена с помощью целевого правила, даже если случай срабатывания крайне редок. Это отличается от статистических систем, где нечастые формы будут по умолчанию вымываться.
Тотальный контроль. Поскольку все правила написаны от руки, вы можете легко отладить систему, основанную на правилах, чтобы увидеть, где именно данная ошибка возникает в системе и почему.
Повторное использование. Поскольку системы RBMT обычно строятся на основе тщательного анализа исходного языка, который подается на этап переноса и генератор целевого языка, части анализа исходного языка и генерации целевого языка могут совместно использоваться несколькими системами перевода, требуя, чтобы только этап переноса был специализированным. Кроме того, анализ исходного языка для одного языка можно повторно использовать для запуска анализа тесно связанного языка.

Недостатки

Недостаточное количество действительно хороших словарей. Создание новых словарей стоит дорого.
Некоторую лингвистическую информацию по-прежнему необходимо вводить вручную.
Трудно иметь дело с взаимодействием правил в больших системах, двусмысленностью и идиоматическими выражениями.
Неспособность адаптироваться к новым доменам. Хотя системы RBMT обычно предоставляют механизм для создания новых правил и расширения и адаптации словаря, изменения обычно обходятся очень дорого, а результаты часто не окупаются. ^[5]

использованная литература

^ Коэн, Филипп (2010). Статистический машинный перевод . Кембридж: Издательство Кембриджского университета. п. 15. ISBN 9780521874151.
^ Ниренбург, Сергей (1989). «Машинный перевод, основанный на знаниях». Машинная традиция 4 (1989), 5–24 . Академическое издательство Клювер. 4 (1): 5–24. JSTOR 40008396 .
^ Хеттиге, Б .; Карунананда, А.С. (2011). «Вычислительная модель грамматики для машинного перевода с английского на сингальский язык» . 2011 Международная конференция по достижениям в области ИКТ для развивающихся регионов (ICTer) . Международная конференция по достижениям в области ИКТ для развивающихся регионов - ICTer20 11: 026-031 . стр. 26–31. doi : 10.1109/ICTer.2011.6075022 . ISBN 978-1-4577-1114-5. S2CID 45871137 .
^ Лонсдейл, Дерил; Митамура, Теруко; Ниберг, Эрик (1995). «Приобретение больших словарей для практического МП, основанного на знаниях» . Машинный перевод 9: 251-283 . Академическое издательство Клювер. 9 (3–4): 251–283. DOI : 10.1007/ BF00980580 . S2CID 1106335 .
^ Лагарда, А.-Л.; Алабау, В.; Касакуберта, Ф.; Сильва, Р.; Диас-де-Лиано, Э. (2009). «Статистическое постредактирование системы машинного перевода на основе правил» (PDF) . Труды NAACL HLT 2009: Short Papers, страницы 217–220, Боулдер, Колорадо . Ассоциация компьютерной лингвистики . Проверено 20 июня 2012 г.

Литература

Арнольд, DJ и др. (1993): Машинный перевод: вводное руководство
Хатчинс, WJ (1986): Машинный перевод: прошлое, настоящее, будущее

Ссылки

Первый международный семинар по бесплатному машинному переводу на основе правил с открытым исходным кодом
https://web.archive.org/web/20120306014535/http://www.inf.ed.ac.uk/teaching/courses/mt/lectures/history.pdf
https://web.archive.org/web/20150914205051/http://www.csse.unimelb.edu.au/research/lt/nlp06/materials/Bond/mt-intro.pdf

[1] Коэн, Филипп (2010). Статистический машинный перевод . Кембридж: Издательство Кембриджского университета. п. 15. ISBN 9780521874151.

[2] Ниренбург, Сергей (1989). «Машинный перевод, основанный на знаниях». Машинная традиция 4 (1989), 5–24 . Академическое издательство Клювер. 4 (1): 5–24. JSTOR 40008396 .

[3] Хеттиге, Б .; Карунананда, А.С. (2011). «Вычислительная модель грамматики для машинного перевода с английского на сингальский язык» . 2011 Международная конференция по достижениям в области ИКТ для развивающихся регионов (ICTer) . Международная конференция по достижениям в области ИКТ для развивающихся регионов - ICTer20 11: 026-031 . стр. 26–31. doi : 10.1109/ICTer.2011.6075022 . ISBN 978-1-4577-1114-5. S2CID 45871137 .

[4] Лонсдейл, Дерил; Митамура, Теруко; Ниберг, Эрик (1995). «Приобретение больших словарей для практического МП, основанного на знаниях» . Машинный перевод 9: 251-283 . Академическое издательство Клювер. 9 (3–4): 251–283. DOI : 10.1007/ BF00980580 . S2CID 1106335 .

[5] Лагарда, А.-Л.; Алабау, В.; Касакуберта, Ф.; Сильва, Р.; Диас-де-Лиано, Э. (2009). «Статистическое постредактирование системы машинного перевода на основе правил» (PDF) . Труды NAACL HLT 2009: Short Papers, страницы 217–220, Боулдер, Колорадо . Ассоциация компьютерной лингвистики . Проверено 20 июня 2012 г.

[1]