Основной язык , иногда также называемый промежуточным языком , - это искусственный или естественный язык, используемый в качестве промежуточного языка для перевода между множеством разных языков - для перевода между любой парой языков A и B один переводит A на основной язык P, затем от P до B. Использование сводного языка позволяет избежать комбинаторного взрыва, связанного с наличием переводчиков для каждой комбинации поддерживаемых языков, поскольку количество комбинаций языков линейно (), а не квадратичный - нужно знать только язык A и опорный язык P (а кому-то еще язык B и опорный язык P), вместо того, чтобы нуждаться в разных переводчиках для каждой возможной комбинации A и B.
Недостатком сводного языка является то, что каждый шаг ретрансляции вносит возможные ошибки и двусмысленности - использование сводного языка включает два шага, а не один. Например, когда Эрнан Кортес общался с мезоамериканскими индейцами, он говорил по-испански с Херонимо де Агилар , который говорил на языке майя с Малинцином , а тот говорил с местными жителями на науатле .
Примеры
Английский , французский , русский и арабский часто используются в качестве основных языков. Интерлингва использовался в качестве основного языка на международных конференциях и был предложен в качестве основного языка для Европейского Союза . [1] Эсперанто был предложен в качестве основного языка в проекте распределенного языкового перевода и использовался таким образом в Majstro Tradukvortaro на эсперанто-сайте Majstro.com . Универсальный сетевой язык искусственного язык , специально предназначенный для использования в качестве языка поворота.
В вычислениях
Сводное кодирование также является распространенным методом перевода данных для компьютерных систем. Например, Интернет-протокол , XML и языки высокого уровня представляют собой сводные коды компьютерных данных, которые затем часто преобразуются во внутренние двоичные форматы для конкретных компьютерных систем.
Юникод был разработан для использования в качестве опорного кода между различными основными существующими кодировками символов, хотя его широкое распространение в качестве самостоятельной кодировки сделало это использование несущественным.
В машинном переводе
Современные системы статистического машинного перевода ( SMT ) используют параллельные корпуса для исходного (ых) и целевого (t) языков для достижения хороших результатов, но хорошие параллельные корпуса доступны не для всех языков. Сводный язык (p) обеспечивает мост между двумя языками, к которым существующие параллельные корпуса полностью или частично еще не доступны.
Сводный перевод может быть проблематичным из-за потенциального отсутствия точности информации, передаваемой при использовании разных корпусов. Из-за использования двух двуязычных корпусов (sp & pt) для установки первого моста лингвистические данные неизбежно теряются. Машинный перевод на основе правил ( RBMT ) помогает системе спасти эту информацию, так что система полагается не только на статистику, но и на структурную лингвистическую информацию.
Для использования языка сводки в машинном переводе используются три основных метода: (1) триангуляция , которая фокусируется на параллелизме фраз между источником и точкой поворота (sp) и между точкой поворота и целью (pt); (2) перевод , который переводит все предложение исходного языка на основной язык, а затем на целевой язык; и (3) синтез , который создает собственный корпус для системного обучения.
Метод триангуляции (также называемый умножением таблицы фраз ) вычисляет вероятность соответствия перевода и лексического веса в sp и pt, чтобы попытаться вызвать новую таблицу фраз st. Метод передачи (также называемый стратегией перевода предложений ) просто выполняет прямой перевод s в p, а затем другой перевод p в t без использования вероятностных тестов (как в триангуляции). Синтетический метод использует существующий свод с и пытается построить собственный синтетический корпус из нее , который используется системой для подготовки себя. Затем синтезируется двуязычный корпус sp, чтобы обеспечить перевод pt.
Прямое сравнение методов триангуляции и переноса для систем SMT показало, что триангуляция дает гораздо лучшие результаты, чем перенос.
Все три метода сводного языка повышают производительность систем SMT. Однако синтетический метод плохо работает с RBMT, и производительность системы ниже ожидаемой. Гибридные системы SMT / RBMT обеспечивают лучшее качество перевода, чем системы строгого SMT, которые полагаются на плохие параллельные корпуса.
Ключевая роль систем RBMT заключается в том, что они помогают заполнить пробел, оставшийся в процессе трансляции sp → pt, в том смысле, что эти параллели включены в модель SMT для st.
Рекомендации
- ^ Брейнструп, Томас. "Linguaphobos? Non in le UE". [Лингвафобы? Не в ЕС]. Панорама в Интерлингва , 2006, Выпуск 5.
- Хуа Ву и Хайфэн Ван. 2009. Пересмотр подхода Pivot Language для машинного перевода . ACL-09.
- Utiyama, M. & H. Isahara (2006) Сравнение методов поворота для статистического машинного перевода на основе фраз . В трудах NAACL / HLT, 484 {491.