Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Розеттский камень , стела с выгравированными же указом в обоих древних египетских сценариев , а также древнегреческий . Его открытие стало ключом к расшифровке древнеегипетского языка.

Параллельный текст представляет собой текст , размещенный рядом с его переводом или переводом. [1] [2] Параллельное выравнивание текста - это идентификация соответствующих предложений в обеих половинах параллельного текста. Леб Классическая библиотека и санскрит библиотека Clay два примера двуязычных серии текстов. Справочные Библии могут содержать исходные языки и перевод или несколько переводов сами по себе для облегчения сравнения и изучения; В « Гексапле» Оригена (по-гречески «шестикратный») шесть версий Ветхого Завета помещены рядом. Известным примером является Розеттский камень , открытие которого позволилоНачать расшифровку древнеегипетского языка .

Большие собрания параллельных текстов называются параллельными корпусами (см. Корпус текстов ). Выравнивание параллельных корпусов на уровне предложений является предпосылкой для многих областей лингвистических исследований. Во время перевода предложения могут быть разделены, объединены, удалены, вставлены или переупорядочены переводчиком. Это делает выравнивание нетривиальной задачей.

Типы параллельных корпусов [ править ]

Параллельные корпуса можно разделить на четыре основные категории: [ необходима ссылка ]

  • Параллельный корпус содержит переводы одного и того же документа на двух или более языках, выровненной по крайней мере , на уровне предложения. Они, как правило, встречаются реже, чем менее сопоставимые корпуса. [ необходима цитата ]
  • Шумный параллельный корпус содержит двуязычные предложения, которые не идеально ровные или имеют плохое качество переводов. Тем не менее, большая часть его содержания - это двуязычные переводы определенного документа.
  • Сравнимой корпус построен из не вынесения приговора выровнена и непереведенных двуязычных документов, а документы темы выровнено.
  • Квази-сравнимый корпус включает в себя очень разнородные и непараллельные двуязычные документы , которые могут или не могут быть выровнены темами.

Шум в корпусе [ править ]

Большие корпуса, используемые в качестве обучающих наборов для алгоритмов машинного перевода , обычно извлекаются из больших массивов аналогичных источников, таких как базы данных новостных статей, написанных на первом и втором языках и описывающих похожие события.

Однако извлеченные фрагменты могут быть шумными, и в каждый корпус могут быть вставлены дополнительные элементы. Методы извлечения могут различать двуязычные элементы, представленные как в корпусах, так и одноязычные элементы, представленные только в одном корпусе, для извлечения более четких параллельных фрагментов двуязычных элементов. Сопоставимые корпуса используются для непосредственного получения знаний для целей перевода. Однако трудно получить высококачественные параллельные данные, особенно для языков с ограниченными ресурсами. [3]

Bitext [ править ]

В области переводоведения битекст - это объединенный документ, состоящий из версий данного текста на исходном и целевом языках.

Битексты создаются программным обеспечением, называемым инструментом выравнивания , или инструментом битекста , который автоматически выравнивает исходную и переведенную версии одного и того же текста. Инструмент обычно сопоставляет эти два текста предложение за предложением. Коллекция битекстов называется базой данных битекстов или двуязычным корпусом , и к ней можно обращаться с помощью инструмента поиска.

Битексты и память переводов [ править ]

Битексты имеют некоторое сходство с памятью переводов. Наиболее существенное отличие состоит в том, что память переводов теряет исходный контекст, а битекст сохраняет исходный порядок предложений. При этом некоторые реализации памяти переводов, такие как Translation Memory eXchange (TMX), стандартный формат XML для обмена памятью переводов между программами компьютерного перевода (CAT), позволяют сохранить исходный порядок предложений.

Bitexts предназначены для работы с переводчиком- человеком , а не для машины. Таким образом, небольшие ошибки выравнивания или незначительные несоответствия, которые могут вызвать сбой памяти переводов, не имеют значения.

В своей оригинальной статье 1988 года Харрис также утверждал, что бит-текст показывает, как переводчики удерживают исходный и целевой текст вместе в своей умственной рабочей памяти по мере продвижения. Однако эта гипотеза не получила подтверждения. [4]

Онлайн-битексты и память переводов также могут называться онлайн двуязычные согласования. Некоторые из них доступны в общедоступном Интернете, в том числе Linguée , Reverso и Tradooit. [5] [6] [7]

См. Также [ править ]

  • Двуязычная надпись
  • Компьютерное рецензирование
  • Машинный перевод на основе примеров
  • Обработка естественного языка
  • Полиглот (книга)
  • Рубиновый персонаж
  • Статистический машинный перевод

Ссылки [ править ]

  1. Sin-Wai Chan (13 ноября 2014 г.). Энциклопедия переводческих технологий Рутледж . Рутледж. ISBN 978-1-317-60815-8.
  2. ^ Филип Уильямс; Рико Сеннрих; Мэтт Пост; Филипп Коэн (1 августа 2016 г.). Статистический машинный перевод на основе синтаксиса . Издатели Morgan & Claypool. ISBN 978-1-62705-502-4.
  3. ^ Wolk, К. (2015). «Шумно-параллельная и сопоставимая методология фильтрации корпусов для извлечения двуязычных эквивалентных данных на уровне предложений». Компьютерные науки . 16 (2): 169–184. arXiv : 1510.04500 . Bibcode : 2015arXiv151004500W . DOI : 10,7494 / csci.2015.16.2.169 . S2CID 12860633 . 
  4. ^ Харрис, Б. Би-текст, новая концепция в теории перевода , Language Monthly (UK) 54, стр. 8-10 марта 1988 г.
  5. ^ Мари Женетт, «Насколько надежны двуязычные конкордансеры в Интернете ?: Исследование Linguee, TradooIT, WeBiText и ReversoContext и их надежность посредством сравнительного анализа сложных предлогов с французского на английский», магистерская диссертация, Католический университет Лувена и Университет Осло , Весна 2016 полный текст
  6. ^ "TradooIT - двуязычие Concordancier" .
  7. ^ Ален Desilets, Beno Фарели, Март Стоянович, Женевьева Patenaude, «WeBiText: Строительство Больших Гетерогенный Перевод Memories с параллельного вебомконтента», Труды по Транслейтингу и компьютер 30 : 27-28 (2008) Полный текст

Внешние ссылки [ править ]

Параллельные корпуса [ править ]

  • JRC-Acquis Multilingual Parallel Corpus всей совокупности законов Европейского Союза (ЕС): Acquis Communautaire с 231 языковой парой. [1]
  • Параллельный корпус заседаний Европарламента 1996-2011 гг.
  • Проект Opus направлен на сбор свободно доступных параллельных корпусов
  • Японско-английский двуязычный корпус статей Википедии Киото
  • СРАВНЕНИЕ - португальский / английский параллельные корпуса
  • СРОК ПОИСКА - параллельные корпуса на английском / русском / французском языках (основные международные договоры, конвенции, соглашения и т. Д.
  • TradooIT - английский / французский / испанский - бесплатные онлайн-инструменты
  • Нунавут Хансард - английский / параллельный корпус инуктитут
  • ParaSol - Параллельный корпус славянских и других языков
  • Glosbe: многоязычный параллельный корпус с интерфейсом онлайн-поиска
  • InterCorp: многоязычный параллельный корпус на 40 языков, согласованный с чешским, интерфейс онлайн-поиска.
  • myCAT - Olanto , concordancer (AGPL с открытым исходным кодом) с онлайн-поиском по JCR и корпусу UNO
  • TAUS , с интерфейсом онлайн-поиска.
  • linguatools, многоязычные параллельные корпуса, интерфейс онлайн-поиска.
  • EUR-Lex Corpus - корпус, созданный на основе базы данных EUR-Lex, состоит из законов Европейского Союза и других публичных документов Европейского Союза.
  • Language Grid - Платформа многоязычных сервисов, включающая параллельные текстовые сервисы.

Документация [ править ]

  • Библиография, посвященная параллельной обработке текста, составлена ​​Дж. Веронисом и М.-Д. Махимон
  • Материалы семинара 2003 г. по построению и использованию параллельных текстов
  • Материалы семинара 2005 г. по построению и использованию параллельных текстов

Инструменты выравнивания [ править ]

  • Инструмент выравнивания GIZA ++ (1999)
  • Uplug - инструменты для обработки параллельных корпусов (2003)
  • Реализация алгоритма выравнивания предложений Гейла и Черча (2005)
  • Выравниватель приговора Hunalign (2005)
  • Шампольон (2006)
  • MALIGNa (2008 - 2020)
  • Выравниватель предложений Гаргантюа (2010)
  • Bleualign - выравнивание предложений на основе машинного перевода (2010)
  • ЯСА (2013)
  • Инструмент иерархического выравнивания (HAT) (2018)
  • Алгоритм выравнивания предложений Vecalign (2019)
  • Инструмент веб-выравнивания в Университете Гренобля
  1. ^ Ральф Штайнбергер Ральф; Бруно Пуликен; Анна Видигер; Камелия Игнат; Томаж Ерявец; Дэн Туфиш; Даниэль Варга (2006). JRC-Acquis: многоязычный выровненный параллельный корпус с более чем 20 языками . Труды 5-й Международной конференции по языковым ресурсам и оценке (LREC'2006). Генуя, Италия, 24-26 мая 2006 .