Параллельный текст


Из Википедии, свободной энциклопедии
  (Перенаправлено из двуязычного онлайн-согласования )
Перейти к навигации Перейти к поиску
Розеттский камень , стела с выгравированными же указом в обоих древних египетских сценариев , а также древнегреческий . Его открытие стало ключом к расшифровке древнеегипетского языка.

Параллельный текст представляет собой текст , размещенный рядом с его переводом или переводом. [1] [2] Параллельное выравнивание текста - это идентификация соответствующих предложений в обеих половинах параллельного текста. Леб Классическая библиотека и санскрит библиотека Clay два примера двуязычных серии текстов. Справочные Библии могут содержать исходные языки и перевод или несколько переводов сами по себе для облегчения сравнения и изучения; В « Гексапле» Оригена (по-гречески «шестиконечный») шесть версий Ветхого Завета помещены рядом. Известным примером является Розеттский камень , открытие которого позволилоНачать расшифровку древнеегипетского языка .

Большие собрания параллельных текстов называются параллельными корпусами (см. Корпус текстов ). Выравнивание параллельных корпусов на уровне предложений является предпосылкой для многих областей лингвистических исследований. Во время перевода предложения могут быть разделены, объединены, удалены, вставлены или переупорядочены переводчиком. Это делает выравнивание нетривиальной задачей.

Типы параллельных корпусов

Параллельные корпуса можно разделить на четыре основные категории: [ необходима ссылка ]

  • Параллельный корпус содержит переводы одного и того же документа на двух или более языках, выровненной по крайней мере , на уровне предложения. Они, как правило, встречаются реже, чем менее сопоставимые корпуса. [ необходима цитата ]
  • Шумный параллельный корпус содержит двуязычные предложения, которые не идеально ровные или имеют плохое качество переводов. Тем не менее, большая часть его содержания - это двуязычные переводы определенного документа.
  • Сравнимой корпус построен из не вынесения приговора выровнена и непереведенных двуязычных документов, а документы темы выровнено.
  • Квази-сравнимый корпус включает в себя очень разнородные и непараллельные двуязычные документы , которые могут или не могут быть выровнены темами.

Шум в корпусе

Большие корпуса, используемые в качестве обучающих наборов для алгоритмов машинного перевода , обычно извлекаются из больших массивов аналогичных источников, таких как базы данных новостных статей, написанных на первом и втором языках и описывающих похожие события.

Однако извлеченные фрагменты могут быть шумными, с добавлением дополнительных элементов в каждый корпус. Методы извлечения могут различать двуязычные элементы, представленные как в корпусах, так и одноязычные элементы, представленные только в одном корпусе, для извлечения более четких параллельных фрагментов двуязычных элементов. Сопоставимые корпуса используются для непосредственного получения знаний для целей перевода. Однако трудно получить высококачественные параллельные данные, особенно для языков с ограниченными ресурсами. [3]

Bitext

В области переводоведения битекст - это объединенный документ, состоящий из версий данного текста на исходном и целевом языках.

Битексты создаются программным обеспечением, называемым инструментом выравнивания , или инструментом битекста , который автоматически выравнивает исходную и переведенную версии одного и того же текста. Инструмент обычно сопоставляет эти два текста предложение за предложением. Коллекция битекстов называется базой данных битекстов или двуязычным корпусом , и к ней можно обращаться с помощью инструмента поиска.

Битексты и память переводов

Битексты имеют некоторое сходство с памятью переводов. Наиболее существенное отличие состоит в том, что память переводов теряет исходный контекст, а битекст сохраняет исходный порядок предложений. При этом некоторые реализации памяти переводов, такие как Translation Memory eXchange (TMX), стандартный формат XML для обмена памятью переводов между программами компьютерного перевода (CAT), позволяют сохранить исходный порядок предложений.

Bitexts предназначены для работы с переводчиком- человеком , а не для машины. Таким образом, небольшие ошибки выравнивания или незначительные несоответствия, которые могут привести к сбою памяти переводов, не имеют значения.

В своей оригинальной статье 1988 года Харрис также утверждал, что бит-текст представляет собой то, как переводчики удерживают исходный и целевой текст вместе в своей умственной рабочей памяти по мере продвижения. Однако эта гипотеза не получила подтверждения. [4]

Онлайн-битексты и память переводов также могут называться онлайн двуязычные согласования. Некоторые из них доступны в общедоступном Интернете, в том числе Linguée , Reverso и Tradooit. [5] [6] [7]

Смотрите также

  • Двуязычная надпись
  • Компьютерное рецензирование
  • Машинный перевод на основе примеров
  • Обработка естественного языка
  • Полиглот (книга)
  • Рубиновый персонаж
  • Статистический машинный перевод

использованная литература

  1. Чан, Син-Вай (2015). Энциклопедия переводческих технологий Рутледж . Лондон: Рутледж. ISBN 978-1-315-74912-9.
  2. ^ Уильямс, Филип; Сеннрих, Рико; Пост, Мэтт; Коэн, Филипп (2016). Статистический машинный перевод на основе синтаксиса . Морган и Клейпул. ISBN 978-1-62705-502-4.
  3. ^ WOLK, Кшиштоф (2015). "Шумно-параллельная и сопоставимая методология фильтрации корпусов для извлечения двуязычных эквивалентных данных на уровне предложения" . Компьютерные науки . 16 (2): 169–184. arXiv : 1510.04500 . Bibcode : 2015arXiv151004500W . DOI : 10,7494 / csci.2015.16.2.169 . S2CID 12860633 . 
  4. ^ Харрис, Б. (март 1988). «Би-текст, новая концепция в теории перевода» (PDF) . Язык ежемесячно . 54 : 8–10. Архивировано из оригинального (PDF) на 2018-03-02.
  5. ^ Женетт, Мари (2016). Насколько надежны онлайн-двуязычные конкордансеры? Исследование Linguee , TradooIT , WeBiText и ReversoContext и их надежности посредством сравнительного анализа сложных предлогов с французского на английский (магистерская диссертация). Католический университет Лувена и Университет Осло. ЛВП : 10852/51577 .
  6. ^ "TradooIT - двуязычие Concordancier" .
  7. ^ Désilets, Ален; Фарли, Бенуа; Стоянович, Марта; Патенауд, Женевьева (2008). WeBiText: создание больших разнородных воспоминаний о переводе из параллельного веб-контента (PDF) . Труды перевода и ЭВМ. 30 . С. 27–28.

внешняя ссылка

Параллельные корпуса

  • JRC-Acquis Multilingual Parallel Corpus всей совокупности законов Европейского Союза (ЕС): Acquis Communautaire с 231 языковой парой. [1]
  • Параллельный корпус заседаний Европейского парламента 1996–2011 гг.
  • Проект Opus направлен на сбор свободно доступных параллельных корпусов
  • Японско-английский двуязычный корпус статей Википедии Киото
  • СРАВНЕНИЕ - португальский / английский параллельные корпуса
  • СРОК ПОИСКА - параллельные корпуса на английском / русском / французском языках (основные международные договоры, конвенции, соглашения и т. Д.
  • TradooIT - английский / французский / испанский - Бесплатные онлайн-инструменты
  • Нунавут Хансард - английский / параллельный корпус инуктитут
  • ParaSol - Параллельный корпус славянских и других языков
  • Glosbe: многоязычный параллельный корпус с интерфейсом онлайн-поиска
  • InterCorp: многоязычный параллельный корпус на 40 языков, согласованный с чешским, интерфейс онлайн-поиска.
  • myCAT - Olanto , concordancer (AGPL с открытым исходным кодом) с онлайн-поиском по JCR и корпусу UNO
  • TAUS , с интерфейсом онлайн-поиска.
  • linguatools МНОГОЯЗЫЧНЫЕ параллельных текстов, онлайн поиск интерфейса.
  • EUR-Lex Corpus - корпус, созданный на основе базы данных EUR-Lex, состоит из законов Европейского Союза и других публичных документов Европейского Союза.
  • Language Grid - Платформа многоязычных сервисов, включающая параллельные текстовые сервисы.

Документация

  • Библиография, посвященная параллельной обработке текста, составлена ​​Дж. Веронисом и М.-Д. Махимон
  • Материалы семинара 2003 г. по построению и использованию параллельных текстов
  • Материалы семинара 2005 г. по построению и использованию параллельных текстов

Инструменты для выравнивания

  • Инструмент выравнивания GIZA ++ (1999)
  • Uplug - инструменты для обработки параллельных корпусов (2003)
  • Реализация алгоритма выравнивания предложений Гейла и Черча (2005)
  • Выравниватель приговора Hunalign (2005)
  • Шампольон (2006)
  • MALIGNa (2008–2020 гг.)
  • Выравниватель предложений Гаргантюа (2010)
  • Bleualign - выравнивание предложений на основе машинного перевода (2010)
  • ЯСА (2013)
  • Инструмент иерархического выравнивания (HAT) (2018)
  • Алгоритм выравнивания предложений Vecalign (2019)
  • Инструмент веб-выравнивания в Университете Гренобля
  1. ^ Ральф, Ральф Штайнбергер; Пуликен, Бруно; Видигер, Анна; Игнат, Камелия; Эрявец, Томаж; Туфиш, Дан; Варга, Даниэль (2006). JRC-Acquis: многоязычный выровненный параллельный корпус с более чем 20 языками . Труды 5-й Международной конференции по языковым ресурсам и оценке (LREC'2006). Генуя, Италия, 24-26 мая 2006 .
Источник « https://en.wikipedia.org/w/index.php?title=Parallel_text&oldid=1053020787#OBC »