Параллельный текст


Параллельный текст – это текст, размещенный рядом с его переводом или переводами. [1] [2] Параллельное выравнивание текста — это идентификация соответствующих предложений в обеих половинах параллельного текста. Классическая библиотека Леба и Санскритская библиотека Клэя - два примера двуязычных серий текстов. Справочные Библии могут содержать языки оригинала и перевод или несколько переводов сами по себе для облегчения сравнения и изучения; « Гексапла » Оригена (по-гречески «шестеричный») поместила рядом шесть версий Ветхого Завета. Известным примером является Розеттский камень , открытие которого позволилоНачинается расшифровка древнеегипетского языка .

Большие коллекции параллельных текстов называются параллельными корпусами (см. Корпус текстов ). Выравнивание параллельных корпусов на уровне предложений является необходимым условием для многих областей лингвистических исследований. Во время перевода предложения могут быть разделены, объединены, удалены, вставлены или изменены переводчиком. Это делает выравнивание нетривиальной задачей.

Большие корпуса, используемые в качестве обучающих наборов для алгоритмов машинного перевода , обычно извлекаются из больших массивов подобных источников, таких как базы данных новостных статей, написанных на первом и втором языках, описывающих схожие события.

Однако извлеченные фрагменты могут быть зашумлены, так как в каждый корпус вставлены дополнительные элементы. Методы извлечения могут различать двуязычные элементы, представленные в обоих корпусах, и одноязычные элементы, представленные только в одном корпусе, чтобы извлечь более чистые параллельные фрагменты двуязычных элементов. Сопоставимые корпуса используются для непосредственного получения знаний в целях перевода. Однако получить высококачественные параллельные данные сложно, особенно для языков с ограниченными ресурсами. [4]

В области переводоведения битекст представляет собой объединенный документ, состоящий из версий данного текста как на исходном, так и на целевом языке .

Битексты генерируются программным обеспечением, которое называется инструментом выравнивания или инструментом битекста , которое автоматически выравнивает исходную и переведенную версии одного и того же текста. Инструмент обычно сопоставляет эти два текста предложение за предложением. Набор битекстов называется базой данных битекстов или двуязычным корпусом , и с ним можно ознакомиться с помощью инструмента поиска.


Розеттский камень , стела с одним и тем же указом, выгравированным как на древнеегипетском, так и на древнегреческом языках . Его открытие стало ключом к расшифровке древнеегипетского языка.