Из Википедии, свободной энциклопедии
Перейти к навигации Перейти к поиску

Apertium - это бесплатная платформа машинного перевода с открытым исходным кодом на основе правил . Это бесплатное программное обеспечение, выпущенное в соответствии с условиями Стандартной общественной лицензии GNU .

Обзор [ править ]

Apertium - это система машинного перевода с поверхностным переносом , которая использует преобразователи конечного состояния для всех своих лексических преобразований и скрытые марковские модели для тегирования частей речи или устранения неоднозначности категорий слов. Теги ограничения грамматики также используются для некоторых языковых пар (например, бретонский - французский ). [2]

Существующие системы машинного перевода , доступные в настоящее время, в основном являются коммерческими или используют проприетарные технологии, что затрудняет их адаптацию к новым видам использования; кроме того, они используют разные технологии в языковых парах, что, например, очень затрудняет их интеграцию в единую многоязычную систему управления контентом .

Apertium использует независимую от языка спецификацию , чтобы упростить участие в Apertium, повысить эффективность разработки и повысить общий рост проекта.

В настоящее время (декабрь 2020 г.) Apertium выпустил 51 стабильную языковую пару [3], обеспечивающую быстрый перевод с разумно понятными результатами (ошибки легко исправляются). Являясь проектом с открытым исходным кодом , Apertium предоставляет потенциальным разработчикам инструменты для создания собственной языковой пары и внесения вклада в проект.

История [ править ]

Apertium возник как одна из машин машинного перевода в проекте OpenTrad , который финансировался правительством Испании и был разработан исследовательской группой Transducens в Universitat d'Alacant . Первоначально он был разработан для перевода между тесно связанными языками, хотя недавно был расширен для обработки более расходящихся языковых пар. Чтобы создать новую систему машинного перевода, достаточно разработать лингвистические данные (словари, правила) в четко определенных XML- форматах.

Разработанные для него языковые данные (в сотрудничестве с Universidade de Vigo , Universitat Politècnica de Catalunya и Universitat Pompeu Fabra ) в настоящее время поддерживают (в стабильной версии) арабский , арагонский , астурийский , баскский , белорусский , бретонский , болгарский , каталонский , крымский Татарский , датский , английский , эсперанто , французский , галисийский , хинди , исландский ,Индонезийский , итальянский , казахский , македонский , малазийский , мальтийский , северносаамский , норвежский ( букмол и нюнорск ), окситанский , польский , португальский , румынский , русский , сардинский , сербохорватский , силезский , словенский , испанский , шведский , татарский , украинский , Урду, и валлийские языки. Полный список доступен ниже. В разработке Apertium также участвуют несколько компаний, в том числе Prompsit Language Engineering , Imaxin Software и Eleka Ingeniaritza Linguistikoa .

Проект принимал участие в выпусках Google Summer of Code 2009, [4] 2010, [5] 2011, [6] 2012, [7] 2013 [8] и 2014 [9], а также в 2010, [10] 2011. , [11] 2012, [12] 2013, [13] 2014, [14] 2015, [15] 2016 [16] и 2017 [17] выпусков Google Code-In .

Методика перевода [ править ]

Конвейер системы машинного перевода Apertium

Это общий пошаговый обзор того, как работает Apertium.

На схеме показаны шаги, которые предпринимает Apertium для перевода текста на исходном языке (текста, который мы хотим перевести) в текст на целевом языке (переведенный текст).

  1. Текст на исходном языке передается в Apertium для перевода.
  2. В deformatter удаляет разметку форматирования (HTML, RTF и т.д.) , которые должны храниться в месте , но не переведенная.
  3. В Морфологическом анализаторе сегментов текста (расширение elisions , маркировка набора фраз и т.д.), и искать сегменты в языковых словарях, а затем возвращаются BaseForm и тегов для всех матчей. В парах, включающих агглютинативную морфологию , включая ряд тюркских языков , используется Хельсинкский преобразователь конечных состояний (HFST). В противном случае используется специфическая для Apertium технология, называемая lttoolbox [18] .
  4. Морфологическое disambiguator ( морфологический анализатор и морфологическое disambiguator вместе образует часть речи Tagger ) решают неоднозначные сегменты (то есть, когда есть более одного матча), выбирая один матч. Apertium работает над установкой большего количества структур ограничений грамматики для своих языковых пар, что позволит наложить более мелкие ограничения, чем это было бы возможно в противном случае. Apertium использует средство синтаксического анализа грамматики ограничений визуального интерактивного обучения синтаксису. [19]
  5. Лексический перенос ищет однозначные базовые слова исходного языка, чтобы найти их эквиваленты на целевом языке (т. Е. Сопоставление исходного языка с целевым языком ). Для лексической передачи Apertium использует формат словаря на основе XML , называемый bidix. [20]
  6. Лексический выбор выбирает между альтернативными переводами, когда слово исходного текста имеет альтернативные значения. Apertium использует особую основанную на XML технологию, apertium-lex-tools, [21] для выполнения лексического выбора .
  7. Структурный перенос (т.е. это формат XML , который позволяет писать сложные правила структурного переноса) может состоять из одноэтапного переноса или трехэтапного модуля переноса. Он отмечает грамматические различия между исходным и целевым языками (например, соответствие пола или числа ), создавая для этого последовательность блоков, содержащих маркеры. Затем он переупорядочивает или изменяет фрагменты, чтобы произвести грамматический перевод на целевой язык. Это также делается с помощью lttoolbox .
  8. Морфологический генератор использует тег для доставки правильной целевого языка формы поверхности . Морфологический генератор - это морфологический преобразователь [22], точно так же, как морфологический анализатор. Морфологический преобразователь одновременно анализирует и генерирует формы.
  9. Пост-генератор делает любые необходимые орфографические изменения из - за контакт слов (например , elisions ).
  10. Средство форматирования заменяет разметку форматирования (HTML, RTF и т. Д.), Которая была удалена средством преобразования на первом этапе.
  11. Apertium обеспечивает перевод на целевой язык .

Языковые пары [ править ]

Список стабильных на данный момент языковых пар. Наведите указатель мыши на коды языков, чтобы увидеть языки, которые они представляют.

См. Также [ править ]

  • Babel Fish (прекращено; перенаправляет на основной сайт Yahoo!)
  • Сравнение приложений машинного перевода
  • Jollo (снято с производства)
  • Переводчик Microsoft
  • Моисей
  • OpenLogos
  • СИСТРАН
  • Яндекс переводчик

Заметки [ править ]

  1. ^ https://github.com/apertium/apertium/releases
  2. ^ Фрэнсис М. Тайерс (2010) « Бретонский на основе правил машинный перевод на французский ». 'Труды 14-й ежегодной конференции Европейской ассоциации машинного перевода, EAMT10', стр. 174--181
  3. ^ https://wiki.apertium.org/wiki/Main_Page
  4. ^ "Принятые организации для Google Summer of Code 2009" .
  5. ^ "Принятые организации для Google Summer of Code 2010" .
  6. ^ "Принятые организации для Google Summer of Code 2011" .
  7. ^ "Принятые организации для Google Summer of Code 2012" .
  8. ^ "Принятые организации для Google Summer of Code 2013" .
  9. ^ "Принятые организации для Google Summer of Code 2014" .
  10. ^ «Принятые организации для Google Code - в 2010 году» .
  11. ^ «Принятые организации для Google Code - в 2011 году» .
  12. ^ «Принятые организации для Google Code в 2012 году» .
  13. ^ «Принятые организации для Google Code - в 2013 г.» .
  14. ^ «Принятые организации для Google Code - в 2014 г.» .
  15. ^ «Принятые организации для Google Code - в 2015 г.» .
  16. ^ «Принятые организации для Google Code - в 2016 г.» .
  17. ^ «Принятые организации для Google Code - в 2017 г.» .
  18. ^ "Lttoolbox - Apertium" . wiki.apertium.org . Проверено 19 января 2016 .
  19. ^ "ВИСЛ" . beta.visl.sdu.dk . Проверено 19 января 2016 .
  20. ^ «Двуязычный словарь - Apertium» . wiki.apertium.org . Проверено 19 января 2016 .
  21. ^ "Модуль лексического выбора на основе ограничений - Apertium" . wiki.apertium.org . Проверено 19 января 2016 .
  22. ^ «Морфологический словарь - Apertium» . wiki.apertium.org . Проверено 19 января 2016 .

Ссылки [ править ]

  • Corbí-Bellot, M. et al. (2005) «Механизм машинного перевода с открытым исходным кодом для романтических языков Испании» в Proceedings of the European Association for Machine Translation, 10th Annual Conference, Budapest 2005 , pp. 79–86
  • Armentano-Oller, C. et al. (2006) «Португальский-испанский машинный перевод с открытым исходным кодом» в конспектах лекций по информатике 3960 [Вычислительная обработка португальского языка, Труды 7-го Международного семинара по вычислительной обработке письменного и разговорного португальского языка, PROPOR 2006] , стр. 50– 59.
  • Forcada, ML et al. (2010) «Документация платформы поверхностного машинного перевода с открытым исходным кодом Apertium » в Departament de Llenguatges i Sistemes Informatics, Университет Алаканта .
  • Forcada, ML et al. (2011) « Apertium: бесплатная платформа с открытым исходным кодом для машинного перевода на основе правил ». в " DOI : 10.1007 / s10590-011-9090-0

Внешние ссылки [ править ]

  • Apertium главная
  • Вики Сообщества
  • OpenTrad
  • Apertium на SourceForge.net

Услуги и программное обеспечение для конечных пользователей [ править ]

(Все сервисы основаны на движке Apertium)

Сайты онлайн-переводов [ править ]

  • Apertium Translation на главную
  • Переводчик Промпсит
  • Переводчик PoliTraductor
  • Переводчик Университета д'Алакант
  • Переводчик Universitat Oberta de Catalunya

Автономные приложения [ править ]

  • Апертиум кофеин
  • Apertium Android
  • Апертиум ОмегаТ