Из Википедии, свободной энциклопедии
Перейти к навигации Перейти к поиску

В лингвистике , корпус ( во множественных числе корпусов ) или текст корпус представляет собой язык ресурс , состоящий из большого и структурированного набора текстов ( в настоящее время , как правило , сохраняется в электронном виде и обрабатывается). В корпусной лингвистике они используются для статистического анализа и проверки гипотез , проверки вхождений или проверки лингвистических правил в пределах определенной языковой территории.

Обзор [ править ]

Корпус может содержать тексты на одном языке ( одноязычный корпус ) или текстовые данные на нескольких языках ( многоязычный корпус ).

Чтобы сделать корпуса более полезными для лингвистических исследований, они часто подвергаются процессу, известному как аннотации . Примером аннотирования корпуса является тегирование части речи или POS-тегирование , при котором информация о части речи каждого слова (глагол, существительное, прилагательное и т. Д.) Добавляется в корпус в виде тегов . Другой пример - указание леммы (основы) каждого слова. Когда язык корпуса не является рабочим языком исследователей, которые его используют, используется подстрочное сглаживание, чтобы сделать аннотацию двуязычной.

В некоторых корпусах применяются дополнительные структурированные уровни анализа. В частности, может быть полностью проанализирован ряд меньших корпусов . Такие корпуса обычно называют Treebanks или Parsed Corpora . Сложность обеспечения того, чтобы весь корпус был полностью и последовательно аннотирован, означает, что эти корпуса обычно меньше по размеру и содержат от одного до трех миллионов слов. Возможны другие уровни лингвистического структурированного анализа, включая аннотации для морфологии , семантики и прагматики .

Приложения [ править ]

Корпуса - это основная база знаний в корпусной лингвистике . К другим примечательным областям применения относятся:

  • Машинный перевод
    • Многоязычные корпуса, специально отформатированные для параллельного сравнения, называются выровненными параллельными корпусами . Существует два основных типа параллельных корпусов, содержащих тексты на двух языках. В корпусе переводов тексты на одном языке являются переводами текстов на другом языке. В сравнимом корпусе тексты одного вида и охватывают одно и то же содержание, но они не являются переводами друг друга. [2] Для использования параллельного текста предварительным условием анализа является некое выравнивание текста, идентифицирующее эквивалентные текстовые сегменты (фразы или предложения). Машинный переводАлгоритмы перевода между двумя языками часто обучаются с использованием параллельных фрагментов, включающих корпус первого языка и корпус второго языка, который является поэлементным переводом корпуса первого языка. [3]
  • Филологии
    • Корпуса текстов также используются при изучении исторических документов , например, при попытках расшифровать древние письменности или в библейских исследованиях . Некоторые археологические корпуса могут быть настолько короткими, что дают моментальный снимок во времени. Одним из самых коротких корпусов по времени могут быть тексты писем Амарны за 15–30 лет ( 1350 г. до н.э. ). Корпус древнего города, (например, « Кюльтепа тексты» из Турции), может пройти через серию корпусов, определенную дата их находку сайта.

Некоторые известные текстовые корпуса [ править ]

См. Также [ править ]

  • Соответствие
  • Корпусная лингвистика
  • Распределительно-реляционная база данных
  • Консорциум лингвистических данных
  • Обработка естественного языка
  • Набор инструментов для естественного языка
  • Параллельное выравнивание текста
  • Поисковые системы : они обращаются к «веб-корпусу».
  • Речевой корпус
  • Память переводов
  • Treebank
  • Закон Ципфа

Ссылки [ править ]

  1. ^ Yoon, H., & Hirvela, A. (2004). Отношение студентов ESL к использованию корпуса в письме второго уровня . Журнал написания на втором языке, 13 (4), 257–283. Проверено 21 марта 2012 года.
  2. ^ Wołk, K .; Марасек, К. (7 апреля 2014 г.). «Метод выравнивания на основе значений предложений для подготовки корпусов параллельных текстов». Достижения в интеллектуальных системах и вычислениях . Springer. 275 : 107–114. arXiv : 1509.09090 . DOI : 10.1007 / 978-3-319-05951-8_11 . ISBN 978-3-319-05950-1. ISSN  2194-5357 . S2CID  15361632 .
  3. ^ Wołk, K .; Марасек, К. (2015). «Настроенный параллельный анализ данных с ускорением на GPU от сопоставимых корпусов». Конспект лекций по искусственному интеллекту . Springer: 32–40. arXiv : 1509.08639 . ISBN 978-3-319-24032-9.

Внешние ссылки [ править ]

  • ACL SIGLEX ссылки Ресурс: Текст Corpora архивации 2013-08-13 в Wayback Machine
  • Развитие языковых корпусов: руководство по передовой практике
  • Бесплатные образцы (не бесплатно), веб-корпуса (45-425 миллионов слов каждый): американский (COCA, COHA, TIME), британский (BNC), испанский, португальский
  • Intercorp Building синхронные параллельные корпуса языков, преподаваемых на факультете искусств Карлова университета.
  • Sketch Engine: открытые корпуса со свободным доступом
  • TS Corpus - Турецкий корпус, свободно доступный для академических исследований.
  • Турецкий национальный корпус - универсальный корпус для современного турецкого языка.
  • Корпус политических выступлений , свободный доступ к политическим выступлениям американских и китайских политиков, разработанный библиотекой Гонконгского баптистского университета
  • Русский Национальный Корпус