Текстовый корпус

Эта статья включает в себя список общих ссылок , но он остается в значительной степени непроверенным, поскольку в нем отсутствует достаточное количество соответствующих встроенных ссылок . Пожалуйста, помогите улучшить эту статью, добавив более точные цитаты. ( Декабрь 2009 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

В лингвистике , корпус ( во множественных числе корпусов ) или текст корпус представляет собой язык ресурс , состоящий из большого и структурированного набора текстов ( в настоящее время , как правило , сохраняется в электронном виде и обрабатывается). В корпусной лингвистике они используются для статистического анализа и проверки гипотез , проверки вхождений или проверки лингвистических правил в пределах определенной языковой территории.

Обзор

Корпус может содержать тексты на одном языке ( одноязычный корпус ) или текстовые данные на нескольких языках ( многоязычный корпус ).

Чтобы сделать корпуса более полезными для лингвистических исследований, они часто подвергаются процессу, известному как аннотации . Примером аннотирования корпуса является тегирование части речи или POS-тегирование , при котором информация о части речи каждого слова (глагол, существительное, прилагательное и т. Д.) Добавляется в корпус в виде тегов . Другой пример - указание леммы (основы) каждого слова. Когда язык корпуса не является рабочим языком исследователей, которые его используют, используется подстрочное сглаживание, чтобы сделать аннотацию двуязычной.

В некоторых корпусах применяются дополнительные структурированные уровни анализа. В частности, может быть полностью проанализирован ряд меньших корпусов . Такие корпуса обычно называют Treebanks или Parsed Corpora . Сложность обеспечения того, чтобы весь корпус был полностью и последовательно аннотирован, означает, что эти корпуса обычно меньше по размеру и содержат от одного до трех миллионов слов. Возможны другие уровни лингвистического структурированного анализа, включая аннотации для морфологии , семантики и прагматики .

Приложения

Корпуса - это основная база знаний в корпусной лингвистике . К другим примечательным областям применения относятся:

Языковые технологии , обработка естественного языка , компьютерная лингвистика
- Анализ и обработка различных типов корпусов также являются предметом большой работы в компьютерной лингвистике , распознавании речи и машинном переводе , где они часто используются для создания скрытых марковских моделей для части тегов речи и других целей. Корпуса и списки частот, полученные на их основе, полезны для обучения языкам . Корпуса можно рассматривать как тип вспомогательного средства для письма на иностранном языке, поскольку контекстуализированные грамматические знания, приобретенные пользователями, не являющимися родными языками, через знакомство с аутентичными текстами в корпусах, позволяют учащимся понять способ формирования предложений на целевом языке, обеспечивая эффективное письмо.^[1]

Машинный перевод
- Многоязычные корпуса, специально отформатированные для параллельного сравнения, называются выровненными параллельными корпусами . Существует два основных типа параллельных корпусов, содержащих тексты на двух языках. В корпусе переводов тексты на одном языке являются переводами текстов на другом языке. В сравнимом корпусе тексты одного вида и охватывают одно и то же содержание, но они не являются переводами друг друга. ^[2] Для использования параллельного текста предварительным условием анализа является некое выравнивание текста, идентифицирующее эквивалентные текстовые сегменты (фразы или предложения). Машинный переводАлгоритмы перевода между двумя языками часто обучаются с использованием параллельных фрагментов, включающих корпус первого языка и корпус второго языка, который является поэлементным переводом корпуса первого языка. ^[3]
Филологии
- Корпуса текстов также используются при изучении исторических документов , например, при попытках расшифровать древние письменности или в библейских исследованиях . Некоторые археологические корпуса могут быть настолько короткими, что дают моментальный снимок во времени. Одним из самых коротких корпусов по времени могут быть тексты писем Амарны за 15–30 лет ( 1350 г. до н.э. ). Корпус древнего города, (например, « Кюльтепа тексты» из Турции), может пройти через серию корпусов, определенную дата их находку сайта.

Некоторые известные текстовые корпуса

Смотрите также

Конкорданс
Корпусная лингвистика
Распределительно-реляционная база данных
Консорциум лингвистических данных
Обработка естественного языка
Инструментарий естественного языка
Параллельное выравнивание текста
Поисковые системы : они обращаются к «веб-корпусу».
Речевой корпус
Память переводов
Treebank
Закон Ципфа

использованная литература

^ Yoon, H., & Hirvela, A. (2004). Отношение студентов ESL к использованию корпуса в письме второго уровня . Журнал написания на втором языке, 13 (4), 257–283. Проверено 21 марта 2012 года.
^ Wołk, K .; Марасек, К. (7 апреля 2014 г.). «Метод выравнивания на основе значений предложений для подготовки корпусов параллельных текстов». Достижения в интеллектуальных системах и вычислениях . Springer. 275 : 107–114. arXiv : 1509.09090 . DOI : 10.1007 / 978-3-319-05951-8_11 . ISBN 978-3-319-05950-1. ISSN 2194-5357 . S2CID 15361632 .
^ Wołk, K .; Марасек, К. (2015). «Настроенный параллельный анализ данных с ускорением на GPU от сопоставимых корпусов». Конспект лекций по искусственному интеллекту . Спрингер: 32–40. arXiv : 1509.08639 . ISBN 978-3-319-24032-9.

внешние ссылки

ACL SIGLEX ссылки Ресурс: Текст Corpora архивации 2013-08-13 в Wayback Machine
Развитие языковых корпусов: руководство по передовой практике
Бесплатные образцы (не бесплатно), веб-корпуса (45-425 миллионов слов каждый): американский (COCA, COHA, TIME), британский (BNC), испанский, португальский
Intercorp Building синхронные параллельные корпуса языков, преподаваемых на факультете искусств Карлова университета.
Sketch Engine: открытые корпуса со свободным доступом
TS Corpus - Турецкий корпус, свободно доступный для академических исследований.
Турецкий национальный корпус - универсальный корпус для современного турецкого языка.
Корпус политических выступлений , свободный доступ к политическим выступлениям американских и китайских политиков, разработанный библиотекой Гонконгского баптистского университета

Русский Национальный Корпус

[Yoon-1] Yoon, H., & Hirvela, A. (2004). Отношение студентов ESL к использованию корпуса в письме второго уровня . Журнал написания на втором языке, 13 (4), 257–283. Проверено 21 марта 2012 года.

[2] Wołk, K .; Марасек, К. (7 апреля 2014 г.). «Метод выравнивания на основе значений предложений для подготовки корпусов параллельных текстов». Достижения в интеллектуальных системах и вычислениях . Springer. 275 : 107–114. arXiv : 1509.09090 . DOI : 10.1007 / 978-3-319-05951-8_11 . ISBN 978-3-319-05950-1. ISSN 2194-5357 . S2CID 15361632 .

[3] Wołk, K .; Марасек, К. (2015). «Настроенный параллельный анализ данных с ускорением на GPU от сопоставимых корпусов». Конспект лекций по искусственному интеллекту . Спрингер: 32–40. arXiv : 1509.08639 . ISBN 978-3-319-24032-9.

[1]