Текстовый корпус

Эта статья включает в себя список общих ссылок , но он остается в значительной степени непроверенным, поскольку в нем отсутствует достаточное количество соответствующих встроенных ссылок . Пожалуйста, помогите улучшить эту статью, добавив более точные цитаты. ( Декабрь 2009 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

В лингвистике , корпус ( во множественных числе корпусов ) или текст корпус представляет собой язык ресурс , состоящий из большого и структурированного набора текстов ( в настоящее время , как правило , сохраняется в электронном виде и обрабатывается). В корпусной лингвистике они используются для статистического анализа и проверки гипотез , проверки вхождений или проверки лингвистических правил в пределах определенной языковой территории.

Обзор [ править ]

Корпус может содержать тексты на одном языке ( одноязычный корпус ) или текстовые данные на нескольких языках ( многоязычный корпус ).

Чтобы сделать корпуса более полезными для лингвистических исследований, они часто подвергаются процессу, известному как аннотации . Примером аннотирования корпуса является тегирование части речи или POS-тегирование , при котором информация о части речи каждого слова (глагол, существительное, прилагательное и т. Д.) Добавляется в корпус в виде тегов . Другой пример - указание леммы (основы) каждого слова. Когда язык корпуса не является рабочим языком исследователей, которые его используют, используется подстрочное сглаживание, чтобы сделать аннотацию двуязычной.

В некоторых корпусах применяются дополнительные структурированные уровни анализа. В частности, может быть полностью проанализирован ряд меньших корпусов . Такие корпуса обычно называют Treebanks или Parsed Corpora . Сложность обеспечения того, чтобы весь корпус был полностью и последовательно аннотирован, означает, что эти корпуса обычно меньше по размеру и содержат от одного до трех миллионов слов. Возможны другие уровни лингвистического структурированного анализа, включая аннотации для морфологии , семантики и прагматики .

Приложения [ править ]

Корпуса - это основная база знаний в корпусной лингвистике . К другим примечательным областям применения относятся:

Языковые технологии , обработка естественного языка , компьютерная лингвистика
- Анализ и обработка различных типов корпусов также являются предметом большой работы в компьютерной лингвистике , распознавании речи и машинном переводе , где они часто используются для создания скрытых марковских моделей для части тегов речи и других целей. Корпуса и списки частот, полученные на их основе, полезны для обучения языкам . Корпуса можно рассматривать как тип вспомогательного средства для письма на иностранном языке, поскольку контекстуализированные грамматические знания, приобретенные пользователями, не являющимися родными языками, через знакомство с аутентичными текстами в корпусах, позволяют учащимся понять способ формирования предложений на целевом языке, обеспечивая эффективное письмо.^[1]

Машинный перевод
- Многоязычные корпуса, специально отформатированные для параллельного сравнения, называются выровненными параллельными корпусами . Существует два основных типа параллельных корпусов, содержащих тексты на двух языках. В корпусе переводов тексты на одном языке являются переводами текстов на другом языке. В сравнимом корпусе тексты одного вида и охватывают одно и то же содержание, но они не являются переводами друг друга. ^[2] Для использования параллельного текста предварительным условием анализа является некое выравнивание текста, идентифицирующее эквивалентные текстовые сегменты (фразы или предложения). Машинный переводАлгоритмы перевода между двумя языками часто обучаются с использованием параллельных фрагментов, включающих корпус первого языка и корпус второго языка, который является поэлементным переводом корпуса первого языка. ^[3]
Филологии
- Корпуса текстов также используются при изучении исторических документов , например, при попытках расшифровать древние письменности или в библейских исследованиях . Некоторые археологические корпуса могут быть настолько короткими, что дают моментальный снимок во времени. Одним из самых коротких корпусов по времени могут быть тексты писем Амарны за 15–30 лет ( 1350 г. до н.э. ). Корпус древнего города, (например, « Кюльтепа тексты» из Турции), может пройти через серию корпусов, определенную дата их находку сайта.

Некоторые известные текстовые корпуса [ править ]

См. Также [ править ]

Соответствие
Корпусная лингвистика
Распределительно-реляционная база данных
Консорциум лингвистических данных
Обработка естественного языка
Набор инструментов для естественного языка
Параллельное выравнивание текста
Поисковые системы : они обращаются к «веб-корпусу».
Речевой корпус
Память переводов
Treebank
Закон Ципфа

Ссылки [ править ]

^ Yoon, H., & Hirvela, A. (2004). Отношение студентов ESL к использованию корпуса в письме второго уровня . Журнал написания на втором языке, 13 (4), 257–283. Проверено 21 марта 2012 года.
^ Wołk, K .; Марасек, К. (7 апреля 2014 г.). «Метод выравнивания на основе значений предложений для подготовки корпусов параллельных текстов». Достижения в интеллектуальных системах и вычислениях . Springer. 275 : 107–114. arXiv : 1509.09090 . DOI : 10.1007 / 978-3-319-05951-8_11 . ISBN 978-3-319-05950-1. ISSN 2194-5357 . S2CID 15361632 .
^ Wołk, K .; Марасек, К. (2015). «Настроенный параллельный анализ данных с ускорением на GPU от сопоставимых корпусов». Конспект лекций по искусственному интеллекту . Springer: 32–40. arXiv : 1509.08639 . ISBN 978-3-319-24032-9.

Внешние ссылки [ править ]

ACL SIGLEX ссылки Ресурс: Текст Corpora архивации 2013-08-13 в Wayback Machine
Развитие языковых корпусов: руководство по передовой практике
Бесплатные образцы (не бесплатно), веб-корпуса (45-425 миллионов слов каждый): американский (COCA, COHA, TIME), британский (BNC), испанский, португальский
Intercorp Building синхронные параллельные корпуса языков, преподаваемых на факультете искусств Карлова университета.
Sketch Engine: открытые корпуса со свободным доступом
TS Corpus - Турецкий корпус, свободно доступный для академических исследований.
Турецкий национальный корпус - универсальный корпус для современного турецкого языка.
Корпус политических выступлений , свободный доступ к политическим выступлениям американских и китайских политиков, разработанный библиотекой Гонконгского баптистского университета

Русский Национальный Корпус

[Yoon-1] Yoon, H., & Hirvela, A. (2004). Отношение студентов ESL к использованию корпуса в письме второго уровня . Журнал написания на втором языке, 13 (4), 257–283. Проверено 21 марта 2012 года.

[2] Wołk, K .; Марасек, К. (7 апреля 2014 г.). «Метод выравнивания на основе значений предложений для подготовки корпусов параллельных текстов». Достижения в интеллектуальных системах и вычислениях . Springer. 275 : 107–114. arXiv : 1509.09090 . DOI : 10.1007 / 978-3-319-05951-8_11 . ISBN 978-3-319-05950-1. ISSN 2194-5357 . S2CID 15361632 .

[3] Wołk, K .; Марасек, К. (2015). «Настроенный параллельный анализ данных с ускорением на GPU от сопоставимых корпусов». Конспект лекций по искусственному интеллекту . Springer: 32–40. arXiv : 1509.08639 . ISBN 978-3-319-24032-9.

[1]

vтеОбработка естественного языка
Общие условия	AI-полный Мешок слов н-грамм Биграмма Триграмма Понимание естественного языка Речевой корпус Stopwords Текстовый корпус
Анализ текста	Извлечение словосочетаний Концепция майнинга Обработка сложных терминов Разрешение Coreference Лемматизация Признание именной организации Изучение онтологий Парсинг Пометка части речи Семантическое сходство Анализ настроений Стемминг Извлечение терминологии Фрагменты текста Сегментация текста Сегментация предложения Сегментация слов Текстовое следствие Truecasing Устранение смысловой неоднозначности
Автоматическое суммирование	Резюме из нескольких документов Извлечение приговора Упрощение текста
Машинный перевод	Компьютерная На основе примера Основанный на правилах Нейронный
Автоматическая идентификация и сбор данных	Распознавание речи Сегментация речи Синтез речи Генерация естественного языка Оптическое распознавание символов
Тематическая модель	Скрытое размещение Дирихле Скрытый семантический анализ Распределение патинко
Компьютерное рецензирование	Автоматическая оценка эссе Конкордансер Проверка грамматики Предсказуемый текст Программа проверки орфографии Угадывание синтаксиса
Пользовательский интерфейс на естественном языке	Чат-бот Интерактивная фантастика Ответ на вопрос Виртуальный помощник Голосовой пользовательский интерфейс