В лингвистике , корпус ( во множественных числе корпусов ) или текст корпус представляет собой язык ресурс , состоящий из большого и структурированного набора текстов ( в настоящее время , как правило , сохраняется в электронном виде и обрабатывается). В корпусной лингвистике они используются для статистического анализа и проверки гипотез , проверки вхождений или проверки лингвистических правил в пределах определенной языковой территории.
Корпус может содержать тексты на одном языке ( одноязычный корпус ) или текстовые данные на нескольких языках ( многоязычный корпус ).
Чтобы сделать корпуса более полезными для лингвистических исследований, они часто подвергаются процессу, известному как аннотации . Примером аннотирования корпуса является тегирование части речи или POS-тегирование , при котором информация о части речи каждого слова (глагол, существительное, прилагательное и т. Д.) Добавляется в корпус в виде тегов . Другой пример - указание леммы (основы) каждого слова. Когда язык корпуса не является рабочим языком исследователей, которые его используют, используется подстрочное сглаживание, чтобы сделать аннотацию двуязычной.
В некоторых корпусах применяются дополнительные структурированные уровни анализа. В частности, может быть полностью проанализирован ряд меньших корпусов . Такие корпуса обычно называют Treebanks или Parsed Corpora . Сложность обеспечения того, чтобы весь корпус был полностью и последовательно аннотирован, означает, что эти корпуса обычно меньше по размеру и содержат от одного до трех миллионов слов. Возможны другие уровни лингвистического структурированного анализа, включая аннотации для морфологии , семантики и прагматики .
Приложения
Корпуса - это основная база знаний в корпусной лингвистике . К другим примечательным областям применения относятся:
Анализ и обработка различных типов корпусов также являются предметом большой работы в компьютерной лингвистике , распознавании речи и машинном переводе , где они часто используются для создания скрытых марковских моделей для части тегов речи и других целей. Корпуса и списки частот, полученные на их основе, полезны для обучения языкам . Корпуса можно рассматривать как тип вспомогательного средства для письма на иностранном языке, поскольку контекстуализированные грамматические знания, приобретенные пользователями, не являющимися родными языками, через знакомство с аутентичными текстами в корпусах, позволяют учащимся понять способ формирования предложений на целевом языке, обеспечивая эффективное письмо.[1]
Многоязычные корпуса, специально отформатированные для параллельного сравнения, называются выровненными параллельными корпусами . Существует два основных типа параллельных корпусов, содержащих тексты на двух языках. В корпусе переводов тексты на одном языке являются переводами текстов на другом языке. В сравнимом корпусе тексты одного вида и охватывают одно и то же содержание, но они не являются переводами друг друга. [2] Для использования параллельного текста предварительным условием анализа является некое выравнивание текста, идентифицирующее эквивалентные текстовые сегменты (фразы или предложения). Машинный переводАлгоритмы перевода между двумя языками часто обучаются с использованием параллельных фрагментов, включающих корпус первого языка и корпус второго языка, который является поэлементным переводом корпуса первого языка. [3]
Корпуса текстов также используются при изучении исторических документов , например, при попытках расшифровать древние письменности или в библейских исследованиях . Некоторые археологические корпуса могут быть настолько короткими, что дают моментальный снимок во времени. Одним из самых коротких корпусов по времени могут быть тексты писем Амарны за 15–30 лет ( 1350 г. до н.э. ). Корпус древнего города, (например, « Кюльтепа тексты» из Турции), может пройти через серию корпусов, определенную дата их находку сайта.
Некоторые известные текстовые корпуса
Основная статья: Список корпусов текста
Смотрите также
Конкорданс
Корпусная лингвистика
Распределительно-реляционная база данных
Консорциум лингвистических данных
Обработка естественного языка
Инструментарий естественного языка
Параллельное выравнивание текста
Поисковые системы : они обращаются к «веб-корпусу».
Речевой корпус
Память переводов
Treebank
Закон Ципфа
использованная литература
^ Yoon, H., & Hirvela, A. (2004). Отношение студентов ESL к использованию корпуса в письме второго уровня . Журнал написания на втором языке, 13 (4), 257–283. Проверено 21 марта 2012 года.
^ Wołk, K .; Марасек, К. (7 апреля 2014 г.). «Метод выравнивания на основе значений предложений для подготовки корпусов параллельных текстов». Достижения в интеллектуальных системах и вычислениях . Springer. 275 : 107–114. arXiv : 1509.09090 . DOI : 10.1007 / 978-3-319-05951-8_11 . ISBN 978-3-319-05950-1. ISSN 2194-5357 . S2CID 15361632 .
^ Wołk, K .; Марасек, К. (2015). «Настроенный параллельный анализ данных с ускорением на GPU от сопоставимых корпусов». Конспект лекций по искусственному интеллекту . Спрингер: 32–40. arXiv : 1509.08639 . ISBN 978-3-319-24032-9.
внешние ссылки
ACL SIGLEX ссылки Ресурс: Текст Corpora архивации 2013-08-13 в Wayback Machine
Развитие языковых корпусов: руководство по передовой практике
Бесплатные образцы (не бесплатно), веб-корпуса (45-425 миллионов слов каждый): американский (COCA, COHA, TIME), британский (BNC), испанский, португальский
Intercorp Building синхронные параллельные корпуса языков, преподаваемых на факультете искусств Карлова университета.
Sketch Engine: открытые корпуса со свободным доступом
TS Corpus - Турецкий корпус, свободно доступный для академических исследований.
Турецкий национальный корпус - универсальный корпус для современного турецкого языка.
Корпус политических выступлений , свободный доступ к политическим выступлениям американских и китайских политиков, разработанный библиотекой Гонконгского баптистского университета
Русский Национальный Корпус
Категории :
Анализ речи
Корпусная лингвистика
Компьютерная лингвистика
Тестовые задания
Скрытые категории:
Статьи с кратким описанием
Краткое описание соответствует Викиданным
Статьи без цитирования в тексте за декабрь 2009 г.