Эта статья включает в себя список общих ссылок , но он остается в значительной степени непроверенным, поскольку в нем отсутствует достаточное количество соответствующих встроенных ссылок . ( Декабрь 2009 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения ) |
В лингвистике , корпус ( во множественных числе корпусов ) или текст корпус представляет собой язык ресурс , состоящий из большого и структурированного набора текстов ( в настоящее время , как правило , сохраняется в электронном виде и обрабатывается). В корпусной лингвистике они используются для статистического анализа и проверки гипотез , проверки вхождений или проверки лингвистических правил в пределах определенной языковой территории.
Обзор [ править ]
Корпус может содержать тексты на одном языке ( одноязычный корпус ) или текстовые данные на нескольких языках ( многоязычный корпус ).
Чтобы сделать корпуса более полезными для лингвистических исследований, они часто подвергаются процессу, известному как аннотации . Примером аннотирования корпуса является тегирование части речи или POS-тегирование , при котором информация о части речи каждого слова (глагол, существительное, прилагательное и т. Д.) Добавляется в корпус в виде тегов . Другой пример - указание леммы (основы) каждого слова. Когда язык корпуса не является рабочим языком исследователей, которые его используют, используется подстрочное сглаживание, чтобы сделать аннотацию двуязычной.
В некоторых корпусах применяются дополнительные структурированные уровни анализа. В частности, может быть полностью проанализирован ряд меньших корпусов . Такие корпуса обычно называют Treebanks или Parsed Corpora . Сложность обеспечения того, чтобы весь корпус был полностью и последовательно аннотирован, означает, что эти корпуса обычно меньше по размеру и содержат от одного до трех миллионов слов. Возможны другие уровни лингвистического структурированного анализа, включая аннотации для морфологии , семантики и прагматики .
Приложения [ править ]
Корпуса - это основная база знаний в корпусной лингвистике . К другим примечательным областям применения относятся:
- Языковые технологии , обработка естественного языка , компьютерная лингвистика
- Анализ и обработка различных типов корпусов также являются предметом большой работы в компьютерной лингвистике , распознавании речи и машинном переводе , где они часто используются для создания скрытых марковских моделей для части тегов речи и других целей. Корпуса и списки частот, полученные на их основе, полезны для обучения языкам . Корпуса можно рассматривать как тип вспомогательного средства для письма на иностранном языке, поскольку контекстуализированные грамматические знания, приобретенные пользователями, не являющимися родными языками, через знакомство с аутентичными текстами в корпусах, позволяют учащимся понять способ формирования предложений на целевом языке, обеспечивая эффективное письмо.[1]
- Машинный перевод
- Многоязычные корпуса, специально отформатированные для параллельного сравнения, называются выровненными параллельными корпусами . Существует два основных типа параллельных корпусов, содержащих тексты на двух языках. В корпусе переводов тексты на одном языке являются переводами текстов на другом языке. В сравнимом корпусе тексты одного вида и охватывают одно и то же содержание, но они не являются переводами друг друга. [2] Для использования параллельного текста предварительным условием анализа является некое выравнивание текста, идентифицирующее эквивалентные текстовые сегменты (фразы или предложения). Машинный переводАлгоритмы перевода между двумя языками часто обучаются с использованием параллельных фрагментов, включающих корпус первого языка и корпус второго языка, который является поэлементным переводом корпуса первого языка. [3]
- Филологии
- Корпуса текстов также используются при изучении исторических документов , например, при попытках расшифровать древние письменности или в библейских исследованиях . Некоторые археологические корпуса могут быть настолько короткими, что дают моментальный снимок во времени. Одним из самых коротких корпусов по времени могут быть тексты писем Амарны за 15–30 лет ( 1350 г. до н.э. ). Корпус древнего города, (например, « Кюльтепа тексты» из Турции), может пройти через серию корпусов, определенную дата их находку сайта.
Некоторые известные текстовые корпуса [ править ]
См. Также [ править ]
- Соответствие
- Корпусная лингвистика
- Распределительно-реляционная база данных
- Консорциум лингвистических данных
- Обработка естественного языка
- Набор инструментов для естественного языка
- Параллельное выравнивание текста
- Поисковые системы : они обращаются к «веб-корпусу».
- Речевой корпус
- Память переводов
- Treebank
- Закон Ципфа
Ссылки [ править ]
- ^ Yoon, H., & Hirvela, A. (2004). Отношение студентов ESL к использованию корпуса в письме второго уровня . Журнал написания на втором языке, 13 (4), 257–283. Проверено 21 марта 2012 года.
- ^ Wołk, K .; Марасек, К. (7 апреля 2014 г.). «Метод выравнивания на основе значений предложений для подготовки корпусов параллельных текстов». Достижения в интеллектуальных системах и вычислениях . Springer. 275 : 107–114. arXiv : 1509.09090 . DOI : 10.1007 / 978-3-319-05951-8_11 . ISBN 978-3-319-05950-1. ISSN 2194-5357 . S2CID 15361632 .
- ^ Wołk, K .; Марасек, К. (2015). «Настроенный параллельный анализ данных с ускорением на GPU от сопоставимых корпусов». Конспект лекций по искусственному интеллекту . Springer: 32–40. arXiv : 1509.08639 . ISBN 978-3-319-24032-9.
Внешние ссылки [ править ]
- ACL SIGLEX ссылки Ресурс: Текст Corpora архивации 2013-08-13 в Wayback Machine
- Развитие языковых корпусов: руководство по передовой практике
- Бесплатные образцы (не бесплатно), веб-корпуса (45-425 миллионов слов каждый): американский (COCA, COHA, TIME), британский (BNC), испанский, португальский
- Intercorp Building синхронные параллельные корпуса языков, преподаваемых на факультете искусств Карлова университета.
- Sketch Engine: открытые корпуса со свободным доступом
- TS Corpus - Турецкий корпус, свободно доступный для академических исследований.
- Турецкий национальный корпус - универсальный корпус для современного турецкого языка.
- Корпус политических выступлений , свободный доступ к политическим выступлениям американских и китайских политиков, разработанный библиотекой Гонконгского баптистского университета
- Русский Национальный Корпус