Лингвистические категории

Лингвистические категории включают

Лексическая категория , часть речи, такая как существительное , предлог и т. Д.
Синтаксическая категория , аналогичное понятие, которое также может включать фразовые категории.
Грамматическая категория , грамматическая особенность, такая как время , род и т. Д.

Определение лингвистических категорий является главной задачей лингвистической теории , и, таким образом, определение и наименование категорий варьируются в зависимости от теоретических основ и грамматических традиций для разных языков. Операционализации языковых категорий в лексикографии , компьютерной лингвистики , обработки естественного языка , корпусная лингвистика и управления терминологией , как правило , требует значительных ресурсов, проблемно или приложения конкретных определений лингвистических категорий. В когнитивной лингвистике утверждалось, что лингвистические категории имеют структуру прототипа.как категории общих слов в языке. ^[1]

Инвентаризация лингвистических категорий

Чтобы облегчить взаимодействие между лексическими ресурсами , лингвистическими аннотациями и инструментами аннотации, а также для систематической обработки лингвистических категорий в различных теоретических рамках, был разработан и используется ряд перечней лингвистических категорий с примерами, приведенными ниже. Практическая цель таких инвентаризаций состоит в том, чтобы выполнить количественную оценку (для инвентаризаций конкретных языков), обучить инструменты НЛП или облегчить кросс-лингвистическую оценку, запрос или аннотацию языковых данных. На теоретическом уровне существование универсальных категорий в человеческом языке постулировалось, например, в Универсальной грамматике , но также подвергалось резкой критике .

Наборы тегов части речи

В школах обычно учат, что в английском языке есть 9 частей речи : существительное , глагол , артикль , прилагательное , предлог , местоимение , наречие , союз и междометие . Однако явно существует гораздо больше категорий и подкатегорий. Для существительных можно различать формы множественного, притяжательного и единственного числа. Во многих языках слова также помечаются по их « падежу » (роль субъекта, объекта и т. Д.), Грамматическому роду и т. Д.; в то время как глаголы отмечены для времени , вида и прочего. В некоторых системах тегов разные склонения одного и того же корневого слова получают разные части речи, что приводит к большому количеству тегов. Например, NN для существительных в единственном числе, NNS для существительных во множественном числе, NP для имен собственных в единственном числе (см. Теги POS, используемые в Brown Corpus). Другие системы тегов используют меньшее количество тегов и игнорируют мелкие различия или моделируют их как функции, несколько независимые от части речи. ^[2]

При компьютерной разметке части речи обычно выделяют от 50 до 150 отдельных частей речи для английского языка. Работа с тегами POS выполняется на разных языках, и набор используемых тегов POS сильно зависит от языка. Теги обычно предназначены для включения явных морфологических различий, хотя это приводит к несоответствиям, таким как регистр для местоимений, но не существительных в английском языке, и к гораздо большим межъязыковым различиям. Наборы тегов для языков с сильным изменением, таких как греческий и латинский, могут быть очень большими; пометить слова на агглютинативных языках, таких как языки инуитов, может быть практически невозможно. Работа над стохастическими методами маркировки греческого койне (DeRose 1990) использовала более 1000 частей речи и обнаружила, что примерно столько же слов на этом языке неоднозначно , как и в английском. Морфосинтаксический дескриптор в случае морфологически богатых языков обычно выражается с помощью очень коротких мнемоник, таких как Ncmsan для Категория = Существительное, Тип = общий, Пол = мужской, Число = единственное число, Регистр = винительный падеж, Анимация = нет.

Самым популярным «набором тегов» для POS-тегов для американского английского, вероятно, является набор тегов Penn, разработанный в проекте Penn Treebank.

Многоязычные схемы аннотаций

Для западноевропейских языков схемы аннотаций, применимые к различным языкам, для частей речи, морфосинтаксиса и синтаксиса были разработаны с Руководством Eagles . Рекомендации Eagles вдохновили на последующую работу и в других регионах, например, в Восточной Европе. ^[3]

Петров и др. ^[4]^[5] предложили «универсальный», но в высшей степени редукционистский набор тегов с 12 категориями (например, без подтипов существительных, глаголов, знаков препинания и т. Д .; без различия «to» в качестве маркера инфинитива и .предлог (вряд ли "универсальное" совпадение) и т. д.). Впоследствии это было дополнено кросс-языковыми спецификациями синтаксиса зависимостей (Stanford Dependencies) ^[6] и морфосинтаксиса (Interset interlingua, ^[7], частично основанного на традиции Multext-East / Eagles) в контексте универсальных зависимостей (UD ), международный совместный проект по созданию древовидных групп языков мира с кросс-лингвистически применимыми («универсальными») аннотациями для частей речи, синтаксисом зависимости и (необязательно) морфосинтаксическими (морфологическими) функциями. Основные приложения - это автоматическая обработка текста в области обработки естественного языка (НЛП) и исследования синтаксиса и грамматики естественного языка, особенно в рамках лингвистической типологии . Схема аннотации уходит корнями в три связанных проекта: Схема аннотации UD использует представление в виде деревьев зависимостей, а не деревьев структур фраз . По состоянию на февраль 2019 года в инвентаре UD доступно чуть более 100 групп деревьев на более чем 70 языках. ^[8] Основная цель проекта - добиться кросс-лингвистической согласованности аннотаций. Однако для морфологических функций разрешены языковые расширения (отдельные языки или ресурсы могут вводить дополнительные функции). В более ограниченной форме отношения зависимости могут быть расширены с помощью вторичной метки, которая сопровождает метку UD, например, aux: pass для вспомогательной (UD aux ), используемой для маркировки пассивного голоса. ^[9]

Универсальные зависимости вдохновили аналогичные усилия на области флективной морфологии ^[10] семантики фреймов ^[11] и кореферентности . ^[12] Для синтаксиса структуры фраз сопоставимых усилий, похоже, не существует, но спецификации Penn Treebank были применены (и расширены) для широкого диапазона языков, ^[13] например, исландского, ^[14] Старого Английский, ^[15] Среднеанглийский, ^[16] Среднеанглийский, ^[17] Высокий немецкий, ^[18] Идиш, ^[19] Португальский, ^[20] Японский, ^[21] Арабский ^[22] и Китайский. ^[23]

Условные обозначения для подстрочных блесков

В лингвистике подстрочный глянец - это глянец (серия кратких объяснений, таких как определения или произношения), помещенный между строками ( межстрочный + линейный ), например, между строкой исходного текста и его переводом на другой язык . При сглаживании каждая строка исходного текста приобретает одну или несколько строк транскрипции, известных как подстрочный текст или подстрочный сглаженный текст (IGT) - для краткости межстрочный. Такие глоссы помогают читателю проследить взаимосвязь между исходным текстом и его переводом, а также структуру исходного языка. Стандартного инвентаря глянцевых материалов нет, но общие этикетки собраны в Лейпцигских правилах глянцевания. ^{[24] В} Википедии также есть Список сокращенных сокращений , основанный на этом и других источниках.

Общая онтология лингвистического описания (GOLD)

GOLD ( «Общая Онтология для лингвистического описания») является онтологией для дескриптивной лингвистики . Он дает формализованный отчет о самых основных категориях и отношениях, используемых в научном описании человеческого языка, например, как формализация подстрочных толкований. GOLD был впервые представлен Фарраром и Лангендоеном (2003). ^[25] Первоначально это было задумано как решение проблемы устранения несопоставимых схем разметки для лингвистических данных, в частности данных с языков, находящихся под угрозой исчезновения . Однако GOLD гораздо более общий язык и может применяться ко всем языкам. В этой функции GOLD пересекается с реестром категорий данных ISO 12620 (ISOcat), однако он имеет более строгую структуру.

GOLD поддерживался LINGUIST List и другими с 2007 по 2010 год. ^[26] В рамках проекта RELISH было создано зеркало GOLD выпуска 2010 года в виде выбора категории данных в ISOcat. По состоянию на 2018 год данные GOLD остаются важным терминологическим центром в контексте облака Linguistic Linked Open Data , но, поскольку оно больше не поддерживается активно, его функции все чаще заменяются OLiA (для лингвистической аннотации, основанной на GOLD и ISOcat) и lexinfo.net (для метаданных словаря, на основе ISOcat).

ISO 12620 (Реестр категорий данных ISO TC37, ISOcat)

ISO 12620 является стандарт от ISO / TC 37 определяет реестра для регистрации лингвистических терминов , используемых в различных областях перевода , компьютерной лингвистике и обработки естественного языка и определения отображения как между различными условиями и тех же терминов , используемых в различных системах. Более ранняя версия этой системы, ISOcat, предоставляет постоянные идентификаторы и URI для лингвистических категорий, включая перечень онтологии GOLD (см. Ниже). С 2014 года активно не развивается. ^[27] По состоянию на май 2020 года системы-преемники, CLARIN Concept Registry ^[28] и DatCatInfo ^[29] только появляются.

Для лингвистических категорий, относящихся к лексическим ресурсам , словарь lexinfo представляет собой установленный стандарт сообщества ^[30], в частности, в связи со словарем OntoLex и машиночитаемыми словарями в контексте технологий Linguistic Linked Open Data . Подобно словарю OntoLex, основанному на Lexical Markup Framework (LMF), lexinfo основывается на (LMF-разделе) ISOcat. ^{[31] Однако, в} отличие от ISOcat, lexinfo активно поддерживается и в настоящее время (май 2020 г.) расширяется силами сообщества. ^[32]

Онтологии лингвистической аннотации (OLiA)

По духу аналогичные GOLD, онтологии лингвистической аннотации (OLiA) предоставляют справочный перечень лингвистических категорий для синтаксических, морфологических и семантических явлений, относящихся к лингвистической аннотации и лингвистическим корпусам в форме онтологии . Кроме того, они также предоставляют машиночитаемые схемы аннотаций для более чем 100 языков, связанные с эталонной моделью OLiA. ^[33] Онтологии OLiA представляют собой основной центр терминологии аннотаций в (лингвистическом) облаке связанных открытых данных с приложениями для поиска, извлечения и машинного обучения с использованием разнородно аннотированных языковых ресурсов. ^[31]

В дополнение к схемам аннотаций, эталонная модель OLiA также связана с рекомендациями Eagles, ^[34] GOLD, ^[34] ISOcat, ^[35] CLARIN Concept Registry, ^[36] Universal Dependencies, ^[37] lexinfo, ^{[37] и} т. Д. ., они, таким образом, обеспечивают возможность взаимодействия между этими словарями. OLiA разрабатывается как проект сообщества на GitHub ^[38]

Внешние ссылки

Лейпцигские правила глянцевания
ЗОЛОТАЯ онтология
ISOcat

[Taylor1995p21-1] Джон Р. Тейлор (1995) Лингвистическая категоризация: прототипы в лингвистической теории , 2-е изд., Глава 2, стр.21

[universal-2] Универсальные теги POS

[3] Dimitrova, Л., Ида, Н., Petkevic, В., Erjavec, Т., Каалеп, HJ, & Tufis, D. (1998, август). Multext-east: параллельные и сопоставимые корпуса и лексиконы для шести языков Центральной и Восточной Европы . В материалах 17-й международной конференции по компьютерной лингвистике, том 1 (стр. 315-319). Ассоциация компьютерной лингвистики.

[4] Петров, славянин; Дас, Дипанджан; Макдональд, Райан (11 апреля 2011 г.). «Универсальный набор тегов для части речи». arXiv : 1104.2086 [ cs.CL ].

[5] Петров, Славянин (11 апреля 2011 г.). «Универсальный набор тегов для части речи». arXiv : 1104.2086 [ cs.CL ].

[6] «Стэнфордские зависимости» . nlp.stanford.edu . Стэнфордская группа обработки естественного языка . Дата обращения 8 мая 2020 . CS1 maint: обескураженный параметр ( ссылка )

[7] «Интерсет» . cuni.cz . Институт формальной и прикладной лингвистики (Чехия) . Дата обращения 8 мая 2020 . CS1 maint: обескураженный параметр ( ссылка )

[8] «Универсальные зависимости» . universaldependencies.org . Проверено 14 мая 2020 .

[9] "aux: pass" . universaldependencies.org . Проверено 14 мая 2020 .

[10] UniMorph. «UniMorph: универсальная морфологическая аннотация» . UniMorph . Проверено 14 мая 2020 .

[11] System-T / UniversalPropositions , System-T, 14 мая 2020 г. , получено 14 мая 2020 г.

[12] Прейндж J., Шнайдер, Н., & Абенд, О. (2019, август). Семантически ограниченная многослойная аннотация: случай кореферентности . В материалах Первого международного семинара по проектированию смысловых представлений (стр. 164-176).

[13] «Пенн разбирает корпуса исторического английского языка: другие корпуса» . www.ling.upenn.edu . Проверено 14 мая 2020 .

[14] «Исландский анализируемый исторический корпус (IcePaHC)» . www.linguist.is . Проверено 14 мая 2020 .

[15] Уорнер, Энтони, факультет языка и лингвистических наук Йоркского университета; Тейлор, Энн; Уорнер, Энтони; Пинцук, Сьюзен; Бетс, Франк (сентябрь 2003 г.). "Йорк-Торонто-Хельсинки Синтаксический анализ древнеанглийской прозы (YCOE)" . Цитировать журнал требует |journal=( помощь )

[16] "Penn-Helsinki Parsed Corpus среднеанглийского 2" . www.ling.upenn.edu . Проверено 14 мая 2020 .

[17] "Корпус исторического нижненемецкого языка" . www.chlg.ac.uk . Проверено 14 мая 2020 .

[18] Перейти ↑ Light, C., & Wallenberg, J. (2011). Об использовании пассивных умений в германском языке. Представлено на 13-м заседании конференции по диахронному генеративному синтаксису (DIGS) DIGS 13, Университет Пенсильвании. 5 июня 2011 г.

[19] Беатрис Санторини (1993) [./ Ftp://babel.ling.upenn.edu/papers/faculty/beatrice%20santorini/santorini-1993.pdf Скорость изменения структуры фраз в истории идиш]. Изменение и изменение языка 5, 257-283.

[20] "Проект Тихо Браге" . www.tycho.iel.unicamp.br . Проверено 14 мая 2020 .

[21] «NPCMJ - Ninjal Parsed Corpus современного японского языка» . Проверено 14 мая 2020 .

[22] "Arabic Treebank: Часть 3 (полный корпус) v 2.0 (MPG + синтаксический анализ) - Консорциум лингвистических данных" . catalog.ldc.upenn.edu . Проверено 14 мая 2020 .

[23] "Проект Penn Chinese Treebank" . verbs.colorado.edu . Проверено 14 мая 2020 .

[:0-24] Перейти ↑ Comrie, B., Haspelmath, M., & Bickel, B. (2008). Лейпцигские правила глянцевания: Соглашения для подстрочных морфем-за-морфемным глоссами . Кафедра лингвистики Института эволюционной антропологии Макса Планка и кафедра лингвистики Лейпцигского университета. Проверено январь , 28 , 2010.

[25] Скотт Фаррар и Д. Теренс Лангендоэн (2003) «Лингвистическая онтология для семантической сети». GLOT International. 7 (3), pp.97-100, [1] .

[26] ЗОЛОТОЙ версии

[27] «Репозиторий категорий данных (DCR) изменил адрес» . www.iso.org . Проверено 8 мая 2020 .

[28] "Реестр концепций CLARIN | КЛАРИН ЭРИК" . www.clarin.eu . Проверено 8 мая 2020 .

[29] «DatCatInfo» . www.datcatinfo.net . Проверено 8 мая 2020 .

[30] «ЛексИнфо» . www.lexinfo.net . Проверено 14 мая 2020 .

[Cimiano,_P._2020_pp._137-160-31] Чимиано, П., Кьяркос, К., МакКрэй, Дж. П., и Грасиа, Дж. (2020). Лингвистические связанные данные (стр. 137-160). Спрингер, Чам.

[32] Ontolex / lexinfo , Группа сообщества OntoLex , 07 марта 2020 г. , получено 14 мая 2020 г.

[33] «Онтологии OLiA» . purl.org/olia . Проверено 14 мая 2020 .

[:1-34] Chiarcos, C. (2008). Онтология лингвистических аннотаций . В LDV Forum (Том 23, № 1, стр. 1–16).

[35] Chiarcos, C. (2010, май). Обоснование онтологии лингвистических аннотаций в Реестре категорий данных . В семинаре LREC 2010 по языковым ресурсам и стандартам языковых технологий (LT и LTS), Валетта, Мальта (стр. 37-40).

[36] Рем, Г., Галанис, Д., Лабропулу, П., Пиперидис, С., Велсс, М., Усбек, Р. и др. (2020). На пути к взаимодействующей экосистеме платформ AI и LT: дорожная карта для реализации различных уровней взаимодействия. Препринт arXiv arXiv: 2004.08355 .

[:2-37] Кристиан Чиаркос, Максим Ионов и Кристиан Фэт (2020), Совместимость аннотаций в эпоху пост-ISOcat, LREC 2020

[38] -repo / olia , ACoLi, 10 марта 2020 г. , дата обращения 14 мая 2020 г.

[1]