Лингвистические категории включают
- Лексическая категория , часть речи, такая как существительное , предлог и т. Д.
- Синтаксическая категория , аналогичное понятие, которое также может включать фразовые категории.
- Грамматическая категория , грамматическая особенность, такая как время , род и т. Д.
Определение лингвистических категорий является главной задачей лингвистической теории , и, таким образом, определение и наименование категорий варьируются в зависимости от теоретических основ и грамматических традиций для разных языков. Операционализации языковых категорий в лексикографии , компьютерной лингвистики , обработки естественного языка , корпусная лингвистика и управления терминологией , как правило , требует значительных ресурсов, проблемно или приложения конкретных определений лингвистических категорий. В когнитивной лингвистике утверждалось, что лингвистические категории имеют структуру прототипа.как категории общих слов в языке. [1]
Инвентаризация лингвистических категорий
Чтобы облегчить взаимодействие между лексическими ресурсами , лингвистическими аннотациями и инструментами аннотации, а также для систематической обработки лингвистических категорий в различных теоретических рамках, был разработан и используется ряд перечней лингвистических категорий с примерами, приведенными ниже. Практическая цель таких инвентаризаций состоит в том, чтобы выполнить количественную оценку (для инвентаризаций конкретных языков), обучить инструменты НЛП или облегчить кросс-лингвистическую оценку, запрос или аннотацию языковых данных. На теоретическом уровне существование универсальных категорий в человеческом языке постулировалось, например, в Универсальной грамматике , но также подвергалось резкой критике .
Наборы тегов части речи
В школах обычно учат, что в английском языке есть 9 частей речи : существительное , глагол , артикль , прилагательное , предлог , местоимение , наречие , союз и междометие . Однако явно существует гораздо больше категорий и подкатегорий. Для существительных можно различать формы множественного, притяжательного и единственного числа. Во многих языках слова также помечаются по их « падежу » (роль субъекта, объекта и т. Д.), Грамматическому роду и т. Д.; в то время как глаголы отмечены для времени , вида и прочего. В некоторых системах тегов разные склонения одного и того же корневого слова получают разные части речи, что приводит к большому количеству тегов. Например, NN для существительных в единственном числе, NNS для существительных во множественном числе, NP для имен собственных в единственном числе (см. Теги POS, используемые в Brown Corpus). Другие системы тегов используют меньшее количество тегов и игнорируют мелкие различия или моделируют их как функции, несколько независимые от части речи. [2]
При компьютерной разметке части речи обычно выделяют от 50 до 150 отдельных частей речи для английского языка. Работа с тегами POS выполняется на разных языках, и набор используемых тегов POS сильно зависит от языка. Теги обычно предназначены для включения явных морфологических различий, хотя это приводит к несоответствиям, таким как регистр для местоимений, но не существительных в английском языке, и к гораздо большим межъязыковым различиям. Наборы тегов для языков с сильным изменением, таких как греческий и латинский, могут быть очень большими; пометить слова на агглютинативных языках, таких как языки инуитов, может быть практически невозможно. Работа над стохастическими методами маркировки греческого койне (DeRose 1990) использовала более 1000 частей речи и обнаружила, что примерно столько же слов на этом языке неоднозначно , как и в английском. Морфосинтаксический дескриптор в случае морфологически богатых языков обычно выражается с помощью очень коротких мнемоник, таких как Ncmsan для Категория = Существительное, Тип = общий, Пол = мужской, Число = единственное число, Регистр = винительный падеж, Анимация = нет.
Самым популярным «набором тегов» для POS-тегов для американского английского, вероятно, является набор тегов Penn, разработанный в проекте Penn Treebank.
Многоязычные схемы аннотаций
Для западноевропейских языков схемы аннотаций, применимые к различным языкам, для частей речи, морфосинтаксиса и синтаксиса были разработаны с Руководством Eagles . Рекомендации Eagles вдохновили на последующую работу и в других регионах, например, в Восточной Европе. [3]
Петров и др. [4] [5] предложили «универсальный», но в высшей степени редукционистский набор тегов с 12 категориями (например, без подтипов существительных, глаголов, знаков препинания и т. Д .; без различия «to» в качестве маркера инфинитива и .предлог (вряд ли "универсальное" совпадение) и т. д.). Впоследствии это было дополнено кросс-языковыми спецификациями синтаксиса зависимостей (Stanford Dependencies) [6] и морфосинтаксиса (Interset interlingua, [7], частично основанного на традиции Multext-East / Eagles) в контексте универсальных зависимостей (UD ), международный совместный проект по созданию древовидных групп языков мира с кросс-лингвистически применимыми («универсальными») аннотациями для частей речи, синтаксисом зависимости и (необязательно) морфосинтаксическими (морфологическими) функциями. Основные приложения - это автоматическая обработка текста в области обработки естественного языка (НЛП) и исследования синтаксиса и грамматики естественного языка, особенно в рамках лингвистической типологии . Схема аннотации уходит корнями в три связанных проекта: Схема аннотации UD использует представление в виде деревьев зависимостей, а не деревьев структур фраз . По состоянию на февраль 2019 года в инвентаре UD доступно чуть более 100 групп деревьев на более чем 70 языках. [8] Основная цель проекта - добиться кросс-лингвистической согласованности аннотаций. Однако для морфологических функций разрешены языковые расширения (отдельные языки или ресурсы могут вводить дополнительные функции). В более ограниченной форме отношения зависимости могут быть расширены с помощью вторичной метки, которая сопровождает метку UD, например, aux: pass для вспомогательной (UD aux ), используемой для маркировки пассивного голоса. [9]
Универсальные зависимости вдохновили аналогичные усилия на области флективной морфологии [10] семантики фреймов [11] и кореферентности . [12] Для синтаксиса структуры фраз сопоставимых усилий, похоже, не существует, но спецификации Penn Treebank были применены (и расширены) для широкого диапазона языков, [13] например, исландского, [14] Старого Английский, [15] Среднеанглийский, [16] Среднеанглийский, [17] Высокий немецкий, [18] Идиш, [19] Португальский, [20] Японский, [21] Арабский [22] и Китайский. [23]
Условные обозначения для подстрочных блесков
В лингвистике подстрочный глянец - это глянец (серия кратких объяснений, таких как определения или произношения), помещенный между строками ( межстрочный + линейный ), например, между строкой исходного текста и его переводом на другой язык . При сглаживании каждая строка исходного текста приобретает одну или несколько строк транскрипции, известных как подстрочный текст или подстрочный сглаженный текст (IGT) - для краткости межстрочный. Такие глоссы помогают читателю проследить взаимосвязь между исходным текстом и его переводом, а также структуру исходного языка. Стандартного инвентаря глянцевых материалов нет, но общие этикетки собраны в Лейпцигских правилах глянцевания. [24] В Википедии также есть Список сокращенных сокращений , основанный на этом и других источниках.
Общая онтология лингвистического описания (GOLD)
GOLD ( «Общая Онтология для лингвистического описания») является онтологией для дескриптивной лингвистики . Он дает формализованный отчет о самых основных категориях и отношениях, используемых в научном описании человеческого языка, например, как формализация подстрочных толкований. GOLD был впервые представлен Фарраром и Лангендоеном (2003). [25] Первоначально это было задумано как решение проблемы устранения несопоставимых схем разметки для лингвистических данных, в частности данных с языков, находящихся под угрозой исчезновения . Однако GOLD гораздо более общий язык и может применяться ко всем языкам. В этой функции GOLD пересекается с реестром категорий данных ISO 12620 (ISOcat), однако он имеет более строгую структуру.
GOLD поддерживался LINGUIST List и другими с 2007 по 2010 год. [26] В рамках проекта RELISH было создано зеркало GOLD выпуска 2010 года в виде выбора категории данных в ISOcat. По состоянию на 2018 год данные GOLD остаются важным терминологическим центром в контексте облака Linguistic Linked Open Data , но, поскольку оно больше не поддерживается активно, его функции все чаще заменяются OLiA (для лингвистической аннотации, основанной на GOLD и ISOcat) и lexinfo.net (для метаданных словаря, на основе ISOcat).
ISO 12620 (Реестр категорий данных ISO TC37, ISOcat)
ISO 12620 является стандарт от ISO / TC 37 определяет реестра для регистрации лингвистических терминов , используемых в различных областях перевода , компьютерной лингвистике и обработки естественного языка и определения отображения как между различными условиями и тех же терминов , используемых в различных системах. Более ранняя версия этой системы, ISOcat, предоставляет постоянные идентификаторы и URI для лингвистических категорий, включая перечень онтологии GOLD (см. Ниже). С 2014 года активно не развивается. [27] По состоянию на май 2020 года системы-преемники, CLARIN Concept Registry [28] и DatCatInfo [29] только появляются.
Для лингвистических категорий, относящихся к лексическим ресурсам , словарь lexinfo представляет собой установленный стандарт сообщества [30], в частности, в связи со словарем OntoLex и машиночитаемыми словарями в контексте технологий Linguistic Linked Open Data . Подобно словарю OntoLex, основанному на Lexical Markup Framework (LMF), lexinfo основывается на (LMF-разделе) ISOcat. [31] Однако, в отличие от ISOcat, lexinfo активно поддерживается и в настоящее время (май 2020 г.) расширяется силами сообщества. [32]
Онтологии лингвистической аннотации (OLiA)
По духу аналогичные GOLD, онтологии лингвистической аннотации (OLiA) предоставляют справочный перечень лингвистических категорий для синтаксических, морфологических и семантических явлений, относящихся к лингвистической аннотации и лингвистическим корпусам в форме онтологии . Кроме того, они также предоставляют машиночитаемые схемы аннотаций для более чем 100 языков, связанные с эталонной моделью OLiA. [33] Онтологии OLiA представляют собой основной центр терминологии аннотаций в (лингвистическом) облаке связанных открытых данных с приложениями для поиска, извлечения и машинного обучения с использованием разнородно аннотированных языковых ресурсов. [31]
В дополнение к схемам аннотаций, эталонная модель OLiA также связана с рекомендациями Eagles, [34] GOLD, [34] ISOcat, [35] CLARIN Concept Registry, [36] Universal Dependencies, [37] lexinfo, [37] и т. Д. ., они, таким образом, обеспечивают возможность взаимодействия между этими словарями. OLiA разрабатывается как проект сообщества на GitHub [38]
Рекомендации
- ^ Джон Р. Тейлор (1995) Лингвистическая категоризация: прототипы в лингвистической теории , 2-е изд., Глава 2, стр.21
- ^ Универсальные теги POS
- ^ Dimitrova, Л., Ида, Н., Petkevic, В., Erjavec, Т., Каалеп, HJ, & Tufis, D. (1998, август). Multext-east: параллельные и сопоставимые корпуса и лексиконы для шести языков Центральной и Восточной Европы . В материалах 17-й международной конференции по компьютерной лингвистике, том 1 (стр. 315-319). Ассоциация компьютерной лингвистики.
- ^ Петров, славянин; Дас, Дипанджан; Макдональд, Райан (11 апреля 2011 г.). «Универсальный набор тегов для части речи». arXiv : 1104.2086 [ cs.CL ].
- ^ Петров, Славянин (11 апреля 2011 г.). «Универсальный набор тегов для части речи». arXiv : 1104.2086 [ cs.CL ].
- ^ «Стэнфордские зависимости» . nlp.stanford.edu . Стэнфордская группа обработки естественного языка . Дата обращения 8 мая 2020 . CS1 maint: обескураженный параметр ( ссылка )
- ^ «Интерсет» . cuni.cz . Институт формальной и прикладной лингвистики (Чехия) . Дата обращения 8 мая 2020 . CS1 maint: обескураженный параметр ( ссылка )
- ^ «Универсальные зависимости» . universaldependencies.org . Проверено 14 мая 2020 .
- ^ "aux: pass" . universaldependencies.org . Проверено 14 мая 2020 .
- ^ UniMorph. «UniMorph: универсальная морфологическая аннотация» . UniMorph . Проверено 14 мая 2020 .
- ^ System-T / UniversalPropositions , System-T, 14 мая 2020 г. , получено 14 мая 2020 г.
- ^ Прейндж J., Шнайдер, Н., & Абенд, О. (2019, август). Семантически ограниченная многослойная аннотация: случай кореферентности . В материалах Первого международного семинара по проектированию смысловых представлений (стр. 164-176).
- ^ «Пенн разбирает корпуса исторического английского языка: другие корпуса» . www.ling.upenn.edu . Проверено 14 мая 2020 .
- ^ «Исландский анализируемый исторический корпус (IcePaHC)» . www.linguist.is . Проверено 14 мая 2020 .
- ^ Уорнер, Энтони, факультет языка и лингвистических наук Йоркского университета; Тейлор, Энн; Уорнер, Энтони; Пинцук, Сьюзен; Бетс, Франк (сентябрь 2003 г.). "Йорк-Торонто-Хельсинки Синтаксический анализ древнеанглийской прозы (YCOE)" . Цитировать журнал требует
|journal=
( помощь ) - ^ "Penn-Helsinki Parsed Corpus среднеанглийского 2" . www.ling.upenn.edu . Проверено 14 мая 2020 .
- ^ "Корпус исторического нижненемецкого языка" . www.chlg.ac.uk . Проверено 14 мая 2020 .
- Перейти ↑ Light, C., & Wallenberg, J. (2011). Об использовании пассивных умений в германском языке. Представлено на 13-м заседании конференции по диахронному генеративному синтаксису (DIGS) DIGS 13, Университет Пенсильвании. 5 июня 2011 г.
- ^ Беатрис Санторини (1993) [./ Ftp://babel.ling.upenn.edu/papers/faculty/beatrice%20santorini/santorini-1993.pdf Скорость изменения структуры фраз в истории идиш]. Изменение и изменение языка 5, 257-283.
- ^ "Проект Тихо Браге" . www.tycho.iel.unicamp.br . Проверено 14 мая 2020 .
- ^ «NPCMJ - Ninjal Parsed Corpus современного японского языка» . Проверено 14 мая 2020 .
- ^ "Arabic Treebank: Часть 3 (полный корпус) v 2.0 (MPG + синтаксический анализ) - Консорциум лингвистических данных" . catalog.ldc.upenn.edu . Проверено 14 мая 2020 .
- ^ "Проект Penn Chinese Treebank" . verbs.colorado.edu . Проверено 14 мая 2020 .
- Перейти ↑ Comrie, B., Haspelmath, M., & Bickel, B. (2008). Лейпцигские правила глянцевания: Соглашения для подстрочных морфем-за-морфемным глоссами . Кафедра лингвистики Института эволюционной антропологии Макса Планка и кафедра лингвистики Лейпцигского университета. Проверено январь , 28 , 2010.
- ^ Скотт Фаррар и Д. Теренс Лангендоэн (2003) «Лингвистическая онтология для семантической сети». GLOT International. 7 (3), pp.97-100, [1] .
- ^ ЗОЛОТОЙ версии
- ^ «Репозиторий категорий данных (DCR) изменил адрес» . www.iso.org . Проверено 8 мая 2020 .
- ^ "Реестр концепций CLARIN | КЛАРИН ЭРИК" . www.clarin.eu . Проверено 8 мая 2020 .
- ^ «DatCatInfo» . www.datcatinfo.net . Проверено 8 мая 2020 .
- ^ «ЛексИнфо» . www.lexinfo.net . Проверено 14 мая 2020 .
- ^ a b Чимиано, П., Кьяркос, К., МакКрэй, Дж. П., и Грасиа, Дж. (2020). Лингвистические связанные данные (стр. 137-160). Спрингер, Чам.
- ^ Ontolex / lexinfo , Группа сообщества OntoLex , 07 марта 2020 г. , получено 14 мая 2020 г.
- ^ «Онтологии OLiA» . purl.org/olia . Проверено 14 мая 2020 .
- ^ a b Chiarcos, C. (2008). Онтология лингвистических аннотаций . В LDV Forum (Том 23, № 1, стр. 1–16).
- ^ Chiarcos, C. (2010, май). Обоснование онтологии лингвистических аннотаций в Реестре категорий данных . В семинаре LREC 2010 по языковым ресурсам и стандартам языковых технологий (LT и LTS), Валетта, Мальта (стр. 37-40).
- ^ Рем, Г., Галанис, Д., Лабропулу, П., Пиперидис, С., Велсс, М., Усбек, Р. и др. (2020). На пути к взаимодействующей экосистеме платформ AI и LT: дорожная карта для реализации различных уровней взаимодействия. Препринт arXiv arXiv: 2004.08355 .
- ^ a b Кристиан Чиаркос, Максим Ионов и Кристиан Фэт (2020), Совместимость аннотаций в эпоху пост-ISOcat, LREC 2020
- ^ acoli-repo / olia , ACoLi, 10 марта 2020 г. , дата обращения 14 мая 2020 г.
Внешние ссылки
- Лейпцигские правила глянцевания
- ЗОЛОТАЯ онтология
- ISOcat