В лингвистике и языковых технологиях языковой ресурс - это «[состав] лингвистического материала, используемого при построении, улучшении и / или оценке приложений обработки языка, (...) в языковых и опосредованных языком исследованиях и приложениях». [1]
Согласно Bird & Simons (2003), [2] сюда входят
- данные, то есть «любая информация, которая документирует или описывает язык, такая как опубликованная монография, файл компьютерных данных или даже коробка из-под обуви, полная рукописных учетных карточек. Информация может варьироваться по содержанию от неанализированных звукозаписей до полностью расшифрованных и аннотированных текстов. к полной описательной грамматике », [2]
- инструменты, т. е. «вычислительные ресурсы, которые облегчают создание, просмотр, запросы или иное использование языковых данных», [2] и
- совет, то есть «любая информация о том, какие источники данных являются надежными, какие инструменты подходят в данной ситуации, какие методы следует соблюдать при создании новых данных». Последний аспект обычно называют «передовой практикой» или «стандартами (сообщества)». [2]
В более узком смысле языковой ресурс специально применяется к ресурсам, которые доступны в цифровой форме, а затем «охватывают (а) наборы данных (текстовые, мультимодальные / мультимедийные и лексические данные, грамматики, языковые модели и т. Д.) В машиночитаемой форме. форма и (б) инструменты / технологии / услуги, используемые для их обработки и управления ". [1]
Типология [ править ]
По состоянию на май 2020 года широко используемая стандартная типология языковых ресурсов не была создана (текущие предложения включают LREMap , [3] METASHARE, [4] и, для данных, классификацию LLOD ). Важные классы языковых ресурсов включают
- данные
- лексические ресурсы , например, машиночитаемые словари ,
- лингвистические корпуса , т.е. цифровые коллекции данных на естественном языке,
- лингвистические базы данных, такие как коллекция кросс-лингвистических связанных данных ,
- инструменты
- лингвистические аннотации и инструменты для создания таких аннотаций в ручном или полуавтоматическом режиме (например, инструменты для аннотирования подстрочного сглаженного текста, такие как Toolbox и FLEx , или другие инструменты языковой документации ),
- приложения для поиска и извлечения таких данных ( системы управления корпусом ), для автоматического аннотирования ( тегирование части речи , синтаксический анализ , семантический анализ и т. д.),
- метаданные и словари
- словари, хранилища лингвистической терминологии и метаданные языка, например, MetaShare (для метаданных языковых ресурсов), [4] 12620 ISO категорий данных реестра (для лингвистических особенностей, структур данных и аннотаций в пределах языкового ресурса), [5] или в Glottolog база данных (идентификаторы языковых разновидностей и библиографическая база данных). [6]
Публикация, распространение и создание языковых ресурсов [ править ]
Основная задача сообщества языковых ресурсов заключалась в разработке инфраструктуры и платформ для представления, обсуждения и распространения языковых ресурсов. Избранные статьи в этом отношении включают:
- серия международных конференций по языковым ресурсам и оценке (LREC),
- Европейская ассоциация лингвистических ресурсов (ELRA, ЕС на основе), а также консорциум данных лингвистического (LDC, базирующиеся в США), которые представляют собой коммерческий хостинг и распространение платформу для языковых ресурсов,
- Open Языки Архивы сообщество (OLAC) , которая обеспечивает и агрегирует метаданные ресурсов языка,
- Журнал « Языковые ресурсы и оценка» (LREJ). [7]
Что касается разработки стандартов и передовой практики для языковых ресурсов, они являются предметом нескольких групп сообщества и усилий по стандартизации, в том числе
- Технический комитет ISO 37: Терминология и другие языковые и информационные ресурсы ( ISO / TC 37 ), разработка стандартов для всех аспектов языковых ресурсов,
- Рекомендации группы сообщества W3C для многоязычных связанных открытых данных (BPMLOD) [8], работа над рекомендациями по передовой практике публикации языковых ресурсов в виде связанных данных или в RDF ,
- Связанные данные группы сообщества W3C для языковых технологий (LD4LT) [9], работа над лингвистическими аннотациями в сети и метаданными языковых ресурсов,
- Группа сообщества W3C Ontology-Lexica ( OntoLex ), [10] работает над лексическими ресурсами,
- рабочая группа по открытой лингвистике Фонда открытых знаний , работающая над соглашениями для публикации и связывания открытых языковых ресурсов, разрабатывающая облако Linguistic Linked Open Data , [11]
- Text Encoding Initiative (TEI) , [12] работает на XML -На спецификации языковых ресурсов и в цифровой форме отредактированный текст.
Ссылки [ править ]
- ^ a b LD4LT (2020), Онтология Metashare, созданная группой сообщества LD4LT , Связанные данные группы сообщества W3C для языковых технологий (LD4LT), ветвь разработки, версия от 10 марта 2020 г.
- ^ a b c d Птица, Стивен; Саймонс, Гэри (2003-11-01). «Расширение метаданных Dublin Core для поддержки описания и обнаружения языковых ресурсов». Компьютеры и гуманитарные науки . 37 (4): 375–388. arXiv : cs / 0308022 . Bibcode : 2003cs ........ 8022B . DOI : 10,1023 / A: 1025720518994 . ISSN 1572-8412 . S2CID 5969663 .
- ^ Calzolari Н., Дель Gratta, Р., Francopoulo Г., Mariani, J., Rubino, Ф. Руссо, И. & Сория, C. (2012, май). Карта ЖРД. Гармонизация описания ресурсов сообществом . В LREC (стр. 1084-1089).
- ^ a b МакКрэй, Джон П .; Лабропулу, Пенни; Грация, Хорхе; Виллегас, Марта; Родригес-Донсель, Виктор; Чимиано, Филипп (2015). Гандон, Фабьен; Гере, Кристоф; Виллата, Серена; Бреслин, Джон; Фарон-Цукер, Кэтрин; Циммерманн, Антуан (ред.). «Одна онтология, чтобы связать их всех: онтология META-SHARE OWL для взаимодействия наборов лингвистических данных в Интернете» . Семантическая сеть: События сателлита ESWC 2015 . Конспект лекций по информатике. Чам: Издательство Springer International. 9341 : 271–282. DOI : 10.1007 / 978-3-319-25639-9_42 . ISBN 978-3-319-25639-9.
- ^ Kemps-Снайдерс, М., Windhouwer, М., Wittenburg П., и Райт, SE (2008). ISOcat: поиск категорий данных в дикой природе . На 6-й Международной конференции по языковым ресурсам и оценке (LREC 2008) .
- ^ Nordhoff, Себастьян (2012), Chiarcos, Christian; Нордхофф, Себастьян; Хеллманн, Себастьян (ред.), «Связанные данные для исследования языкового разнообразия: Glottolog / Langdoc и ASJP Online», Связанные данные в лингвистике: представление и соединение языковых данных и языковых метаданных , Springer, стр. 191–200, doi : 10.1007 / 978-3-642-28249-2_18 , ISBN 978-3-642-28249-2
- ^ «Языковые ресурсы и оценка» . Springer . Проверено 13 мая 2020 .
- ^ «Лучшие практики для многоязычной группы сообщества связанных открытых данных» . www.w3.org . Проверено 13 мая 2020 .
- ^ «Связанные данные для группы сообщества языковых технологий» . www.w3.org . Проверено 13 мая 2020 .
- ^ "Группа сообщества Ontology-Lexica" . www.w3.org . Проверено 13 мая 2020 .
- ^ «Открытые лингвистические данные» .
- ^ "TEI: Инициатива кодирования текста" . tei-c.org . Проверено 13 мая 2020 .