Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В лингвистике и языковых технологиях языковой ресурс - это «[состав] лингвистического материала, используемого при построении, улучшении и / или оценке приложений обработки языка, (...) в языковых и опосредованных языком исследованиях и приложениях». [1]

Согласно Bird & Simons (2003), [2] сюда входят

  1. данные, то есть «любая информация, которая документирует или описывает язык, такая как опубликованная монография, файл компьютерных данных или даже коробка из-под обуви, полная рукописных учетных карточек. Информация может варьироваться по содержанию от неанализированных звукозаписей до полностью расшифрованных и аннотированных текстов. к полной описательной грамматике », [2]
  2. инструменты, т. е. «вычислительные ресурсы, которые облегчают создание, просмотр, запросы или иное использование языковых данных», [2] и
  3. совет, то есть «любая информация о том, какие источники данных являются надежными, какие инструменты подходят в данной ситуации, какие методы следует соблюдать при создании новых данных». Последний аспект обычно называют «передовой практикой» или «стандартами (сообщества)». [2]

В более узком смысле языковой ресурс специально применяется к ресурсам, которые доступны в цифровой форме, а затем «охватывают (а) наборы данных (текстовые, мультимодальные / мультимедийные и лексические данные, грамматики, языковые модели и т. Д.) В машиночитаемой форме. форма и (б) инструменты / технологии / услуги, используемые для их обработки и управления ". [1]

Типология [ править ]

По состоянию на май 2020 года широко используемая стандартная типология языковых ресурсов не была создана (текущие предложения включают LREMap , [3] METASHARE, [4] и, для данных, классификацию LLOD ). Важные классы языковых ресурсов включают

  1. данные
    1. лексические ресурсы , например, машиночитаемые словари ,
    2. лингвистические корпуса , т.е. цифровые коллекции данных на естественном языке,
    3. лингвистические базы данных, такие как коллекция кросс-лингвистических связанных данных ,
  2. инструменты
    1. лингвистические аннотации и инструменты для создания таких аннотаций в ручном или полуавтоматическом режиме (например, инструменты для аннотирования подстрочного сглаженного текста, такие как Toolbox и FLEx , или другие инструменты языковой документации ),
    2. приложения для поиска и извлечения таких данных ( системы управления корпусом ), для автоматического аннотирования ( тегирование части речи , синтаксический анализ , семантический анализ и т. д.),
  3. метаданные и словари
    1. словари, хранилища лингвистической терминологии и метаданные языка, например, MetaShare (для метаданных языковых ресурсов), [4] 12620 ISO категорий данных реестра (для лингвистических особенностей, структур данных и аннотаций в пределах языкового ресурса), [5] или в Glottolog база данных (идентификаторы языковых разновидностей и библиографическая база данных). [6]

Публикация, распространение и создание языковых ресурсов [ править ]

Основная задача сообщества языковых ресурсов заключалась в разработке инфраструктуры и платформ для представления, обсуждения и распространения языковых ресурсов. Избранные статьи в этом отношении включают:

Что касается разработки стандартов и передовой практики для языковых ресурсов, они являются предметом нескольких групп сообщества и усилий по стандартизации, в том числе

  • Технический комитет ISO 37: Терминология и другие языковые и информационные ресурсы ( ISO / TC 37 ), разработка стандартов для всех аспектов языковых ресурсов,
  • Рекомендации группы сообщества W3C для многоязычных связанных открытых данных (BPMLOD) [8], работа над рекомендациями по передовой практике публикации языковых ресурсов в виде связанных данных или в RDF ,
  • Связанные данные группы сообщества W3C для языковых технологий (LD4LT) [9], работа над лингвистическими аннотациями в сети и метаданными языковых ресурсов,
  • Группа сообщества W3C Ontology-Lexica ( OntoLex ), [10] работает над лексическими ресурсами,
  • рабочая группа по открытой лингвистике Фонда открытых знаний , работающая над соглашениями для публикации и связывания открытых языковых ресурсов, разрабатывающая облако Linguistic Linked Open Data , [11]
  • Text Encoding Initiative (TEI) , [12] работает на XML -На спецификации языковых ресурсов и в цифровой форме отредактированный текст.

Ссылки [ править ]

  1. ^ a b LD4LT (2020), Онтология Metashare, созданная группой сообщества LD4LT , Связанные данные группы сообщества W3C для языковых технологий (LD4LT), ветвь разработки, версия от 10 марта 2020 г.
  2. ^ a b c d Птица, Стивен; Саймонс, Гэри (2003-11-01). «Расширение метаданных Dublin Core для поддержки описания и обнаружения языковых ресурсов». Компьютеры и гуманитарные науки . 37 (4): 375–388. arXiv : cs / 0308022 . Bibcode : 2003cs ........ 8022B . DOI : 10,1023 / A: 1025720518994 . ISSN  1572-8412 . S2CID  5969663 .
  3. ^ Calzolari Н., Дель Gratta, Р., Francopoulo Г., Mariani, J., Rubino, Ф. Руссо, И. & Сория, C. (2012, май). Карта ЖРД. Гармонизация описания ресурсов сообществом . В LREC (стр. 1084-1089).
  4. ^ a b МакКрэй, Джон П .; Лабропулу, Пенни; Грация, Хорхе; Виллегас, Марта; Родригес-Донсель, Виктор; Чимиано, Филипп (2015). Гандон, Фабьен; Гере, Кристоф; Виллата, Серена; Бреслин, Джон; Фарон-Цукер, Кэтрин; Циммерманн, Антуан (ред.). «Одна онтология, чтобы связать их всех: онтология META-SHARE OWL для взаимодействия наборов лингвистических данных в Интернете» . Семантическая сеть: События сателлита ESWC 2015 . Конспект лекций по информатике. Чам: Издательство Springer International. 9341 : 271–282. DOI : 10.1007 / 978-3-319-25639-9_42 . ISBN 978-3-319-25639-9.
  5. ^ Kemps-Снайдерс, М., Windhouwer, М., Wittenburg П., и Райт, SE (2008). ISOcat: поиск категорий данных в дикой природе . На 6-й Международной конференции по языковым ресурсам и оценке (LREC 2008) .
  6. ^ Nordhoff, Себастьян (2012), Chiarcos, Christian; Нордхофф, Себастьян; Хеллманн, Себастьян (ред.), «Связанные данные для исследования языкового разнообразия: Glottolog / Langdoc и ASJP Online», Связанные данные в лингвистике: представление и соединение языковых данных и языковых метаданных , Springer, стр. 191–200, doi : 10.1007 / 978-3-642-28249-2_18 , ISBN 978-3-642-28249-2
  7. ^ «Языковые ресурсы и оценка» . Springer . Проверено 13 мая 2020 .
  8. ^ «Лучшие практики для многоязычной группы сообщества связанных открытых данных» . www.w3.org . Проверено 13 мая 2020 .
  9. ^ «Связанные данные для группы сообщества языковых технологий» . www.w3.org . Проверено 13 мая 2020 .
  10. ^ "Группа сообщества Ontology-Lexica" . www.w3.org . Проверено 13 мая 2020 .
  11. ^ «Открытые лингвистические данные» .
  12. ^ "TEI: Инициатива кодирования текста" . tei-c.org . Проверено 13 мая 2020 .