Лингвистически связанные открытые данные

В области обработки естественного языка , лингвистики и смежных областях Linguistic Linked Open Data (LLOD) описывает метод и междисциплинарное сообщество, занимающееся созданием, совместным использованием и (повторным) использованием языковых ресурсов в соответствии с принципами связанных данных . Лингвистического Linked Open Data Cloud был задуман и поддерживается с помощью открытой рабочей группы лингвистики (OWLG) из Фонда Открытых знаний , но был пункт очаговой активности в течение нескольких W3C общественных групп, научно - исследовательские проектов, а также усилий инфраструктуры с тех пор.

Определение и развитие [ править ]

Облако LLOD (24 мая 2016 г.)

Linguistic Linked Open Data описывает публикацию данных для лингвистики и обработки естественного языка с использованием следующих принципов: ^[1]

Данные должны быть открыто лицензированы с использованием таких лицензий, как лицензии Creative Commons .
Элементы в наборе данных должны быть однозначно идентифицированы с помощью URI .
URI должен разрешиться, чтобы пользователи могли получить доступ к дополнительной информации с помощью веб-браузеров.
Разрешение ресурса LLOD должно возвращать результаты с использованием веб-стандартов, таких как Resource Description Framework (RDF).
Ссылки на другие ресурсы должны быть включены, чтобы помочь пользователям открывать новые ресурсы и обеспечивать семантику.

Основные преимущества LLOD были определены как: ^[2]

Представление: Связанные графы - более гибкий формат представления лингвистических данных.
Совместимость: общие модели RDF могут быть легко интегрированы.
Федерация: данные из нескольких источников можно легко объединить.
Экосистема: Инструменты для RDF и связанных данных широко доступны по лицензиям с открытым исходным кодом.
Выразительность: существующие словари помогают выразить лингвистические ресурсы.
Семантика: общие ссылки выражают то, что вы имеете в виду.
Динамичность: веб-данные можно постоянно улучшать.

Домашняя страница облачной диаграммы LLOD находится на linguistic-lod.org ^[3]

Словари LLOD [ править ]

Помимо сбора метаданных и создания облачной диаграммы LLOD, сообщество LLOD способствует разработке стандартов сообщества в отношении словарей, метаданных и рекомендаций по передовому опыту.

Согласно современному обзору Cimiano et al. (2020), ^{[4] к} ним относятся:

для моделирования лексических ресурсов
- OntoLex-Lemon , стандарт сообщества для лексических ресурсов (машиночитаемые словари, многоязычная терминология, лексикализация онтологий) ^[5]
для моделирования лингвистических аннотаций (в корпусах или NLP)
- Web Annotation , стандарт W3C для аннотации веб-ресурсов (текстовых или иных) ^[6]
- Формат обмена NLP (NIF), стандарт сообщества для грамматической аннотации текста ^[7]
- CoNLL-RDF, словарь на основе NIF для представления RDF корпусов в обычных форматах TSV (CoNLL) ^[8]
- POWLA, словарь общих лингвистических структур данных, который можно использовать для дополнения NIF, CoNLL-RDF или веб-аннотаций ^[9]

для категорий лингвистических данных
- Онтологии лингвистической аннотации (OLiA) для лингвистической аннотации ^[10]
- lexinfo для грамматических и других функций в лексических ресурсах ^[11]
для языковой идентификации
- как строки с языковыми тегами с использованием языковых тегов IETF BCP 47
- с URI ISO 639-3, предоставленными lexvo.org ^[12]
- с URI Glottolog для языковых разновидностей, не охваченных ISO 639
для метаданных
- Dublin Core , стандарт терминов сообщества, который можно использовать для описания веб-ресурсов.
- Словарь каталогов данных (DCAT), стандарт W3C для каталогов данных, опубликованных в Интернете ^[13]
- METASHARE-OWL, словарь для метаданных языковых ресурсов ^[14]

По состоянию на середину 2020 года над большинством этих стандартов сообщества активно ведется работа. Особенно проблематичным является существование нескольких несовместимых стандартов для лингвистических аннотаций, и в начале 2020 года группа W3C Community Group Linked Data for Language Technology начала работать над консолидацией этих (и других) словарей для лингвистических аннотаций в сети. ^[15]

Сообщество [ править ]

Облачная диаграмма LLOD была разработана и поддерживается Рабочей группой по открытой лингвистике (OWLG) Open Knowledge Foundation (с 2014 г. Open Knowledge), открытой и междисциплинарной группы экспертов по языковым ресурсам.

OWLG организует общественные мероприятия и координирует разработки LLOD и способствует междисциплинарному взаимодействию между участниками и пользователями LLOD.

Несколько бизнес-групп и общественных групп W3C сосредоточены на специализированных аспектах LLOD:

Группа сообщества W3C Ontology-Lexica ( OntoLex ) разрабатывает и поддерживает спецификации для машиночитаемых словарей в облаке LLOD.
Группа сообщества W3C Best Practices for Multilingual Linked Open Data собирает информацию о передовых методах создания многоязычных связанных открытых данных. ^[16]
Группа сообщества W3C Linked Data for Language Technology собирает примеры пользователей и требования для приложений языковых технологий, использующих связанные данные. ^[17]

Развитие LLOD продвигается вперед и задокументировано в серии международных семинаров, дататонов и связанных публикаций. Среди прочего, к ним относятся

Связанные данные в лингвистике (LDL), ежегодный научный семинар, начался в 2012 г.
Многоязычные связанные открытые данные для предприятий (MLODE), проводимое раз в два года собрание сообщества (2012 и 2014 гг.)
Летний дататон по связанным открытым лингвистическим данным (SD-LLOD), проводимый дважды в год, с 2015 года.

Приложения LLOD [ править ]

Linguistic Linked Open Data применяется для решения ряда научно-исследовательских задач:

Во всех областях эмпирической лингвистики, компьютерной филологии и обработки естественного языка лингвистическая аннотация и лингвистическая разметка представляют собой центральные элементы анализа. Однако прогрессу в этой области препятствуют проблемы совместимости , в первую очередь различия в словарях и схемах аннотаций, используемых для разных ресурсов и инструментов. Использование связанных данных для соединения языковых ресурсов и репозиториев онтологий / терминологии облегчает повторное использование общих словарей и их интерпретацию на общей основе.
В корпусной лингвистике и компьютерной филологии перекрывающаяся разметка представляет собой печально известную проблему для традиционных форматов XML . Следовательно, модели данных на основе графов были предложены с конца 1990-х годов. ^[18] Они традиционно представлены в виде множества взаимосвязанных файлов XML (standoff XML) ^[19], которые плохо поддерживаются стандартной технологией XML. ^[20] Моделирование таких сложных аннотаций, как Linked Data, представляет собой формализм, семантически эквивалентный standoff XML ^[21], но устраняет необходимость в специальной технологии и, вместо этого, полагается на существующую экосистему RDF.
Многоязычные проблемы, включая связывание лексических ресурсов, таких как WordNet, как это выполнено в Межъязыковом указателе Глобальной ассоциации WordNet, и соединение разнородных ресурсов, таких как WordNet и Wikipedia, как это было сделано в BabelNet .
Обеспечение форумов для стандартизации информации о лингвистических ресурсах

Лингвистические связанные открытые данные тесно связаны с развитием

лучшие практики для связывания лексических данных в сети (для данных, опубликованных в соответствии с соглашениями OntoLex )
лучшие практики для создания аннотаций в Интернете (например, с использованием стандарта веб-аннотаций )
лучшие практики для моделирования и совместного использования текстовых ресурсов с перекрывающейся разметкой

Избранные исследовательские проекты [ править ]

Использование и развитие LLOD было предметом нескольких крупномасштабных исследовательских проектов, в том числе

LOD2. Создание знаний из взаимосвязанных данных (11 стран ЕС + Корея, 2010–2014 гг.) ^[22]
МОННЕТ. Многоязычные онтологии сетевых знаний (5 стран ЕС, 2010–2013 гг.) ^[23]
ЛИДЕР. Связанные данные как инструмент кросс-медийной и многоязычной аналитики контента для предприятий по всей Европе (5 стран ЕС, 2013–2015 гг.) ^[24]
QTLeap. Качественный перевод с использованием подходов глубинной инженерии (6 стран ЕС, 2013–2016 гг.) ^[25]
LiODi. Связанные открытые словари (BMBF eHumanities Early Career Research Group, Университет Гете, Франкфурт, Германия, 2015–2020 гг.) ^[26]
FREME. Открытая структура электронных услуг для многоязычного и семантического обогащения цифрового контента (6 стран ЕС, 2015-2017 гг.) ^[27]
ПОЧТОВЫЕ ДАННЫЕ. Стандартизация поэзии и связанные открытые данные (Стартовый грант ERC, UNED, Испания, 2016-2021) ^[28]
Linking Latin (Грант ERC Consolidator, Universita Cattolica del Sacro Cuore, Италия, 2018–2023 гг.) ^[29]
Pret-a-LLOD (5 стран ЕС, 2019-2021) ^[30]
NexusLinguarum. Европейская сеть веб-ориентированной лингвистической науки о данных (COST Action, 35 стран COST, 2 соседних страны, одна международная страна-партнер, 2019-2023 гг.) ^[31]

Выбранные ресурсы [ править ]

По состоянию на октябрь 2018 г. 10 наиболее часто связываемых ресурсов на диаграмме LLOD (в порядке количества связанных наборов данных):

В Онтология лингвистической аннотации ( OLIA , связанный с 74 наборами данных) обеспечивает опорную терминологию для лингвистических аннотаций и грамматических метаданных;
WordNet (связанный с 51 набором данных), лексическая база данных для английского языка и сводная база данных для разработки аналогичных баз данных для других языков, с несколькими редакциями (версия Princeton связана с 36 наборами данных; версия W3C связана с 8 наборами данных; версия VU связана с 7 наборами данных);
DBpedia (связанная с 50 наборами данных) многоязычная база общих знаний о мире, основанная на Википедии;
lexinfo.net (связанный с 36 наборами данных) предоставляет справочную терминологию для лексических ресурсов;
BabelNet (связанная с 33 наборами данных) многоязычная лексикализованная семантическая сеть , основанная на агрегировании различных других ресурсов, в первую очередь WordNet и Wikipedia;
lexvo.org (связанный с 26 наборами данных) предоставляет идентификаторы языков и другие данные, связанные с языком. Что наиболее важно, lexvo обеспечивает представление в формате RDF трехбуквенных кодов ISO 639-3 для идентификаторов языков и информации об этих языках;
ISO 12620 Категория данных реестра (ISOcat, RDF издание, связанная с 10 наборов данных) обеспечивает слабоструктурированное хранилище для различных языков, связанных с терминологии. Хостинг ISOcat находится в The Language Archive, соответственно, в проекте DOBES в Институте психолингвистики Макса Планка , но в настоящее время осуществляется переход к CLARIN ;
UBY (версия RDF лимон-Uby , связанная с 9 наборами данных), лексическая сеть для английского языка, собранная из различных лексических ресурсов;
Glottolog (связанный с 7 наборами данных) предоставляет детализированные идентификаторы языков для языков с низким уровнем ресурсов, в частности, многие из которых не охвачены lexvo.org;
Викисловарь - ссылки на DBpedia ( wiktionary.dbpedia.org , связанные с 7 наборами данных), лексикализация концепций DBpedia на основе викисловаря.

Аспекты [ править ]

Существует ряд повторяющихся дискуссий относительно различных аспектов этого термина, его применимости и для определенного типа ресурсов. ^[32]

Лингвистические данные: объем и классификация [ править ]

Помимо ресурсов, используемых и созданных для лингвистических исследований, облачная диаграмма LLOD также включает онтологии, терминологию и общие базы знаний, разработка которых изначально не была вызвана интересом к языковым наукам или языковым технологиям, например DBpedia . В качестве критерия для включения в диаграмму LLOD OWLG требует «лингвистической релевантности»: «[A] набор данных лингвистически релевантен, если он предоставляет или описывает языковые данные, которые могут использоваться для целей лингвистических исследований или обработки естественного языка». ^[33]Сюда входят лингвистические ресурсы в строгом смысле слова («условие 1»: аннотированный или иным образом структурированный ресурс, созданный для применения в лингвистических науках или языковых технологиях, как продемонстрировано, например, научной публикацией в журнале или конференции по лингвистике) , но также и ресурсы, "которые могут использоваться для аннотирования, обогащения, извлечения или классификации языковых ресурсов ... [если их актуальность] может быть подтверждена наличием связей между ресурсом (лингвистическая релевантность которого должна быть подтверждена) и ресурсами, выполняющими условие (1) »(« условие 2 »). ^[34]

С этим связана и классификация лингвистически релевантных наборов данных (или языковых ресурсов в целом). OWLG разработала следующую классификацию диаграммы облаков LLOD: ^[35]

Корпуса : лингвистически проанализированный набор языковых данных
лексиконы: лексико-концептуальные данные
- лексические ресурсы : лексики и словари
- терминологические базы : терминология, тезаурусы и базы знаний
метаданные
- метаданные лингвистических ресурсов (метаданные о языковых ресурсах, включая цифровые языковые ресурсы и печатные книги)
- категории лингвистических данных (метаданные о лингвистической терминологии, включая лингвистические категории , языковые идентификаторы)
- типологические базы данных (метаданные об отдельных языках, особенно о лингвистических особенностях этих языков)
другое (заполнитель для ресурсов, которые (еще) не классифицированы) ^[1]

Обратите внимание, что в этой классификации терминологические базы находятся на грани лингвистической значимости, поскольку они обычно создаются для иных целей, чем языковые технологии или лингвистические исследования.

Открытые данные: доступность [ править ]

LLOD определяется в отношении связанных открытых данных, и поэтому ресурсы ( данные ) LLOD должны соответствовать лицензиям в соответствии с открытым определением . ^[36] Для генерации облачной диаграммы LLOD (и диаграммы LOD) это, однако, пока не применяется, поэтому техническим критерием является доступность через Интернет и запись метаданных. В OWLG неоднократно обсуждалось, можно ли включать некоммерческие (академические) ресурсы с общим согласием принять их на данный момент (2015 г.), но с последующим введением более строгих требований вместе с развитием облака LLOD. По состоянию на январь 2018 года еще не было согласовано, когда этот шаг должен был произойти. ^[37]По состоянию на январь 2020 года машиночитаемые метаданные лицензий были доступны для 86 ресурсов LLOD, из них 82 приняты открытые лицензии, 4 приняты некоммерческие лицензии. ^[38]

В более широком смысле термин технология LLOD (инфраструктуры, инструменты, словари) может также использоваться для обозначения технологии независимо от того, задействованы ли на самом деле открытые ресурсы, например, в названии проекта ЕС Pret-a-LLOD, который включает несколько коммерческие бизнес-кейсы. ^[39] Это оправдано для приложений, которые потребляют (а не предоставляют) открытые данные, но, более того, также, когда технология связанных данных и принятие других соглашений LLOD (особенно, использование словарей RDF, разработанных в контексте LLOD) являются применяется для облегчения бесшовной интеграции ресурсов LLOD (открытых ресурсов).

Аббревиатура «LLOD» может использоваться для обозначения либо технологии LLOD (использование словарей связанных данных и LLOD, независимо от правового статуса обрабатываемых данных), либо ресурсов LLOD (открытых данных). Для устранения неоднозначности можно использовать термины «ресурсы LLOD» и «технология LLOD». Чтобы подчеркнуть применение или применимость к закрытым ресурсам, также использовались "LLD" (лингвистические связанные данные). ^[40] Возможный компромисс - это аббревиатура технологии LL (O) D. Облако «лицензионных лингвистических связанных данных», которое содержит закрытые ресурсы, в настоящее время (июнь 2020 г.) не существует. ^[41]

Связанные данные: форматы [ править ]

Определение связанных данных требует применения RDF или связанных стандартов. Сюда входят рекомендации W3C: SPARQL, Turtle, JSON-LD, RDF-XML, RDFa и т. Д. Однако в языковых технологиях и языковых науках в настоящее время более популярны другие формализмы, и включение таких данных в облачную диаграмму LLOD имеет время от времени запрашивались. ^[32] Для нескольких таких языков существуют стандартизированные W3C механизмы упаковки (например, для XML , CSV или реляционных баз данных см. Извлечение знаний # Извлечение из структурированных источников в RDF ), и такие данные могут быть интегрированы при условии, что соответствующее отображение предоставляется вместе с исходными данными.

Избранная литература [ править ]

Исчерпывающее описание современного состояния LLOD предоставлено

Чимиано, Филипп; Чиаркос, Кристиан; McCrae, John P .; Грация, Хорхе (2020). Лингвистические связанные данные: представление, генерация и приложения. Springer International Publishing

Концепция облака открытых лингвистических данных была первоначально введена

Кьяркос, Кристиан, Хеллманн, Себастьян и Нордхофф, Себастьян (2011). На пути к облаку связанных открытых данных с лингвистической связью: Рабочая группа по открытой лингвистике. TAL ( Traitement Automatique des Langues) , 52 (3), 245-275.

Первая книга по этой теме -

Кристиан Кьяркос, Себастьян Нордхофф и Себастьян Хеллманн (ред., 2012 г.). Связанные данные в лингвистике. Представление и соединение языковых данных и языковых метаданных. Спрингер, Гейдельберг.

По данным Cimiano et al. (2020), ^[42] другие плодотворные публикации с тех пор включают

Кристиан Чиаркос, Стивен Моран, Пабло Н. Мендес, Себастьян Нордхофф и Ричард Литтауэр. Создание связанного облака открытых данных лингвистических ресурсов: мотивация и развитие. В Ирине Гуревич и Джунги Ким (ред.) «Народная сеть встречается с НЛП». Совместно созданные языковые ресурсы. Спрингер, Гейдельберг, 2013.
Кристиан Чиаркос, Джон МакКрэй, Филипп Чимиано и Кристиан Феллбаум. К открытым данным для лингвистики: лексические связанные данные. В Алессандро Ольтрамари, Пике Фоссен, Лу Цинь и Эдуард Хови (ред.), Новые тенденции исследований в онтологиях и лексических ресурсах. Спрингер, Гейдельберг, 2013.
Хорхе Грасиа, Елена Монтьель-Понсода, Филипп Чимиано, Асунсьон Гомес-Перес, Пол Буйтелаар и Джон МакКрэй. Проблемы многоязычной сети данных // Журнал веб-семантики, т. 11. С. 63–71. Elsevier BV, 2012.

События с 2015 по 2019 год обобщены в сборнике

Пареха-Лора, Антонио; Похоть, Барбара; Блюм, Мария; Chiarcos, Christian (ред., 2020). Разработка лингвистических связанных открытых ресурсов данных для совместных исследований с большим объемом данных в лингвистических науках. MIT Press

Ссылки [ править ]

^ a b Открытая рабочая группа по лингвистике. «Лингвистический LOD» . linguistic-lod.org . ЛИДЕР проект . Проверено 24 мая 2016 .
^ Чиаркос, Кристиан; Маккрэй, Джон; Чимиано, Филипп; Феллбаум, Кристиана (2013). На пути к открытым данным для лингвистики: лексические связанные данные (PDF) . Гейдельберг: В: Алессандро Ольтрамари, Пик Фоссен, Лу Цинь и Эдуард Хови (ред.), Новые тенденции исследований в онтологиях и лексических ресурсах. Springer . Проверено 24 мая 2016 .
^ "Linguistic Linked Open Data. Информация о текущем состоянии растущего облака связанных лингвистических открытых данных" . Проверено 10 декабря 2019 .
^ Чимиано, Филипп; Чиаркос, Кристиан; McCrae, John P .; Грация, Хорхе (2020). Лингвистические связанные данные: представление, генерация и приложения . Издательство Springer International. ISBN 978-3-030-30224-5.
^ «Модель лексики для онтологий: Отчет сообщества, 10 мая 2016 г.» . www.w3.org . Проверено 5 июня 2020 .
^ «Результаты работы рабочей группы веб-аннотаций W3C» . w3c.github.io . Проверено 5 июня 2020 .
^ Хеллманн, Себастьян; Леманн, Йенс; Ауэр, Сорен; Брюммер, Мартин (2013). Алани, Харит; Кагал, Лалана; Фокуэ, Ахилл; Грот, Пауль; Биманн, Крис; Паррейра, Жозиан Ксавьер; Аройо, Лора; Ной, Наташа; Велти, Крис (ред.). «Интеграция НЛП с использованием связанных данных» . Семантическая сеть - ISWC 2013 . Конспект лекций по информатике. Берлин, Гейдельберг: Springer: 98–113. DOI : 10.1007 / 978-3-642-41338-4_7 . ISBN 978-3-642-41338-4.
^ Чиаркос, Кристиан; Фет, Кристиан (2017). Грация, Хорхе; Бонд, Фрэнсис; McCrae, John P .; Буйтелаар, Пол; Чиаркос, Кристиан; Хеллманн, Себастьян (ред.). «CoNLL-RDF: связанные корпуса, созданные в соответствии с требованиями НЛП» . Язык, данные и знания . Конспект лекций по информатике. Чам: Издательство Springer International: 74–88. DOI : 10.1007 / 978-3-319-59888-8_6 . ISBN 978-3-319-59888-8.
^ Chiarcos, Кристиан (2012). Симперл, Елена; Чимиано, Филипп; Поллерес, Аксель; Корчо, Оскар; Пресутти, Валентина (ред.). "POWLA: Моделирование лингвистических корпусов в OWL / DL" . Семантическая сеть: исследования и приложения . Конспект лекций по информатике. Берлин, Гейдельберг: Springer: 225–239. DOI : 10.1007 / 978-3-642-30284-8_22 . ISBN 978-3-642-30284-8.
^ Чиаркос, Кристиан; Сухарева, Мария (01.01.2015). «OLiA - Онтологии лингвистической аннотации» . Семантическая сеть . 6 (4): 379–386. DOI : 10.3233 / SW-140167 . ISSN 1570-0844 .
^ Cimiano, P .; Buitelaar, P .; McCrae, J .; Синтек, М. (01.03.2011). «LexInfo: декларативная модель для интерфейса лексикон-онтология» . Журнал веб-семантики . 9 (1): 29–51. DOI : 10.1016 / j.websem.2010.11.001 . ISSN 1570-8268 .
^ де Мело, Жерар (2015-01-01). «Lexvo.org: языковая информация для облака связанных лингвистических данных» . Семантическая сеть . 6 (4): 393–400. DOI : 10.3233 / SW-150171 . ISSN 1570-0844 .
^ "Словарь данных каталога (DCAT) - Версия 2" . www.w3.org . Проверено 5 июня 2020 .
^ МакКрэй, Джон П .; Лабропулу, Пенни; Грация, Хорхе; Виллегас, Марта; Родригес-Донсель, Виктор; Чимиано, Филипп (2015). Гандон, Фабьен; Гере, Кристоф; Виллата, Серена; Бреслин, Джон; Фарон-Цукер, Кэтрин; Циммерманн, Антуан (ред.). «Одна онтология, чтобы связать их всех: онтология META-SHARE OWL для взаимодействия наборов лингвистических данных в Интернете» . Семантическая сеть: События сателлита ESWC 2015 . Конспект лекций по информатике. Чам: Издательство Springer International: 271–282. DOI : 10.1007 / 978-3-319-25639-9_42 . ISBN 978-3-319-25639-9.
^ ld4lt / linguistic-annotation , ld4lt, 19 мая 2020 г. , получено 5 июня 2020 г.
^ «Лучшие практики для многоязычной группы сообщества связанных открытых данных» . Проверено 9 декабря 2019 .
^ «Связанные данные для группы сообщества языковых технологий» . Проверено 9 декабря 2019 .
^ Птица, Стивен; Либерман, Марк. «На пути к формальной структуре лингвистических аннотаций» (PDF) . В: Материалы Международной конференции по обработке разговорной речи, Сидней, 1998 . Проверено 25 мая 2016 . ^{[ постоянная мертвая ссылка ]}
^ ISO 24612: 2012. «Управление языковыми ресурсами - структура лингвистических аннотаций (LAF)» . ISO . Проверено 25 мая 2016 .
^ Эккарт, Ричард (2008). Выбор базы данных XML для лингвистически аннотированных корпусов . SDV. Sprache und Datenverarbeitung 32.1 / 2008: Международный журнал по обработке языковых данных, семинар Datenbanktechnologien für hypermediale linguistische Anwendungen (KONVENS 2008), Universitätsverlag Rhein-Ruhr, Берлин, сентябрь 2008 г., стр. 7–22.
^ Chiarcos, Кристиан. «Совместимость корпусов и аннотаций (черновая версия)» (PDF) . В: Кристиан Чиаркос, Себастьян Нордхофф и Себастьян Хеллманн (ред.) Связанные данные в лингвистике. Представление и соединение языковых данных и языковых метаданных, 2012 . Проверено 25 мая 2016 .
^ "lod2.okfn.org (заархивированная версия)" . Архивировано из оригинала 7 марта 2014 года . Проверено 9 декабря 2019 .
^ «Многоязычные онтологии для сетевых знаний (Monnet)» . Европейская комиссия, результаты исследования CORDIS EU . Проверено 10 декабря 2019 .
^ «LIDER: Связанные данные как средство кросс-медиа и многоязычной аналитики контента для предприятий по всей Европе» . Европейская комиссия, результаты исследования CORDIS EU . Проверено 10 декабря 2019 .
^ «Качественный перевод с помощью глубоких инженерных подходов» . Европейская комиссия, результаты исследования CORDIS EU . Проверено 10 декабря 2019 .
^ «Связанные открытые словари (LiODi)» . Проверено 10 декабря 2019 .
^ «Открытая структура электронных услуг для многоязычного и семантического обогащения цифрового контента» . Проверено 10 декабря 2019 .
^ «POSTDATA - Стандартизация поэзии и связанные открытые данные» . Проверено 10 декабря 2019 .
^ "Соединение латыни. Создание базы знаний лингвистических ресурсов для латыни" . Проверено 10 декабря 2019 .
^ "Домашняя страница проекта Pret-a-LLOD" . Проверено 10 декабря 2019 ."Pret-a-LLOD" . Европейская комиссия, результаты исследования CORDIS EU . Проверено 10 декабря 2019 .
^ "CA18209 - Европейская сеть для веб-ориентированной лингвистической науки о данных" . Стоимость. Европейское сотрудничество в области науки и технологий . Проверено 10 декабря 2019 .
^ a b Историю этих обсуждений см. в архивах списков рассылки Open Linguistics, доступных только в качестве резервной копии по адресу https://github.com/open-linguistics/linguistics.okfn.org/tree/master/backup
^ Чимиано, Филипп; Чиаркос, Кристиан; McCrae, John P .; Грация, Хорхе (2020). Лингвистические связанные данные: представление, генерация и приложения . Издательство Springer International. п. 33. ISBN 978-3-030-30224-5.
^ Чимиано, Филипп; Чиаркос, Кристиан; McCrae, John P .; Грация, Хорхе (2020). Лингвистические связанные данные: представление, генерация и приложения . Издательство Springer International. С. 33–34. ISBN 978-3-030-30224-5.
^ Чимиано, Филипп; Чиаркос, Кристиан; McCrae, John P .; Грация, Хорхе (2020). Лингвистические связанные данные: представление, генерация и приложения . Издательство Springer International. стр. 36f. ISBN 978-3-030-30224-5.
^ Чиаркос, Кристиан и Пареха-Лора, Антонио (2020), Открытые данные - Связанные данные - Связанные открытые данные - Лингвистические связанные открытые данные (LLOD): общее введение. В: Пареха-Лора, Антонио; Похоть, Барбара; Блюм, Мария; Chiarcos, Christian (ред.). Разработка лингвистических связанных открытых ресурсов данных для совместных исследований с большим объемом данных в лингвистических науках . MIT Press, стр. 1-18.
^ "linguistics.okfn.org/003004.html в магистратуре · open-linguistics / linguistics.okfn.org · GitHub" . Проверено 5 июня 2020 .
^ Чимиано, Филипп; Чиаркос, Кристиан; McCrae, John P .; Грация, Хорхе (2020). Лингвистические связанные данные: представление, генерация и приложения . Издательство Springer International. п. 37. ISBN 978-3-030-30224-5.
^ "Prêt-à-LLOD - Веб-сайт проекта Prêt-à-LLOD" . Проверено 5 июня 2020 .
^ См. Название книги Чимиано, Кьяркос, Грасиа, МакКрэ (2020). Однако аббревиатура LLD (июнь 2020 г .: 7 однозначных совпадений ученых Google ), похоже, редко используется по сравнению с LLOD (июнь 2020 г .: 309 однозначных совпадений ученых Google ).
^ Чимиано, Филипп; Чиаркос, Кристиан; McCrae, John P .; Грация, Хорхе (2020). Лингвистические связанные данные: представление, генерация и приложения . Издательство Springer International. п. 37. ISBN 978-3-030-30224-5.
^ Чимиано, Филипп; Чиаркос, Кристиан; McCrae, John P .; Грация, Хорхе (2020). Лингвистические связанные данные: представление, генерация и приложения . Издательство Springer International. стр. vi. ISBN 978-3-030-30224-5.

[:1-1] Открытая рабочая группа по лингвистике. «Лингвистический LOD» . linguistic-lod.org . ЛИДЕР проект . Проверено 24 мая 2016 .

[2] Чиаркос, Кристиан; Маккрэй, Джон; Чимиано, Филипп; Феллбаум, Кристиана (2013). На пути к открытым данным для лингвистики: лексические связанные данные (PDF) . Гейдельберг: В: Алессандро Ольтрамари, Пик Фоссен, Лу Цинь и Эдуард Хови (ред.), Новые тенденции исследований в онтологиях и лексических ресурсах. Springer . Проверено 24 мая 2016 .

[3] "Linguistic Linked Open Data. Информация о текущем состоянии растущего облака связанных лингвистических открытых данных" . Проверено 10 декабря 2019 .

[4] Чимиано, Филипп; Чиаркос, Кристиан; McCrae, John P .; Грация, Хорхе (2020). Лингвистические связанные данные: представление, генерация и приложения . Издательство Springer International. ISBN 978-3-030-30224-5.

[5] «Модель лексики для онтологий: Отчет сообщества, 10 мая 2016 г.» . www.w3.org . Проверено 5 июня 2020 .

[6] «Результаты работы рабочей группы веб-аннотаций W3C» . w3c.github.io . Проверено 5 июня 2020 .

[7] Хеллманн, Себастьян; Леманн, Йенс; Ауэр, Сорен; Брюммер, Мартин (2013). Алани, Харит; Кагал, Лалана; Фокуэ, Ахилл; Грот, Пауль; Биманн, Крис; Паррейра, Жозиан Ксавьер; Аройо, Лора; Ной, Наташа; Велти, Крис (ред.). «Интеграция НЛП с использованием связанных данных» . Семантическая сеть - ISWC 2013 . Конспект лекций по информатике. Берлин, Гейдельберг: Springer: 98–113. DOI : 10.1007 / 978-3-642-41338-4_7 . ISBN 978-3-642-41338-4.

[8] Чиаркос, Кристиан; Фет, Кристиан (2017). Грация, Хорхе; Бонд, Фрэнсис; McCrae, John P .; Буйтелаар, Пол; Чиаркос, Кристиан; Хеллманн, Себастьян (ред.). «CoNLL-RDF: связанные корпуса, созданные в соответствии с требованиями НЛП» . Язык, данные и знания . Конспект лекций по информатике. Чам: Издательство Springer International: 74–88. DOI : 10.1007 / 978-3-319-59888-8_6 . ISBN 978-3-319-59888-8.

[9] Chiarcos, Кристиан (2012). Симперл, Елена; Чимиано, Филипп; Поллерес, Аксель; Корчо, Оскар; Пресутти, Валентина (ред.). "POWLA: Моделирование лингвистических корпусов в OWL / DL" . Семантическая сеть: исследования и приложения . Конспект лекций по информатике. Берлин, Гейдельберг: Springer: 225–239. DOI : 10.1007 / 978-3-642-30284-8_22 . ISBN 978-3-642-30284-8.

[10] Чиаркос, Кристиан; Сухарева, Мария (01.01.2015). «OLiA - Онтологии лингвистической аннотации» . Семантическая сеть . 6 (4): 379–386. DOI : 10.3233 / SW-140167 . ISSN 1570-0844 .

[11] Cimiano, P .; Buitelaar, P .; McCrae, J .; Синтек, М. (01.03.2011). «LexInfo: декларативная модель для интерфейса лексикон-онтология» . Журнал веб-семантики . 9 (1): 29–51. DOI : 10.1016 / j.websem.2010.11.001 . ISSN 1570-8268 .

[12] де Мело, Жерар (2015-01-01). «Lexvo.org: языковая информация для облака связанных лингвистических данных» . Семантическая сеть . 6 (4): 393–400. DOI : 10.3233 / SW-150171 . ISSN 1570-0844 .

[13] "Словарь данных каталога (DCAT) - Версия 2" . www.w3.org . Проверено 5 июня 2020 .

[14] МакКрэй, Джон П .; Лабропулу, Пенни; Грация, Хорхе; Виллегас, Марта; Родригес-Донсель, Виктор; Чимиано, Филипп (2015). Гандон, Фабьен; Гере, Кристоф; Виллата, Серена; Бреслин, Джон; Фарон-Цукер, Кэтрин; Циммерманн, Антуан (ред.). «Одна онтология, чтобы связать их всех: онтология META-SHARE OWL для взаимодействия наборов лингвистических данных в Интернете» . Семантическая сеть: События сателлита ESWC 2015 . Конспект лекций по информатике. Чам: Издательство Springer International: 271–282. DOI : 10.1007 / 978-3-319-25639-9_42 . ISBN 978-3-319-25639-9.

[15] 4lt / linguistic-annotation , ld4lt, 19 мая 2020 г. , получено 5 июня 2020 г.

[16] «Лучшие практики для многоязычной группы сообщества связанных открытых данных» . Проверено 9 декабря 2019 .

[17] «Связанные данные для группы сообщества языковых технологий» . Проверено 9 декабря 2019 .

[18] Птица, Стивен; Либерман, Марк. «На пути к формальной структуре лингвистических аннотаций» (PDF) . В: Материалы Международной конференции по обработке разговорной речи, Сидней, 1998 . Проверено 25 мая 2016 . ^{[ постоянная мертвая ссылка ]}

[19] ISO 24612: 2012. «Управление языковыми ресурсами - структура лингвистических аннотаций (LAF)» . ISO . Проверено 25 мая 2016 .

[20] Эккарт, Ричард (2008). Выбор базы данных XML для лингвистически аннотированных корпусов . SDV. Sprache und Datenverarbeitung 32.1 / 2008: Международный журнал по обработке языковых данных, семинар Datenbanktechnologien für hypermediale linguistische Anwendungen (KONVENS 2008), Universitätsverlag Rhein-Ruhr, Берлин, сентябрь 2008 г., стр. 7–22.

[21] Chiarcos, Кристиан. «Совместимость корпусов и аннотаций (черновая версия)» (PDF) . В: Кристиан Чиаркос, Себастьян Нордхофф и Себастьян Хеллманн (ред.) Связанные данные в лингвистике. Представление и соединение языковых данных и языковых метаданных, 2012 . Проверено 25 мая 2016 .

[22] "lod2.okfn.org (заархивированная версия)" . Архивировано из оригинала 7 марта 2014 года . Проверено 9 декабря 2019 .

[23] «Многоязычные онтологии для сетевых знаний (Monnet)» . Европейская комиссия, результаты исследования CORDIS EU . Проверено 10 декабря 2019 .

[24] «LIDER: Связанные данные как средство кросс-медиа и многоязычной аналитики контента для предприятий по всей Европе» . Европейская комиссия, результаты исследования CORDIS EU . Проверено 10 декабря 2019 .

[25] «Качественный перевод с помощью глубоких инженерных подходов» . Европейская комиссия, результаты исследования CORDIS EU . Проверено 10 декабря 2019 .

[26] «Связанные открытые словари (LiODi)» . Проверено 10 декабря 2019 .

[27] «Открытая структура электронных услуг для многоязычного и семантического обогащения цифрового контента» . Проверено 10 декабря 2019 .

[28] «POSTDATA - Стандартизация поэзии и связанные открытые данные» . Проверено 10 декабря 2019 .

[29] "Соединение латыни. Создание базы знаний лингвистических ресурсов для латыни" . Проверено 10 декабря 2019 .

[30] "Домашняя страница проекта Pret-a-LLOD" . Проверено 10 декабря 2019 ."Pret-a-LLOD" . Европейская комиссия, результаты исследования CORDIS EU . Проверено 10 декабря 2019 .

[31] "CA18209 - Европейская сеть для веб-ориентированной лингвистической науки о данных" . Стоимость. Европейское сотрудничество в области науки и технологий . Проверено 10 декабря 2019 .

[:0-32] Историю этих обсуждений см. в архивах списков рассылки Open Linguistics, доступных только в качестве резервной копии по адресу https://github.com/open-linguistics/linguistics.okfn.org/tree/master/backup

[33] Чимиано, Филипп; Чиаркос, Кристиан; McCrae, John P .; Грация, Хорхе (2020). Лингвистические связанные данные: представление, генерация и приложения . Издательство Springer International. п. 33. ISBN 978-3-030-30224-5.

[34] Чимиано, Филипп; Чиаркос, Кристиан; McCrae, John P .; Грация, Хорхе (2020). Лингвистические связанные данные: представление, генерация и приложения . Издательство Springer International. С. 33–34. ISBN 978-3-030-30224-5.

[35] Чимиано, Филипп; Чиаркос, Кристиан; McCrae, John P .; Грация, Хорхе (2020). Лингвистические связанные данные: представление, генерация и приложения . Издательство Springer International. стр. 36f. ISBN 978-3-030-30224-5.

[36] Чиаркос, Кристиан и Пареха-Лора, Антонио (2020), Открытые данные - Связанные данные - Связанные открытые данные - Лингвистические связанные открытые данные (LLOD): общее введение. В: Пареха-Лора, Антонио; Похоть, Барбара; Блюм, Мария; Chiarcos, Christian (ред.). Разработка лингвистических связанных открытых ресурсов данных для совместных исследований с большим объемом данных в лингвистических науках . MIT Press, стр. 1-18.

[37] "linguistics.okfn.org/003004.html в магистратуре · open-linguistics / linguistics.okfn.org · GitHub" . Проверено 5 июня 2020 .

[38] Чимиано, Филипп; Чиаркос, Кристиан; McCrae, John P .; Грация, Хорхе (2020). Лингвистические связанные данные: представление, генерация и приложения . Издательство Springer International. п. 37. ISBN 978-3-030-30224-5.

[39] "Prêt-à-LLOD - Веб-сайт проекта Prêt-à-LLOD" . Проверено 5 июня 2020 .

[40] См. Название книги Чимиано, Кьяркос, Грасиа, МакКрэ (2020). Однако аббревиатура LLD (июнь 2020 г .: 7 однозначных совпадений ученых Google ), похоже, редко используется по сравнению с LLOD (июнь 2020 г .: 309 однозначных совпадений ученых Google ).

[41] Чимиано, Филипп; Чиаркос, Кристиан; McCrae, John P .; Грация, Хорхе (2020). Лингвистические связанные данные: представление, генерация и приложения . Издательство Springer International. п. 37. ISBN 978-3-030-30224-5.

[42] Чимиано, Филипп; Чиаркос, Кристиан; McCrae, John P .; Грация, Хорхе (2020). Лингвистические связанные данные: представление, генерация и приложения . Издательство Springer International. стр. vi. ISBN 978-3-030-30224-5.

[1]