OntoLex - это краткое название словаря лексических ресурсов в сети данных (OntoLex-Lemon) и краткое название группы сообщества W3C, которая его создала (группа сообщества W3C Ontology-Lexica). [1]
Словарь ОнтоЛекс-Лимон
Словарь OntoLex-Lemon представляет собой словарь для публикации лексических данных в виде графа знаний , в формате RDF и / или в виде лингвистических связанных открытых данных . С момента публикации в качестве отчета сообщества W3C в 2016 году [2] он служит «фактическим стандартом для представления лексики онтологий в сети». [3] OntoLex-Lemon - это пересмотренный вариант словаря Lemon, первоначально предложенный McCrae et al. (2011). [4]
Основными элементами OntoLex-Lemon, показанными на рис. 1, являются:
- лексическая статья: единица анализа лексики, объединяет одну или несколько форм и одно или несколько значений, соответственно. концепции. Может предоставить дополнительную морфосинтаксическую информацию, например, одну часть речи. Обратите внимание, что каждая лексическая статья может иметь не более одной части речи, для представления групп лексических статей с одинаковыми формами, но с разными частями речи см. Модуль лексикографии. [5]
- лексическая форма: поверхностная форма конкретной лексической статьи, например, ее письменное представление.
- лексический смысл: значение слова определенной лексической статьи. Обратите внимание, что смыслы OntoLex-Lemon лексикализованы , то есть они принадлежат ровно одной лексической статье. Для элементов значения, которые могут быть выражены разными лексемами, используйте лексическое понятие.
- лексическое понятие: элементы значения с различной лексикализацией. Типичным примером являются синсеты WordNet, в которых несколько синонимических слов сгруппированы в один набор.
Помимо основного модуля (пространство имен http://www.w3.org/ns/lemon/ontolex# ), другие модули определяют назначенный словарь для представления метаданных лексики [6] (пространство имен http://www.w3.org/ns / лимон / лайм # ), лексико-семантические отношения (например, перевод и вариация, пространство имен http://www.w3.org/ns/lemon/vartrans# ), многословные выражения (разложение, пространство имен http: // www .w3.org / ns / lemon / decomp # ) и синтаксические фреймы (пространство имен http://www.w3.org/ns/lemon/synsem# ).
Структуры данных OntoLex-Lemon сопоставимы со структурами данных других форматов словарей (см. Соответствующие словари ниже). Новаторским элементом OntoLex-Lemon является то, что он предоставляет такую модель данных, как словарь RDF, поскольку это позволяет создавать новые варианты использования, основанные на веб-технологиях, а не на отдельных словарях (например, вывод перевода, см. Приложения ниже). В обозримом будущем OntoLex-Lemon также останется уникальным в этой роли, поскольку (лингвистическое) сообщество связанных открытых данных настоятельно рекомендует повторно использовать существующие словари [7], и по состоянию на декабрь 2019 года OntoLex-Lemon является единственным установленным (т. Е. опубликованный W3C или другой инициативой по стандартизации) словарь для своей цели. Это также отражено в недавних расширениях исходной спецификации OntoLex-Lemon, где были разработаны новые модули для расширения использования OntoLex-Lemon в новых областях применения:
- Модуль OntoLex-Lemon Lexicography, опубликованный в виде отчета группы сообщества W3C [8], расширяет OntoLex-Lemon с точки зрения требований цифровой лексикографии.
- Модуль морфологии OntoLex-Lemon, разрабатываемый на декабрь 2019 г. [9] [10], направлен на облегчение многоязычия в OntoLex-Lemon, особенно для морфологически богатых языков.
- Модуль OntoLex-Lemon для частоты, аттестации и информации о корпусе, по состоянию на декабрь 2019 года в стадии разработки [11] [12], направлен на облегчение использования OntoLex-Lemon в вычислительной лексикографии и обработке естественного языка.
- Обновления LexInfo: LexInfo предоставляет категории данных для данных OntoLex-Lemon. В настоящий момент (январь 2020 г.) LexInfo обновляется, версия 3.0 больше не будет зависеть от старого словаря Monnet-Lemon. [13]
Приложения
OntoLex-Lemon широко используется для лексических ресурсов в контексте открытых лингвистических данных . Выбранные приложения включают
- Модель данных и API лексикографической инфраструктуры OASIS (LEXIDMA), основа для интероперабельной лексикографической работы [14]
- Европейская общественная многоязычная инфраструктура знаний [15] [16]
- LexO, совместный веб-редактор, используемый для создания и управления (многоязычными) лексическими и терминологическими ресурсами в виде связанных ресурсов данных [17]
- VocBench , многоязычная веб-платформа для совместной разработки для управления онтологиями, тезаурусами, лексиконами и данными RDF [18] [19] [20]
- Lexicala API от K Dictionaries, который обеспечивает доступ к межъязыковым лексическим данным 50 языков и 150 языковых пар. [21]
- DiTMAO, лексикографический редактор, разработанный для создания словаря древнеокситанской медико-ботанической терминологии [22]
- серия общих задач по выводу перевода между словарями (TIAD-2017, [23] [24] TIAD-2019, [25] [26] TIAD-2020 [27] )
- DBnary, RDF-версия Викисловаря на 16 языках [28] [29]
- PanLex, масштабная лексическая сеть, насчитывающая около 2500 словарей и более 500 языков [30]
- Princeton WordNet 3.1 , крупномасштабный, иерархически и реляционно структурированный лексический ресурс для английского языка [31]
- Глобальная ассоциация WordNet, сообщество, стремящееся создавать, поддерживать и связывать многоязычные сети WordNet [32]
- BabelNet , крупномасштабная многоязычная лексическая сеть [33] [34]
- LiLa, база знаний лингвистических ресурсов по латыни, основанная на большом лексиконе, состоящем из коллекции форм цитирования [35] [36] [37]
Разработка OntoLex регулярно рассматривается в научных мероприятиях, посвященных онтологиям, связанным данным или лексикографии. С 2017 года специальная серия семинаров по модулю OntoLex проводится два раза в год. [38]
Связанные словари
Связанные словари, которые ориентированы на стандартизацию и публикацию лексических ресурсов, включают DICT (текстовый формат), XML Dictionary eXchange Format , TEI-Dict (XML) и Lexical Markup Framework (абстрактная модель, обычно сериализованная в XML; словарь Lemon первоначально возник из RDF-сериализация LMF). OntoLex-Lemon отличается от этих более ранних моделей тем, что является родным словарем связанных открытых данных , который не (просто) формализует структуру и семантику машиночитаемых словарей, но предназначен для облегчения интеграции информации между ними.
Рекомендации
- ^ "Портал сообщества OntoLex" . W3C . Проверено 6 декабря 2019 .
- ^ Чимиано, Филипп; McCrae, John P .; Буйтелаар, Пол. «Модель лексики для онтологий: отчет сообщества, 10 мая 2016 г., Заключительный отчет группы сообщества 10 мая 2016 г.» . W3C . Проверено 6 декабря 2019 .
- ^ Джулия Боске-Хиль, Хорхе Грасиа и Елена Монтьель-Понсода (июль 2017 г.). «На пути к модулю лексикографии в ОнтоЛекс» (PDF) . Новости словаря Кернермана (25) . Дата обращения 5 апреля 2020 .
- ^ Маккрэй, Джон; Шпор, Деннис; Чимиано, Филипп (2011). «Связывание лексических ресурсов и онтологий в семантической сети с помощью Lemon». Труды конференции по расширенной семантической сети (ESWC-2011), Ираклион, Греция : 245–259.
- ^ Боске-Жиль, Джулия; Грация, Хорхе. «Модуль лексикографии лимона OntoLex» . W3C . Проверено 6 декабря 2019 .
- ^ Фиорелли, Мануэль; Стеллато, Армандо; McCrae, John P .; Чимиано, Филипп; Пазиенца, Мария Тереза (2015). Гандон, Фабьен; Сабу, Марта; Мешок, Харальд; д'Амато, Клаудиа; Кудре-Мору, Филипп; Циммерманн, Антуан (ред.). «LIME: Модуль метаданных для OntoLex». Семантическая сеть. Последние достижения и новые области . Конспект лекций по информатике. Издательство Springer International. 9088 : 321–336. DOI : 10.1007 / 978-3-319-18818-8_20 . ISBN 978-3-319-18818-8.
- ^ «Лингвистически связанные открытые данные. Информация о текущем состоянии растущего облака связанных лингвистических открытых данных» . Проверено 10 декабря 2019 .
- ^ Боске-Жиль, Джулия; Грация, Хорхе. «Заключительный отчет группы сообщества по модулю лексикографии лимона OntoLex, 17 сентября 2019 г.» . W3C . Проверено 10 декабря 2019 .
- ^ «Морфология» . Проверено 10 декабря 2019 .
- ^ Климек, Беттина; McCrae, John P .; Боске-Жиль, Джулия; Ионов, Максим; Таубер, Джеймс К .; Чаркос, Кристиан. Проблемы представления морфологии в лексиконах онтологий, в: Косем, И., Зингано Кун, Т., Коррейя, М., Феррерия, Дж. П., Янсен, М., Перейра, И., Каллас, Дж., Якубичек, М. ., Крек, С. и Тибериус, К. (ред.) 2019. Электронная лексикография в 21 веке. Материалы конференции eLex 2019. 1-3 октября 2019 г., Синтра, Португалия (PDF) . Брно: Lexical Computing CZ, sro, стр. 570–591.
- ^ «Частота, аттестация и корпусная информация» . Проверено 10 декабря 2019 .
- ^ Чиаркос, Кристиан; Ионов, Максим. «Модуль OntoLex-Lemon для частоты, аттестации и информации корпуса (проект спецификации)» . Проверено 9 апреля 2020 .
- ^ «LexInfo - Онтология категорий данных для ОнтоЛекс-Лимон» . Проверено 4 января 2020 года .
- ^ цензура. «Призыв к участию: модель данных лексикографической инфраструктуры OASIS и API (LEXIDMA) TC» . ОАЗИС . Проверено 10 декабря 2019 .
- ^ Schmitz, P .; Francesconi, E .; Hajlaoui, N .; Batouche, B .; Стеллато, А. (2018). Семантическая совместимость многоязычных языковых ресурсов посредством автоматического сопоставления, В: Международная конференция по электронному правительству и перспективам информационных систем . Чам: Спрингер. С. 153–163.
- ^ Батуш, Брахим; Шмитц, Питер; Франческони, Энрико; Хайлауи, Надже (12 февраля 2018 г.). PMKI – Public Multilingual Knowledge. Документация по модели данных PMKIInfrastructure (PDF) . Европейская техническая спецификация . Проверено 10 декабря 2019 . Проверить значения даты в:
|date=
( помощь ) - ^ Ленардич, Якоб. «CLARIN-IT представляет LexO: где лексикография встречается с семантической паутиной» . Кларин . Проверено 10 декабря 2019 .
- ^ Команда AIMS. «Версия 4.0.2 VocBench была выпущена в августе 2018 года» . ФАО ООН в Италии . Проверено 10 декабря 2019 .
- ^ Стеллато, Армандо; Раджбхандари, Сачит; Турбати, Андреа; Фиорелли, Мануэль; Караччоло, Катерина; Лоренцетти, Тициано; Кейзер, Йоханнес; Пазиенца, Мария Тереза (2015). Гандон, Фабьен; Сабу, Марта; Мешок, Харальд; д'Амато, Клаудиа; Кудре-Мору, Филипп; Циммерманн, Антуан (ред.). «VocBench: веб-приложение для совместной разработки многоязычных тезаурусов» (PDF) . Семантическая сеть. Последние достижения и новые области . Конспект лекций по информатике. Издательство Springer International. 9088 : 38–53. DOI : 10.1007 / 978-3-319-18818-8_3 . ISBN 978-3-319-18818-8.
- ^ «VocBench 3: совместный редактор семантической паутины для онтологий, тезаурусов и лексиконов | www.semantic-web-journal.net» . semantic-web-journal.net . Проверено 17 января 2020 .
- ^ Илан Кернерман и Дориэль Лонке (июль 2019 г.). «Lexicala API: новая эра словарных данных» (PDF) . Новости словаря Кернермана (27) . Дата обращения 5 апреля 2020 .
- ^ «Словарь древнеокситанской медико-ботанической терминологии» . Проверено 10 декабря 2019 .
- ^ «Общая задача TIAD-2017 - Вывод перевода по словарям. Приглашение к участию» . Проверено 10 декабря 2019 .
- ^ McCrae, John P .; Бонд, Фрэнсис; Буйтелаар, Пол; Чимиано, Филипп; Деклерк, Тьерри; Грация, Хорхе; Кернерман, Илан; Монтиэль Понсода, Елена; Ордан, Ноам; Пясацки, Мацей (18 июня 2017 г.). Материалы семинаров LDK 2017: 1-й семинар по модели OntoLex (OntoLex-2017), общая задача по выводу перевода через словари и проблемы для Wordnets . CEUR . Проверено 10 декабря 2019 .
- ^ «TIAD 2019. 2-я общая задача перевода словарей (TIAD)» . Проверено 10 декабря 2019 .
- ^ Грация, Хорхе; Кабаши, Бесим; Кернерман, Илан (20 мая 2019 г.). Труды Совместного задания TIAD-2019 - Вывод перевода по словарям . Лейпциг, Германия: CEUR.
- ^ «TIAD 2020 - 2-я общая задача вывода переводов по словарям (TIAD)» .
- ^ «Викисловарь Dbnary как открытые лингвистические данные» . Проверено 10 декабря 2019 .
- ^ Серассе, Жиль (2016). "DBnary: Викисловарь как многоязычный лексический ресурс на основе лимона в RDF" . Семантическая сеть . Проверено 10 декабря 2019 .
- ^ Камхольц, Дэвид; Пул, Джонатан; Коловик, Сьюзан М. (2014). PanLex: Создание ресурса для Panlingual лексического перевода, в Трудах девятого Язык ресурсы и конференция по оценке (LREC-2014), Рейкьявик, Исландия, май 2014 . Европейская ассоциация языковых ресурсов. С. 3145–3150 . Проверено 10 декабря 2019 .
- ^ «Принстон WordNet 3.1. WordNet RDF» . Проверено 10 декабря 2019 .
- ^ «Глобальные форматы Wordnet: RDF» . Проверено 10 декабря 2019 .
- ^ «Конечная точка BabelNet SPARQL» . Проверено 10 декабря 2019 .
- ^ Ehrmann, M .; Ceccioni, F .; Vanella, D .; McCrae, JP; Cimiano, P .; Навильи Р. Представление многоязычных данных в виде связанных данных: случай BabelNet 2.0. В: Труды 9 - го языка ресурсов и конференции по оценке (LREC-2014), Рейкьявик, Исландия, май 2014 . Европейская ассоциация языковых ресурсов. С. 401–408 . Проверено 10 декабря 2019 .
- ^ «Конечная точка LiLa SPARQL» . Проверено 4 апреля 2020 года .
- ^ "Интерфейс запросов LiLa" . Проверено 4 апреля 2020 года .
- ^ Пассаротти, MC; Чеккини, FM; Franzini, G .; Litta, E .; Mambrini, F .; Руффоло, П. ЛиЛа: Соединение латыни. База знаний лингвистических ресурсов и инструментов НЛП. В: Материалы 2 - й конференции по вопросам языка, данных и знаний (ДЛК 2019), Лейпциг, Германия, 20-23 мая 2019 . Материалы семинара CEUR . Проверено 4 апреля 2020 года .
- ^ Чимиано, Филипп (июль 2017 г.). «ОнтоЛекс 2017 - 1-й семинар по модели ОнтоЛекс» (PDF) . Новости словаря Кернермана (25) . Дата обращения 5 апреля 2020 .
Внешние ссылки
- [1] Спецификация ОнтоЛекс-Лимон
- [2] Модуль лексикографии ОнтоЛекс-Лемон.
- [3] Репозиторий OntoLex на Github