Из Википедии, бесплатной энциклопедии
  (Перенаправлено из фреймворка лексической разметки )
Перейти к навигации Перейти к поиску

Язык управление ресурсами - Лексическая структура разметки ( ЛМЗ , ISO 24613: 2008 ), является ISO Международной организации по стандартизации ISO / TC37 стандарта для обработки естественного языка (NLP) и электронного словаря (МОБ) словарей . [1] Сфера применения - стандартизация принципов и методов, относящихся к языковым ресурсам в контексте многоязычного общения.

Цели [ править ]

Цели LMF - предоставить общую модель для создания и использования лексических ресурсов , для управления обменом данными между этими ресурсами и между ними, а также для обеспечения возможности слияния большого количества отдельных электронных ресурсов для формирования обширных глобальных электронных ресурсов.

Типы индивидуальных экземпляров LMF могут включать одноязычные, двуязычные или многоязычные лексические ресурсы. Одни и те же спецификации должны использоваться как для малых, так и для больших лексиконов, как для простых, так и для сложных лексиконов, для письменных и устных лексических представлений. Описания варьируются от морфологии , синтаксиса , вычислительной семантики до компьютерного перевода . Охватываемые языки не ограничиваются европейскими языками, но охватывают все естественные языки . Диапазон целевых приложений НЛП не ограничен. LMF может представлять большинство лексиконов, включая лексиконы WordNet , EDR и PAROLE.

История [ править ]

В прошлом стандартизация лексики изучалась и развивалась рядом проектов, таких как GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE и ISLE. Затем национальные делегации ISO / TC37 решили обратиться к стандартам, посвященным НЛП и представлению лексики. Работа над LMF началась летом 2003 г. с предложения о новом рабочем объекте, опубликованного делегацией США. Осенью 2003 года французская делегация выпустила техническое предложение по модели данных, посвященной лексиконам НЛП. В начале 2004 года комитет ISO / TC37 решили создать совместный проект ISO с Николетта Calzolari ( CNR -ILC Италия) в качестве организатора и Gil Francopoulo (Tagmatica Франция) и Монте - Джордж ( ANSIСША) в качестве редакторов. Первым шагом в разработке LMF было создание общей структуры, основанной на общих характеристиках существующих лексиконов, и разработка согласованной терминологии для описания компонентов этих лексиконов. Следующим шагом было собственно создание всеобъемлющей модели, которая лучше всего представляла все лексиконы в деталях. Большая группа из 60 экспертов представила широкий спектр требований к LMF, охватывающих многие типы лексиконов НЛП. Редакторы LMF работали в тесном сотрудничестве с группой экспертов, чтобы определить лучшие решения и прийти к консенсусу по дизайну LMF. Особое внимание было уделено морфологии, чтобы предоставить мощные механизмы для решения проблем на нескольких языках, которые были известны как трудные для решения. Написано, разослано 13 версий (Национальным экспертам),прокомментировал и обсудил во время различных технических встреч ISO. После пяти лет работы, включая многочисленные личные встречи и обмен электронной почтой, редакторы пришли к согласованной модели UML. В заключение, LMF следует рассматривать как синтез последних достижений в области лексики НЛП.

Текущий этап [ править ]

Номер ISO - 24613. Спецификация LMF была официально опубликована в качестве международного стандарта 17 ноября 2008 года.

Как один из членов семейства стандартов ISO / TC37 [ править ]

Стандарты ISO / TC37 в настоящее время разработаны как спецификации высокого уровня и касаются сегментации слов (ISO 24614), аннотаций (ISO 24611 aka MAF, ISO 24612 aka LAF, ISO 24615 aka SynAF и ISO 24617-1 aka SemAF / Time), структуры функций (ISO 24610), мультимедийные контейнеры (ISO 24616, также известные как MLIF) и словари (ISO 24613). Эти стандарты основаны на спецификациях низкого уровня, посвященных константам, а именно категориям данных (пересмотр ISO 12620), языковым кодам ( ISO 639 ), кодам сценариев ( ISO 15924 ), кодам стран ( ISO 3166 ) иЮникод ( ISO 10646 ).

Двухуровневая организация образует последовательную семью стандартов со следующими общими и простыми правилами:

  • спецификация высокого уровня предоставляет структурные элементы, украшенные стандартизованными константами;
  • спецификации низкого уровня предоставляют стандартизованные константы в виде метаданных.

Ключевые стандарты [ править ]

Лингвистические константы, такие как / женский / или / транзитивный /, не определены в LMF, но записаны в Реестре категорий данных (DCR), который поддерживается в качестве глобального ресурса ISO / TC37 в соответствии с ISO / IEC 11179-3: 2003. [2] И эти константы используются для украшения структурных элементов высокого уровня.

Спецификация LMF соответствует принципам моделирования Unified Modeling Language (UML), определенным Object Management Group (OMG). Структура указывается с помощью диаграмм классов UML . Примеры представлены с помощью диаграмм экземпляров (или объектов) UML.

XML DTD приведен в приложении к документу LMF.

Структура модели [ править ]

LMF состоит из следующих компонентов:

  • Базовый пакет, который представляет собой структурный каркас, который описывает базовую иерархию информации в лексической статье.
  • Расширения основного пакета, выраженные в структуре, описывающей повторное использование основных компонентов в сочетании с дополнительными компонентами, необходимыми для конкретного лексического ресурса.

Расширения специально предназначенных для морфологии , МОБ , НЛП синтаксиса , NLP семантика , NLP двуязычных нотации , NLP морфологические структуры , многословные выражения структуры и ограничений экспрессии модели .

Пример [ править ]

В следующем примере лексическая статья связана с леммой clergyman и двумя изменяемыми формами clergyman и clergymen . Языковая кодировка устанавливается для всего лексического ресурса. Значение языка устанавливается для всего словаря, как показано на следующей схеме экземпляра UML .

Элементы « Лексический ресурс» , « Глобальная информация» , « Лексикон» , « Лексический ввод» , « Лемма» и « Словоформа» определяют структуру словаря. Они указаны в документе LMF. Напротив, languageCoding , language , partOfSpeech , commonNoun , WrittenForm , grammaticalNumber , единственное , множественное число - это категории данных, которые берутся из реестра категорий данных. Эти знаки украшают конструкцию. Ценности ISO 639-3 , священнослужитель ,священнослужители - это простые строки символов. Значение eng взято из списка языков согласно ISO 639-3 .

С некоторой дополнительной информацией, такой как dtdVersion и feat , те же данные могут быть выражены следующим фрагментом XML :

<LexicalResource  dtdVersion = "15" >  <GlobalInformation>  <feat  att = "languageCoding"  val = "ISO 639-3" />  </GlobalInformation>  <Lexicon>  <feat  att = "language"  val = "eng" />  < LexicalEntry>  <подвиг  Att = "partOfSpeech"  вал = "commonNoun" />  <Лемма>  <подвиг  Att = "writtenForm"  вал = "священнослужитель" />  </ леммой>  <словоформа>  <feat  att = "WrittenForm"  val = "clergyman " /> <feat  att = "grammaticalNumber"  val = "singular" />  </WordForm>  <WordForm>  <feat  att = "writingForm"  val = " clergymen " />  <feat  att = "grammaticalNumber"  val = "plural" />  < / WordForm>  </LexicalEntry>  </Lexicon> </LexicalResource>

Этот пример довольно прост, в то время как LMF может представлять гораздо более сложные лингвистические описания, теги XML соответственно сложны.

Избранные публикации о LMF [ править ]

Первая публикация о спецификации LMF, которая была ратифицирована ISO (этот документ стал (в 2015 г.) 9-м по цитируемости в конференциях по языковым ресурсам и оценке из документов LREC):

  • Языковые ресурсы и оценка LREC-2006 / Genoa: Gil Francopoulo, Monte George, Nicoletta Calzolari, Monica Monachini, Nuria Bel, Mandy Pet, Claudia Soria: Lexical Markup Framework (LMF) [3]

О семантическом представлении:

  • Gesellschaft für linguistische Datenverarbeitung GLDV-2007 / Tübingen: Gil Francopoulo, Nuria Bel, Monte George Nicoletta Calzolari, Monica Monachini, Mandy Pet, Claudia Soria: Lexical Markup Framework Стандарт ISO для семантической информации в лексиконах НЛП [4]

Об африканских языках:

  • Traitement Automatique des langues naturelles, Марсель, 2014 г .: Мухамаду Кхуле, Мухамад Ндианко Тиам, Эль-Хадж Мамаду Нгуер: к созданию языковой лексики волоф на основе LMF (Vers la mise en place d'un lexique basé sur LMF pour la langue wol ) [на французском языке] [5]

Об азиатских языках:

  • Lexicography, Journal of ASIALEX, Springer 2014: Lexical Markup Framework: Gil Francopoulo, Chu-Ren Huang: Стандарт ISO для электронных лексиконов и его значение для азиатских языков DOI 10.1007 / s40607-014-0006-z

О европейских языках:

  • COLING 2010: Верена Хенрих, Эрхард Хинрихс: Стандартизация Wordnet в стандарте ISO LMF: Wordnet-LMF для GermaNet [6]
  • EACL 2012: Джудит Экл-Колер, Ирина Гуревич: Subcat-LMF: конкретизация стандартизованного формата для взаимодействия фреймов подкатегории [7]
  • EACL 2012: Ирина Гуревич, Джудит Экл-Колер, Сильвана Хартманн, Майкл Матушек, Кристиан М. Мейер, Кристиан Вирт: UBY - крупномасштабный унифицированный лексико-семантический ресурс на основе LMF. [8]

О семитских языках:

  • Journal of Natural Language Engineering , Cambridge University Press (появится весной 2015 г.): Aida Khemakhem, Bilel Gargouri, Abdelmajid Ben Hamadou, Gil Francopoulo: Стандартное моделирование большого арабского словаря ISO.
  • Материалы седьмой Глобальной конференции Wordnet 2014: Надя Б.М. Кармани, Хсан Сусу, Адель М. Алими: Создание стандартизированной Wordnet в ISO LMF для языка aeb. [9]
  • Материалы семинара: HLT и NLP в арабском мире, LREC 2008: Нуреддин Лукил, Кайс Хаддар, Абдельмаджид Бен Хамаду: К синтаксическому лексикону арабских глаголов. [10]
  • Traitement Automatique des Langues Naturelles, Тулуза (на французском языке) 2007: Khemakhem A, Gargouri B, Abdelwahed A, Francopoulo G: Modélisation des paradigmes de flexion des verbes arabes selon la norme LMF-ISO 24613. [11]

Специальная книга [ править ]

В 2013 году опубликована книга: LMF Lexical Markup Framework [12], которая полностью посвящена LMF. Первая глава посвящена истории моделей лексики, вторая глава представляет собой формальное представление модели данных, а третья посвящена связи с категориями данных ISO-DCR. Остальные 14 глав посвящены лексикону или системе гражданского или военного назначения в научно-исследовательских лабораториях или для промышленного применения. Это Wordnet-LMF, Prolmf, DUELME, UBY-LMF , LG-LMF, RELISH, GlobalAtlas (или Global Atlas) и Wordscape.

Связанные научные сообщения [ править ]

  • Языковые ресурсы и оценка LREC-2006 / Genoa: Актуальность стандартов для исследовательских инфраструктур [2]

См. Также [ править ]

  • Вычислительная лексикология
  • Лексическая семантика
  • Морфология (лингвистика) для объяснения парадигм и морфосинтаксиса
  • Машинный перевод для представления различных типов многоязычных обозначений (см. Раздел Подходы )
  • Морфологический образец различия между парадигмой и образцом парадигмы
  • WordNet для презентации самого известного семантического лексикона английского языка
  • Universal Terminology eXchange (UTX) для ориентированного на пользователя альтернативного формата машиночитаемых словарей.
  • Универсальный сетевой язык
  • UBY-LMF для применения LMF
  • OntoLex-Lemon для модели на основе LMF для публикации словарей в виде графов знаний , в RDF и / или в виде лингвистически связанных открытых данных

Ссылки [ править ]

  1. ^ «ISO 24613: 2008 - Управление языковыми ресурсами - Структура лексической разметки (LMF)» . Iso.org . Проверено 24 января 2016 .
  2. ^ a b «Актуальность стандартов для исследовательских инфраструктур» (PDF) . Hal.inria.fr . Проверено 24 января 2016 .
  3. ^ «Структура лексической разметки (LMF)» (PDF) . Hal.inria.fr . Проверено 24 января 2016 .
  4. ^ «Структура лексической разметки (LMF) для многоязычных ресурсов NLP» (PDF) . Hal.inria.fr . Проверено 24 января 2016 .
  5. ^ "Vers la mise en place d'un lexique basé sur LMF pour la langue Wolof" (PDF) . Aclweb.org . Проверено 24 января 2016 .
  6. ^ «Стандартизация Wordnet в стандарте ISO LMF: Wordnet-LMF для GermaNet» (PDF) . Aclweb.org . Проверено 24 января 2016 .
  7. ^ «Subcat-LMF: конкретизирует стандартизированный формат для взаимодействия фреймов подкатегории» (PDF) . Aclweb.org . Проверено 24 января 2016 .
  8. ^ «UBY - крупномасштабный унифицированный лексико-семантический ресурс на основе LMF» (PDF) . Aclweb.org . Проверено 24 января 2016 .
  9. ^ «Создание стандартизированной Wordnet в ISO LMF для языка AEB» (PDF) . Aclweb.org . Проверено 24 января 2016 .
  10. ^ "LREC 2008 Proceedings" . Lrec-conf.org . Проверено 24 января 2016 .
  11. ^ «Моделирование парадигм сгибания арабских вербов по норме LMF - ISO 24613» (PDF) . Aclweb.org . Проверено 24 января 2016 .
  12. ^ Gil Francopoulo (отредактированный) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9 ) 

Внешние ссылки [ править ]

  • Веб-сайт LMF
  • Сайт ЛИРИКС