Структура лексической разметки

Язык управление ресурсами - Лексическая структура разметки ( ЛМЗ , ISO 24613: 2008 ), является ISO Международной организации по стандартизации ISO / TC37 стандарта для обработки естественного языка (NLP) и электронного словаря (МОБ) словарей . ^[1] Сфера применения - стандартизация принципов и методов, относящихся к языковым ресурсам в контексте многоязычного общения.

Цели [ править ]

Цели LMF - предоставить общую модель для создания и использования лексических ресурсов , для управления обменом данными между этими ресурсами и между ними, а также для обеспечения возможности слияния большого количества отдельных электронных ресурсов для формирования обширных глобальных электронных ресурсов.

Типы индивидуальных экземпляров LMF могут включать одноязычные, двуязычные или многоязычные лексические ресурсы. Одни и те же спецификации должны использоваться как для малых, так и для больших лексиконов, как для простых, так и для сложных лексиконов, для письменных и устных лексических представлений. Описания варьируются от морфологии , синтаксиса , вычислительной семантики до компьютерного перевода . Охватываемые языки не ограничиваются европейскими языками, но охватывают все естественные языки . Диапазон целевых приложений НЛП не ограничен. LMF может представлять большинство лексиконов, включая лексиконы WordNet , EDR и PAROLE.

История [ править ]

В прошлом стандартизация лексики изучалась и развивалась рядом проектов, таких как GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE и ISLE. Затем национальные делегации ISO / TC37 решили обратиться к стандартам, посвященным НЛП и представлению лексики. Работа над LMF началась летом 2003 г. с предложения о новом рабочем объекте, опубликованного делегацией США. Осенью 2003 года французская делегация выпустила техническое предложение по модели данных, посвященной лексиконам НЛП. В начале 2004 года комитет ISO / TC37 решили создать совместный проект ISO с Николетта Calzolari ( CNR -ILC Италия) в качестве организатора и Gil Francopoulo (Tagmatica Франция) и Монте - Джордж ( ANSIСША) в качестве редакторов. Первым шагом в разработке LMF было создание общей структуры, основанной на общих характеристиках существующих лексиконов, и разработка согласованной терминологии для описания компонентов этих лексиконов. Следующим шагом было собственно создание всеобъемлющей модели, которая лучше всего представляла все лексиконы в деталях. Большая группа из 60 экспертов представила широкий спектр требований к LMF, охватывающих многие типы лексиконов НЛП. Редакторы LMF работали в тесном сотрудничестве с группой экспертов, чтобы определить лучшие решения и прийти к консенсусу по дизайну LMF. Особое внимание было уделено морфологии, чтобы предоставить мощные механизмы для решения проблем на нескольких языках, которые были известны как трудные для решения. Написано, разослано 13 версий (Национальным экспертам),прокомментировал и обсудил во время различных технических встреч ISO. После пяти лет работы, включая многочисленные личные встречи и обмен электронной почтой, редакторы пришли к согласованной модели UML. В заключение, LMF следует рассматривать как синтез последних достижений в области лексики НЛП.

Текущий этап [ править ]

Номер ISO - 24613. Спецификация LMF была официально опубликована в качестве международного стандарта 17 ноября 2008 года.

Как один из членов семейства стандартов ISO / TC37 [ править ]

Стандарты ISO / TC37 в настоящее время разработаны как спецификации высокого уровня и касаются сегментации слов (ISO 24614), аннотаций (ISO 24611 aka MAF, ISO 24612 aka LAF, ISO 24615 aka SynAF и ISO 24617-1 aka SemAF / Time), структуры функций (ISO 24610), мультимедийные контейнеры (ISO 24616, также известные как MLIF) и словари (ISO 24613). Эти стандарты основаны на спецификациях низкого уровня, посвященных константам, а именно категориям данных (пересмотр ISO 12620), языковым кодам ( ISO 639 ), кодам сценариев ( ISO 15924 ), кодам стран ( ISO 3166 ) иЮникод ( ISO 10646 ).

Двухуровневая организация образует последовательную семью стандартов со следующими общими и простыми правилами:

спецификация высокого уровня предоставляет структурные элементы, украшенные стандартизованными константами;
спецификации низкого уровня предоставляют стандартизованные константы в виде метаданных.

Ключевые стандарты [ править ]

Лингвистические константы, такие как / женский / или / транзитивный /, не определены в LMF, но записаны в Реестре категорий данных (DCR), который поддерживается в качестве глобального ресурса ISO / TC37 в соответствии с ISO / IEC 11179-3: 2003. ^[2] И эти константы используются для украшения структурных элементов высокого уровня.

Спецификация LMF соответствует принципам моделирования Unified Modeling Language (UML), определенным Object Management Group (OMG). Структура указывается с помощью диаграмм классов UML . Примеры представлены с помощью диаграмм экземпляров (или объектов) UML.

XML DTD приведен в приложении к документу LMF.

Структура модели [ править ]

LMF состоит из следующих компонентов:

Базовый пакет, который представляет собой структурный каркас, который описывает базовую иерархию информации в лексической статье.
Расширения основного пакета, выраженные в структуре, описывающей повторное использование основных компонентов в сочетании с дополнительными компонентами, необходимыми для конкретного лексического ресурса.

Расширения специально предназначенных для морфологии , МОБ , НЛП синтаксиса , NLP семантика , NLP двуязычных нотации , NLP морфологические структуры , многословные выражения структуры и ограничений экспрессии модели .

Пример [ править ]

В следующем примере лексическая статья связана с леммой clergyman и двумя изменяемыми формами clergyman и clergymen . Языковая кодировка устанавливается для всего лексического ресурса. Значение языка устанавливается для всего словаря, как показано на следующей схеме экземпляра UML .

Элементы « Лексический ресурс» , « Глобальная информация» , « Лексикон» , « Лексический ввод» , « Лемма» и « Словоформа» определяют структуру словаря. Они указаны в документе LMF. Напротив, languageCoding , language , partOfSpeech , commonNoun , WrittenForm , grammaticalNumber , единственное , множественное число - это категории данных, которые берутся из реестра категорий данных. Эти знаки украшают конструкцию. Ценности ISO 639-3 , священнослужитель ,священнослужители - это простые строки символов. Значение eng взято из списка языков согласно ISO 639-3 .

С некоторой дополнительной информацией, такой как dtdVersion и feat , те же данные могут быть выражены следующим фрагментом XML :

<LexicalResource  dtdVersion = "15" >  <GlobalInformation>  <feat  att = "languageCoding"  val = "ISO 639-3" />  </GlobalInformation>  <Lexicon>  <feat  att = "language"  val = "eng" />  < LexicalEntry>  <подвиг  Att = "partOfSpeech"  вал = "commonNoun" />  <Лемма>  <подвиг  Att = "writtenForm"  вал = "священнослужитель" />  </ леммой>  <словоформа>  <feat  att = "WrittenForm"  val = "clergyman " /> <feat  att = "grammaticalNumber"  val = "singular" />  </WordForm>  <WordForm>  <feat  att = "writingForm"  val = " clergymen " />  <feat  att = "grammaticalNumber"  val = "plural" />  < / WordForm>  </LexicalEntry>  </Lexicon> </LexicalResource>

Этот пример довольно прост, в то время как LMF может представлять гораздо более сложные лингвистические описания, теги XML соответственно сложны.

Избранные публикации о LMF [ править ]

Первая публикация о спецификации LMF, которая была ратифицирована ISO (этот документ стал (в 2015 г.) 9-м по цитируемости в конференциях по языковым ресурсам и оценке из документов LREC):

Языковые ресурсы и оценка LREC-2006 / Genoa: Gil Francopoulo, Monte George, Nicoletta Calzolari, Monica Monachini, Nuria Bel, Mandy Pet, Claudia Soria: Lexical Markup Framework (LMF) ^[3]

О семантическом представлении:

Gesellschaft für linguistische Datenverarbeitung GLDV-2007 / Tübingen: Gil Francopoulo, Nuria Bel, Monte George Nicoletta Calzolari, Monica Monachini, Mandy Pet, Claudia Soria: Lexical Markup Framework Стандарт ISO для семантической информации в лексиконах НЛП ^[4]

Об африканских языках:

Traitement Automatique des langues naturelles, Марсель, 2014 г .: Мухамаду Кхуле, Мухамад Ндианко Тиам, Эль-Хадж Мамаду Нгуер: к созданию языковой лексики волоф на основе LMF (Vers la mise en place d'un lexique basé sur LMF pour la langue wol ) [на французском языке] ^[5]

Об азиатских языках:

Lexicography, Journal of ASIALEX, Springer 2014: Lexical Markup Framework: Gil Francopoulo, Chu-Ren Huang: Стандарт ISO для электронных лексиконов и его значение для азиатских языков DOI 10.1007 / s40607-014-0006-z

О европейских языках:

COLING 2010: Верена Хенрих, Эрхард Хинрихс: Стандартизация Wordnet в стандарте ISO LMF: Wordnet-LMF для GermaNet ^[6]
EACL 2012: Джудит Экл-Колер, Ирина Гуревич: Subcat-LMF: конкретизация стандартизованного формата для взаимодействия фреймов подкатегории ^[7]
EACL 2012: Ирина Гуревич, Джудит Экл-Колер, Сильвана Хартманн, Майкл Матушек, Кристиан М. Мейер, Кристиан Вирт: UBY - крупномасштабный унифицированный лексико-семантический ресурс на основе LMF. ^[8]

О семитских языках:

Journal of Natural Language Engineering , Cambridge University Press (появится весной 2015 г.): Aida Khemakhem, Bilel Gargouri, Abdelmajid Ben Hamadou, Gil Francopoulo: Стандартное моделирование большого арабского словаря ISO.
Материалы седьмой Глобальной конференции Wordnet 2014: Надя Б.М. Кармани, Хсан Сусу, Адель М. Алими: Создание стандартизированной Wordnet в ISO LMF для языка aeb. ^[9]
Материалы семинара: HLT и NLP в арабском мире, LREC 2008: Нуреддин Лукил, Кайс Хаддар, Абдельмаджид Бен Хамаду: К синтаксическому лексикону арабских глаголов. ^[10]
Traitement Automatique des Langues Naturelles, Тулуза (на французском языке) 2007: Khemakhem A, Gargouri B, Abdelwahed A, Francopoulo G: Modélisation des paradigmes de flexion des verbes arabes selon la norme LMF-ISO 24613. ^[11]

Специальная книга [ править ]

В 2013 году опубликована книга: LMF Lexical Markup Framework ^[12], которая полностью посвящена LMF. Первая глава посвящена истории моделей лексики, вторая глава представляет собой формальное представление модели данных, а третья посвящена связи с категориями данных ISO-DCR. Остальные 14 глав посвящены лексикону или системе гражданского или военного назначения в научно-исследовательских лабораториях или для промышленного применения. Это Wordnet-LMF, Prolmf, DUELME, UBY-LMF , LG-LMF, RELISH, GlobalAtlas (или Global Atlas) и Wordscape.

Связанные научные сообщения [ править ]

Языковые ресурсы и оценка LREC-2006 / Genoa: Актуальность стандартов для исследовательских инфраструктур ^[2]

См. Также [ править ]

Вычислительная лексикология
Лексическая семантика
Морфология (лингвистика) для объяснения парадигм и морфосинтаксиса
Машинный перевод для представления различных типов многоязычных обозначений (см. Раздел Подходы )
Морфологический образец различия между парадигмой и образцом парадигмы
WordNet для презентации самого известного семантического лексикона английского языка
Universal Terminology eXchange (UTX) для ориентированного на пользователя альтернативного формата машиночитаемых словарей.
Универсальный сетевой язык
UBY-LMF для применения LMF
OntoLex-Lemon для модели на основе LMF для публикации словарей в виде графов знаний , в RDF и / или в виде лингвистически связанных открытых данных

Ссылки [ править ]

^ «ISO 24613: 2008 - Управление языковыми ресурсами - Структура лексической разметки (LMF)» . Iso.org . Проверено 24 января 2016 .
^ a b «Актуальность стандартов для исследовательских инфраструктур» (PDF) . Hal.inria.fr . Проверено 24 января 2016 .
^ «Структура лексической разметки (LMF)» (PDF) . Hal.inria.fr . Проверено 24 января 2016 .
^ «Структура лексической разметки (LMF) для многоязычных ресурсов NLP» (PDF) . Hal.inria.fr . Проверено 24 января 2016 .
^ "Vers la mise en place d'un lexique basé sur LMF pour la langue Wolof" (PDF) . Aclweb.org . Проверено 24 января 2016 .
^ «Стандартизация Wordnet в стандарте ISO LMF: Wordnet-LMF для GermaNet» (PDF) . Aclweb.org . Проверено 24 января 2016 .
^ «Subcat-LMF: конкретизирует стандартизированный формат для взаимодействия фреймов подкатегории» (PDF) . Aclweb.org . Проверено 24 января 2016 .
^ «UBY - крупномасштабный унифицированный лексико-семантический ресурс на основе LMF» (PDF) . Aclweb.org . Проверено 24 января 2016 .
^ «Создание стандартизированной Wordnet в ISO LMF для языка AEB» (PDF) . Aclweb.org . Проверено 24 января 2016 .
^ "LREC 2008 Proceedings" . Lrec-conf.org . Проверено 24 января 2016 .
^ «Моделирование парадигм сгибания арабских вербов по норме LMF - ISO 24613» (PDF) . Aclweb.org . Проверено 24 января 2016 .
^ Gil Francopoulo (отредактированный) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9 )

Внешние ссылки [ править ]

Веб-сайт LMF
Сайт ЛИРИКС

[1] «ISO 24613: 2008 - Управление языковыми ресурсами - Структура лексической разметки (LMF)» . Iso.org . Проверено 24 января 2016 .

[inria1-2] «Актуальность стандартов для исследовательских инфраструктур» (PDF) . Hal.inria.fr . Проверено 24 января 2016 .

[3] «Структура лексической разметки (LMF)» (PDF) . Hal.inria.fr . Проверено 24 января 2016 .

[4] «Структура лексической разметки (LMF) для многоязычных ресурсов NLP» (PDF) . Hal.inria.fr . Проверено 24 января 2016 .

[5] "Vers la mise en place d'un lexique basé sur LMF pour la langue Wolof" (PDF) . Aclweb.org . Проверено 24 января 2016 .

[6] «Стандартизация Wordnet в стандарте ISO LMF: Wordnet-LMF для GermaNet» (PDF) . Aclweb.org . Проверено 24 января 2016 .

[7] «Subcat-LMF: конкретизирует стандартизированный формат для взаимодействия фреймов подкатегории» (PDF) . Aclweb.org . Проверено 24 января 2016 .

[8] «UBY - крупномасштабный унифицированный лексико-семантический ресурс на основе LMF» (PDF) . Aclweb.org . Проверено 24 января 2016 .

[9] «Создание стандартизированной Wordnet в ISO LMF для языка AEB» (PDF) . Aclweb.org . Проверено 24 января 2016 .

[10] "LREC 2008 Proceedings" . Lrec-conf.org . Проверено 24 января 2016 .

[11] «Моделирование парадигм сгибания арабских вербов по норме LMF - ISO 24613» (PDF) . Aclweb.org . Проверено 24 января 2016 .

[12] Gil Francopoulo (отредактированный) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9 )

[1]

vтеСтандарты ISO по номеру стандарта
Список стандартов ISO / romanizations ISO / стандартам МЭК
1–9999	1 2 3 4 5 6 7 9 16 17 31 год -0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 -12 -13 68-1 128 216 217 226 228 233 259 261 262 269 302 306 361 428 500 518 519 639 -1 -2 -3 -5 -6 646 657 668 690 704 732 764 838 843 860 898 965 999 1000 1004 1007 1073-1 1073-2 1155 1413 1538 1629 г. 1745 1989 г. 2014 г. 2015 г. 2022 г. 2033 г. 2047 2108 2145 2146 2240 2281 2533 2709 2711 2720 2788 2848 2852 3029 3103 3166 -1 -2 -3 3297 3307 3601 3602 3864 3901 3950 3977 4031 4157 4165 4217 4909 5218 5426 5427 5428 5725 5775 5776 5800 5807 5964 6166 6344 6346 6385 6425 6429 6438 6523 6709 6943 7001 7002 7010 7027 7064 7098 7185 7200 7498 -1 7637 7736 7810 7811 7812 7813 7816 7942 8000 8093 8178 8217 8373 8501-1 8571 8583 8601 8613 8632 8651 8652 8691 8805/8806 8807 8820-5 8859 -1 -2 -3 -4 -5 -6 -7 -8 -8-я -9 -10 -11 -12 -13 -14 -15 -16 8879 9000/9001 9036 9075 9126 9141 9227 9241 9293 9314 9362 9407 9496 9506 9529 9564 9592/9593 9594 9660 9797-1 9897 9899 9945 9984 9985 9995
10000–19999	10005 10006 10007 10116 10118-3 10160 10161 10165 10179 10206 10218 10303 -11 -21 -22 -28 -238 10383 10487 10585 10589 10646 10664 10746 10861 10957 10962 10967 11073 11170 11179 11404 11544 11783 11784 11785 11801 11889 11898 11940 ( -2 ) 11941 11941 (TR) 11992 12006 12182 12207 12234-2 12620 13211 -1 -2 13216 13250 13399 13406-2 13450 13485 13490 13567 13568 13584 13616 13816 14000 14031 14224 14289 14396 14443 14496 -2 -3 -6 -10 -11 -12 -14 -17 -20 14644 14649 14651 14698 14750 14764 14882 14971 15022 15189 15288 15291 15292 15398 15408 15444 -3 15445 15438 15504 15511 15686 15693 15706 -2 15707 15897 15919 15924 15926 15926 WIP 15930 16023 16262 16355-1 16612-2 16750 16949 (ТС) 17024 17025 17100 17203 17369 17442 17799 18000 18004 18014 18245 18629 18916 19005 19011 19092 -1 -2 19114 19115 19125 19136 19407 19439 19500 19501 19502 19503 19505 19506 19507 19508 19509 19510 19600 19752 19757 19770 19775-1 19794-5 19831
20000–29999	20000 20022 20121 20400 21000 21047 21500 21827 22000 22300 22395 23090-3 23270 23271 23360 24517 24613 24617 24707 25178 25964 26000 26262 26300 26324 27000 серии 27000 27001 27002 27005 27006 27729 28000 29110 29148 29199-2 29500
30000+	30170 31000 32000 37001 38500 40500 42010 45001 50001 55000 56000 80000 -1
Категория