Перекрывающаяся разметка

В языках разметки и цифровой гуманитарных , наложение происходит , когда документ имеет два или более структур , которые взаимодействуют в не иерархическом порядке. Документ с перекрывающейся разметкой нельзя представить в виде дерева . Это также известно как параллельная разметка . Перекрытие происходит, например, в поэзии , где может быть метрическая структура ступней и линий; лингвистическая структура предложений и цитат; и физическая структура томов и страниц и редакционных аннотаций. ^[1]^[2]

История

Структурные различия между несколькими изданиями Франкенштейна были проанализированы с использованием частично совпадающих методов. ^[3]

Проблема неиерархических структур в документах была признана с 1988 г .; решение этой проблемы против доминирующей парадигмы текста как единой иерархии ( упорядоченная иерархия объектов контента или OHCO ) первоначально считалось чисто технической проблемой, но на самом деле оказалось намного сложнее. ^[4] В 2008 году Джени Теннисон определила перекрытие разметки как «основную остающуюся проблему для технологов разметки». ^[5] Перекрытие разметки продолжает оставаться основной проблемой в цифровом исследовании богословских текстов в 2019 году и является основной причиной сохранения в этой области специализированных форматов разметки - стандарта информации Open Scripture и языка теологической разметки - а не меж- рабочие форматы, основанные на инициативе кодирования текста, общие для остальной части цифровых гуманитарных наук . ^[6]

Свойства и типы

Существует различие между схемами, допускающими несмежное перекрытие, и схемами, допускающими только непрерывное перекрытие. Часто «перекрытие разметки» означает только последнее. Непрерывное перекрытие всегда можно представить в виде линейного документа с контрольными точками (обычно совместно проиндексированными начальными и конечными маркерами) без необходимости фрагментировать (логический) компонент на несколько физических. Несмежное перекрытие может потребовать фрагментации документа. Еще одно различие в перекрывающихся схемах разметки заключается в том, могут ли элементы перекрываться с другими элементами того же типа ( самоперекрытие ). ^[2]

Схема может иметь привилегированную иерархию. Некоторые схемы на основе XML , например, представляют одну иерархию непосредственно в дереве XML-документа и представляют другие, перекрывающиеся, структуры другими способами; они считаются непривилегированными .

Шмидт (2012) выделяет трехстороннюю классификацию случаев перекрытия: 1. «Вариация содержания и структуры», 2. «Наложение нескольких перспектив или наборов разметки» и 3. «Наложение отдельных начальных и конечных тегов в одной разметке. перспектива"; кроме того, некоторые очевидные случаи перекрытия на самом деле являются проблемами определения схемы, которые могут быть решены иерархически. Он утверждает, что тип 1 лучше всего разрешается системой из нескольких документов, внешних по отношению к разметке, но типы 2 и 3 требуют внутренней обработки.

Подходы и реализации

ДеРоуз (2004 , Критерии оценки) выделяет несколько критериев для оценки решений проблемы перекрытия:

читаемость и ремонтопригодность,
поддержка инструмента и совместимость с XML,
возможные схемы валидации и
простота обработки.

Суп тегов , строго говоря, не является перекрывающейся разметкой - это искаженный HTML , который не является перекрывающимся языком и может быть плохо определен. Некоторые веб-браузеры пытались представить перекрывающиеся начальный и конечный теги с помощью неиерархических объектных моделей документов (DOM), но это не было стандартизовано для всех браузеров и несовместимо с внутренней иерархической природой DOM. ^[7]^[8] HTML5 определяет, как процессоры должны обрабатывать такую неправильно вложенную разметку в синтаксисе HTML и превращать ее в единую иерархию. ^[9] Однако в случае HTML на основе XHTML и SGML неверно вложенная разметка является серьезной ошибкой и делает невозможной обработку в системах, совместимых со стандартами. ^[10] Стандарт HTML определяет концепцию абзаца, которая может вызывать перекрытие с другими элементами и может быть несмежной. ^[11]

SGML , на котором были основаны ранние версии HTML, имеет функцию CONCUR, которая позволяет сосуществовать нескольким независимым иерархиям без каких-либо привилегий. Проверка DTD определяется только для каждой отдельной иерархии с помощью CONCUR. Валидация по иерархиям стандартом не определена. CONCUR не может поддерживать самоперекрытие и плохо взаимодействует с некоторыми сокращенными функциями SGML. Эта функция плохо поддерживается инструментами и практически не используется; Использование CONCUR для представления перекрытия документов не было рекомендуемым вариантом использования, согласно комментарию редактора стандарта. ^[12]^[13]

В иерархических языках

Есть несколько подходов к представлению перекрытия на неперекрывающемся языке. ^[14] Кодировка текста Инициатива , как схема разметки XML на основе, не может непосредственно представлять перекрывающихся разметку. Предлагаются все четыре из следующих подходов. ^[15] информация Стандарт Open писание является другим XML на основе схемы, предназначенная для разметки Библии . Он использует пустые элементы вехи для кодирования непривилегированных компонентов. ^[16]

Для иллюстрации этих подходов, Разметка предложения и линии фрагмента Ричарда III по Уильяму Шекспир будет использоваться в качестве беговой примеры. Там, где есть привилегированная иерархия, будут использоваться линии.

Несколько документов

Каждый из нескольких документов может обеспечивать разные внутренне непротиворечивые иерархии. Преимущество этого подхода заключается в том, что каждый документ прост и может обрабатываться с помощью существующих инструментов, но требует поддержки избыточного контента и может быть затруднительным перекрестная ссылка между различными представлениями. ^[17] При наличии нескольких документов перекрытие можно анализировать с помощью методов сравнения данных и дельта-кодирования , а в контексте XML доступны определенные алгоритмы дифференцирования дерева XML. ^[18]^[19]

Шмидт (2012 , 3.5 Вариация) рекомендует этот подход для кодирования нескольких вариантов одного текста и принятия дублирования частей, которые не меняются, вместо попытки создать структуру, которая представляет все существующие вариации; Кроме того, он предлагает, чтобы это выравнивание выполнялось автоматически, и что несовпадение на практике встречается редко. ^[20]

Пример с размеченными строками:

  Я, через поверенного, благословляю тебя от твоей матери,    Которая постоянно молится о благе Ричмонда.    Вот и все. - Тихие часы продолжаются,    И на востоке разражается зыбкая тьма.

С размеченными предложениями:

 <предложение> Я, поверенным, благословляю тебя от твоей матери, Кто постоянно молится о благе Ричмонда.    Вот и все.   - Часы тишины продолжаются, И на востоке разрывается хрупкая тьма.

Вехи

Вехи - это пустые элементы, которые отмечают начало и конец компонента. Они могут использоваться для встраивания непривилегированной структуры в иерархический язык и могут представлять только непрерывное перекрытие. Существующие инструменты также не будут понимать значение элементов вех, и поэтому не могут легко обработать или проверить непривилегированную структуру. ^[21]^[22] Разметка, расположенная рядом с контентом, является преимуществом для удобства обслуживания и читаемости. ^[23] CLIX ( DeRose 2004 ) является примером такого подхода.

Пример:

  <предложение-start  /> Я, через поверенного, благословляю тебя от твоей матери,    Которая постоянно молится о благе Ричмонда. <предложение-конец  />   <начало предложения  /> Вот и все. <предложение-конец  /> <предложение-начало  /> - часы безмолвия продолжаются,    И на востоке разливается хаотичная тьма. <конец предложения  />

Пунктуация и пробелы были определены как тип «криптоперекрытия» или «псевдо-разметки» в стиле вех, поскольку границы слов, предложений, предложений и т.п. не обязательно совпадают с формальными границами разметки иерархически. ^[24]^[25]

Присоединяется

Соединения - это указатели внутри привилегированной иерархии на другие компоненты привилегированной иерархии, которые могут использоваться для восстановления непривилегированного компонента, подобного отслеживанию связанного списка . Один непривилегированный элемент сегментируется на несколько частичных элементов в привилегированной иерархии; Сами частичные элементы не представляют собой единую единицу в непривилегированной иерархии, что может вводить в заблуждение и затруднять обработку. ^[26]^[27] Хотя этот подход может поддерживать некоторые несмежные структуры, он не может изменять порядок элементов. ^[28] Несколько иной подход, однако, может выражать переупорядочение путем выражения соединения вне контекста за счет прямоты и удобства обслуживания. ^[29]

Представления на основе соединений могут вводить возможность циклов между элементами; их обнаружение и отклонение усложняет реализацию. ^[30]

Пример:

  <предложение  id = "a" > Я через поверенного благословляю тебя от твоей матери,    <предложение  continue = "a" > Кто постоянно молится о благе Ричмонда.    <предложение  id = "b" > Вот и все.  <предложение  id = "c" > —Часы тишины продолжаются ,    <предложение  continue = "c" > И на востоке разливается зыбкая тьма.

Разметка Stand-off

Разметка разметки похожа на использование объединений, за исключением того, что здесь нет привилегированной иерархии: каждой части документа дается метка (или на нее можно ссылаться по смещению), а документ создается путем указания на контент из разметки. это «стоит отдельно» от содержимого (возможно, в совершенно другом файле) и может не содержать самого содержимого. В рекомендациях TEI единство элементов определяется как основное преимущество разметки по сравнению с объединениями, а также возможность создавать и распространять аннотации отдельно от текста, возможно, даже разными авторами, применяющими разметку к документу, доступному только для чтения. , ^[31], позволяющие совместные подходы к разметке с помощью стратегии « разделяй и властвуй» . ^[32]

Пример:

  id = "a" > Я, через поверенного, благословляю тебя от твоей матери,   id = "b" > Которая постоянно молится о благе Ричмонда.   id = "c" > Вот и все.   id = "d" > - часы безмолвия продолжаются,   id = "e" > И на востоке разливается хаотичная тьма.  ...  contents = "a"  />   contents = "b"  />   contents = "c d"  />   contents = "e"  />  <предложение  contents = "a b"  />  <предложение  contents = " c "  />  <предложение  contents = " d e "  />

Было заявлено, что разделение разметки и текста может привести к общему упрощению и повышению ремонтопригодности ^[33], и к 2017 году «[t] текущий уровень техники [представления] (...) лингвистически аннотированных данных должен быть использовать представление на основе графа, сериализованное как XML-XML, в качестве основного формата ^[34], т.е. это противостояние было наиболее широко распространенным подходом к решению проблемы перекрывающейся разметки.

Формализмы противостояния легли в основу стандарта ISO для лингвистических аннотаций ^[35], они успешно применялись для разработки систем управления корпусами ^[36] и (по состоянию на апрель 2020 г.) они активно развиваются в TEI. ^[37]

Вызовы

Представление перекрывающейся разметки в иерархических языках является сложной задачей по причинам избыточности и / или сложности. В 2000–2010-х годах формализмы противостояния были общепринятыми как наиболее многообещающий подход ^[34], но недостатком противостояния было то, что их проверка была очень сложной. ^[38] Формализмы противостояния изначально не поддерживаются системами управления базами данных, поэтому (к 2017 году) было предложено «использовать ... противостоящий XML в качестве сводного формата (...) и реляционные базы данных для запросов». ^[34] В практических приложениях это требует сложной архитектуры и / или трудоемкого преобразования между сводным форматом и внутренним представлением. В результате обслуживание проблематично. ^[39] Это было мотивацией для разработки систем управления корпусами на основе графовых баз данных и для использования установленных формализмов на основе графов в качестве сводных форматов.

Специальные языки

Для реализации вышеупомянутых стратегий можно расширить существующие языки разметки (например, TEI) или разработать специальные языки. Разработка совершенно нового языка разметки позволяет отказаться от поддержки инструментов в существующих языках в пользу менее сложной семантической модели и более удобного синтаксиса.

Исторические формализмы

LMNL - это неиерархический язык разметки, впервые описанный в 2002 году Jeni Tennison и Wendell Piez , аннотирующий диапазоны документа с помощью свойств и допускающий самоперекрытие. CLIX , который первоначально расшифровывался как «канонический LMNL в XML», предоставляет метод для представления любого документа LMNL в XML-документе вехового стиля. ^[40] Он также имеет другую сериализацию XML, xLMNL. ^[41]
MECS был разработан Университетом Берген «s Витгенштейна Архива . Однако у него было несколько проблем: он допускал некоторые бессмысленные документы с перекрывающимися элементами, он не мог поддерживать самоперекрытие и не имел возможности определять грамматику, подобную DTD. ^[42] Теория ациклических графов, ориентированных на общие упорядоченные-потомки (GODDAG), хотя и не является строго языком разметки, представляет собой общую модель данных для неиерархической разметки. Ограниченные GODDAG были разработаны специально для соответствия семантике MECS; общие GODDAG могут быть несмежными и нуждаются в более мощном языке. ^[43] TexMECS является преемником MECS, который имеет формальную грамматику и предназначен для представления всех GODDAG и ничего, кроме GODDAG. ^[44]
XCONCUR (ранее MuLaX) представляет собой смесь XML и SGML CONCUR, а также содержит язык проверки, XCONCUR-CL, и API-интерфейс, подобный SAX . ^[45]^[46]^[47]
Маринелли, Витали и Заккироли предоставляют алгоритмы для преобразования между ограниченными GODDAG, ECLIX, LMNL, параллельными документами в XML, смежной разметкой и TexMECS. ^[48]

Кажется, что ни один из этих формализмов больше не поддерживается. Сообщество консенсуса, похоже, использует противостоящий XML или формализм на основе графов.

Активно поддерживаемые противостоящие языки XML

GrAF-XML, ^[49] standoff-XML сериализация Linguistic Annotation Framework (LAF), ^[50], используемая, например, для американского национального корпуса ^[51]
PAULA-XML, ^[52] standoff-XML сериализация модели данных, лежащей в основе системы управления корпусом ANNIS и пакета конвертеров SALT ^[53]
NAF (формат аннотаций NLP / формат аннотаций Newsreader), ^[54] формат standoff XML, первоначально разработанный в проекте NewsReader (FP7, 2013-2015 ^[55] ), в настоящее время используется такими инструментами NLP, как FreeLing ^[56] (с поддержкой английского языка). , Испанский, португальский, итальянский, французский, немецкий, русский, каталонский, галисийский, хорватский, словенский и т. Д.) И EusTagger ^[57] (с поддержкой баскского, английского и испанского языков).
Чарльз Харпер Критический архив кодируется с помощью «мульти-версий документов» (MVD) для представления вариантные версий документов и в качестве средства индикации добавления, удаления и изменений , используя тактические комбинации нескольких документов и резервной от диапазонов в пределах базового актива графовая модель. MVD представлен как формат файла приложения, требующий специальных инструментов для просмотра или редактирования. ^[58]

Во многих приложениях ^{[ необходим пример ]} , standoff XML заменен или был заменен другими формализмами противостояния, основанными на JSON (- LD (например, Web Annotation ^[59] )) или формализмами графов, основанными на строковых URI (см. Ниже).

Формализмы на основе графов

Разметка Standoff использует модель данных, основанную на ориентированных графах ^[60], что усложняет ее представление при обосновании информации разметки в дереве. Представление перекрывающихся иерархий на графе устраняет эту проблему. Таким образом, аннотации противостояния могут быть более адекватно представлены как обобщенные направленные мультиграфы и используют формализмы и технологии, разработанные для этой цели, в первую очередь те, которые основаны на структуре описания ресурсов (RDF) . ^[61]^[62] EARMARK - это раннее представление RDF / OWL , охватывающее ациклические графы, ориентированные на общие упорядоченные-потомки (GODDAG). ^[14] Теория GODDAG, хотя и не является строго языком разметки, представляет собой общую модель данных для неиерархической разметки.

RDF - это семантическая модель данных, не зависящая от линеаризации, и она обеспечивает различные линеаризации, включая формат XML ( RDF / XML ), который можно смоделировать для отражения противостояния XML, линеаризацию, которая позволяет выражать RDF в атрибутах XML ( RDFa ), формат JSON ( JSON-LD ) и двоичные форматы, предназначенные для облегчения запросов или обработки (RDF-HDT, ^[63] RDF-Thrift ^[64] ). RDF семантически эквивалентен графическим моделям данных, лежащим в основе разметки standoff, он не требует специальной технологии для хранения, синтаксического анализа и запросов. Несколько связанных между собой файлов RDF, представляющих документ или корпус, составляют пример лингвистически связанных открытых данных .

Установленный метод связывания произвольных графов с аннотированным документом заключается в использовании идентификаторов фрагментов URI для ссылки на части текста и / или документа, см. Обзор в разделе « Веб-аннотации» . Стандарт веб-аннотаций предоставляет "селекторы", зависящие от формата, в качестве дополнительных средств, например, селекторы на основе смещения, совпадения строк или XPath. ^[65]

Родные словари RDF, способные представлять лингвистические аннотации, включают: ^[66]

Интернет-аннотация ^[67]
Формат обмена NLP (NIF) ^[68]
Формат обмена LAPPS (LIF) ^[69]

Связанные словари включают

POWLA, сериализация PAULA-XML в OWL2 / DL ^[70]
RDF-NAF, RDF-сериализация формата аннотаций NLP ^[71]

В начале 2020 года группа сообщества W3C LD4LT выступила с инициативой по гармонизации этих словарей и разработке консолидированного словаря RDF для лингвистических аннотаций в Интернете. ^[72]

Заметки

^ Инициатива кодирования текста .
^ a b ДеРоуз 2004 , Типы проблем.
^ Piez 2014 .
^ Renear, Милонас & Durand 1993 .
^ Теннисон 2008 .
^ MoChridhe 2019 .
^ Хиксон 2002 .
^ Sivonen 2003 .
^ HTML , § 8.2.8 Введение в обработку ошибок и странные случаи в парсере .
^ Sperberg-McQueen & Хуитфельдт 2000 , 2,1. Обозначения, отличные от SGML.
^ HTML , § 3.2.5.4 Пункты .
^ Sperberg-McQueen & Хуитфельдт 2000 , 2,2. КОНКУР.
^ Дероз 2004 , SGML CONCUR.
^ а б Ди Иорио, Перони и Витали 2009 .
^ Инициатива кодирования текста , § 20 Неиерархические структуры .
^ Durusau 2006 .
^ Инициатива кодирования текста , § 20.1 Несколько кодировок одной и той же информации .
^ Шмидт 2009 .
^ La Fontaine 2016 .
^ Шмидт 2012 , 4.1 Автоматизация вариаций.
^ Инициатива кодирования текста , § 20.2 Маркировка границ с пустыми элементами .
^ Сперберг-Маккуин & Хуитфельдт 2000 , 2.4. Основные вехи.
^ DeRose 2004 , вехи в стиле TEI.
^ Бирнбаум и Торсен 2015 .
^ Haentjens Dekker & Бирнбаум +2017 .
^ Инициатива кодирования текста , § 20.3 Фрагментация и восстановление виртуальных элементов .
^ Дероз 2004 , сегментация.
^ Сперберг-Маккуин & Хуитфельдт 2000 , 2.5. Фрагментация.
^ Дероз 2004 , играя.
Перейти ↑ Schmidt 2012 , 3.4 Interlinking.
^ Инициатива по кодированию текста , § 20.4 Независимая разметка .
^ Шмидт 2012 , 4.2 Разметка вне текста.
^ Eggert & Schmidt 2019 , Заключение.
^ a b c Ide et al. 2017 , стр.99.
^ https://www.iso.org/standard/37326.html
^ Chiarcos et al. 2008 .
^ https://github.com/TEIC/TEI/issues/1745
^ Сперберг-Маккуин & Хуитфельдт 2000 , 2.6. Разметка Standoff.
^ DeRose 2004 , разметка Standoff.
^ Дероз 2004 , Clix и LMNL.
^ Piez 2012 .
^ Sperberg-McQueen & Хуитфельдт 2000 , 2,7. MECS.
^ Sperberg-McQueen & Хуитфельдт 2000 .
^ Хуитфельдт & Sperberg-McQueen 2003 .
^ Гильберта, Schonefeld & Witt 2005 .
^ Витт и др. 2007 .
^ Schonefeld 2008 .
^ Маринелли, Виталий и Zacchiroli 2008 .
^ https://sourceforge.net/projects/iso-graf/
^ https://www.iso.org/standard/37326.html
^ http://www.anc.org/
^ https://www.sfb632.uni-potsdam.de/en/paula.html
^ https://corpus-tools.org/salt/
^ https://github.com/newsreader/NAF
^ https://cordis.europa.eu/project/id/316404
^ "Архивная копия" . Архивировано из оригинала на 2012-04-29 . Проверено 6 апреля 2020 .CS1 maint: заархивированная копия как заголовок ( ссылка )
^ http://www.hitz.eus/en/nlp
^ Eggert & Schmidt 2019 .
^ https://www.w3.org/TR/annotation-model/
^ Ide & Suderman 2007 .
^ Cassidy 2010 , Кэссиди.
^ Chiarcos 2012 , POWLA.
^ http://www.rdfhdt.org/
^ https://afs.github.io/rdf-thrift/
^ https://w3c.github.io/web-annotation/selector-note/
^ Чимиано, Филипп; Чиаркос, Кристиан; McCrae, John P .; Грация, Хорхе (2020). Лингвистические связанные данные. Представление, генерация и приложения . Чам: Спрингер.
^ Верспур, Карин; Ливингстон, Кевин (2012). «На пути к адаптации лингвистических аннотаций к формализмам научных аннотаций в семантической сети» . Труды Шестого семинара по лингвистической аннотации, Чеджу, Республика Корея : 75–84 . Проверено 6 апреля 2020 .
^ https://persistence.uni-leipzig.org/nlp2rdf/
^ https://wiki.lappsgrid.org/interchange/overview.html
^ http://purl.org/powla
^ http://wordpress.let.vupr.nl/naf/
^ https://github.com/ld4lt/linguistic-annotation

Перекрывающаяся разметка

История

Свойства и типы

Подходы и реализации

В иерархических языках

Несколько документов

Вехи

Присоединяется

Разметка Stand-off

Вызовы

Специальные языки

Исторические формализмы

Активно поддерживаемые противостоящие языки XML

Формализмы на основе графов

Заметки

Рекомендации