В языках разметки и цифровой гуманитарных , наложение происходит , когда документ имеет два или более структур , которые взаимодействуют в не иерархическом порядке. Документ с перекрывающейся разметкой нельзя представить в виде дерева . Это также известно как параллельная разметка . Перекрытие происходит, например, в поэзии , где может быть метрическая структура ступней и линий; лингвистическая структура предложений и цитат; и физическая структура томов и страниц и редакционных аннотаций. [1] [2]
История
Проблема неиерархических структур в документах была признана с 1988 г .; решение этой проблемы против доминирующей парадигмы текста как единой иерархии ( упорядоченная иерархия объектов контента или OHCO ) первоначально считалось чисто технической проблемой, но на самом деле оказалось намного сложнее. [4] В 2008 году Джени Теннисон определила перекрытие разметки как «основную остающуюся проблему для технологов разметки». [5] Перекрытие разметки продолжает оставаться основной проблемой в цифровом исследовании богословских текстов в 2019 году и является основной причиной сохранения в этой области специализированных форматов разметки - стандарта информации Open Scripture и языка теологической разметки - а не меж- рабочие форматы, основанные на инициативе кодирования текста, общие для остальной части цифровых гуманитарных наук . [6]
Свойства и типы
Существует различие между схемами, допускающими несмежное перекрытие, и схемами, допускающими только непрерывное перекрытие. Часто «перекрытие разметки» означает только последнее. Непрерывное перекрытие всегда можно представить в виде линейного документа с контрольными точками (обычно совместно проиндексированными начальными и конечными маркерами) без необходимости фрагментировать (логический) компонент на несколько физических. Несмежное перекрытие может потребовать фрагментации документа. Еще одно различие в перекрывающихся схемах разметки заключается в том, могут ли элементы перекрываться с другими элементами того же типа ( самоперекрытие ). [2]
Схема может иметь привилегированную иерархию. Некоторые схемы на основе XML , например, представляют одну иерархию непосредственно в дереве XML-документа и представляют другие, перекрывающиеся, структуры другими способами; они считаются непривилегированными .
Шмидт (2012) выделяет трехстороннюю классификацию случаев перекрытия: 1. «Вариация содержания и структуры», 2. «Наложение нескольких перспектив или наборов разметки» и 3. «Наложение отдельных начальных и конечных тегов в одной разметке. перспектива"; кроме того, некоторые очевидные случаи перекрытия на самом деле являются проблемами определения схемы, которые могут быть решены иерархически. Он утверждает, что тип 1 лучше всего разрешается системой из нескольких документов, внешних по отношению к разметке, но типы 2 и 3 требуют внутренней обработки.
Подходы и реализации
ДеРоуз (2004 , Критерии оценки) выделяет несколько критериев для оценки решений проблемы перекрытия:
- читаемость и ремонтопригодность,
- поддержка инструмента и совместимость с XML,
- возможные схемы валидации и
- простота обработки.
Суп тегов , строго говоря, не является перекрывающейся разметкой - это искаженный HTML , который не является перекрывающимся языком и может быть плохо определен. Некоторые веб-браузеры пытались представить перекрывающиеся начальный и конечный теги с помощью неиерархических объектных моделей документов (DOM), но это не было стандартизовано для всех браузеров и несовместимо с внутренней иерархической природой DOM. [7] [8] HTML5 определяет, как процессоры должны обрабатывать такую неправильно вложенную разметку в синтаксисе HTML и превращать ее в единую иерархию. [9] Однако в случае HTML на основе XHTML и SGML неверно вложенная разметка является серьезной ошибкой и делает невозможной обработку в системах, совместимых со стандартами. [10] Стандарт HTML определяет концепцию абзаца, которая может вызывать перекрытие с другими элементами и может быть несмежной. [11]
SGML , на котором были основаны ранние версии HTML, имеет функцию CONCUR, которая позволяет сосуществовать нескольким независимым иерархиям без каких-либо привилегий. Проверка DTD определяется только для каждой отдельной иерархии с помощью CONCUR. Валидация по иерархиям стандартом не определена. CONCUR не может поддерживать самоперекрытие и плохо взаимодействует с некоторыми сокращенными функциями SGML. Эта функция плохо поддерживается инструментами и практически не используется; Использование CONCUR для представления перекрытия документов не было рекомендуемым вариантом использования, согласно комментарию редактора стандарта. [12] [13]
В иерархических языках
Есть несколько подходов к представлению перекрытия на неперекрывающемся языке. [14] Кодировка текста Инициатива , как схема разметки XML на основе, не может непосредственно представлять перекрывающихся разметку. Предлагаются все четыре из следующих подходов. [15] информация Стандарт Open писание является другим XML на основе схемы, предназначенная для разметки Библии . Он использует пустые элементы вехи для кодирования непривилегированных компонентов. [16]
Для иллюстрации этих подходов, Разметка предложения и линии фрагмента Ричарда III по Уильяму Шекспир будет использоваться в качестве беговой примеры. Там, где есть привилегированная иерархия, будут использоваться линии.
Несколько документов
Каждый из нескольких документов может обеспечивать разные внутренне непротиворечивые иерархии. Преимущество этого подхода заключается в том, что каждый документ прост и может обрабатываться с помощью существующих инструментов, но требует поддержки избыточного контента и может быть затруднительным перекрестная ссылка между различными представлениями. [17] При наличии нескольких документов перекрытие можно анализировать с помощью методов сравнения данных и дельта-кодирования , а в контексте XML доступны определенные алгоритмы дифференцирования дерева XML. [18] [19]
Шмидт (2012 , 3.5 Вариация) рекомендует этот подход для кодирования нескольких вариантов одного текста и принятия дублирования частей, которые не меняются, вместо попытки создать структуру, которая представляет все существующие вариации; Кроме того, он предлагает, чтобы это выравнивание выполнялось автоматически, и что несовпадение на практике встречается редко. [20]
Пример с размеченными строками:
Я, через поверенного, благословляю тебя от твоей матери, Которая постоянно молится о благе Ричмонда. Вот и все. - Тихие часы продолжаются, И на востоке разражается зыбкая тьма.
С размеченными предложениями:
<предложение> Я, поверенным, благословляю тебя от твоей матери, Кто постоянно молится о благе Ричмонда. Вот и все. - Часы тишины продолжаются, И на востоке разрывается хрупкая тьма.
Вехи
Вехи - это пустые элементы, которые отмечают начало и конец компонента. Они могут использоваться для встраивания непривилегированной структуры в иерархический язык и могут представлять только непрерывное перекрытие. Существующие инструменты также не будут понимать значение элементов вех, и поэтому не могут легко обработать или проверить непривилегированную структуру. [21] [22] Разметка, расположенная рядом с контентом, является преимуществом для удобства обслуживания и читаемости. [23] CLIX ( DeRose 2004 ) является примером такого подхода.
Пример:
<предложение-start /> Я, через поверенного, благословляю тебя от твоей матери, Которая постоянно молится о благе Ричмонда. <предложение-конец /> <начало предложения /> Вот и все. <предложение-конец /> <предложение-начало /> - часы безмолвия продолжаются, И на востоке разливается хаотичная тьма. <конец предложения />
Пунктуация и пробелы были определены как тип «криптоперекрытия» или «псевдо-разметки» в стиле вех, поскольку границы слов, предложений, предложений и т.п. не обязательно совпадают с формальными границами разметки иерархически. [24] [25]
Присоединяется
Соединения - это указатели внутри привилегированной иерархии на другие компоненты привилегированной иерархии, которые могут использоваться для восстановления непривилегированного компонента, подобного отслеживанию связанного списка . Один непривилегированный элемент сегментируется на несколько частичных элементов в привилегированной иерархии; Сами частичные элементы не представляют собой единую единицу в непривилегированной иерархии, что может вводить в заблуждение и затруднять обработку. [26] [27] Хотя этот подход может поддерживать некоторые несмежные структуры, он не может изменять порядок элементов. [28] Несколько иной подход, однако, может выражать переупорядочение путем выражения соединения вне контекста за счет прямоты и удобства обслуживания. [29]
Представления на основе соединений могут вводить возможность циклов между элементами; их обнаружение и отклонение усложняет реализацию. [30]
Пример:
<предложение id = "a" > Я через поверенного благословляю тебя от твоей матери, <предложение continue = "a" > Кто постоянно молится о благе Ричмонда. <предложение id = "b" > Вот и все. <предложение id = "c" > —Часы тишины продолжаются , <предложение continue = "c" > И на востоке разливается зыбкая тьма.
Разметка Stand-off
Разметка разметки похожа на использование объединений, за исключением того, что здесь нет привилегированной иерархии: каждой части документа дается метка (или на нее можно ссылаться по смещению), а документ создается путем указания на контент из разметки. это «стоит отдельно» от содержимого (возможно, в совершенно другом файле) и может не содержать самого содержимого. В рекомендациях TEI единство элементов определяется как основное преимущество разметки по сравнению с объединениями, а также возможность создавать и распространять аннотации отдельно от текста, возможно, даже разными авторами, применяющими разметку к документу, доступному только для чтения. , [31], позволяющие совместные подходы к разметке с помощью стратегии « разделяй и властвуй» . [32]
Пример:
id = "a" > Я, через поверенного, благословляю тебя от твоей матери, id = "b" > Которая постоянно молится о благе Ричмонда. id = "c" > Вот и все. id = "d" > - часы безмолвия продолжаются, id = "e" > И на востоке разливается хаотичная тьма. ... contents = "a" /> contents = "b" /> contents = "c d" /> contents = "e" /> <предложение contents = "a b" /> <предложение contents = " c " /> <предложение contents = " d e " />
Было заявлено, что разделение разметки и текста может привести к общему упрощению и повышению ремонтопригодности [33], и к 2017 году «[t] текущий уровень техники [представления] (...) лингвистически аннотированных данных должен быть использовать представление на основе графа, сериализованное как XML-XML, в качестве основного формата [34], т.е. это противостояние было наиболее широко распространенным подходом к решению проблемы перекрывающейся разметки.
Формализмы противостояния легли в основу стандарта ISO для лингвистических аннотаций [35], они успешно применялись для разработки систем управления корпусами [36] и (по состоянию на апрель 2020 г.) они активно развиваются в TEI. [37]
Вызовы
Представление перекрывающейся разметки в иерархических языках является сложной задачей по причинам избыточности и / или сложности. В 2000–2010-х годах формализмы противостояния были общепринятыми как наиболее многообещающий подход [34], но недостатком противостояния было то, что их проверка была очень сложной. [38] Формализмы противостояния изначально не поддерживаются системами управления базами данных, поэтому (к 2017 году) было предложено «использовать ... противостоящий XML в качестве сводного формата (...) и реляционные базы данных для запросов». [34] В практических приложениях это требует сложной архитектуры и / или трудоемкого преобразования между сводным форматом и внутренним представлением. В результате обслуживание проблематично. [39] Это было мотивацией для разработки систем управления корпусами на основе графовых баз данных и для использования установленных формализмов на основе графов в качестве сводных форматов.
Специальные языки
Для реализации вышеупомянутых стратегий можно расширить существующие языки разметки (например, TEI) или разработать специальные языки. Разработка совершенно нового языка разметки позволяет отказаться от поддержки инструментов в существующих языках в пользу менее сложной семантической модели и более удобного синтаксиса.
Исторические формализмы
- LMNL - это неиерархический язык разметки, впервые описанный в 2002 году Jeni Tennison и Wendell Piez , аннотирующий диапазоны документа с помощью свойств и допускающий самоперекрытие. CLIX , который первоначально расшифровывался как «канонический LMNL в XML», предоставляет метод для представления любого документа LMNL в XML-документе вехового стиля. [40] Он также имеет другую сериализацию XML, xLMNL. [41]
- MECS был разработан Университетом Берген «s Витгенштейна Архива . Однако у него было несколько проблем: он допускал некоторые бессмысленные документы с перекрывающимися элементами, он не мог поддерживать самоперекрытие и не имел возможности определять грамматику, подобную DTD. [42] Теория ациклических графов, ориентированных на общие упорядоченные-потомки (GODDAG), хотя и не является строго языком разметки, представляет собой общую модель данных для неиерархической разметки. Ограниченные GODDAG были разработаны специально для соответствия семантике MECS; общие GODDAG могут быть несмежными и нуждаются в более мощном языке. [43] TexMECS является преемником MECS, который имеет формальную грамматику и предназначен для представления всех GODDAG и ничего, кроме GODDAG. [44]
- XCONCUR (ранее MuLaX) представляет собой смесь XML и SGML CONCUR, а также содержит язык проверки, XCONCUR-CL, и API-интерфейс, подобный SAX . [45] [46] [47]
- Маринелли, Витали и Заккироли предоставляют алгоритмы для преобразования между ограниченными GODDAG, ECLIX, LMNL, параллельными документами в XML, смежной разметкой и TexMECS. [48]
Кажется, что ни один из этих формализмов больше не поддерживается. Сообщество консенсуса, похоже, использует противостоящий XML или формализм на основе графов.
Активно поддерживаемые противостоящие языки XML
- GrAF-XML, [49] standoff-XML сериализация Linguistic Annotation Framework (LAF), [50], используемая, например, для американского национального корпуса [51]
- PAULA-XML, [52] standoff-XML сериализация модели данных, лежащей в основе системы управления корпусом ANNIS и пакета конвертеров SALT [53]
- NAF (формат аннотаций NLP / формат аннотаций Newsreader), [54] формат standoff XML, первоначально разработанный в проекте NewsReader (FP7, 2013-2015 [55] ), в настоящее время используется такими инструментами NLP, как FreeLing [56] (с поддержкой английского языка). , Испанский, португальский, итальянский, французский, немецкий, русский, каталонский, галисийский, хорватский, словенский и т. Д.) И EusTagger [57] (с поддержкой баскского, английского и испанского языков).
- Чарльз Харпер Критический архив кодируется с помощью «мульти-версий документов» (MVD) для представления вариантные версий документов и в качестве средства индикации добавления, удаления и изменений , используя тактические комбинации нескольких документов и резервной от диапазонов в пределах базового актива графовая модель. MVD представлен как формат файла приложения, требующий специальных инструментов для просмотра или редактирования. [58]
Во многих приложениях [ необходим пример ] , standoff XML заменен или был заменен другими формализмами противостояния, основанными на JSON (- LD (например, Web Annotation [59] )) или формализмами графов, основанными на строковых URI (см. Ниже).
Формализмы на основе графов
Разметка Standoff использует модель данных, основанную на ориентированных графах [60], что усложняет ее представление при обосновании информации разметки в дереве. Представление перекрывающихся иерархий на графе устраняет эту проблему. Таким образом, аннотации противостояния могут быть более адекватно представлены как обобщенные направленные мультиграфы и используют формализмы и технологии, разработанные для этой цели, в первую очередь те, которые основаны на структуре описания ресурсов (RDF) . [61] [62] EARMARK - это раннее представление RDF / OWL , охватывающее ациклические графы, ориентированные на общие упорядоченные-потомки (GODDAG). [14] Теория GODDAG, хотя и не является строго языком разметки, представляет собой общую модель данных для неиерархической разметки.
RDF - это семантическая модель данных, не зависящая от линеаризации, и она обеспечивает различные линеаризации, включая формат XML ( RDF / XML ), который можно смоделировать для отражения противостояния XML, линеаризацию, которая позволяет выражать RDF в атрибутах XML ( RDFa ), формат JSON ( JSON-LD ) и двоичные форматы, предназначенные для облегчения запросов или обработки (RDF-HDT, [63] RDF-Thrift [64] ). RDF семантически эквивалентен графическим моделям данных, лежащим в основе разметки standoff, он не требует специальной технологии для хранения, синтаксического анализа и запросов. Несколько связанных между собой файлов RDF, представляющих документ или корпус, составляют пример лингвистически связанных открытых данных .
Установленный метод связывания произвольных графов с аннотированным документом заключается в использовании идентификаторов фрагментов URI для ссылки на части текста и / или документа, см. Обзор в разделе « Веб-аннотации» . Стандарт веб-аннотаций предоставляет "селекторы", зависящие от формата, в качестве дополнительных средств, например, селекторы на основе смещения, совпадения строк или XPath. [65]
Родные словари RDF, способные представлять лингвистические аннотации, включают: [66]
- Интернет-аннотация [67]
- Формат обмена NLP (NIF) [68]
- Формат обмена LAPPS (LIF) [69]
Связанные словари включают
- POWLA, сериализация PAULA-XML в OWL2 / DL [70]
- RDF-NAF, RDF-сериализация формата аннотаций NLP [71]
В начале 2020 года группа сообщества W3C LD4LT выступила с инициативой по гармонизации этих словарей и разработке консолидированного словаря RDF для лингвистических аннотаций в Интернете. [72]
Заметки
- ^ Инициатива кодирования текста .
- ^ a b ДеРоуз 2004 , Типы проблем.
- ^ Piez 2014 .
- ^ Renear, Милонас & Durand 1993 .
- ^ Теннисон 2008 .
- ^ MoChridhe 2019 .
- ^ Хиксон 2002 .
- ^ Sivonen 2003 .
- ^ HTML , § 8.2.8 Введение в обработку ошибок и странные случаи в парсере .
- ^ Sperberg-McQueen & Хуитфельдт 2000 , 2,1. Обозначения, отличные от SGML.
- ^ HTML , § 3.2.5.4 Пункты .
- ^ Sperberg-McQueen & Хуитфельдт 2000 , 2,2. КОНКУР.
- ^ Дероз 2004 , SGML CONCUR.
- ^ а б Ди Иорио, Перони и Витали 2009 .
- ^ Инициатива кодирования текста , § 20 Неиерархические структуры .
- ^ Durusau 2006 .
- ^ Инициатива кодирования текста , § 20.1 Несколько кодировок одной и той же информации .
- ^ Шмидт 2009 .
- ^ La Fontaine 2016 .
- ^ Шмидт 2012 , 4.1 Автоматизация вариаций.
- ^ Инициатива кодирования текста , § 20.2 Маркировка границ с пустыми элементами .
- ^ Сперберг-Маккуин & Хуитфельдт 2000 , 2.4. Основные вехи.
- ^ DeRose 2004 , вехи в стиле TEI.
- ^ Бирнбаум и Торсен 2015 .
- ^ Haentjens Dekker & Бирнбаум +2017 .
- ^ Инициатива кодирования текста , § 20.3 Фрагментация и восстановление виртуальных элементов .
- ^ Дероз 2004 , сегментация.
- ^ Сперберг-Маккуин & Хуитфельдт 2000 , 2.5. Фрагментация.
- ^ Дероз 2004 , играя.
- Перейти ↑ Schmidt 2012 , 3.4 Interlinking.
- ^ Инициатива по кодированию текста , § 20.4 Независимая разметка .
- ^ Шмидт 2012 , 4.2 Разметка вне текста.
- ^ Eggert & Schmidt 2019 , Заключение.
- ^ a b c Ide et al. 2017 , стр.99.
- ^ https://www.iso.org/standard/37326.html
- ^ Chiarcos et al. 2008 .
- ^ https://github.com/TEIC/TEI/issues/1745
- ^ Сперберг-Маккуин & Хуитфельдт 2000 , 2.6. Разметка Standoff.
- ^ DeRose 2004 , разметка Standoff.
- ^ Дероз 2004 , Clix и LMNL.
- ^ Piez 2012 .
- ^ Sperberg-McQueen & Хуитфельдт 2000 , 2,7. MECS.
- ^ Sperberg-McQueen & Хуитфельдт 2000 .
- ^ Хуитфельдт & Sperberg-McQueen 2003 .
- ^ Гильберта, Schonefeld & Witt 2005 .
- ^ Витт и др. 2007 .
- ^ Schonefeld 2008 .
- ^ Маринелли, Виталий и Zacchiroli 2008 .
- ^ https://sourceforge.net/projects/iso-graf/
- ^ https://www.iso.org/standard/37326.html
- ^ http://www.anc.org/
- ^ https://www.sfb632.uni-potsdam.de/en/paula.html
- ^ https://corpus-tools.org/salt/
- ^ https://github.com/newsreader/NAF
- ^ https://cordis.europa.eu/project/id/316404
- ^ "Архивная копия" . Архивировано из оригинала на 2012-04-29 . Проверено 6 апреля 2020 .CS1 maint: заархивированная копия как заголовок ( ссылка )
- ^ http://www.hitz.eus/en/nlp
- ^ Eggert & Schmidt 2019 .
- ^ https://www.w3.org/TR/annotation-model/
- ^ Ide & Suderman 2007 .
- ^ Cassidy 2010 , Кэссиди.
- ^ Chiarcos 2012 , POWLA.
- ^ http://www.rdfhdt.org/
- ^ https://afs.github.io/rdf-thrift/
- ^ https://w3c.github.io/web-annotation/selector-note/
- ^ Чимиано, Филипп; Чиаркос, Кристиан; McCrae, John P .; Грация, Хорхе (2020). Лингвистические связанные данные. Представление, генерация и приложения . Чам: Спрингер.
- ^ Верспур, Карин; Ливингстон, Кевин (2012). «На пути к адаптации лингвистических аннотаций к формализмам научных аннотаций в семантической сети» . Труды Шестого семинара по лингвистической аннотации, Чеджу, Республика Корея : 75–84 . Проверено 6 апреля 2020 .
- ^ https://persistence.uni-leipzig.org/nlp2rdf/
- ^ https://wiki.lappsgrid.org/interchange/overview.html
- ^ http://purl.org/powla
- ^ http://wordpress.let.vupr.nl/naf/
- ^ https://github.com/ld4lt/linguistic-annotation
Рекомендации
- Бирнбаум, Дэвид Дж; Торсен, Элиза (2015). Разметка и счетчик: использование инструментов XML, чтобы научить компьютер думать о стихосложении . Балисаж: Конференция по разметке 2015. Монреаль. DOI : 10.4242 / BalisageVol15.Birnbaum01 .
- Кэссиди, Стив (2010). RDF-реализация LAF на сервере аннотаций DADA (PDF) . Материалы ISA-5. Гонконг. CiteSeerX 10.1.1.454.9146 .
- Чиаркос, Кристиан (2012). POWLA: Моделирование лингвистических корпусов в OWL / DL (PDF) . Материалы 9-й конференции по расширенной семантической сети (ESWC 2012, Ираклион, Крит; LNCS 7295). С. 225–239. DOI : 10.1007 / 978-3-642-30284-8_22 . Проверено 24 мая 2016 .
- Чиаркос, Кристиан; Диппер, Стефани; Гётце, Майкл; Лезер, Ульф; Люделинг, Анке; Ритц, Джулия; Стеде, Манфред (2008). «Гибкая структура для интеграции аннотаций из различных инструментов и наборов тегов» . Traitement Automatique des Langues . 49 (2): 271–293.
- ДеРоуз, Стивен (2004). Перекрытие разметки: обзор и лошадь . Языки экстремальной разметки 2004. Монреаль. CiteSeerX 10.1.1.108.9959 . Проверено 14 октября 2014 .
- Ди Иорио, Анджело; Перони, Сильвио; Виталий, Фабио (август 2009 г.). На пути к поддержке разметки для полных GODDAG и не только: подход EARMARK . Балисаж: Конференция по разметке 2009. Монреаль. DOI : 10.4242 / BalisageVol3.Peroni01 .
- Эггерт, Пол; Шмидт, Десмонд А (2019). «Критический архив Чарльза Харпура: история и технический отчет» . Международный журнал цифровых гуманитарных наук . 1 (1) . Проверено 25 марта 2019 .
- Хентдженс Деккер, Рональд; Бирнбаум, Дэвид Дж (2017). Это больше, чем просто наложение: текст как график . Балисаж: Конференция по разметке 2017. Монреаль. DOI : 10.4242 / BalisageVol19.Dekker01 .
- Дурузау, Патрик (2006). Руководство пользователя OSIS (Схема OSIS 2.1.1) (PDF) . Архивировано из оригинального (PDF) 23 октября 2014 года . Проверено 14 октября 2014 .
- Ян Хиксон (21 ноября 2002). «Суп из тегов: как UA обрабатывают » . Проверено 5 ноября 2017 .
- Гильберт, Мирко; Шенефельд, Оливер; Витт, Андреас (2005). Заставляем КОНКУР работать . Extreme Markup Languages 2005. Монреаль. CiteSeerX 10.1.1.104.634 . Проверено 14 октября 2014 .
- Huitfeldt, Клаус; Сперберг-Маккуин, CM (2003). «TexMECS: экспериментальный метаязык разметки для сложных документов» . Архивировано из оригинала на 2017-02-27 . Проверено 14 октября 2014 .
- Иде, Нэнси; Чиаркос, Кристиан; Стеде, Манфред; Кэссиди, Стив (2017). «Проектирование схем аннотаций: от модели к представлению». In Ide, Нэнси; Пустеевский, Джеймс (ред.). Справочник лингвистической аннотации . Дордрехт: Спрингер. п. 99. DOI : 10.1007 / 978-94-024-0881-2_3 . ISBN 978-94-024-0879-9.
- Ла Фонтен, Робин (2016). Представление перекрывающейся иерархии как изменения в XML . Балисаж: Конференция по разметке 2016. Монреаль. DOI : 10.4242 / BalisageVol17.LaFontaine01 .
- Маринелли, Паоло; Виталий, Фабио; Заккироли, Стефано (январь 2008 г.). «На пути к унификации форматов перекрывающейся разметки» (PDF) . Новый обзор гипермедиа и мультимедиа . 14 (1): 57–94. CiteSeerX 10.1.1.383.1636 . DOI : 10.1080 / 13614560802316145 . ISSN 1361-4568 . S2CID 16909224 . Проверено 14 октября 2014 .
- MoChridhe, Race J (24.04.2019). «Двадцать лет богословских языков разметки: ретроспектива и перспектива» . Богословское библиотечное дело . 12 (1). DOI : 10.31046 / tl.v12i1.523 . ISSN 1937-8904 . Проверено 15 июля 2019 .
- Пьез, Венделл (август 2012 г.). Люминесцентный: анализ LMNL с помощью преобразования XSLT с повышением частоты . Балисаж: Конференция по разметке 2012. Монреаль. DOI : 10.4242 / BalisageVol8.Piez01 . Проверено 14 октября 2014 .
- Пьез, Венделл (2014). Иерархии в пределах диапазона: от LMNL до OHCO . Балисаж: Конференция по разметке 2014. Монреаль. DOI : 10.4242 / BalisageVol13.Piez01 .
- Renear, Аллен; Милонас, Элли; Дюран, Дэвид (1993-01-06). «Уточнение нашего представления о том, что такое текст на самом деле: проблема перекрывающихся иерархий» . CiteSeerX 10.1.1.172.9017 . ЛВП : 2142/9407 . Проверено 2 октября 2016 .
- Шенефельд, Оливер (август 2008 г.). Простой API для XCONCUR: обработка параллельной разметки с использованием событийно-ориентированного API . Балисаж: Конференция по разметке 2008. Монреаль. DOI : 10.4242 / BalisageVol1.Schonefeld01 . Проверено 14 октября 2014 .
- Сперберг-Маккуин, CM ; Хайтфельдт, Клаус (2000). «GODDAG: структура данных для перекрывающихся иерархий» . Конспект лекций по информатике . 2023 (2023): 139–160. DOI : 10.1007 / 978-3-540-39916-2_12 . ISBN 978-3-540-21070-2. Проверено 14 октября 2014 .
- Шмидт, Десмонд (2009). Объединение многоверсионных текстов: общее решение проблемы перекрытия . Балисаж: Конференция по разметке 2009. Монреаль. DOI : 10.4242 / BalisageVol3.Schmidt01 .
- Шмидт, Десмонд (2012). «Роль разметки в цифровых гуманитарных науках». Исторические социальные исследования . 27 (3): 125–146. DOI : 10.12759 / hsr.37.2012.3.125-146 .
- Анри Сивонен (16 августа 2003 г.). «Суп тегов: как Mac IE 5 и Safari обрабатывают » . Проверено 5 ноября 2017 .
- Иде, Нэнси; Судерман, Кит (2007). GrAF: Графический формат лингвистических аннотаций (PDF) . Труды Первого семинара по лингвистической аннотации (LAW-2007, Прага, Чешская Республика). С. 1–8. CiteSeerX 10.1.1.146.4543 .
- Теннисон, Дженни (2008-12-06). «Перекрытие, сдерживание и доминирование» . Проверено 2 октября 2016 .
- Витт, Андреас; Шенефельд, Оливер; Рем, Георг; Ху, Джонатан; Эванг, Килиан (2007). О преобразовании без потерь однофайловых многослойных аннотаций в многокорневые деревья . Extreme Markup Languages 2007. Монреаль . Проверено 14 октября 2014 .
- Консорциум Text Encoding Initiative (16 сентября 2014 г.). «Рекомендации по кодированию и обмену электронными текстами» (5-е изд.) . Проверено 14 октября 2014 .
- WHATWG . «Уровень жизни HTML» . Проверено 25 марта 2019 .