Из Википедии, свободной энциклопедии
Перейти к навигации Перейти к поиску

Структурированный документ представляет собой электронный документ , в котором какой - то способ разметки используется для идентификации в целом и частей документа , как имеющие различные значений за их форматирование. Например, структурированный документ может идентифицировать определенную часть как «заголовок главы» (или «образец кода» или «катрен»), а не как «Helvetica bold 24» или «Courier с отступом». Такие части обычно называют «компонентами» или «элементами» документа.

Обзор [ править ]

Структурированные документы обычно ориентированы на маркировку вещей, которые могут использоваться для различных целей обработки, а не просто для форматирования. Например, явное обозначение «названия главы» или «выделения» гораздо более полезно для систем для слабовидящих, чем просто «Helvetica bold 24» или «курсив». Точно так же значимая маркировка многих элементов на листе технической информации обеспечивает лучшую интеграцию с базами данных, поисковыми системами, онлайн-каталогами и т. Д.

Структурированные документы обычно поддерживают по крайней мере иерархические структуры, например списки, а не просто элементы списка; разделы, а не только заголовки разделов; и так далее. Это резко контрастирует с системами, ориентированными на форматирование. Высокопроизводительные системы также поддерживают несколько независимых и / или перекрывающихся наборов компонентов. [1]

Системы структурированных документов обычно позволяют создавать явные правила, определяющие типы компонентов и способы их комбинирования. Такой набор правил называется «схемой» по аналогии со схемами базы данных . Для их определения существует несколько формальных языков, таких как XSD , Relax NG и Schematron . Структурированный документ, который подчиняется правилам схемы, обычно называется «действительным в соответствии с этой схемой». Некоторые системы также поддерживают документы с компонентами произвольных типов и комбинаций, но все же с синтаксическими правилами того, как эти компоненты идентифицируются.

Ли и Saarela отметил « Стандартный обобщенный язык разметки (SGML) является пионером концепции структурированных документов», [2] , хотя ранее такие системы, как писец , увеличивающие и Fress предоставляется множество функций , структурно-документов и возможности, и потомство SGML в XML является сейчас одобрено.

Одним из очень широко используемых представлений для структурированных документов является HTML , схема, определенная и описанная W3C . Однако в HTML есть не только теги для смысло-ориентированных компонентов, таких как абзац, заголовок и код; но также ориентированные на формат, такие как курсив, полужирный шрифт и большинство таблиц. На практике HTML иногда используется как система структурированных документов, но часто используется как язык форматирования.

Многие домены используют структурированные документы через доменные схемы, которые они совместно разработали, такие как JATS для публикации журналов, TEI для литературных документов, UBL и EDI для делового обмена, XTCE для телеметрии космических кораблей, REST для веб-интерфейсов и многие другие. Во всех этих случаях используются определенные схемы на основе XML .

XML - это универсальный формат для структурированных документов и данных в Интернете.

Структурная семантика [ править ]

При написании структурированных документов основное внимание уделяется кодированию логической структуры документа, при этом меньше или даже совсем не ведется явная работа, посвященная его представлению людям с помощью печатных страниц или экранов (в некоторых случаях такое использование даже не ожидается). Структурированные документы могут быть легко обработаны компьютерными системами для извлечения и представления производных форм документа. Например, в большинстве статей Википедии оглавление автоматически создается из различных тегов заголовков в теле документа. Поскольку преобразование Оксфордского словаря английского языка в SGMLявно различая множество различных значений, которые придаются использованию курсива в печатной версии, инструменты поиска могут извлекать записи на основе этимологии, цитат и многих других интересных особенностей. Когда HTML предоставляет структурную, а не просто форматирующую информацию, слабовидящим пользователям может быть легко предоставлен более удобный интерфейс для чтения. Когда туристические компании предоставляют маршруты в виде структурированных документов, а не просто отображения, пользовательские инструменты могут легко извлечь необходимые факты и передать их в календарь или другие приложения.

В HTML частью логической структуры документа может быть тело документа; <body>, содержащий заголовок первого уровня; <h1>, и абзац; <p>.

< тело >< H1 > Структурированные документ </ h1 > < р > < сильный  класс = "selflink" > структурированный документ </ сильный > является < HREF = "/ вики / Electronic_document" название = "Электронный документ" > электронный документ </ a > где какой-то метод < a href = "/ wiki / Markup_language" title = "Язык разметки " > разметка    </ a > используется для обозначения всего и частей документа как имеющих различное значение, выходящее за рамки их форматирования. </ p ></ body >

Одной из наиболее привлекательных особенностей структурированных документов является то, что они могут быть повторно использованы во многих контекстах и ​​представлены различными способами на мобильных телефонах, экранах телевизоров, синтезаторах речи и любом другом устройстве, которое можно запрограммировать для их обработки.

Другая семантика [ править ]

Тексту может быть придано другое значение, которое не является «структурным» в том же смысле, что и более крупные объекты, но все же считается «структурой документа», потому что оно выражает утверждения относительно объема и природы или онтологии частей документа, а не инструкции по его оформлению. В приведенном выше фрагменте HTML этот <strong>элемент означает, что заключенный текст является выразительным. В визуальном плане это обычно выделяется жирным шрифтом, например <b>: но речевой интерфейс, скорее всего, вместо этого будет использовать голосовую интонацию. Термин семантическая разметка исключает разметку типа<b>который напрямую не выражает никакого смысла, кроме инструкции для визуального отображения (хотя интеллектуальный агент может быть в состоянии различить структурный смысл, скрывающийся за тегом). Тег «strong» является «описательным» или «структурным» в том смысле, что он предназначен для обозначения абстрактного, квазилингвистического свойства его содержания, а не для описания соответствующего представления на каком-то конкретном носителе.

Некоторые другие структурные теги в HTML включают <abbr>, <acronym>, <address>, <cite>, <del>, <dfn>, <ins>, <kbd>, and <q>. В других схемах, таких как DocBook и TEI , выбор гораздо больше.

<a>Тег привязки используется для другого, немного другого типа структуры, а именно для структуры межсоединений или перекрестных ссылок, а не для разделения интервалов. Это наиболее определенная структура, и на самом деле можно создать альтернативную разметку для документов, которая выражает одни и те же конкретные структуры в любом случае (например, используя включение для представления содержимого раздела, а не представления навигационных гиперссылок).

HTML с самого начала также имел теги, которые выражают презентационную семантику, такую ​​как полужирный ( <b>) или курсив ( <i>), или для изменения размеров шрифта, или которые оказывали другое влияние на презентацию. [3] Современные версии языков разметки не рекомендуют такую ​​разметку в пользу описательной разметки, которая отображается на определенные презентации с помощью таблиц стилей , метод, впервые примененный в таких системах, как Scribe и FRESS . Различные таблицы стилей могут быть прикреплены к любой разметке, семантической или презентационной, для создания различных презентаций, хотя отображение имени тега «курсив» в полужирное представление не совсем интуитивно понятно.

Контекст и намерение [ править ]

В принципе, то, что составляет «структуру» или «неструктуру», может варьироваться. В книге, посвященной типографике, пометка «курсивом» или «полужирным шрифтом» вполне может быть ключевым моментом. Например, при обсуждении того, когда использовать определенные стили, вероятно, потребуется привести примеры и контрпримеры, которые больше не будут иметь смысла, если рендеринг не синхронизирован с прозой. Точно так же конкретное издание документа может представлять интерес не только своим содержанием, но и типографской практикой, и в этом случае описание этой практики не только желательно, но и необходимо. Однако эта проблема характерна не только для структуры документа; он также возникает в грамматике при обсуждении грамматики и во многих других случаях.

См. Также [ править ]

  • Обработчик документов
  • Машиночитаемый документ
  • Перекрывающаяся разметка
  • Структурированное письмо

Ссылки [ править ]

  1. ^ Дероз, Стивен (2004). Перекрытие разметки: обзор и лошадь . Языки экстремальной разметки 2004. Монреаль. CiteSeerX  10.1.1.108.9959 . Проверено 14 октября 2014 .
  2. ^ Håkon Wium Ли; Янне Саарела (1998). «Многоцелевые публикации с использованием HTML, XML и CSS» . W3.org . Ассоциация вычислительной техники .
  3. ^ "Образец экземпляра HTML" . Проверено 5 марта 2014 .