Язык разметки


Разметка относится к данным, включенным в электронный документ , которые отличаются от содержимого документа тем, что обычно не включаются в представления документа для конечных пользователей, например, на бумаге или на экране компьютера, или в аудиопотоке. [1] Разметка часто используется для управления отображением документа или для обогащения его содержимого для облегчения автоматизированной обработки. Язык разметки — это набор правил, определяющих, какая информация разметки может быть включена в документ и как она сочетается с содержимым документа, чтобы облегчить использование людьми и компьютерными программами. Идея и терминология произошли от «разметки» бумажных рукописей .(т. е. инструкции по исправлению редакторами), которые традиционно пишутся красной ручкой или синим карандашом на авторских рукописях. [2]

К более старым языкам разметки, которые обычно ориентированы на типографику и представление, относятся troff , TeX и LaTeX . Scribe и большинство современных языков разметки, например XML , идентифицируют компоненты документа (например, заголовки, абзацы и таблицы) с расчетом на то, что такие технологии, как таблицы стилей , будут использоваться для применения форматирования или другой обработки.

Некоторые языки разметки, такие как широко используемый HTML , имеют предопределенную семантику представления , что означает, что их спецификация предписывает некоторые аспекты представления структурированных данных на определенных носителях. HTML, как и DocBook , Open eBook , JATS и многие другие, основан на метаязыках разметки SGML и XML . То есть SGML и XML позволяют разработчикам указывать определенные схемы , которые определяют, какие элементы, атрибуты и другие функции разрешены и где.

Одной чрезвычайно важной характеристикой большинства языков разметки является то, что они позволяют смешивать разметку с содержимым документа, таким как текст и изображения. Например, если необходимо выделить несколько слов в предложении или идентифицировать их как имя собственное, определенный термин или другой специальный элемент, разметка может быть вставлена ​​между символами предложения. Это структурно сильно отличается от традиционных баз данных , где по определению невозможно иметь данные, которые находятся в записи, но не в каком-либо поле. Кроме того, разметка для удобочитаемых текстов должна поддерживать порядок: было бы недостаточно превратить каждый абзац книги в запись «абзаца», где эти записи не поддерживают порядок.

Существительное разметка происходит от традиционной издательской практики, называемой «разметкой» рукописи [3] , которая включает добавление рукописных аннотаций в форме обычных символических инструкций для принтера — на полях и в тексте статьи или печатной рукописи. .

На протяжении веков эта задача выполнялась в основном опытными типографами, известными как «разметчики» [4] или «d-маркеры» [5] , которые размечали текст, чтобы указать, какой шрифт , стиль и размер следует применять к каждой части, а затем передал рукопись другим для набора текста вручную или на машине.


Пример RecipeBook, простого языка разметки на основе XML для создания рецептов. Разметку можно программно преобразовать для отображения, например, в HTML , PDF или Rich Text Format .