Из Википедии, бесплатной энциклопедии
  (Перенаправлено из справочника по сущности Character )
Перейти к навигации Перейти к поиску

В документах SGML, HTML и XML логические конструкции, известные как символьные данные и значения атрибутов, состоят из последовательностей символов, в которых каждый символ может проявляться напрямую (представлять себя) или может быть представлен серией символов, называемой ссылкой на символ , из которых есть два типа: числовая символьная ссылка и символьная ссылка на сущность . В этой статье перечислены ссылки на символьные сущности, которые действительны в документах HTML и XML.

Ссылка на символьный объект относится к содержимому именованного объекта. Объявление сущности создается с использованием <!ENTITY name "value">синтаксиса определения типа документа (DTD).

Обзор ссылок на персонажей [ править ]

Цифровая ссылка на символ относится к символу , по его универсальному набору символов / Unicode точки коды , и использует формат:

&#нннн;

или же

&#xхххх;

где nnnn - это кодовая точка в десятичной форме, а hhhh - это кодовая точка в шестнадцатеричной форме. В XML-документах x должен быть в нижнем регистре. Нннн или хххх может быть любое количество цифр и может включать в себя ведущие нули. В hhhh могут смешиваться прописные и строчные буквы, хотя прописные буквы - это обычный стиль.

Напротив, ссылка на символьный объект ссылается на символ по имени объекта, который имеет желаемый символ в качестве замещающего текста . Сущность должна быть либо предопределена (встроена в язык разметки), либо явно объявлена ​​в определении типа документа (DTD). Формат такой же, как и для любой ссылки на сущность:

&название;

где name - это имя объекта с учетом регистра. Точка с запятой является обязательной, если иное не указано в таблице ниже (см. [ A ] ).

Стандартные наборы общедоступных объектов для персонажей [ править ]

Наборы сущностей ISO : SGML предоставил исчерпывающий набор объявлений сущностей для символов, широко используемых в западной технической и справочной публикации, для латинских, греческих и кириллических шрифтов. Американское математическое общество также способствовало объектам для математических символов.

Наборы сущностей HTML : Ранние версии HTML, состоящие из небольших подмножеств, относящихся к символам трех западных 8-битных шрифтов.

Наборы сущностей MathML : W3C разработал набор объявлений сущностей для символов MathML .

Наборы сущностей XML : Рабочая группа W3C MathML взяла на себя обслуживание наборов общедоступных сущностей ISO в сочетании с MathML и документировала их в определениях сущностей XML для символов . Этот набор может поддерживать требования XHTML , MathML и в качестве входных данных для будущих версий HTML.

HTML 5 : HTML5 принимает объекты XML как ссылки на именованные символы , однако повторно формулирует их без ссылки на их источники и не группирует их в наборы. Спецификация HTML 5 дополнительно предоставляет сопоставления имен с последовательностями символов Юникода с использованием JSON .

Множество других наборов сущностей было разработано для особых требований, а также для основных и второстепенных скриптов. Однако появление Unicode в значительной степени вытеснило их.

Предопределенные сущности в XML [ править ]

В спецификации XML не используются термины «символьная сущность» или «ссылка на символьную сущность». Спецификация XML определяет пять «предопределенных сущностей», представляющих специальные символы, и требует, чтобы все процессоры XML их соблюдали. Сущности также могут быть явно объявлены в DTD, но если это сделано, текст замены должен быть таким же, как и встроенные определения. XML также позволяет определять другие именованные объекты любого размера для каждого документа.

В таблице ниже перечислены пять предопределенных сущностей XML. В начальном столбце «Имя» упоминается имя сущности. В столбце «Персонаж» отображается персонаж. Для визуализации символа используется формат &name;; например, &amp;отображается как &. Столбец «Кодовая точка Unicode» цитирует символ через стандартную нотацию UCS / Unicode «U +», которая показывает кодовую точку символа в шестнадцатеричном формате. Затем в скобках отображается десятичный эквивалент кодовой точки. Столбец «Стандартный» указывает первую версию XML, которая включает объект. Последний столбец «Имя» цитирует символ через его каноническое имя в UCS / Unicode.

Ссылки на символьные сущности в HTML [ править ]

DTD HTML 5 определяют множество именованных сущностей, ссылки на которые действуют как мнемонические псевдонимы для определенных символов Unicode. [1] Спецификация HTML 5 требует использования стандартных DTD и не позволяет пользователям определять дополнительные объекты.

В таблице ниже столбец «Стандартный» указывает первую версию HTML DTD, которая определяет ссылку на символьный объект. Чтобы использовать одну из этих символьных ссылок на сущности в документе HTML или XML, введите амперсанд, за которым следует имя сущности и точка с запятой , например, введите &copy;для символа авторского права (©).

Либо введите амперсанд , затем знак числа , число и точку с запятой . Например, чтобы отобразить символ авторского права ©, введите &#169;(при использовании этого метода используйте десятичные числа в скобках в третьем столбце). Точно так же вы можете ввести амперсанд , за которым следует знак числа , буква x , шестнадцатеричное число и точка с запятой . Например, чтобы отобразить символ авторского права ©, введите &#x00A9;или &#xA9;. (При использовании этого метода используйте шестнадцатеричные числа в третьем столбце без префикса U+.)

Заметки [ править ]

  1. ^ a b c d e f g h i j k l m n o p q r s t u v w x y z aa ab ac ad ae af ag ah ai aj ak al am an ao ap aq ar as at au av aw топор ay az ba bb bc bd be bf BG BH би BJ Б.К. бл шм млрд бо п.н. Бк бр шс BT бушель БВ м.т. BX по BZ ца CB куб.см кд се ср CG ч CI CJ ск сл см сп со ф сд кр CS кт у.е. резюме непрерывного сх су CZ да дБ постоянного тока конечная точка с запятой может быть опущена для этого именованного объекта.
  2. ^ DTD: полное публичное имя DTD (где определено имя символьной сущности) фактически отображается из одной из следующих трех определенных именованных сущностей:
    • HTMLlat1 сопоставляется с:
      • PUBLIC "-//W3C//ENTITIES Latin 1//EN//HTML" в HTML (DTD определяется неявно, системный URI не требуется);
      • PUBLIC "-//W3C//ENTITIES Latin 1 for XHTML//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml-lat1.ent" в XHTML 1.0;
    • HTMLsymbol сопоставляется с:
      • PUBLIC "-//W3C//ENTITIES Symbols//EN//HTML" в HTML (DTD определяется неявно, системный URI не требуется);
      • PUBLIC "-//W3C//ENTITIES Symbols for XHTML//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml-symbol.ent" в XHTML 1.0;
    • HTML специальные карты для:
      • PUBLIC "-//W3C//ENTITIES Special//EN//HTML" в HTML (DTD определяется неявно, системный URI не требуется);
      • PUBLIC "-//W3C//ENTITIES Special for XHTML//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml-special.ent" в XHTML 1.0.
  3. ^ Старое подмножество ISO: это старые (задокументированные) подмножества символов, которые использовались в устаревших кодировках до унификации в ISO 10646.
  4. ^ Описание: стандартное имя символа ISO 10646 и Unicode отображается первым для каждого символа, а нестандартные, но устаревшие синонимы отображаются курсивом в круглых скобках после знака равенства.
  5. ^ a b c d пробелы: для отображения ширины каждого пробела используется синий фон.
  6. ^ angst : Использование U + 212B 'знак Ангстрема', которое было закодировано из-за совместимостидвустороннегосопоставления с восточно-азиатской кодировкой символов , не рекомендуется, и предпочтительным представлением является U + 00C5 'заглавная буква A с кольцом вверху' , имеющий такой же глиф.
  7. ^ a b ijlig : Использование U + 0132 и U + 0133 'IJ ligature', которое было закодировано для использования на голландском языке и для совместимости с ISO / IEC 6937 и кодовой страницей 1102 (которая включает только строчные буквы ij; голландская версия по ISO 646 , Национальная Замена символов Набор), не рекомендуются, а предпочтительное представление просто IJ и IJ (как два отдельных букв).
  8. ^ a b lmidot : Использование U + 013F и U + 0140 'L со средней точкой', которое было закодировано для использования на каталонском языке и для совместимости с ISO / IEC 6937 , не рекомендуется, и предпочтительным представлением является L / l, за которым следует пользователя U + 00B7.
  9. ^ napost : U + 0149 'n, которому предшествует апостроф', который был закодирован для использования в африкаанс и для совместимости с ISO / IEC 6937 , устарел Unicode (начиная с Unicode 5.2). Предпочтительное представление - ʼn (U + 02BC, за которым следует n). ( Unicode.org - Предложение по дополнительным устаревшим символам ).
  10. Лигатура ^ a b : это стандартное неправильное название, поскольку в некоторых языках это отдельный символ.
  11. ^ ohm : Использование U + 2126 «знак Ом» не рекомендуется, и предпочтительным является использование U + 03A9 «греческая заглавная буква Омега», имеющая такой же глиф.
  12. ^ a b c d e черный: здесь это, кажется, означает заполненный, а не полый .
  13. ^ a b Предлагаемый ISO: эти символы были стандартизированы в ISO 10646 после выпуска HTML 4.0.
  14. ^ alefsym : «символ алеф» - это не то же самое, что U + 05D0 «еврейская буква алеф», хотя для изображения обоих символов может использоваться один и тот же глиф.
  15. ^ beth : «символ ставки» - это не то же самое, что U + 05D1 «Ставка с буквами на иврите», хотя для изображения обоих символов может использоваться один и тот же глиф.
  16. ^ gimel : «символ гимель» - это не то же самое, что U + 05D2 «Еврейская буква гимель», хотя для изображения обоих символов может использоваться один и тот же глиф.
  17. ^ daleth : «символ далет» - это не то же самое, что U + 05D3 «Еврейская буква далет», хотя для изображения обоих символов может использоваться один и тот же глиф.
  18. ^ lArr : ISO 10646 не говорит, что «двойная стрелка влево» совпадает со стрелкой «подразумевается», но также не имеет другого символа для этой функции. Таким образом,lArrможно использовать для выражения «подразумевается», как предлагает ISOtech.
  19. ^ rArr : ISO 10646 не говорит, что «двойная стрелка вправо» является символом «подразумевает», но не имеет другого символа с этой функцией, поэтомуrArrможет использоваться для «подразумевает», как предлагает ISOtech.
  20. ^ prod : «n-арное произведение» - это не тот же символ, что и U + 03A0 «греческая заглавная буква Пи», хотя для обоих может использоваться один и тот же глиф.
  21. ^ sum : «n-арное суммирование» - это не тот же символ, что и U + 03A3 «греческая заглавная буква сигма», хотя для обоих может использоваться один и тот же глиф.
  22. ^ sim : «оператор тильды» - это не тот же символ, что и «тильда» в U + 007E, хотя для их обозначения может использоваться один и тот же глиф.
  23. ^ nsup : обратите внимание, чтоnsupU + 2285, «не надмножество», находится в подмножестве ISOamsn, но не охвачен кодировкой шрифта Symbol и не указан в списке сущностей HTML 4.0 в документации, но был ошибочно исключен из список сущностей; он должен быть включен для симметрии и аналогии с другими объектами.
  24. ^ perp : Unicode определяет U + 22A5 только как «верхний галс». Символ Unicode для «перпендикуляра» - U + 27C2. Два символа выглядят одинаково, но в Юникоде они разделены. Однако HTML использует U + 22A5 в качестве «перпендикулярного» символа. Это несоответствие между HTML и Unicode. Кроме того, символ U + 22A4 (символ «вниз»), отображаемый в браузере, таком как Firefox 3.6, может соответствовать шрифту «вверху» или «перпендикулярно», но не обоим сразу, в зависимости от того, используется ли фиксированная ширина или используется пропорциональный шрифт. При просмотре в Firefox 3.6 символы отображаются в порядке U + 22A5, U + 22A4, U + 27C2 пропорциональным шрифтом: ⊥ ⊤ ⟂ и фиксированной шириной:⊥ ⊤ ⟂, показывает, что «нижняя галс» в первом случае похож на U + 22A5 («перпендикуляр» HTML), но соответствует U + 27C2 во втором. Это иллюстрирует трудности семиотики, связанные с интерпретацией глифов , символов и знаков в целом.
  25. ^ sdot : U + 22C5 «оператор точки» - это не тот же символ, что и «средняя точка» U + 00B7.
  26. ^ U + 22D8 не имеет объекта lll в списке HTML 5.2, но был ошибочно исключен из списка.
  27. ^ lang : U + 27E8 'математическая левая угловая скобка' не то же самое, что U + 003C 'меньше чем', U + 2039 'одинарная кавычка с левым углом' или U + 3008 'левая угловая скобка'. В HTML 5.0langон был переназначен на этот код, поскольку «левая угловая скобка» U + 2329 была помечена как устаревшая в Unicode (начиная с версии 5.2) ( Unicode.org - Предложение по дополнительным устаревшим символам ).
  28. ^ rang : U + 27E9 'математическая правая угловая скобка' не то же самое, что U + 003E 'больше чем', U + 203A 'одинарная кавычка с прямым углом' или U + 3009 'правая угловая скобка'. В HTML 5.0rangон был переназначен на этот код, поскольку «правая угловая скобка» U + 232A была помечена как устаревшая в Unicode (начиная с версии 5.2) ( Unicode.org - Предложение по дополнительным устаревшим символам ).

Сущности, представляющие специальные символы в XHTML [ править ]

В XHTML DTD явно объявляются 253 объекта (включая 5 предопределенных объектов XML 1.0 ), расширение которых представляет собой один символ, которые поэтому неофициально могут называться «символьными объектами». Они (за исключением &apos;сущности) имеют те же имена и представляют те же символы, что и 252-символьные сущности в HTML . Кроме того, в силу того, что они являются XML , документы XHTML могут ссылаться на предопределенный &apos;объект, который не является одним из 252-значных объектов в HTML 4. Дополнительные объекты любого размера могут быть определены для каждого документа. Однако на удобство использования ссылок на сущности в XHTML влияет способ обработки документа:

  • Если документ читается соответствующим процессором HTML, то можно безопасно использовать только 252-символьные сущности HTML. Использование &apos;ссылок на настраиваемые объекты может не поддерживаться и может привести к непредсказуемым результатам.
  • Если документ читается анализатором XML , который не читает или не может читать внешние сущности, то можно безопасно использовать только пять встроенных символьных сущностей XML ( см. Выше ), хотя другие сущности могут использоваться, если они объявлены во внутреннем Подмножество DTD.
  • Если документ читается синтаксическим анализатором XML, который действительно читает внешние сущности, то можно безопасно использовать пять встроенных символьных сущностей XML. Другие 248 сущностей символов HTML могут использоваться до тех пор, пока XHTML DTD доступен для синтаксического анализатора во время чтения документа. Другие объекты также могут использоваться, если они объявлены во внутреннем подмножестве DTD.

Из-за особого &apos;случая уже упоминалось выше, только &quot;, &amp;, &lt;и &gt;будет работать во всех ситуациях обработки.

Ссылки [ править ]

  1. ^ "Справочный список именованных символов HTML5" .

См. Также [ править ]

  • Кодировки символов в HTML
  • Отображение десятичных символов HTML
  • Объект SGML
  • Диграф и Триграф (аналогичная концепция для ввода недоступных символов)

Дальнейшее чтение [ править ]

  • Консорциум Unicode . См. Также: Консорциум Unicode
    • UnicodeData.txt от Консорциума Unicode
  • Консорциум World Wide Web . См. Также: Консорциум World Wide Web
    • Спецификация XML 1.0
    • Спецификация HTML 2.0
    • Спецификация HTML 3.2
    • Спецификация HTML 4.0
    • Спецификация HTML 4.01
    • Спецификация HTML 5
    • Спецификация XHTML 1.0
    • Определения сущностей XML для символов
  • Нормативная ссылка на RFC 2070 (все еще встречается в DTD, определяющих символьные сущности для HTML или XHTML) является исторической; этот RFC (вместе с другими RFC, относящимися к другой части спецификации HTML) устарел в пользу нового информационного RFC 2854, который определяет тип MIME «text / html» и напрямую ссылается на спецификации W3C для фактического содержимого HTML.
  • Цифровая ссылка кодовых точек Unicode в Викиучебниках

Внешние ссылки [ править ]

  • Ссылки на символьные сущности в HTML 4 на W3C
  • Веб-страница для кодирования и декодирования специальных символов