Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Блок Unicode - это один из нескольких непрерывных диапазонов числовых кодов символов ( кодовых точек ) набора символов Unicode , которые определены Консорциумом Unicode для административных целей и документации. Обычно такие предложения, как добавление новых глифов, обсуждаются и оцениваются путем рассмотрения соответствующего блока или блоков в целом.

Каждый блок обычно, но не всегда, предназначен для предоставления глифов, используемых в одном или нескольких конкретных языках или в какой-либо общей области приложения, такой как математика , геодезия , декоративный набор текста , социальные форумы и т. Д.

Дизайн и реализация [ править ]

Блоки Unicode идентифицируются уникальными именами, которые используют только символы ASCII и обычно описывают характер символов на английском языке ; такие как «Тибетский» или «Дополнительные стрелки-А». (При сравнении имен блоков предполагается, что прописные буквы приравниваются к строчным буквам и игнорируются любые пробелы, дефисы и символы подчеркивания; таким образом, последнее имя эквивалентно «additional_arrows__a» и «SUPPLEMENTALARROWSA». [1]

Блоки попарно не пересекаются , то есть не перекрываются. Начальная кодовая точка и размер (количество кодовых точек) каждого блока всегда кратны 16; следовательно, в шестнадцатеричной системе счисления начальная (наименьшая) точка - это U + xxx 0, а конечная (наибольшая) точка - это U + yyy F, где xxx и yyy - три или более шестнадцатеричных цифр. (Эти ограничения предназначены для упрощения отображения глифов в документах Unicode Consortium в виде таблиц с 16 столбцами, помеченных последней шестнадцатеричной цифрой кодовой точки. [1] ) Размер блока может варьироваться от минимум 16 до максимум 65 536 кодовых точек.

Каждая назначенная кодовая точка имеет свойство глифа, называемое «Блок», значение которого представляет собой строку символов, обозначающую уникальный блок, которому принадлежит эта точка. [2] Однако блок может также содержать неназначенные кодовые точки, обычно зарезервированные для будущих добавлений символов, которые «логически» должны принадлежать этому блоку. Кодовые точки, не принадлежащие ни одному из названных блоков, например, в неназначенных плоскостях 3–13, имеют значение block = "No_block". [1]

Другие классификации [ править ]

Каждая точка Unicode также имеет свойство, называемое « Общая категория », которое пытается описать роль соответствующего символа в языках или приложениях, ради которых он был включен в систему. Примерами общих категорий являются «Lu» (означающая заглавные буквы), «Nd» (десятичная цифра), «Pi» (знаки препинания с открытыми кавычками) и «Mn» (знак без пробелов, т. Е. Диакритический знак для предшествующего глиф). Это разделение полностью не зависит от кодовых блоков: кодовые точки с данной общей категорией обычно охватывают множество блоков и не обязательно должны быть последовательными, даже в пределах каждого блока. [3]

Каждая кодовая точка также имеет свойство скрипта , определяющее, для какой системы письма она предназначена или предназначена ли она для нескольких систем письма. Это также не зависит от блока.

В описаниях системы Unicode блок может быть разделен на более конкретные подгруппы, такие как « Шахматные символы » в блоке « Разные символы ». Эти подгруппы не являются «блоками» в техническом смысле, используемом консорциумом Unicode, и названы только для удобства пользователей.

Список блоков [ править ]

Unicode 13.0 определяет 308 блоков: [1]

  • 163 в плоскости 0, базовой многоязычной плоскости (в таблице ниже: § BMP )
  • 134 в плоскости 1, дополнительная многоязычная плоскость ( § SMP )
  • 6 в плоскости 2, дополнительная идеографическая плоскость ( § SIP )
  • 1 в плоскости 3, третичной идеографической плоскости ( § TIP )
  • 2 в плоскости 14 (E в шестнадцатеричной системе ), дополнительный самолет специального назначения ( § SSP )
  • По одному в самолетах 15 (F гекс ) и 16 ( гекс 10 ), называемых Зоной дополнительного частного использования-A и -B ( § PUA-A )

Удаленные блоки [ править ]

Политика стабильности Unicode требует, чтобы символ, однажды назначенный, нельзя было перемещать или удалять, хотя это может быть устаревшим. Это относится к Unicode 2.0 и всем последующим версиям.

До этого были удалены следующие бывшие блоки:

Ссылки [ править ]

  1. ^ a b c d "Файл данных блоков Unicode, версия Unicode 13.0" . Консорциум Unicode . Проверено 29 апреля 2019 .
  2. ^ Глоссарий Unicode
  3. ^ «Основные спецификации Unicode, Глава 4: Свойства символов» (PDF) . Проверено 14 марта 2020 .
  4. ^ «3.8: Блок-за-блок-схемы» (PDF) . Стандарт Юникода . Версия 1.0. Консорциум Unicode .
  5. ^ a b c «Приложение E: Имена блоков» (PDF) . Стандарт Юникода . Версия 1.1. Консорциум Unicode .

Внешние ссылки [ править ]

  • Официальный веб-сайт Консорциума Unicode (английский)