Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В стандарте Unicode плоскость представляет собой непрерывную группу из 65 536 (2 16 ) кодовых точек . Имеется 17 плоскостей, обозначенных номерами от 0 до 16, что соответствует возможным значениям 00–10 16 первых двух позиций в шестизначном шестнадцатеричном формате (U + hh hhhh ). Плоскость 0 - это базовая многоязычная плоскость (BMP), которая содержит наиболее часто используемые символы. Высшие планы с 1 по 16 называются «дополнительными планами». [1] Последняя кодовая точка в Unicode - это последняя кодовая точка в плоскости 16, U + 10FFFF. Начиная с Unicode версии 13.0, семи плоскостям присвоены кодовые точки (символы), а пяти даны имена.

Ограничение в 17 плоскостей связано с UTF-16 , который может кодировать 2 20 кодовых точек (16 плоскостей) как пары слов , а также BMP как одно слово. [2] UTF-8 был разработан с гораздо большим пределом в 2 31 (2 147 483 648) кодовых точек (32 768 плоскостей) и может кодировать 2 21 ( 2 097 152) кодовых точки (32 плоскости) даже при текущем ограничении в 4 байта . [3]

На 17 самолетах можно разместить 1114 112 кодовых точек. Из них 2048 являются суррогатами (используются для создания пар в UTF-16), 66 не являются символами и 137 468 зарезервированы для частного использования , а 974 530 - для публичного назначения.

Самолеты далее подразделяются на блоки Unicode , которые, в отличие от плоскостей, не имеют фиксированного размера. 308 блоков, определенных в Unicode 13.0, покрывают 26% возможного пространства кодовых точек и имеют размер от минимум 16 кодовых точек (пятнадцать блоков) до максимум 65 536 кодовых точек (дополнительные области частного использования-A и -B, которые составляют совокупность самолетов 15 и 16). Для будущего использования диапазоны символов были предварительно обозначены для большинства известных современных и древних систем письма. [4]

Обзор [ править ]

  1. ^ Кодовые точки, которые были выделены блоку Unicode .
  2. ^ Общее количество графических, форматных и управляющих символов (т. Е. Исключая символы частного использования, несимволы и суррогатные кодовые точки).

Базовая многоязычная плоскость [ редактировать ]

Карта базовой многоязычной плоскости. Каждый пронумерованный прямоугольник представляет 256 кодовых точек.

Первая плоскость, плоскость 0 , базовая многоязычная плоскость ( BMP ) содержит символы почти всех современных языков и большое количество символов . Основная цель BMP - поддержка унификации предшествующих наборов символов, а также символов для письма . Большинство назначенных кодовых точек в BMP используются для кодирования китайских, японских и корейских ( CJK ) символов.

Коды High Surrogate ( U + D800 – U + DBFF ) и Low Surrogate ( U + DC00 – U + DFFF ) зарезервированы для кодирования не-BMP символов в UTF-16 с использованием пары 16- битных кодов: один High Surrogate и один младший суррогат. Одной суррогатной кодовой точке никогда не будет присвоен символ.

65 472 из 65 536 кодовых точек в этой плоскости были выделены блоку Unicode , оставив только 64 кодовых точки в нераспределенных диапазонах (48 кодовых точек в 0870..089F и 16 кодовых точек в 2FE0..2FEF).

Начиная с Unicode 13.0 , BMP состоит из следующих 163 блоков:

  • Базовая латиница (нижняя половина ISO / IEC 8859-1 : ISO / IEC 646: 1991-IRV aka ASCII ) (0000–007F)
  • Дополнение Latin-1 (верхняя половина ISO / IEC 8859-1 ) (0080–00FF)
  • Расширенная латиница-A (0100–017F)
  • Расширенная латиница-B (0180–024F)
  • Расширения IPA (0250–02AF)
  • Буквы-модификаторы интервала (02B0–02FF)
  • Объединение диакритических знаков (0300–036F)
  • Греческий и коптский (0370–03FF)
  • Кириллица (0400–04FF)
  • Дополнение к кириллице (0500–052F)
  • Армянский (0530–058F)
  • Арамейские письменности:
    • Иврит (0590–05FF)
    • Арабский (0600–06FF)
    • Сирийский (0700–074F)
    • Приложение на арабском языке (0750–077F)
    • Тана (0780-07BF)
    • Н'Ко (07C0–07FF)
    • Самаритянин (0800–083F)
    • Мандайские (0840-085F)
    • Дополнение к сирийскому языку (0860–086F)
    • Арабский расширенный-A (08A0–08FF)
  • Брахмические сценарии:
    • Деванагари (0900–097F)
    • Бенгальский (0980–09FF)
    • Гурмукхи (0A00-0A7F)
    • Гуджарати (0A80–0AFF)
    • Ория (0B00–0B7F)
    • Тамильский (0B80–0BFF)
    • Телугу (0C00–0C7F)
    • Каннада (0C80–0CFF)
    • Малаялам (0D00–0D7F)
    • Сингальский (0D80–0DFF)
    • Тайский (0E00–0E7F)
    • Лаосский (0E80–0EFF)
    • Тибетский (0F00–0FFF)
    • Мьянма (1000–109F)
  • Грузинский (10A0–10FF)
  • Хангыль Джамо (1100–11FF)
  • Эфиопский (1200–137F)
  • Эфиопское приложение (1380–139F)
  • Чероки (13A0–13FF)
  • Унифицированная слоговая речь канадских аборигенов (1400–167F)
  • Огам (1680–169F)
  • Рунический (16A0–16FF)
  • Филиппинские шрифты:
    • Тагальский (1700–171F)
    • Хануноо (1720–173F)
    • Бухид (1740–175 годы)
    • Тагбанва (1760–177 годы)
  • Кхмеры (1780–17FF)
  • Монгольский (1800–18AF)
  • Единая расширенная слоговая речь канадских аборигенов (18B0–18FF)
  • Лимбу (1900–194F)
  • Тайские сценарии:
    • Тай Ле (1950–197F)
    • Нью Тай Лю (1980–19DF)
    • Кхмерские символы (19E0–19FF)
    • Бугийский (1A00–1A1F)
    • Тай Тхам (1A20–1AAF)
  • Расширенное объединение диакритических знаков (1AB0–1AFF)
  • Балийский (1B00–1B7F)
  • Сунданский (1B80–1BBF)
  • Батак (1BC0–1BFF)
  • Лепча (1C00–1C4F)
  • Ол Чики (1C50–1C7F)
  • Кириллица расширенная-C (1C80–1C8F)
  • Грузинский расширенный (1C90–1CBF)
  • Дополнение сунданского языка (1CC0–1CCF)
  • Ведические расширения (1CD0–1CFF)
  • Латинские добавки:
    • Фонетические расширения (1D00–1D7F)
    • Дополнение к фонетическим расширениям (1D80–1DBF)
    • Дополнение о комбинированных диакритических знаках (1DC0–1DFF)
    • Расширенная латиница, дополнительная (1E00–1EFF)
  • Расширенный греческий (1F00–1FFF)
  • Символы :
    • Общая пунктуация (2000–206F)
    • Верхние и нижние индексы (2070–209F)
    • Символы валюты (20A0–20CF)
    • Комбинирование диакритических знаков для символов (20D0–20FF)
    • Буквоподобные символы (2100–214F)
    • Числовые формы (2150–218F)
    • Стрелки (2190–21FF)
    • Математические операторы (2200–22FF)
    • Разное техническое (2300–23FF)
    • Контрольные изображения (2400–243F)
    • Оптическое распознавание символов (2440–245F)
    • Закрытые буквенно-цифровые символы (2460–24FF)
    • Чертеж коробки (2500–257F)
    • Блочные элементы (2580–259F)
    • Геометрические формы (25A0–25FF)
    • Разные символы (2600–26FF)
    • Дингбаты (2700–27BF)
    • Разные математические символы-A (27C0–27EF)
    • Дополнительные стрелки-A (27F0–27FF)
    • Шаблоны Брайля (2800–28FF)
    • Дополнительные стрелки-B (2900–297F)
    • Разные математические символы-B (2980–29FF)
    • Дополнительные математические операторы (2A00–2AFF)
    • Разные символы и стрелки (2B00–2BFF)
  • Глаголица (2C00–2C5F)
  • Расширенная латиница-C (2C60–2C7F)
  • Коптский (2C80–2CFF)
  • Дополнение к Грузии (2D00–2D2F)
  • Тифинаг (2D30-2D7F)
  • Расширенный эфиопский (2D80–2DDF)
  • Кириллица расширенная-A (2DE0–2DFF)
  • Дополнительная пунктуация (2E00–2E7F)
  • Скрипты и символы CJK :
    • Приложение CJK Radicals (2E80–2EFF)
    • Kangxi Radicals (2F00–2FDF)
    • Символы идеографического описания (2FF0–2FFF)
    • Символы и знаки препинания CJK (3000–303F)
    • Хирагана (3040–309F)
    • Катакана (30A0–30FF)
    • Бопомофо (3100-312F)
    • Джамо совместимости с хангыль (3130–318F)
    • Канбун (3190–319F)
    • Бопомофо расширенный (31A0–31BF)
    • Инсульт CJK (31C0–31EF)
    • Фонетические расширения катаканы (31F0–31FF)
    • Приложенные буквы и месяцы CJK (3200–32FF)
    • Совместимость с CJK (3300–33FF)
    • CJK Unified Ideographs Extension A (3400–4DBF)
    • Символы гексаграммы Ицзин (4DC0–4DFF)
    • Унифицированные идеограммы CJK (4E00–9FFF)
  • Слоги И (A000 – A48F)
  • Yi Radicals (A490 – A4CF)
  • Лису (A4D0 – A4FF)
  • Вай (A500 – A63F)
  • Кириллица расширенная-B (A640 – A69F)
  • Бамум (A6A0 – A6FF)
  • Буквы тона модификатора (A700 – A71F)
  • Расширенная латиница-D (A720 – A7FF)
  • Силоти Нагри (A800 – A82F)
  • Общие индийские числовые формы (A830 – A83F)
  • Phags-pa (A840 – A87F)
  • Саураштра (A880 – A8DF)
  • Деванагари расширенный (A8E0 – A8FF)
  • Кая Ли (A900 – A92F)
  • Rejang (A930 – A95F)
  • Hangul Jamo Extended-A (A960 – A97F)
  • Яванский (A980 – A9DF)
  • Мьянма расширенный-B (A9E0 – A9FF)
  • Чам (AA00 – AA5F)
  • Мьянма Extended-A (AA60 – AA7F)
  • Тай Вьет (AA80 – AADF)
  • Расширения Meetei Mayek (AAE0 – AAFF)
  • Расширенный эфиопский язык-A (AB00 – AB2F)
  • Расширенная латиница - E (AB30 – AB6F)
  • Дополнение Cherokee (AB70 – ABBF)
  • Митей Майек (ABC0 – ABFF)
  • Слоги хангыль (AC00 – D7AF)
  • Хангыль джамо расширенный-B (D7B0 – D7FF)
  • Суррогаты :
    • Высшие суррогаты (D800 – DB7F)
    • Суррогаты с высоким уровнем частного использования (DB80 – DBFF)
    • Низкие суррогаты (DC00 – DFFF)
  • Зона частного использования (E000 – F8FF)
  • Идеографы совместимости CJK (F900 – FAFF)
  • Алфавитные формы представления (FB00 – FB4F)
  • Формы представления на арабском языке-A (FB50 – FDFF)
  • Селекторы вариаций (FE00 – FE0F)
  • Вертикальные формы (FE10 – FE1F)
  • Комбинирование половинных отметок (FE20 – FE2F)
  • Формы совместимости CJK (FE30 – FE4F)
  • Варианты малой формы (FE50 – FE6F)
  • Формы представления на арабском языке-B (FE70 – FEFF)
  • Формы половинной и полной ширины (FF00 – FFEF)
  • Специальные (FFF0 – FFFF)

Дополнительная многоязычная плоскость [ редактировать ]

Карта дополнительной многоязычной плоскости. Каждый пронумерованный прямоугольник представляет 256 кодовых точек.

Плоскость 1 , дополнительная многоязычная плоскость ( SMP ), содержит исторические шрифты (кроме идеографических CJK), а также символы и обозначения, используемые в определенных полях. Скрипты включают линейное письмо B , египетские иероглифы и клинописи . Он также включает английские реформаторские орфографии, такие как Shavian и Deseret , и некоторые современные шрифты , такие как Osage , Warang Citi и Adlam . Символы и примечания включают исторические и современные нотные записи; математические буквенно-цифровые символы ; сокращения; Эмодзии другие пиктографические наборы; и игровые символы для игральных карт , маджонг и домино .

Начиная с Unicode 13.0 , SMP состоит из следующих 134 блоков:

  • Архаический греческий и другие письма, написанные слева направо:
    • Слоговая азбука линейного письма B (10000–1007F)
    • Идеограммы линейного письма B (10080–100FF)
    • Эгейские числа (10100–1013F)
    • Древнегреческие числа (10140–1018F)
    • Древние символы (10190–101CF)
    • Фестский диск (101D0–101FF)
    • Ликийский (10280–1029F)
    • Карийская (102A0-102DF)
    • Коптские номера Epact (102E0–102FF)
    • Старый курсив (10300–1032F)
    • Готика (10330–1034F)
    • Старая Пермь (10350–1037F)
    • Угаритский (10380–1039F)
    • Староперсидский (103A0-103DF)
    • Дезерет (10400-1044F)
    • Шавиан (10450–1047F)
    • Османья (10480-104AF)
    • Осейдж (104B0–104FF)
    • Эльбасан (10500–1052F)
    • Кавказский албанец (10530–1056F)
    • Линейный A (10600–1077F)
  • Скрипты с написанием справа налево:
    • Кипрская слоговая азбука (10800–1083F)
    • Императорский арамейский (10840–1085F)
    • Пальмирена (10860–1087F)
    • Набатейцы (10880–108AF)
    • Хатран (108E0–108FF)
    • Финикийский (10900–1091F)
    • Лидийский (10920–1093F)
    • Меройские иероглифы (10980–1099F)
    • Мероитская Скоропись (109A0-109FF)
    • Кхароштхи (10A00-10A5F)
    • Старый южноаравийский (10A60–10A7F)
    • Старое северноаравийское (10A80–10A9F)
    • Манихейский (10AC0–10AFF)
    • Авестийский (10B00–10B3F)
    • Письменный парфянский (10B40–10B5F)
    • Пехлеви с надписью (10B60–10B7F)
    • Псалтырь Пехлевий (10B80–10BAF)
    • Древнетюркский (10C00-10C4F)
    • Древневенгерский (10C80–10CFF)
    • Ханье рохингие (10D00-10D3F)
    • Цифровые символы Руми (10E60–10E7F)
    • Езиды (10Э80–10ЕБФ)
    • Старый согдийского (10F00-10F2F)
    • Согдийский (10F30–10F6F)
    • Хорезман (10FB0–10FDF)
    • Elymaic (10FE0–10FFF)
  • Брахмические сценарии:
    • Брахми (11000–1107F)
    • Кайти (11080–110CF)
    • Сора Сомпенг (110D0–110FF)
    • Чакма (11100–1114F)
    • Махаджани (11150–1117F)
    • Шарада (11180–111DF)
    • Сингальские архаические числа (111E0–111FF)
    • Хойки (11200–1124F)
    • Мултани (11280–112AF)
    • Худавади (112B0–112FF)
    • Гранта (11300–1137F)
    • Newa (11400-1147F)
    • Тиргута (11480–114DF)
    • Сиддхам (11580–115FF)
    • Моди (11600–1165F)
    • Приложение на монгольском языке (11660–1167F)
    • Такри (11680-116CF)
    • Ахом (11700–1173F)
    • Догра (11800–1184F)
    • Варанг Сити (118A0–118FF)
    • Погружения в Акуру (11900–1195F)
    • Нандинагари (119A0–119FF)
    • Площадь Занабазар (11A00–11A4F)
    • Соёмбо (11A50–11AAF)
    • Пау Чин Хау (11AC0–11AFF)
    • Бхайкуки (11C00–11C6F)
    • Marchen (11C70-11CBF)
    • Масарам Гонди (11D00–11D5F)
    • Гунджала Гонди (11D60–11DAF)
    • Макасар (11EE0–11EFF)
  • Приложение Lisu (11FB0–11FBF)
  • Приложение на тамильском языке (11FC0–11FFF)
  • Клинопись (12000–123FF)
  • Клинописные числа и знаки препинания (12400–1247F)
  • Раннединастическая клинопись (12480–1254F)
  • Египетские иероглифы (13000–1342 гг.)
  • Органы управления форматом египетских иероглифов (13430–1343F)
  • Анатолийские иероглифы (14400–1467F)
  • Дополнение Bamum (16800–16A3F)
  • Mro (16A40–16A6F)
  • Басса Вах (16AD0–16AFF)
  • Пахау Хмонг (16B00–16B8F)
  • Медефайдрин (16E40–16E9F)
  • Мяо (16F00–16F9F)
  • Идеографические символы и знаки препинания (16FE0–16FFF)
  • Тангутский (17000–187FF)
  • Тангутские компоненты (18800–18AFF)
  • Киданьский маленький шрифт (18B00–18CFF)
  • Дополнение к тангутскому языку (18D00–18D8F)
  • Приложение кана (1B000–1B0FF)
  • Кана Расширенная-A (1B100–1B12F)
  • Малое расширение Кана (1B130–1B16F)
  • NUSHU (1B170-1B2FF)
  • Дуплоян (1BC00–1BC9F)
  • Элементы управления сокращенным форматом (1BCA0–1BCAF)
  • Дополнительные символы:
    • Музыкальная нотация :
      • Византийские музыкальные символы (1D000–1D0FF)
      • Музыкальные символы (1D100–1D1FF)
      • Древнегреческая музыкальная нотация (1D200–1D24F)
    • Цифры майя (1D2E0–1D2FF)
    • Математические символы :
      • Символы Тай Сюань Цзин (1D300–1D35F)
      • Числа на счетных стержнях (1D360–1D37F)
      • Математические буквенно-цифровые символы (1D400–1D7FF)
    • Написание знаков Саттона (1D800–1DAAF)
  • Дополнение к глаголице (1E000–1E02F)
  • Ньякенг Пуачуэ Хмонг (1E100–1E14F)
  • Ванчо (1E2C0–1E2FF)
  • Mende Kikakui (1E800–1E8DF)
  • Adlam (1E900-1E95F)
  • Индийские числа сиак (1EC70–1ECBF)
  • Османские числа сиак (1ED00–1ED4F)
  • Арабские математические алфавитные символы (1EE00–1EEFF)
  • Игровые плитки и карты:
    • Плитки для маджонга (1F000–1F02F)
    • Плитка домино (1F030–1F09F)
    • Игральные карты (1F0A0–1F0FF)
  • Прилагаемое буквенно-цифровое приложение (1F100–1F1FF)
  • Прилагаемое идеографическое приложение (1F200–1F2FF)
  • Разные символы и пиктограммы (1F300–1F5FF)
  • Смайлики (1F600–1F64F)
  • Декоративные дингбаты (1F650–1F67F)
  • Транспортные и картографические символы (1F680–1F6FF)
  • Алхимические символы (1F700–1F77F)
  • Расширенные геометрические формы (1F780–1F7FF)
  • Дополнительные стрелки-C (1F800–1F8FF)
  • Дополнительные символы и пиктограммы (1F900–1F9FF)
  • Шахматные символы (1FA00–1FA6F)
  • Расширенные символы и пиктограммы-A (1FA70–1FAFF)
  • Символы для устаревших вычислений (1FB00–1FBFF)

Дополнительная идеографическая плоскость [ редактировать ]

Карта дополнительной идеографической плоскости. Каждый пронумерованный прямоугольник представляет 256 кодовых точек.

Плоскость 2 , дополнительная идеографическая плоскость ( SIP ), используется для идеографов CJK, в основном унифицированных идеографов CJK , которые не были включены в более ранние стандарты кодирования символов.

Начиная с Unicode 13.0 , SIP состоит из следующих шести блоков:

  • Расширение B унифицированных иероглифов CJK (20000–2A6DF)
  • CJK Unified Ideographs Extension C (2A700–2B73F)
  • Расширение унифицированных иероглифов CJK D (2B740–2B81F)
  • Расширение E унифицированных иероглифов CJK (2B820–2CEAF)
  • Расширение унифицированных иероглифов CJK F (2CEB0–2EBEF)
  • Приложение к идеографам совместимости CJK (2F800–2FA1F)

Третичная идеографическая плоскость [ редактировать ]

Карта третичной идеографической плоскости. Каждый пронумерованный прямоугольник представляет 256 кодовых точек.

Плоскость 3 - это третичная идеографическая плоскость (TIP). CJK Unified Ideographs Extension G был добавлен в TIP в Unicode 13.0, выпущенном в марте 2020 года. [5] Он также предварительно выделен для Oracle Bone script и Small Seal Script . [6]

Начиная с Unicode 13.0 , TIP состоит из следующего блока:

  • CJK Unified Ideographs Extension G (30000–3134F)

Неназначенные самолеты [ править ]

Самолеты с 4 по 134 по D в шестнадцатеричном формате ): никакие персонажи еще не назначены на Планы с 4 по 13.

Дополнительный самолет специального назначения [ редактировать ]

Карта дополнительного самолета специального назначения. Каждый пронумерованный прямоугольник представляет 256 кодовых точек.

Плоскость 14 ( E в шестнадцатеричном формате), дополнительная плоскость специального назначения ( SSP ). состоящий из следующих двух блоков Unicode 13.0 :

  • Теги (E0000 – E007F)
  • Дополнение к селекторам вариаций (E0100 – E01EF) - используется для указания альтернативных глифов для символов.

Самолеты для частного использования [ редактировать ]

Две плоскости 15 и 16 (плоскости F и 10 в шестнадцатеричном формате) обозначены как « Зоны частного использования ». Они содержат блоки, называемые областью дополнительного частного использования-A ( PUA-A ) и -B ( PUA-B ), которые доступны для использования сторонами, не входящими в ISO и Консорциум Unicode.

Ссылки [ править ]

  1. ^ Глоссарий Консорциума Unicode - Дополнительные плоскости
  2. ^ См. Таблицу 3.5 «Распределение битов UTF-16» в стандарте Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
  3. ^ См. Таблицу 3.6 «Распределение битов UTF-8» в стандарте Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
  4. ^ Дорожные карты Unicode
  5. ^ Unicode, Inc. "Объявление о стандарте Unicode®, версия 13.0" .
  6. ^ «Предлагаемые новые персонажи: трубопровод» . www.unicode.org .