Эта статья требует дополнительных ссылок для проверки . ( июль 2016 г. ) ( Узнайте, как и когда удалить это сообщение-шаблон ) |
В стандарте Unicode плоскость представляет собой непрерывную группу из 65 536 (2 16 ) кодовых точек . Имеется 17 плоскостей, обозначенных номерами от 0 до 16, что соответствует возможным значениям 00–10 16 первых двух позиций в шестизначном шестнадцатеричном формате (U + hh hhhh ). Плоскость 0 - это базовая многоязычная плоскость (BMP), которая содержит наиболее часто используемые символы. Высшие планы с 1 по 16 называются «дополнительными планами». [1] Последняя кодовая точка в Unicode - это последняя кодовая точка в плоскости 16, U + 10FFFF. Начиная с Unicode версии 13.0, семи плоскостям присвоены кодовые точки (символы), а пяти даны имена.
Ограничение в 17 плоскостей связано с UTF-16 , который может кодировать 2 20 кодовых точек (16 плоскостей) как пары слов , а также BMP как одно слово. [2] UTF-8 был разработан с гораздо большим пределом в 2 31 (2 147 483 648) кодовых точек (32 768 плоскостей) и может кодировать 2 21 ( 2 097 152) кодовых точки (32 плоскости) даже при текущем ограничении в 4 байта . [3]
На 17 самолетах можно разместить 1114 112 кодовых точек. Из них 2048 являются суррогатами (используются для создания пар в UTF-16), 66 не являются символами и 137 468 зарезервированы для частного использования , а 974 530 - для публичного назначения.
Самолеты далее подразделяются на блоки Unicode , которые, в отличие от плоскостей, не имеют фиксированного размера. 308 блоков, определенных в Unicode 13.0, покрывают 26% возможного пространства кодовых точек и имеют размер от минимум 16 кодовых точек (пятнадцать блоков) до максимум 65 536 кодовых точек (дополнительные области частного использования-A и -B, которые составляют совокупность самолетов 15 и 16). Для будущего использования диапазоны символов были предварительно обозначены для большинства известных современных и древних систем письма. [4]
Обзор [ править ]
Базовый | Дополнительный | ||||||||
---|---|---|---|---|---|---|---|---|---|
Самолет 0 | Самолет 1 | Самолет 2 | Самолет 3 | Самолеты 4–13 | Самолет 14 | Самолеты 15–16 | |||
0000– FFFF | 10000– 1FFFF | 20000– 2FFFF | 30000– 3FFFF | 40000– DFFFF | E0000– EFFFF | F0000– 10FFFF | |||
Базовая многоязычная плоскость | Дополнительная многоязычная плоскость | Дополнительная идеографическая плоскость | Третичная идеографическая плоскость | неназначенный | Дополнительный самолет специального назначения | Дополнительные самолеты для частного использования | |||
BMP | SMP | ГЛОТОК | КОНЧИК | - | SSP | СПУА-А / Б | |||
0000– 0FFF | 8000– 8FFF | 10000– 10FFF | 18000– 18FFF | 20000– 20FFF | 28000– 28FFF | 30000– 30FFF | E0000– E0FFF | 15: SPUA-A |
Самолет | Выделенные кодовые точки [примечание 1] | Назначенные символы [примечание 2] |
---|---|---|
0 BMP | 65 472 | 55 503 |
1 SMP | 24 704 | 22 279 |
2 глотка | 60 912 | 60 866 |
3 СОВЕТ | 4944 | 4939 |
14 SSP | 368 | 337 |
15 СПУА-А | 65 536 | |
16 СПУА-Б | 65 536 | |
Итоги | 287 472 | 143 924 |
- ^ Кодовые точки, которые были выделены блоку Unicode .
- ^ Общее количество графических, форматных и управляющих символов (т. Е. Исключая символы частного использования, несимволы и суррогатные кодовые точки).
Базовая многоязычная плоскость [ редактировать ]
Первая плоскость, плоскость 0 , базовая многоязычная плоскость ( BMP ) содержит символы почти всех современных языков и большое количество символов . Основная цель BMP - поддержка унификации предшествующих наборов символов, а также символов для письма . Большинство назначенных кодовых точек в BMP используются для кодирования китайских, японских и корейских ( CJK ) символов.
Коды High Surrogate ( U + D800 – U + DBFF ) и Low Surrogate ( U + DC00 – U + DFFF ) зарезервированы для кодирования не-BMP символов в UTF-16 с использованием пары 16- битных кодов: один High Surrogate и один младший суррогат. Одной суррогатной кодовой точке никогда не будет присвоен символ.
65 472 из 65 536 кодовых точек в этой плоскости были выделены блоку Unicode , оставив только 64 кодовых точки в нераспределенных диапазонах (48 кодовых точек в 0870..089F и 16 кодовых точек в 2FE0..2FEF).
Начиная с Unicode 13.0 [Обновить], BMP состоит из следующих 163 блоков:
- Базовая латиница (нижняя половина ISO / IEC 8859-1 : ISO / IEC 646: 1991-IRV aka ASCII ) (0000–007F)
- Дополнение Latin-1 (верхняя половина ISO / IEC 8859-1 ) (0080–00FF)
- Расширенная латиница-A (0100–017F)
- Расширенная латиница-B (0180–024F)
- Расширения IPA (0250–02AF)
- Буквы-модификаторы интервала (02B0–02FF)
- Объединение диакритических знаков (0300–036F)
- Греческий и коптский (0370–03FF)
- Кириллица (0400–04FF)
- Дополнение к кириллице (0500–052F)
- Армянский (0530–058F)
- Арамейские письменности:
- Иврит (0590–05FF)
- Арабский (0600–06FF)
- Сирийский (0700–074F)
- Приложение на арабском языке (0750–077F)
- Тана (0780-07BF)
- Н'Ко (07C0–07FF)
- Самаритянин (0800–083F)
- Мандайские (0840-085F)
- Дополнение к сирийскому языку (0860–086F)
- Арабский расширенный-A (08A0–08FF)
- Брахмические сценарии:
- Деванагари (0900–097F)
- Бенгальский (0980–09FF)
- Гурмукхи (0A00-0A7F)
- Гуджарати (0A80–0AFF)
- Ория (0B00–0B7F)
- Тамильский (0B80–0BFF)
- Телугу (0C00–0C7F)
- Каннада (0C80–0CFF)
- Малаялам (0D00–0D7F)
- Сингальский (0D80–0DFF)
- Тайский (0E00–0E7F)
- Лаосский (0E80–0EFF)
- Тибетский (0F00–0FFF)
- Мьянма (1000–109F)
- Грузинский (10A0–10FF)
- Хангыль Джамо (1100–11FF)
- Эфиопский (1200–137F)
- Эфиопское приложение (1380–139F)
- Чероки (13A0–13FF)
- Унифицированная слоговая речь канадских аборигенов (1400–167F)
- Огам (1680–169F)
- Рунический (16A0–16FF)
- Филиппинские шрифты:
- Тагальский (1700–171F)
- Хануноо (1720–173F)
- Бухид (1740–175 годы)
- Тагбанва (1760–177 годы)
- Кхмеры (1780–17FF)
- Монгольский (1800–18AF)
- Единая расширенная слоговая речь канадских аборигенов (18B0–18FF)
- Лимбу (1900–194F)
- Тайские сценарии:
- Тай Ле (1950–197F)
- Нью Тай Лю (1980–19DF)
- Кхмерские символы (19E0–19FF)
- Бугийский (1A00–1A1F)
- Тай Тхам (1A20–1AAF)
- Расширенное объединение диакритических знаков (1AB0–1AFF)
- Балийский (1B00–1B7F)
- Сунданский (1B80–1BBF)
- Батак (1BC0–1BFF)
- Лепча (1C00–1C4F)
- Ол Чики (1C50–1C7F)
- Кириллица расширенная-C (1C80–1C8F)
- Грузинский расширенный (1C90–1CBF)
- Дополнение сунданского языка (1CC0–1CCF)
- Ведические расширения (1CD0–1CFF)
- Латинские добавки:
- Фонетические расширения (1D00–1D7F)
- Дополнение к фонетическим расширениям (1D80–1DBF)
- Дополнение о комбинированных диакритических знаках (1DC0–1DFF)
- Расширенная латиница, дополнительная (1E00–1EFF)
- Расширенный греческий (1F00–1FFF)
- Символы :
- Общая пунктуация (2000–206F)
- Верхние и нижние индексы (2070–209F)
- Символы валюты (20A0–20CF)
- Комбинирование диакритических знаков для символов (20D0–20FF)
- Буквоподобные символы (2100–214F)
- Числовые формы (2150–218F)
- Стрелки (2190–21FF)
- Математические операторы (2200–22FF)
- Разное техническое (2300–23FF)
- Контрольные изображения (2400–243F)
- Оптическое распознавание символов (2440–245F)
- Закрытые буквенно-цифровые символы (2460–24FF)
- Чертеж коробки (2500–257F)
- Блочные элементы (2580–259F)
- Геометрические формы (25A0–25FF)
- Разные символы (2600–26FF)
- Дингбаты (2700–27BF)
- Разные математические символы-A (27C0–27EF)
- Дополнительные стрелки-A (27F0–27FF)
- Шаблоны Брайля (2800–28FF)
- Дополнительные стрелки-B (2900–297F)
- Разные математические символы-B (2980–29FF)
- Дополнительные математические операторы (2A00–2AFF)
- Разные символы и стрелки (2B00–2BFF)
- Глаголица (2C00–2C5F)
- Расширенная латиница-C (2C60–2C7F)
- Коптский (2C80–2CFF)
- Дополнение к Грузии (2D00–2D2F)
- Тифинаг (2D30-2D7F)
- Расширенный эфиопский (2D80–2DDF)
- Кириллица расширенная-A (2DE0–2DFF)
- Дополнительная пунктуация (2E00–2E7F)
- Скрипты и символы CJK :
- Приложение CJK Radicals (2E80–2EFF)
- Kangxi Radicals (2F00–2FDF)
- Символы идеографического описания (2FF0–2FFF)
- Символы и знаки препинания CJK (3000–303F)
- Хирагана (3040–309F)
- Катакана (30A0–30FF)
- Бопомофо (3100-312F)
- Джамо совместимости с хангыль (3130–318F)
- Канбун (3190–319F)
- Бопомофо расширенный (31A0–31BF)
- Инсульт CJK (31C0–31EF)
- Фонетические расширения катаканы (31F0–31FF)
- Приложенные буквы и месяцы CJK (3200–32FF)
- Совместимость с CJK (3300–33FF)
- CJK Unified Ideographs Extension A (3400–4DBF)
- Символы гексаграммы Ицзин (4DC0–4DFF)
- Унифицированные идеограммы CJK (4E00–9FFF)
- Слоги И (A000 – A48F)
- Yi Radicals (A490 – A4CF)
- Лису (A4D0 – A4FF)
- Вай (A500 – A63F)
- Кириллица расширенная-B (A640 – A69F)
- Бамум (A6A0 – A6FF)
- Буквы тона модификатора (A700 – A71F)
- Расширенная латиница-D (A720 – A7FF)
- Силоти Нагри (A800 – A82F)
- Общие индийские числовые формы (A830 – A83F)
- Phags-pa (A840 – A87F)
- Саураштра (A880 – A8DF)
- Деванагари расширенный (A8E0 – A8FF)
- Кая Ли (A900 – A92F)
- Rejang (A930 – A95F)
- Hangul Jamo Extended-A (A960 – A97F)
- Яванский (A980 – A9DF)
- Мьянма расширенный-B (A9E0 – A9FF)
- Чам (AA00 – AA5F)
- Мьянма Extended-A (AA60 – AA7F)
- Тай Вьет (AA80 – AADF)
- Расширения Meetei Mayek (AAE0 – AAFF)
- Расширенный эфиопский язык-A (AB00 – AB2F)
- Расширенная латиница - E (AB30 – AB6F)
- Дополнение Cherokee (AB70 – ABBF)
- Митей Майек (ABC0 – ABFF)
- Слоги хангыль (AC00 – D7AF)
- Хангыль джамо расширенный-B (D7B0 – D7FF)
- Суррогаты :
- Высшие суррогаты (D800 – DB7F)
- Суррогаты с высоким уровнем частного использования (DB80 – DBFF)
- Низкие суррогаты (DC00 – DFFF)
- Зона частного использования (E000 – F8FF)
- Идеографы совместимости CJK (F900 – FAFF)
- Алфавитные формы представления (FB00 – FB4F)
- Формы представления на арабском языке-A (FB50 – FDFF)
- Селекторы вариаций (FE00 – FE0F)
- Вертикальные формы (FE10 – FE1F)
- Комбинирование половинных отметок (FE20 – FE2F)
- Формы совместимости CJK (FE30 – FE4F)
- Варианты малой формы (FE50 – FE6F)
- Формы представления на арабском языке-B (FE70 – FEFF)
- Формы половинной и полной ширины (FF00 – FFEF)
- Специальные (FFF0 – FFFF)
Дополнительная многоязычная плоскость [ редактировать ]
Плоскость 1 , дополнительная многоязычная плоскость ( SMP ), содержит исторические шрифты (кроме идеографических CJK), а также символы и обозначения, используемые в определенных полях. Скрипты включают линейное письмо B , египетские иероглифы и клинописи . Он также включает английские реформаторские орфографии, такие как Shavian и Deseret , и некоторые современные шрифты , такие как Osage , Warang Citi и Adlam . Символы и примечания включают исторические и современные нотные записи; математические буквенно-цифровые символы ; сокращения; Эмодзии другие пиктографические наборы; и игровые символы для игральных карт , маджонг и домино .
Начиная с Unicode 13.0 [Обновить], SMP состоит из следующих 134 блоков:
- Архаический греческий и другие письма, написанные слева направо:
- Слоговая азбука линейного письма B (10000–1007F)
- Идеограммы линейного письма B (10080–100FF)
- Эгейские числа (10100–1013F)
- Древнегреческие числа (10140–1018F)
- Древние символы (10190–101CF)
- Фестский диск (101D0–101FF)
- Ликийский (10280–1029F)
- Карийская (102A0-102DF)
- Коптские номера Epact (102E0–102FF)
- Старый курсив (10300–1032F)
- Готика (10330–1034F)
- Старая Пермь (10350–1037F)
- Угаритский (10380–1039F)
- Староперсидский (103A0-103DF)
- Дезерет (10400-1044F)
- Шавиан (10450–1047F)
- Османья (10480-104AF)
- Осейдж (104B0–104FF)
- Эльбасан (10500–1052F)
- Кавказский албанец (10530–1056F)
- Линейный A (10600–1077F)
- Скрипты с написанием справа налево:
- Кипрская слоговая азбука (10800–1083F)
- Императорский арамейский (10840–1085F)
- Пальмирена (10860–1087F)
- Набатейцы (10880–108AF)
- Хатран (108E0–108FF)
- Финикийский (10900–1091F)
- Лидийский (10920–1093F)
- Меройские иероглифы (10980–1099F)
- Мероитская Скоропись (109A0-109FF)
- Кхароштхи (10A00-10A5F)
- Старый южноаравийский (10A60–10A7F)
- Старое северноаравийское (10A80–10A9F)
- Манихейский (10AC0–10AFF)
- Авестийский (10B00–10B3F)
- Письменный парфянский (10B40–10B5F)
- Пехлеви с надписью (10B60–10B7F)
- Псалтырь Пехлевий (10B80–10BAF)
- Древнетюркский (10C00-10C4F)
- Древневенгерский (10C80–10CFF)
- Ханье рохингие (10D00-10D3F)
- Цифровые символы Руми (10E60–10E7F)
- Езиды (10Э80–10ЕБФ)
- Старый согдийского (10F00-10F2F)
- Согдийский (10F30–10F6F)
- Хорезман (10FB0–10FDF)
- Elymaic (10FE0–10FFF)
- Брахмические сценарии:
- Брахми (11000–1107F)
- Кайти (11080–110CF)
- Сора Сомпенг (110D0–110FF)
- Чакма (11100–1114F)
- Махаджани (11150–1117F)
- Шарада (11180–111DF)
- Сингальские архаические числа (111E0–111FF)
- Хойки (11200–1124F)
- Мултани (11280–112AF)
- Худавади (112B0–112FF)
- Гранта (11300–1137F)
- Newa (11400-1147F)
- Тиргута (11480–114DF)
- Сиддхам (11580–115FF)
- Моди (11600–1165F)
- Приложение на монгольском языке (11660–1167F)
- Такри (11680-116CF)
- Ахом (11700–1173F)
- Догра (11800–1184F)
- Варанг Сити (118A0–118FF)
- Погружения в Акуру (11900–1195F)
- Нандинагари (119A0–119FF)
- Площадь Занабазар (11A00–11A4F)
- Соёмбо (11A50–11AAF)
- Пау Чин Хау (11AC0–11AFF)
- Бхайкуки (11C00–11C6F)
- Marchen (11C70-11CBF)
- Масарам Гонди (11D00–11D5F)
- Гунджала Гонди (11D60–11DAF)
- Макасар (11EE0–11EFF)
- Приложение Lisu (11FB0–11FBF)
- Приложение на тамильском языке (11FC0–11FFF)
- Клинопись (12000–123FF)
- Клинописные числа и знаки препинания (12400–1247F)
- Раннединастическая клинопись (12480–1254F)
- Египетские иероглифы (13000–1342 гг.)
- Органы управления форматом египетских иероглифов (13430–1343F)
- Анатолийские иероглифы (14400–1467F)
- Дополнение Bamum (16800–16A3F)
- Mro (16A40–16A6F)
- Басса Вах (16AD0–16AFF)
- Пахау Хмонг (16B00–16B8F)
- Медефайдрин (16E40–16E9F)
- Мяо (16F00–16F9F)
- Идеографические символы и знаки препинания (16FE0–16FFF)
- Тангутский (17000–187FF)
- Тангутские компоненты (18800–18AFF)
- Киданьский маленький шрифт (18B00–18CFF)
- Дополнение к тангутскому языку (18D00–18D8F)
- Приложение кана (1B000–1B0FF)
- Кана Расширенная-A (1B100–1B12F)
- Малое расширение Кана (1B130–1B16F)
- NUSHU (1B170-1B2FF)
- Дуплоян (1BC00–1BC9F)
- Элементы управления сокращенным форматом (1BCA0–1BCAF)
- Дополнительные символы:
- Музыкальная нотация :
- Византийские музыкальные символы (1D000–1D0FF)
- Музыкальные символы (1D100–1D1FF)
- Древнегреческая музыкальная нотация (1D200–1D24F)
- Цифры майя (1D2E0–1D2FF)
- Математические символы :
- Символы Тай Сюань Цзин (1D300–1D35F)
- Числа на счетных стержнях (1D360–1D37F)
- Математические буквенно-цифровые символы (1D400–1D7FF)
- Написание знаков Саттона (1D800–1DAAF)
- Музыкальная нотация :
- Дополнение к глаголице (1E000–1E02F)
- Ньякенг Пуачуэ Хмонг (1E100–1E14F)
- Ванчо (1E2C0–1E2FF)
- Mende Kikakui (1E800–1E8DF)
- Adlam (1E900-1E95F)
- Индийские числа сиак (1EC70–1ECBF)
- Османские числа сиак (1ED00–1ED4F)
- Арабские математические алфавитные символы (1EE00–1EEFF)
- Игровые плитки и карты:
- Плитки для маджонга (1F000–1F02F)
- Плитка домино (1F030–1F09F)
- Игральные карты (1F0A0–1F0FF)
- Прилагаемое буквенно-цифровое приложение (1F100–1F1FF)
- Прилагаемое идеографическое приложение (1F200–1F2FF)
- Разные символы и пиктограммы (1F300–1F5FF)
- Смайлики (1F600–1F64F)
- Декоративные дингбаты (1F650–1F67F)
- Транспортные и картографические символы (1F680–1F6FF)
- Алхимические символы (1F700–1F77F)
- Расширенные геометрические формы (1F780–1F7FF)
- Дополнительные стрелки-C (1F800–1F8FF)
- Дополнительные символы и пиктограммы (1F900–1F9FF)
- Шахматные символы (1FA00–1FA6F)
- Расширенные символы и пиктограммы-A (1FA70–1FAFF)
- Символы для устаревших вычислений (1FB00–1FBFF)
Дополнительная идеографическая плоскость [ редактировать ]
Плоскость 2 , дополнительная идеографическая плоскость ( SIP ), используется для идеографов CJK, в основном унифицированных идеографов CJK , которые не были включены в более ранние стандарты кодирования символов.
Начиная с Unicode 13.0 [Обновить], SIP состоит из следующих шести блоков:
- Расширение B унифицированных иероглифов CJK (20000–2A6DF)
- CJK Unified Ideographs Extension C (2A700–2B73F)
- Расширение унифицированных иероглифов CJK D (2B740–2B81F)
- Расширение E унифицированных иероглифов CJK (2B820–2CEAF)
- Расширение унифицированных иероглифов CJK F (2CEB0–2EBEF)
- Приложение к идеографам совместимости CJK (2F800–2FA1F)
Третичная идеографическая плоскость [ редактировать ]
Плоскость 3 - это третичная идеографическая плоскость (TIP). CJK Unified Ideographs Extension G был добавлен в TIP в Unicode 13.0, выпущенном в марте 2020 года. [5] Он также предварительно выделен для Oracle Bone script и Small Seal Script . [6]
Начиная с Unicode 13.0 [Обновить], TIP состоит из следующего блока:
- CJK Unified Ideographs Extension G (30000–3134F)
Неназначенные самолеты [ править ]
Самолеты с 4 по 13 (с 4 по D в шестнадцатеричном формате ): никакие персонажи еще не назначены на Планы с 4 по 13.
Дополнительный самолет специального назначения [ редактировать ]
Плоскость 14 ( E в шестнадцатеричном формате), дополнительная плоскость специального назначения ( SSP ). состоящий из следующих двух блоков Unicode 13.0 [Обновить]:
- Теги (E0000 – E007F)
- Дополнение к селекторам вариаций (E0100 – E01EF) - используется для указания альтернативных глифов для символов.
Самолеты для частного использования [ редактировать ]
Две плоскости 15 и 16 (плоскости F и 10 в шестнадцатеричном формате) обозначены как « Зоны частного использования ». Они содержат блоки, называемые областью дополнительного частного использования-A ( PUA-A ) и -B ( PUA-B ), которые доступны для использования сторонами, не входящими в ISO и Консорциум Unicode.
Ссылки [ править ]
- ^ Глоссарий Консорциума Unicode - Дополнительные плоскости
- ^ См. Таблицу 3.5 «Распределение битов UTF-16» в стандарте Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
- ^ См. Таблицу 3.6 «Распределение битов UTF-8» в стандарте Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
- ^ Дорожные карты Unicode
- ^ Unicode, Inc. "Объявление о стандарте Unicode®, версия 13.0" .
- ^ «Предлагаемые новые персонажи: трубопровод» . www.unicode.org .