Самолет (Юникод)

Эта статья требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален.
Поиск источников: "Plane" Unicode - новости · газеты · книги · ученый · JSTOR ( июль 2016 г. ) ( Узнайте, как и когда удалить это сообщение-шаблон )

В стандарте Unicode плоскость представляет собой непрерывную группу из 65 536 (2 ¹⁶ ) кодовых точек . Имеется 17 плоскостей, обозначенных номерами от 0 до 16, что соответствует возможным значениям 00–10 ₁₆ первых двух позиций в шестизначном шестнадцатеричном формате (U + hh hhhh ). Плоскость 0 - это базовая многоязычная плоскость (BMP), которая содержит наиболее часто используемые символы. Высшие планы с 1 по 16 называются «дополнительными планами». ^[1] Последняя кодовая точка в Unicode - это последняя кодовая точка в плоскости 16, U + 10FFFF. Начиная с Unicode версии 13.0, семи плоскостям присвоены кодовые точки (символы), а пяти даны имена.

Ограничение в 17 плоскостей связано с UTF-16 , который может кодировать 2 ²⁰ кодовых точек (16 плоскостей) как пары слов , а также BMP как одно слово. ^[2] UTF-8 был разработан с гораздо большим пределом в 2 ³¹ (2 147 483 648) кодовых точек (32 768 плоскостей) и может кодировать 2 ²¹ ( 2 097 152) кодовых точки (32 плоскости) даже при текущем ограничении в 4 байта . ^[3]

На 17 самолетах можно разместить 1114 112 кодовых точек. Из них 2048 являются суррогатами (используются для создания пар в UTF-16), 66 не являются символами и 137 468 зарезервированы для частного использования , а 974 530 - для публичного назначения.

Самолеты далее подразделяются на блоки Unicode , которые, в отличие от плоскостей, не имеют фиксированного размера. 308 блоков, определенных в Unicode 13.0, покрывают 26% возможного пространства кодовых точек и имеют размер от минимум 16 кодовых точек (пятнадцать блоков) до максимум 65 536 кодовых точек (дополнительные области частного использования-A и -B, которые составляют совокупность самолетов 15 и 16). Для будущего использования диапазоны символов были предварительно обозначены для большинства известных современных и древних систем письма. ^[4]

Обзор [ править ]

v т е Плоскости Unicode и используемые диапазоны кодовых точек
Базовый		Дополнительный
Самолет 0		Самолет 1		Самолет 2		Самолет 3	Самолеты 4–13	Самолет 14	Самолеты 15–16
0000– FFFF		10000– 1FFFF		20000– 2FFFF		30000– 3FFFF	40000– DFFFF	E0000– EFFFF	F0000– 10FFFF
Базовая многоязычная плоскость		Дополнительная многоязычная плоскость		Дополнительная идеографическая плоскость		Третичная идеографическая плоскость	неназначенный	Дополнительный самолет специального назначения	Дополнительные самолеты для частного использования
BMP		SMP		ГЛОТОК		КОНЧИК	-	SSP	СПУА-А / Б
0000– 0FFF 1000– 1FFF 2000– 2FFF 3000– 3FFF 4000– 4FFF 5000– 5FFF 6000– 6FFF 7000– 7FFF	8000– 8FFF 9000– 9FFF A000– AFFF B000– BFFF C000– CFFF D000– DFFF E000– EFFF F000– FFFF	10000– 10FFF 11000– 11FFF 12000– 12FFF 13000– 13FFF 14000– 14FFF 16000– 16FFF 17000– 17FFF	18000– 18FFF 1B000– 1BFFF 1D000– 1DFFF 1E000– 1EFFF 1F000– 1FFFF	20000– 20FFF 21000– 21FFF 22000– 22FFF 23000– 23FFF 24000– 24FFF 25000– 25FFF 26000– 26FFF 27000– 27FFF	28000– 28FFF 29000– 29FFF 2A000– 2AFFF 2B000– 2BFFF 2C000– 2CFFF 2D000– 2DFFF 2E000– 2EFFF 2F000– 2FFFF	30000– 30FFF 31000– 31FFF		E0000– E0FFF	15: SPUA-A F0000– FFFFF 16: SPUA-B 100000– 10FFFF

Назначенные символы в Unicode версии 13.0
Самолет	Выделенные кодовые точки ^{[примечание 1]}	Назначенные символы ^{[примечание 2]}
0 BMP	65 472	55 503
1 SMP	24 704	22 279
2 глотка	60 912	60 866
3 СОВЕТ	4944	4939
14 SSP	368	337
15 СПУА-А	65 536
16 СПУА-Б	65 536
Итоги	287 472	143 924

^ Кодовые точки, которые были выделены блоку Unicode .
^ Общее количество графических, форматных и управляющих символов (т. Е. Исключая символы частного использования, несимволы и суррогатные кодовые точки).

Базовая многоязычная плоскость [ редактировать ]

Карта базовой многоязычной плоскости. Каждый пронумерованный прямоугольник представляет 256 кодовых точек.

Первая плоскость, плоскость 0 , базовая многоязычная плоскость ( BMP ) содержит символы почти всех современных языков и большое количество символов . Основная цель BMP - поддержка унификации предшествующих наборов символов, а также символов для письма . Большинство назначенных кодовых точек в BMP используются для кодирования китайских, японских и корейских ( CJK ) символов.

Коды High Surrogate ( U + D800 – U + DBFF ) и Low Surrogate ( U + DC00 – U + DFFF ) зарезервированы для кодирования не-BMP символов в UTF-16 с использованием пары 16- битных кодов: один High Surrogate и один младший суррогат. Одной суррогатной кодовой точке никогда не будет присвоен символ.

65 472 из 65 536 кодовых точек в этой плоскости были выделены блоку Unicode , оставив только 64 кодовых точки в нераспределенных диапазонах (48 кодовых точек в 0870..089F и 16 кодовых точек в 2FE0..2FEF).

Начиная с Unicode 13.0 ^{[Обновить]}, BMP состоит из следующих 163 блоков:

Базовая латиница (нижняя половина ISO / IEC 8859-1 : ISO / IEC 646: 1991-IRV aka ASCII ) (0000–007F)
Дополнение Latin-1 (верхняя половина ISO / IEC 8859-1 ) (0080–00FF)
Расширенная латиница-A (0100–017F)
Расширенная латиница-B (0180–024F)
Расширения IPA (0250–02AF)
Буквы-модификаторы интервала (02B0–02FF)
Объединение диакритических знаков (0300–036F)
Греческий и коптский (0370–03FF)
Кириллица (0400–04FF)
Дополнение к кириллице (0500–052F)
Армянский (0530–058F)
Арамейские письменности:
- Иврит (0590–05FF)
- Арабский (0600–06FF)
- Сирийский (0700–074F)
- Приложение на арабском языке (0750–077F)
- Тана (0780-07BF)
- Н'Ко (07C0–07FF)
- Самаритянин (0800–083F)
- Мандайские (0840-085F)
- Дополнение к сирийскому языку (0860–086F)
- Арабский расширенный-A (08A0–08FF)
Брахмические сценарии:
- Деванагари (0900–097F)
- Бенгальский (0980–09FF)
- Гурмукхи (0A00-0A7F)
- Гуджарати (0A80–0AFF)
- Ория (0B00–0B7F)
- Тамильский (0B80–0BFF)
- Телугу (0C00–0C7F)
- Каннада (0C80–0CFF)
- Малаялам (0D00–0D7F)
- Сингальский (0D80–0DFF)
- Тайский (0E00–0E7F)
- Лаосский (0E80–0EFF)
- Тибетский (0F00–0FFF)
- Мьянма (1000–109F)
Грузинский (10A0–10FF)
Хангыль Джамо (1100–11FF)
Эфиопский (1200–137F)
Эфиопское приложение (1380–139F)
Чероки (13A0–13FF)
Унифицированная слоговая речь канадских аборигенов (1400–167F)
Огам (1680–169F)
Рунический (16A0–16FF)
Филиппинские шрифты:
- Тагальский (1700–171F)
- Хануноо (1720–173F)
- Бухид (1740–175 годы)
- Тагбанва (1760–177 годы)
Кхмеры (1780–17FF)
Монгольский (1800–18AF)
Единая расширенная слоговая речь канадских аборигенов (18B0–18FF)
Лимбу (1900–194F)
Тайские сценарии:
- Тай Ле (1950–197F)
- Нью Тай Лю (1980–19DF)
- Кхмерские символы (19E0–19FF)
- Бугийский (1A00–1A1F)
- Тай Тхам (1A20–1AAF)
Расширенное объединение диакритических знаков (1AB0–1AFF)
Балийский (1B00–1B7F)
Сунданский (1B80–1BBF)
Батак (1BC0–1BFF)
Лепча (1C00–1C4F)
Ол Чики (1C50–1C7F)
Кириллица расширенная-C (1C80–1C8F)
Грузинский расширенный (1C90–1CBF)
Дополнение сунданского языка (1CC0–1CCF)
Ведические расширения (1CD0–1CFF)
Латинские добавки:
- Фонетические расширения (1D00–1D7F)
- Дополнение к фонетическим расширениям (1D80–1DBF)
- Дополнение о комбинированных диакритических знаках (1DC0–1DFF)
- Расширенная латиница, дополнительная (1E00–1EFF)
Расширенный греческий (1F00–1FFF)
Символы :
- Общая пунктуация (2000–206F)
- Верхние и нижние индексы (2070–209F)
- Символы валюты (20A0–20CF)
- Комбинирование диакритических знаков для символов (20D0–20FF)
- Буквоподобные символы (2100–214F)
- Числовые формы (2150–218F)
- Стрелки (2190–21FF)
- Математические операторы (2200–22FF)
- Разное техническое (2300–23FF)
- Контрольные изображения (2400–243F)
- Оптическое распознавание символов (2440–245F)
- Закрытые буквенно-цифровые символы (2460–24FF)
- Чертеж коробки (2500–257F)
- Блочные элементы (2580–259F)
- Геометрические формы (25A0–25FF)
- Разные символы (2600–26FF)
- Дингбаты (2700–27BF)
- Разные математические символы-A (27C0–27EF)
- Дополнительные стрелки-A (27F0–27FF)
- Шаблоны Брайля (2800–28FF)
- Дополнительные стрелки-B (2900–297F)
- Разные математические символы-B (2980–29FF)
- Дополнительные математические операторы (2A00–2AFF)
- Разные символы и стрелки (2B00–2BFF)
Глаголица (2C00–2C5F)
Расширенная латиница-C (2C60–2C7F)
Коптский (2C80–2CFF)
Дополнение к Грузии (2D00–2D2F)
Тифинаг (2D30-2D7F)
Расширенный эфиопский (2D80–2DDF)
Кириллица расширенная-A (2DE0–2DFF)
Дополнительная пунктуация (2E00–2E7F)
Скрипты и символы CJK :
- Приложение CJK Radicals (2E80–2EFF)
- Kangxi Radicals (2F00–2FDF)
- Символы идеографического описания (2FF0–2FFF)
- Символы и знаки препинания CJK (3000–303F)
- Хирагана (3040–309F)
- Катакана (30A0–30FF)
- Бопомофо (3100-312F)
- Джамо совместимости с хангыль (3130–318F)
- Канбун (3190–319F)
- Бопомофо расширенный (31A0–31BF)
- Инсульт CJK (31C0–31EF)
- Фонетические расширения катаканы (31F0–31FF)
- Приложенные буквы и месяцы CJK (3200–32FF)
- Совместимость с CJK (3300–33FF)
- CJK Unified Ideographs Extension A (3400–4DBF)
- Символы гексаграммы Ицзин (4DC0–4DFF)
- Унифицированные идеограммы CJK (4E00–9FFF)
Слоги И (A000 – A48F)
Yi Radicals (A490 – A4CF)
Лису (A4D0 – A4FF)
Вай (A500 – A63F)
Кириллица расширенная-B (A640 – A69F)
Бамум (A6A0 – A6FF)
Буквы тона модификатора (A700 – A71F)
Расширенная латиница-D (A720 – A7FF)
Силоти Нагри (A800 – A82F)
Общие индийские числовые формы (A830 – A83F)
Phags-pa (A840 – A87F)
Саураштра (A880 – A8DF)
Деванагари расширенный (A8E0 – A8FF)
Кая Ли (A900 – A92F)
Rejang (A930 – A95F)
Hangul Jamo Extended-A (A960 – A97F)
Яванский (A980 – A9DF)
Мьянма расширенный-B (A9E0 – A9FF)
Чам (AA00 – AA5F)
Мьянма Extended-A (AA60 – AA7F)
Тай Вьет (AA80 – AADF)
Расширения Meetei Mayek (AAE0 – AAFF)
Расширенный эфиопский язык-A (AB00 – AB2F)
Расширенная латиница - E (AB30 – AB6F)
Дополнение Cherokee (AB70 – ABBF)
Митей Майек (ABC0 – ABFF)
Слоги хангыль (AC00 – D7AF)
Хангыль джамо расширенный-B (D7B0 – D7FF)
Суррогаты :
- Высшие суррогаты (D800 – DB7F)
- Суррогаты с высоким уровнем частного использования (DB80 – DBFF)
- Низкие суррогаты (DC00 – DFFF)
Зона частного использования (E000 – F8FF)
Идеографы совместимости CJK (F900 – FAFF)
Алфавитные формы представления (FB00 – FB4F)
Формы представления на арабском языке-A (FB50 – FDFF)
Селекторы вариаций (FE00 – FE0F)
Вертикальные формы (FE10 – FE1F)
Комбинирование половинных отметок (FE20 – FE2F)
Формы совместимости CJK (FE30 – FE4F)
Варианты малой формы (FE50 – FE6F)
Формы представления на арабском языке-B (FE70 – FEFF)
Формы половинной и полной ширины (FF00 – FFEF)
Специальные (FFF0 – FFFF)

Дополнительная многоязычная плоскость [ редактировать ]

Карта дополнительной многоязычной плоскости. Каждый пронумерованный прямоугольник представляет 256 кодовых точек.

Плоскость 1 , дополнительная многоязычная плоскость ( SMP ), содержит исторические шрифты (кроме идеографических CJK), а также символы и обозначения, используемые в определенных полях. Скрипты включают линейное письмо B , египетские иероглифы и клинописи . Он также включает английские реформаторские орфографии, такие как Shavian и Deseret , и некоторые современные шрифты , такие как Osage , Warang Citi и Adlam . Символы и примечания включают исторические и современные нотные записи; математические буквенно-цифровые символы ; сокращения; Эмодзии другие пиктографические наборы; и игровые символы для игральных карт , маджонг и домино .

Начиная с Unicode 13.0 ^{[Обновить]}, SMP состоит из следующих 134 блоков:

Архаический греческий и другие письма, написанные слева направо:
- Слоговая азбука линейного письма B (10000–1007F)
- Идеограммы линейного письма B (10080–100FF)
- Эгейские числа (10100–1013F)
- Древнегреческие числа (10140–1018F)
- Древние символы (10190–101CF)
- Фестский диск (101D0–101FF)
- Ликийский (10280–1029F)
- Карийская (102A0-102DF)
- Коптские номера Epact (102E0–102FF)
- Старый курсив (10300–1032F)
- Готика (10330–1034F)
- Старая Пермь (10350–1037F)
- Угаритский (10380–1039F)
- Староперсидский (103A0-103DF)
- Дезерет (10400-1044F)
- Шавиан (10450–1047F)
- Османья (10480-104AF)
- Осейдж (104B0–104FF)
- Эльбасан (10500–1052F)
- Кавказский албанец (10530–1056F)
- Линейный A (10600–1077F)
Скрипты с написанием справа налево:
- Кипрская слоговая азбука (10800–1083F)
- Императорский арамейский (10840–1085F)
- Пальмирена (10860–1087F)
- Набатейцы (10880–108AF)
- Хатран (108E0–108FF)
- Финикийский (10900–1091F)
- Лидийский (10920–1093F)
- Меройские иероглифы (10980–1099F)
- Мероитская Скоропись (109A0-109FF)
- Кхароштхи (10A00-10A5F)
- Старый южноаравийский (10A60–10A7F)
- Старое северноаравийское (10A80–10A9F)
- Манихейский (10AC0–10AFF)
- Авестийский (10B00–10B3F)
- Письменный парфянский (10B40–10B5F)
- Пехлеви с надписью (10B60–10B7F)
- Псалтырь Пехлевий (10B80–10BAF)
- Древнетюркский (10C00-10C4F)
- Древневенгерский (10C80–10CFF)
- Ханье рохингие (10D00-10D3F)
- Цифровые символы Руми (10E60–10E7F)
- Езиды (10Э80–10ЕБФ)
- Старый согдийского (10F00-10F2F)
- Согдийский (10F30–10F6F)
- Хорезман (10FB0–10FDF)
- Elymaic (10FE0–10FFF)
Брахмические сценарии:
- Брахми (11000–1107F)
- Кайти (11080–110CF)
- Сора Сомпенг (110D0–110FF)
- Чакма (11100–1114F)
- Махаджани (11150–1117F)
- Шарада (11180–111DF)
- Сингальские архаические числа (111E0–111FF)
- Хойки (11200–1124F)
- Мултани (11280–112AF)
- Худавади (112B0–112FF)
- Гранта (11300–1137F)
- Newa (11400-1147F)
- Тиргута (11480–114DF)
- Сиддхам (11580–115FF)
- Моди (11600–1165F)
- Приложение на монгольском языке (11660–1167F)
- Такри (11680-116CF)
- Ахом (11700–1173F)
- Догра (11800–1184F)
- Варанг Сити (118A0–118FF)
- Погружения в Акуру (11900–1195F)
- Нандинагари (119A0–119FF)
- Площадь Занабазар (11A00–11A4F)
- Соёмбо (11A50–11AAF)
- Пау Чин Хау (11AC0–11AFF)
- Бхайкуки (11C00–11C6F)
- Marchen (11C70-11CBF)
- Масарам Гонди (11D00–11D5F)
- Гунджала Гонди (11D60–11DAF)
- Макасар (11EE0–11EFF)
Приложение Lisu (11FB0–11FBF)
Приложение на тамильском языке (11FC0–11FFF)
Клинопись (12000–123FF)
Клинописные числа и знаки препинания (12400–1247F)
Раннединастическая клинопись (12480–1254F)
Египетские иероглифы (13000–1342 гг.)
Органы управления форматом египетских иероглифов (13430–1343F)
Анатолийские иероглифы (14400–1467F)
Дополнение Bamum (16800–16A3F)
Mro (16A40–16A6F)
Басса Вах (16AD0–16AFF)
Пахау Хмонг (16B00–16B8F)
Медефайдрин (16E40–16E9F)
Мяо (16F00–16F9F)
Идеографические символы и знаки препинания (16FE0–16FFF)
Тангутский (17000–187FF)
Тангутские компоненты (18800–18AFF)
Киданьский маленький шрифт (18B00–18CFF)
Дополнение к тангутскому языку (18D00–18D8F)
Приложение кана (1B000–1B0FF)
Кана Расширенная-A (1B100–1B12F)
Малое расширение Кана (1B130–1B16F)
NUSHU (1B170-1B2FF)
Дуплоян (1BC00–1BC9F)
Элементы управления сокращенным форматом (1BCA0–1BCAF)
Дополнительные символы:
- Музыкальная нотация :
  - Византийские музыкальные символы (1D000–1D0FF)
  - Музыкальные символы (1D100–1D1FF)
  - Древнегреческая музыкальная нотация (1D200–1D24F)
- Цифры майя (1D2E0–1D2FF)
- Математические символы :
  - Символы Тай Сюань Цзин (1D300–1D35F)
  - Числа на счетных стержнях (1D360–1D37F)
  - Математические буквенно-цифровые символы (1D400–1D7FF)
- Написание знаков Саттона (1D800–1DAAF)
Дополнение к глаголице (1E000–1E02F)
Ньякенг Пуачуэ Хмонг (1E100–1E14F)
Ванчо (1E2C0–1E2FF)
Mende Kikakui (1E800–1E8DF)
Adlam (1E900-1E95F)
Индийские числа сиак (1EC70–1ECBF)
Османские числа сиак (1ED00–1ED4F)
Арабские математические алфавитные символы (1EE00–1EEFF)
Игровые плитки и карты:
- Плитки для маджонга (1F000–1F02F)
- Плитка домино (1F030–1F09F)
- Игральные карты (1F0A0–1F0FF)
Прилагаемое буквенно-цифровое приложение (1F100–1F1FF)
Прилагаемое идеографическое приложение (1F200–1F2FF)
Разные символы и пиктограммы (1F300–1F5FF)
Смайлики (1F600–1F64F)
Декоративные дингбаты (1F650–1F67F)
Транспортные и картографические символы (1F680–1F6FF)
Алхимические символы (1F700–1F77F)
Расширенные геометрические формы (1F780–1F7FF)
Дополнительные стрелки-C (1F800–1F8FF)
Дополнительные символы и пиктограммы (1F900–1F9FF)
Шахматные символы (1FA00–1FA6F)
Расширенные символы и пиктограммы-A (1FA70–1FAFF)
Символы для устаревших вычислений (1FB00–1FBFF)

Дополнительная идеографическая плоскость [ редактировать ]

Карта дополнительной идеографической плоскости. Каждый пронумерованный прямоугольник представляет 256 кодовых точек.

Плоскость 2 , дополнительная идеографическая плоскость ( SIP ), используется для идеографов CJK, в основном унифицированных идеографов CJK , которые не были включены в более ранние стандарты кодирования символов.

Начиная с Unicode 13.0 ^{[Обновить]}, SIP состоит из следующих шести блоков:

Расширение B унифицированных иероглифов CJK (20000–2A6DF)
CJK Unified Ideographs Extension C (2A700–2B73F)
Расширение унифицированных иероглифов CJK D (2B740–2B81F)
Расширение E унифицированных иероглифов CJK (2B820–2CEAF)
Расширение унифицированных иероглифов CJK F (2CEB0–2EBEF)
Приложение к идеографам совместимости CJK (2F800–2FA1F)

Третичная идеографическая плоскость [ редактировать ]

Карта третичной идеографической плоскости. Каждый пронумерованный прямоугольник представляет 256 кодовых точек.

Плоскость 3 - это третичная идеографическая плоскость (TIP). CJK Unified Ideographs Extension G был добавлен в TIP в Unicode 13.0, выпущенном в марте 2020 года. ^[5] Он также предварительно выделен для Oracle Bone script и Small Seal Script . ^[6]

Начиная с Unicode 13.0 ^{[Обновить]}, TIP состоит из следующего блока:

CJK Unified Ideographs Extension G (30000–3134F)

Неназначенные самолеты [ править ]

Самолеты с 4 по 13 (с 4 по D в шестнадцатеричном формате ): никакие персонажи еще не назначены на Планы с 4 по 13.

Дополнительный самолет специального назначения [ редактировать ]

Карта дополнительного самолета специального назначения. Каждый пронумерованный прямоугольник представляет 256 кодовых точек.

Плоскость 14 ( E в шестнадцатеричном формате), дополнительная плоскость специального назначения ( SSP ). состоящий из следующих двух блоков Unicode 13.0 ^{[Обновить]}:

Теги (E0000 – E007F)
Дополнение к селекторам вариаций (E0100 – E01EF) - используется для указания альтернативных глифов для символов.

Самолеты для частного использования [ редактировать ]

Две плоскости 15 и 16 (плоскости F и 10 в шестнадцатеричном формате) обозначены как « Зоны частного использования ». Они содержат блоки, называемые областью дополнительного частного использования-A ( PUA-A ) и -B ( PUA-B ), которые доступны для использования сторонами, не входящими в ISO и Консорциум Unicode.

Ссылки [ править ]

^ Глоссарий Консорциума Unicode - Дополнительные плоскости
^ См. Таблицу 3.5 «Распределение битов UTF-16» в стандарте Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
^ См. Таблицу 3.6 «Распределение битов UTF-8» в стандарте Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
^ Дорожные карты Unicode
^ Unicode, Inc. "Объявление о стандарте Unicode®, версия 13.0" .
^ «Предлагаемые новые персонажи: трубопровод» . www.unicode.org .

[5] Кодовые точки, которые были выделены блоку Unicode .

[6] Общее количество графических, форматных и управляющих символов (т. Е. Исключая символы частного использования, несимволы и суррогатные кодовые точки).

[1] Глоссарий Консорциума Unicode - Дополнительные плоскости

[2] См. Таблицу 3.5 «Распределение битов UTF-16» в стандарте Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf

[3] См. Таблицу 3.6 «Распределение битов UTF-8» в стандарте Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf

[4] Дорожные карты Unicode

[7] Unicode, Inc. "Объявление о стандарте Unicode®, версия 13.0" .

[8] «Предлагаемые новые персонажи: трубопровод» . www.unicode.org .

[1]