Свойство символа Юникода

Стандарт Unicode присваивает свойства символов в каждой точке кода . ^[1] Эти свойства могут использоваться для обработки «символов» (кодовых точек) в процессах, таких как разрыв строки, направление скрипта справа налево или применение элементов управления. Немного непоследовательно, некоторые «свойства символа» также определены для кодовых точек, которым не назначен символ, и кодовых точек, которые помечены как «<не символ>». Свойства персонажа описаны в Стандартном Приложении №44. ^[2]

Свойства имеют уровни силы: нормативный, информативный, вспомогательный или предварительный. Для простоты описания свойство символа может быть присвоено путем указания непрерывного диапазона кодовых точек, которые имеют одно и то же свойство.

Имя [ редактировать ]

Символу Unicode присваивается уникальное имя (na). ^[1] Имя состоит из прописных букв A – Z, цифр 0–9, - (дефис-минус) и <пробел>. Некоторые последовательности исключены: имена, начинающиеся с пробела или дефиса, имена, заканчивающиеся пробелом или дефисом, повторяющиеся пробелы или дефисы и пробелы после дефиса не допускаются. Имя гарантированно уникально в Юникоде и может использоваться для идентификации кодовой точки и ее символа. Идеографические символы, которых насчитывается несколько десятков тысяч, названы в шаблоне « cjk unified ideograph - hhhh ». Например, U + 4E00 一 CJK UNIFIED IDEOGRAPH-4E00 . Также названы символы форматирования: U + 00A0 NO-BREAK SPACE .

Следующие классы кодовых точек не имеют имени (na = ""): элементы управления (общая категория: Cc), частное использование (Co), суррогатное (Cs), несимвольные (Cn) и зарезервированные (Cn). На них могут неофициально ссылаться общее или конкретное мета-имя, называемое «метки кодовых точек»: <control>, <control-0088>, <reserved>, <noncharacter- hhhh >, <private-use- hhhh > , <суррогат>. Поскольку эти метки содержат скобки <>, они никогда не могут отображаться как имя, что предотвращает путаницу.

Имена версии 1.0 [ править ]

В версии 2.0 Unicode были изменены многие имена. С этого момента вступило в силу правило «имя никогда не изменится», включая строгое (нормативное) использование псевдонимов. Неиспользуемые имена версии 1.0 были перемещены в свойство Alias для обеспечения обратной совместимости.

Псевдоним имени персонажа [ править ]

Начиная с версии 2.0 Unicode, опубликованное имя кодовой точки никогда не изменится. Следовательно, в случае неправильного написания имени персонажа или если имя персонажа полностью неверно или серьезно вводит в заблуждение, персонажу может быть назначен формальный псевдоним имени персонажа, и этот псевдоним может использоваться приложениями вместо фактического дефектного имени персонажа. . ^[1] Например, U + FE18 ︘ ФОРМА ПРЕЗЕНТАЦИИ ДЛЯ ВЕРТИКАЛЬНОГО ПРАВОГО БЕЛОГО ЛЕНТИКУЛЯРНОГО КРОНШТЕЙНА имеет псевдоним имени символа "ПРЕЗЕНТАЦИОННАЯ ФОРМА ДЛЯ ВЕРТИКАЛЬНОЙ ПРАВОЙ БЕЛЫЙ ЛЕНТИКУЛЯРНЫЙ КРОНШТЕЙН", чтобы избежать ошибки в написании "скобки" как "скобки" в фактическом название характера; U + A015 ꀕ YI СЛОВО WU имеет псевдоним имени символа "YI SYLLABLE ITERATION MARK", потому что, в отличие от имени символа, он не имеет фиксированного слогового значения.

В дополнение к псевдонимам имен символов, которые являются исправлением дефектных имен символов, некоторым символам присваиваются псевдонимы, которые являются альтернативными именами или сокращениями. В стандарте Unicode определены пять типов псевдонимов имен символов:

Исправление: исправления неправильно написанных или серьезно неправильных имен персонажей;
Управление: имена ISO 6429 для функций управления C0 и C1 (которым не присвоены имена символов в стандарте Unicode);
Альтернативные: альтернативные имена для некоторых символов формата (только U + FEFF «ZERO WIDTH NO-BREAK SPACE», у которого есть псевдоним «BYTE ORDER MARK»);
Рисунок: Документированные метки для некоторых функций управляющего кода C1, которые не являются действительными именами ни в одном стандарте;
Аббревиатура: аббревиатуры или акронимы для управляющих кодов, символов формата, пробелов и селекторов вариантов.

Все формальные псевдонимы имен символов соответствуют правилам для допустимых имен символов и гарантированно уникальны как в псевдониме имени символа, так и в пространстве имен символов (по этой причине имя ISO 6429 «BELL» не определено как псевдоним для U +0007, потому что U + 1F514 назван "BELL"). ^[1]

Начиная с Unicode версии 12.1, двадцать восемь формальных псевдонимов имен символов определены как исправления для дефектных имен символов. ^[3]

v т е Список исправлений имен персонажей (псевдонимы)
Характер		Имя	Псевдоним
01A2	Ƣ	ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА OI	ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА ГСГ
01A3	ƣ	ЛАТИНСКАЯ СТРОЧНАЯ БУКВА OI	ЛАТИНСКАЯ СТРОЧНАЯ БУКВА ГСГ
0709	܉	СИРИЙСКАЯ СУБЛИНЕЙНАЯ КОЛОНКА С СКОРОМ ВПРАВО	СИРИЙСКАЯ СУБЛИНЕЙНАЯ КОЛОНКА С СКОРОМ ВЛЕВО
0CDE	ೞ	КАННАДА ПИСЬМО FA	КАННАДА ПИСЬМО LLLA
0E9D	ຝ	ЛАО ПИСЬМО ФО ТАМ	LAO ПИСЬМО FO FON
0E9F	ຟ	ЛАО ПИСЬМО ФО СУНГ	LAO ПИСЬМО FO FAY
0EA3	ຣ	ЛАО ПИСЬМО ЛО ЛИНГ	ЛАО ПИСЬМО RO
0EA5	ລ	LAO ПИСЬМО ЛО ЛУТ	ЛАО ПИСЬМО ЛО
0FD0	࿐	ТИБЕТСКИЙ МАРК БСКА- ШОГ ГИ МГО РГЯН	ТИБЕТСКИЙ МАРК БКА- ШОГ ГИ МГО РГЯН
11EC	ᇬ	ХАНГЫЛЬ ЧОНСОН ИЁН-КИЕОК	ХАНГЫЛЬ ЧОНСОН ЕСИЁН-КИЕОК
11ED	ᇭ	HANGUL JONGSEONG IEUNG-SSANGKIYEOK	ХАНГЫЛЬ ЧОНГСОН ЕСИЁН-ССАНГИЕОК
11EE	ᇮ	ХАНГЫЛЬ ЧОНСОН САНГИЁН	ХАНГЫЛЬ ЧОНГСОН ССАНГЕСЫУН
11EF	ᇯ	ХАНГЫЛЬ ЧОНСОН ИЫН-КИЕУК	ХАНГЫЛЬ ЧОНСОН ЕСЬЮН-КИЕУК
2118	℘	ЗАГЛАВНАЯ СТРАНИЦА P	ЭЛЛИПТИЧЕСКАЯ ФУНКЦИЯ WEIERSTRASS
2448	⑈	OCR DASH	MICR НА СИМВОЛЕ США
2449	⑉	НОМЕР УЧЕТНОЙ ЗАПИСИ КЛИЕНТА OCR	СИМВОЛ MICR DASH
2B7A	⭺	ТРЕУГОЛЬНАЯ СТРЕЛКА ВЛЕВО С ДВОЙНЫМ ГОРИЗОНТАЛЬНЫМ ХОДОМ	ТРЕУГОЛЬНАЯ СТРЕЛКА ВЛЕВО С ДВОЙНЫМ ВЕРТИКАЛЬНЫМ ХОДОМ
2B7C	⭼	ТРЕУГОЛЬНАЯ СТРЕЛКА ВПРАВО С ДВОЙНЫМ ГОРИЗОНТАЛЬНЫМ штрихом	ТРЕУГОЛЬНАЯ СТРЕЛКА ВПРАВО С ДВОЙНЫМ ВЕРТИКАЛЬНЫМ ХОДОМ
A015	ꀕ	YI SYLLABLE WU	YI СЛОВОЙ ИТЕРАЦИОННЫЙ ЗНАК
FE18	︘	ФОРМА ПРЕЗЕНТАЦИИ ДЛЯ ВЕРТИКАЛЬНОГО ПРАВОГО БЕЛОГО ЛЕНТИКУЛЯРНОГО ТОРМОЗА	ФОРМА ПРЕЗЕНТАЦИИ ДЛЯ ВЕРТИКАЛЬНОГО ПРАВОГО БЕЛОГО ЛЕНТИКУЛЯРНОГО СКОБА
122D4	𒋔	CUNEIFORM SIGN SHIR TENU	КУНЕЙНЫЙ ЗНАК NU11 TENU
122D5	𒋕	РУБАШКА CUNEIFORM SIGN, ОБОРУДОВАННАЯ НА РУБАШКЕ	ЗНАК CUNEIFORM NU11 НАД NU11 BUR OVER BUR
16E56	𖹖	МЕДЕФАЙДРИН ЗАГЛАВНАЯ БУКВА HP	МЕДЕФАЙДРИН ЗАГЛАВНАЯ БУКВА H
16E57	𖹗	МЕДЕФАЙДРИН ЗАГЛАВНАЯ БУКВА NY	МЕДЕФАЙДРИН ЗАГЛАВНАЯ БУКВА NG
16E76	𖹶	МЕДЕФАЙДРИН СТРОЧНАЯ БУКВА HP	МЕДЕФАЙДРИН СТРОЧНАЯ БУКВА H
16E77	𖹷	МЕДЕФАЙДРИН СТРОЧНАЯ БУКВА NY	МЕДЕФАЙДРИН СТРОЧНАЯ БУКВА NG
1B001	𛀁	ХИРАГАНА ПИСЬМО АРХАИЧЕСКОЕ ДА	ХЕНТАЙГАНА ПИСЬМО E-1
1D0C5	𝃅	ВИЗАНТИЙСКИЙ МУЗЫКАЛЬНЫЙ СИМВОЛ FHTORA SKLIRON CHROMA VASIS	ВИЗАНТИЙСКИЙ МУЗЫКАЛЬНЫЙ СИМВОЛ FTHORA SKLIRON CHROMA VASIS

Помимо этих нормативных имен, в таблицах кодов Unicode могут отображаться неофициальные имена . Это другие часто используемые имена для символа, и их необязательно ограничивать буквами A – Z, цифрами 0–9, - (дефис-минус) и <пробел>. Уникальность этих неофициальных имен не гарантируется, и они могут быть изменены или удалены в более поздних версиях стандарта.

Общая категория [ править ]

Каждой кодовой точке присваивается значение для общей категории. Это одно из свойств символа, которые также определены для неназначенных кодовых точек и кодовых точек, которые определены как «не символ».

Общая категория ( свойство символа Unicode ) ^[a] v т е
Ценить	Категория Major, minor	Базовый тип ^[b]	Назначенный символ ^[b]	Подсчитать (по состоянию на 13.0)	Замечания

L, буква
Лу	Буква в верхнем регистре	Графический	Характер	1,791
Ll	Буква в нижнем регистре	Графический	Характер	2155
Lt	Буква, заглавие	Графический	Характер	31 год	Лигатуры, содержащие прописные буквы, за которыми следуют строчные буквы (например, ǅ , ǈ , ǋ и ǲ )
Lm	Буква, модификатор	Графический	Характер	260	Модификатор письмо
Ло	Письмо, другое	Графический	Характер	127 004	Иероглиф или письмо в Unicase алфавите
М, Марк
Mn	Марк, без промежутка	Графический	Характер	1839
Mc	Отметка, интервал совмещения	Графический	Характер	443
Мне	Марка, включающая	Графический	Характер	13
N, число
Nd	Число, десятичная цифра	Графический	Характер	650	Все они, и только они, имеют числовой тип = De ^[c]
Nl	Число, буква	Графический	Характер	236	Цифры, состоящие из букв или буквоподобных символов (например, римские цифры )
Нет	Число, другое	Графический	Характер	895	Например, вульгарные дроби , надстрочные и подстрочные цифры.
P, пунктуация
ПК	Пунктуация, разъем	Графический	Характер	10	Включает подчеркивание "_"
Pd	Пунктуация, тире	Графический	Характер	25	Включает несколько знаков дефиса
Ps	Пунктуация, открытая	Графический	Характер	75	Открытие скобки символов
Pe	Знаки препинания, закрыть	Графический	Характер	73	Символы закрывающей скобки
число Пи	Пунктуация, начальная цитата	Графический	Характер	12	Открывающая кавычка . Не включает "нейтральные" кавычки ASCII. Может вести себя как Ps или Pe в зависимости от использования
ПФ	Пунктуация, заключительная цитата	Графический	Характер	10	Закрывающая кавычка. Может вести себя как Ps или Pe в зависимости от использования
По	Пунктуация, другое	Графический	Характер	593
S, символ
См	Символ, математика	Графический	Характер	948	Математические символы (например, + , - , = , × , ÷ , √ , ∊ , ≠ ). Не включает круглые и квадратные скобки, которые есть в категориях Ps и Pe. Также не входит ! , * , - или / , которые, несмотря на частое использование в качестве математических операторов, в первую очередь считаются «пунктуацией».
Sc	Символ, валюта	Графический	Характер	62	Символы валюты
Sk	Символ, модификатор	Графический	Характер	123
Так	Символ, другое	Графический	Характер	6 431
Z, разделитель
Zs	Разделитель, пробел	Графический	Характер	17	Включает пробел, но не включает TAB , CR или LF , которые являются Cc
Zl	Разделитель, линия	Формат	Характер	1	Только U + 2028 СЕПАРАТОР ЛИНИИ (LSEP)
Zp	Разделитель, абзац	Формат	Характер	1	Только U + 2029 РАЗДЕЛИТЕЛЬ ПАРАМЕТРОВ (PSEP)
C, Другое
Копия	Другое, контроль	Контроль	Характер	65 (никогда не изменится) ^[c]	Без имени, ^[d] <control>
Cf	Другое, формат	Формат	Характер	161	Включает мягкий дефис , объединяющие управляющие символы ( zwnj и zwj ), управляющие символы для поддержки двунаправленного текста и символы языковых тегов.
CS	Другой, суррогатный	Суррогат	Не (но абстрактно)	2048 (никогда не изменится) ^[c]	Без имени, ^[d] <суррогат>
Co	Другое, личное использование	Частное использование	Не (но абстрактно)	Всего 137 468 (никогда не изменится) ^[c] ( 6400 в BMP , 131 068 в самолетах 15–16 )	Без имени, ^[d] <private-use>
Cn	Другое, не назначено	Нехарактерный	Нет	66 (никогда не изменится) ^[c]	Без имени, ^[d] <несимвола>
Cn	Другое, не назначено	Зарезервированный	Нет	830 606	Без имени, ^[d] <зарезервировано>
^ «Таблица 4-4: Общая категория» (PDF) . Стандарт Юникода . Консорциум Unicode. Март 2020. ^ a b «Таблица 2-3: Типы кодовых точек» (PDF) . Стандарт Юникода . Консорциум Unicode. Март 2020. ^ a b c d e Политика стабильности кодировки символов Unicode: Стабильность значения свойства Политика стабильности: Некоторые группы gc никогда не изменятся. gc = Nd соответствует Numeric Type = De (десятичный). ^ a b c d e «Таблица 4-9: Построение меток кодовых точек» (PDF) . Стандарт Юникода . Консорциум Unicode. Март 2020. Code Point Метка может быть использована для идентификации точки безымянным кода. Например, <control- hhhh >, <control-0088>. Имя остается пустым, что может предотвратить непреднамеренную замену в документации имени элемента управления на настоящий код управления. Юникод также использует <не символ> для <несимвола>.

Пунктуация [ править ]

У символов есть отдельные свойства, чтобы обозначить, что они являются символом пунктуации . Все свойства имеют значения Да / Нет : Dash , Quotation_Mark , Sentence_Terminal , Terminal_Punctuation .

Этот раздел нуждается в расширении . Вы можете помочь, добавив к нему . ( Февраль 2012 г. )

Пробел [ править ]

Пробелы - это часто используемое понятие для создания типографского эффекта. В основном он охватывает невидимые символы, которые имеют эффект интервала в отображаемом тексте. Он включает в себя пробелы , табуляции и элементы управления форматированием новой строки. В Юникоде для такого символа установлено свойство WSpace = yes. В версии 13.0 25 пробелов.

v т е Символы Юникода со свойством White_Space = yes ^[a]^[b]
Имя	Кодовая точка		Коробка ширины	Может сломаться ?	В IDN ?	Сценарий	Блокировать	Общая категория	Примечания
табуляция символов	U + 0009	9		да	Нет	Общий	Базовая латынь	Другое, контроль	HT, горизонтальная табуляция . HTML / XML именованный объект : `&Tab;`, LaTeX : '\ вкладка'
перевод строки	U + 000A	10	Это разрыв строки			Общий	Базовая латынь	Другое, контроль	LF, перевод строки . Именованный объект HTML / XML:`&NewLine;`
табуляция строк	U + 000B	11	Это разрыв строки			Общий	Базовая латынь	Другое, контроль	VT, вертикальная вкладка
подача формы	U + 000C	12	Это разрыв строки			Общий	Базовая латынь	Другое, контроль	FF, подача формы
возврат каретки	U + 000D	13	Это разрыв строки			Общий	Базовая латынь	Другое, контроль	CR, возврат каретки
Космос	U + 0020	32		да	Нет	Общий	Базовая латынь	Разделитель, пробел	Чаще всего (обычное пространство ASCII)
следующая строка	U + 0085	133	Это разрыв строки			Общий	Дополнение Latin-1	Другое, контроль	NEL, Следующая строка
беспрерывное пространство	U + 00A0	160		Нет	Нет	Общий	Дополнение Latin-1	Разделитель, пробел	Неразрывный пробел : идентичен U + 0020, но не точка, в которой линия может быть прервана. Именованный объект HTML / XML:, ` `LaTeX: '\'
Огамовый пробел	U + 1680	5760		да	Нет	Огам	Огам	Разделитель, пробел	Используется для разделения слов в огамском тексте. Обычно это вертикальная линия в вертикальном тексте или горизонтальная линия в горизонтальном тексте, но также может быть пустым пространством в шрифтах без основы. Требуется шрифт Огам.
en quad	U + 2000	8192		да	Нет	Общий	Общая пунктуация	Разделитель, пробел	Ширина одного эн . U + 2002 канонически эквивалентен этому персонажу; U + 2002 предпочтительнее.
em quad	U + 2001	8193		да	Нет	Общий	Общая пунктуация	Разделитель, пробел	Также известен как «баранья четверка». Ширина одной эм . U + 2003 канонически эквивалентен этому персонажу; U + 2003 предпочтительнее.
en space	U + 2002	8194		да	Нет	Общий	Общая пунктуация	Разделитель, пробел	Также известен как «орех». Ширина одного эн . U + 2000 En Quad канонически эквивалентен этому персонажу; U + 2002 предпочтительнее. Именованный объект HTML / XML:, `&ensp;`LaTeX: '\ enspace'
em пробел	U + 2003	8195		да	Нет	Общий	Общая пунктуация	Разделитель, пробел	Также известен как «баранина». Ширина одной эм . U + 2001 Em Quad канонически эквивалентен этому персонажу; U + 2003 предпочтительнее. Именованный объект HTML / XML:, `&emsp;`LaTeX: '\ quad'
пробел по три на каждую	U + 2004	8196		да	Нет	Общий	Общая пунктуация	Разделитель, пробел	Также известен как «толстое пространство». Одна треть em шириной. Именованный объект HTML / XML:`&emsp13;`
четыре пробела на каждую	U + 2005	8197		да	Нет	Общий	Общая пунктуация	Разделитель, пробел	Также известен как «средний космос». Одна четверть em шириной. Именованный объект HTML / XML:`&emsp14;`
шесть пробелов на каждую	U + 2006	8198		да	Нет	Общий	Общая пунктуация	Разделитель, пробел	Одна шестая дюйма шириной. В компьютерной типографике иногда приравнивается к U + 2009.
фигура пространство	U + 2007	8199		Нет	Нет	Общий	Общая пунктуация	Разделитель, пробел	Фигурное пространство . В шрифтах с моноширинными цифрами, равными ширине одной цифры. Именованный объект HTML / XML:`&numsp;`
пробел	U + 2008	8200		да	Нет	Общий	Общая пунктуация	Разделитель, пробел	Такой же ширины, как и узкая пунктуация в шрифте, т. Е. Ширина точки или запятой. ^[4] Именованный объект HTML / XML:`&puncsp;`
тонкое пространство	U + 2009	8201		да	Нет	Общий	Общая пунктуация	Разделитель, пробел	Тонкое пространство ; одна пятая (иногда одна шестая) ширины em. Рекомендуется для использования в качестве разделителя тысяч для измерений в единицах СИ . В отличие от U + 2002 - U + 2008, его ширина может регулироваться при наборе. ^[5] HTML / XML именованный объект: ` `; LaTeX: '\,'
пространство для волос	U + 200A	8202		да	Нет	Общий	Общая пунктуация	Разделитель, пробел	Тоньше тонкого пространства. Именованный объект HTML / XML: `&hairsp;`( работает не во всех браузерах)
разделитель строк	U + 2028	8232	Это разрыв строки			Общий	Общая пунктуация	Разделитель, линия
разделитель абзацев	U + 2029	8233	Это разрыв строки			Общий	Общая пунктуация	Разделитель, абзац
узкое неразрывное пространство	U + 202F	8239		Нет	Нет	Общий	Общая пунктуация	Разделитель, пробел	Узкое пространство без перерывов . По функциям аналогичен U + 00A0 No-Break Space. При использовании с монгольским языком его ширина обычно составляет треть нормального пространства; в другом контексте его ширина иногда напоминает ширину Тонкого пространства (U + 2009).
среднее математическое пространство	U + 205F	8287		да	Нет	Общий	Общая пунктуация	Разделитель, пробел	MMSP. Используется в математических формулах. Четыре восемнадцатые эм. ^[6] В математической типографике ширина пробелов обычно указывается в целых числах, кратных восемнадцатой em, и 4/18 em может использоваться в нескольких ситуациях, например, между a и + и между + и b в выражении a + b . ^[7] Именованный объект HTML / XML:` `
идеографическое пространство	U + 3000	12288		да	Нет	Общий	Символы и знаки препинания CJK	Разделитель, пробел	По ширине, как ячейка символа CJK ( полная ширина ). Используется, например, в тай тоу .

v т е Связанные символы Unicode свойство White_Space = no
Имя	Кодовая точка		Коробка ширины	Может сломаться ?	В IDN ?	Сценарий	Блокировать	Общая категория	Примечания
монгольский разделитель гласных	U + 180E	6158	᠎	да	Нет	Монгольский	Монгольский	Другое, Формат	МВС. Символ с узким пробелом, используемый в монгольском языке, чтобы последние два символа слова принимали разные формы. ^[8] Он больше не классифицируется как пробел (т. Е. В категории Zs) в Unicode 6.3.0, хотя это было в предыдущих версиях стандарта.
пространство нулевой ширины	U + 200B	8203	Взаимодействие с другими людьми	да	Нет	?	Общая пунктуация	Другое, Формат	ZWSP, пространство нулевой ширины . Используется для обозначения границ слов для систем обработки текста при использовании скриптов, в которых не используется явный интервал. Он похож на мягкий дефис , с той разницей, что последний используется для обозначения границ слогов и должен отображать видимый дефис, когда линия разрывается на нем. Именованный объект HTML / XML : `&ZeroWidthSpace;`^[9]^[c]
без стыковки с нулевой шириной	U + 200C	8204	‌	да	Зависит от контекста ^[14]	?	Общая пунктуация	Другое, Формат	ZWNJ, без стыковки с нулевой шириной . При размещении между двумя символами, которые в противном случае были бы связаны, ZWNJ заставляет их печатать в их окончательной и исходной формах соответственно. Именованный объект HTML / XML:`&zwnj;`
соединитель нулевой ширины	U + 200D	8205	‍	да	Зависит от контекста ^[15]	?	Общая пунктуация	Другое, Формат	ZWJ, соединитель нулевой ширины . При размещении между двумя символами, которые в противном случае не были бы связаны, ZWJ заставляет их печатать их в связанных формах. Также может использоваться для изолированного отображения объединяемых форм. В зависимости от того, ожидается ли по умолчанию лигатура или конъюнкт, может либо вызывать (как в смайликах, так и в сингальском ) или подавлять (как в Деванагари ) замену одним глифом, при этом разрешая использование отдельных форм соединения (в отличие от ZWNJ). Именованный объект HTML / XML:`&zwj;`
соединитель слов	U + 2060	8288	⁠	Нет	Нет	?	Общая пунктуация	Другое, Формат	WJ, соединитель слов . Подобно U + 200B, но не точка, в которой линия может быть прервана. Именованный объект HTML / XML:`&NoBreak;`
неразрывный пробел нулевой ширины	U + FEFF	65279		Нет	Нет	?	Формы представления на арабском языке -B	Другое, Формат	Неразрывный пробел нулевой ширины . Используется в основном как знак порядка байтов . Использование в качестве индикатора неразрывности устарело с Unicode 3.2; см. вместо этого U + 2060.

^ White_Space - это двоичное свойство Unicode. ^[16]
^ "Unicode 13.0 UCD: PropList.txt" . 2019-11-27 . Проверено 12 марта 2020 .
^ Хотя&ZeroWidthSpace;есть один HTML5 именованный объект для U + 200B, дополнительные именаNegativeMediumSpace,NegativeThickSpace,NegativeThinSpaceиNegativeVeryThinSpace(которые являются именаиспользуемые в Wolfram языке для отрицательного авансовым пространств, которые он отображает до частного использования Area )^[10]^[11]^{[12 ]}^[13] также определены в HTML5 как псевдонимы для U + 200B (например&NegativeMediumSpace;). ^[9]

Прочие общие характеристики [ править ]

Идеографический, буквенный, безхарактерный.

Свойства, связанные с отображением [ править ]

Формовка, ширина.

Двунаправленное письмо [ править ]

К двунаправленному письму относятся шесть свойств символов: Bidi_Class, Bidi_Control, Bidi_Mirrored, Bidi_Mirroring_Glyph, Bidi_Paired_Bracket и Bidi_Paired_Bracket_Type.

Одной из основных функций Unicode является поддержка двунаправленного ( Bidi ) отображения текста справа налево (R-to-L) и слева направо (L-to-R). Двунаправленный алгоритм Unicode UAX9 ^[17] описывает процесс представления текста с изменением направления сценария. Например, он включает цитату на иврите в английском тексте. Bidi_Character_Type отмечает поведение персонажа при направленном письме. Чтобы переопределить направление, Unicode определил специальные символы управления форматированием ( Bidi-Control s). Эти символы могут определять направление и по определению влияют только на двунаправленное письмо.

У каждой кодовой точки есть свойство Bidi_Class . Он определяет его поведение в двунаправленном тексте, интерпретируемом алгоритмом:

Двунаправленный тип символа ( свойство символа Unicode Bidi_Class) ^[1]

Тип ^[2]	Описание	Сила	Направленность	Общий объем	Символ Bidi_Control ^[3]
L	Слева направо	Сильный	Слева направо	Большинство алфавитных и слоговых символов, китайские иероглифы, неевропейские или неарабские цифры, символ LRM, ...	U + 200E МАРКА СЛЕВА НАПРАВО (LRM)
р	Справа налево	Сильный	R-to-L	Адлам, иврит, мандайский, менде кикакуи, н'ко, самаритянский, древние письменности, такие как харошти и набатейский, персонаж RLM, ...	U + 200F ПРАВО НАЛЕВО МАРКА (RLM)
AL	Арабское письмо	Сильный	R-to-L	Арабский, ханифи рохинджа, согдийский, сирийский и тханский алфавиты и большинство знаков препинания, характерных для этих алфавитов, символ ALM, ...	U + 061C АРАБСКАЯ БУКВА (ALM)
EN	Европейский номер	Слабый		Европейские цифры, восточно-арабские-индийские цифры, коптские эпактные числа, ...
ES	Европейский сепаратор	Слабый		знак плюс , минус , ...
ET	Терминатор европейского номера	Слабый		знак градуса , символы валюты, ...
AN	Арабский номер	Слабый		Арабско-индийские цифры, арабские десятичные дроби и разделители тысяч, цифры руми, цифры ханифи рохинья, ...
CS	Общий разделитель чисел	Слабый		двоеточие , запятая , точка , неразрывный пробел , ...
NSM	Непространственный знак	Слабый		Знаки в общих категориях: Отметить, без пробелов, и Отметить, заключить (Mn, Me)
BN	Граница нейтральная	Слабый		Игнорируемые, несимволы, управляющие символы по умолчанию, кроме явно заданных других типов
B	Разделитель абзацев	Нейтральный		разделитель абзацев , соответствующие функции новой строки, определение абзаца протокола более высокого уровня
S	Разделитель сегментов	Нейтральный		Вкладки
WS	Пробел	Нейтральный		пробел , пробел , разделитель строк , подача формы , общие пробелы в блоках пунктуации (меньший набор, чем список пробелов Unicode )
НА	Другие нейтральные	Нейтральный		Все остальные символы, включая символ замены объекта
ЖРД	Вложение слева направо	Явный	Слева направо	Только символ LRE	U + 202A ЛЕВАЯ ВСТАВКА (LRE)
МРО	Слева направо Переопределение	Явный	Слева направо	Только персонаж LRO	U + 202D ПЕРЕХОД СЛЕВА НАПРАВО (LRO)
RLE	Вложение справа налево	Явный	R-to-L	Только символ RLE	U + 202B ПРАВОЕ ВЛОЖЕНИЕ (RLE)
RLO	Переопределение справа налево	Явный	R-to-L	Только символ RLO	U + 202E ПЕРЕХОД ВПРАВО-ВЛЕВО (RLO)
PDF	Поп-направленный формат	Явный		Только символ PDF	НАПРАВЛЕННОЕ ФОРМАТИРОВАНИЕ POP U + 202C (PDF)
LRI	Изоляция слева направо	Явный	Слева направо	Только символ LRI	U + 2066 ИЗОЛЯЦИЯ СЛЕВА НАПРАВО (LRI)
RLI	Изоляция справа налево	Явный	R-to-L	Только символ RLI	U + 2067 ИЗОЛЯЦИЯ ПРАВО-ЛЕВО (RLI)
FSI	Первый сильный изолятор	Явный		Только символ FSI	U + 2068 ПЕРВЫЙ СИЛЬНЫЙ ИЗОЛЯТОР (FSI)
PDI	Поп-направленный изолятор	Явный		Только символ PDI	НАПРАВЛЕННЫЙ ИЗОЛЯТОР POP U + 2069 (PDI)
Примечания 1. ^ Двунаправленный алгоритм Unicode (UAX # 9) , начиная с Unicode версии 12.0 2. ^ Возможные двунаправленные типы символов для свойства символа: Bidi_Class или 'type' 3. ^ Символы Bidi_Control : определены двенадцать символов форматирования Bidi_Control. Они невидимы и не имеют никакого эффекта, кроме направленности. Девять из них имеют уникальный, отменяющий тип BiDi, который используется в алгоритме. Их тип также является их аббревиатурой (например, символ «LRE» имеет тип BiDi «LRE»).

В обычных ситуациях алгоритм может определять направление текста по этому свойству символа. Для управления более сложными ситуациями с Bidi, например, когда в английском тексте есть цитата на иврите, в Unicode добавляются дополнительные параметры. Двенадцать символов имеют свойство Bidi_Control = Yes : ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM и RLO, как указано в таблице. Это невидимые управляющие символы форматирования, используемые только алгоритмом и не имеющие никакого эффекта за пределами двунаправленного форматирования. ^[17] Несмотря на название, они являются символами форматирования, а не управляющими символами, и имеют общую категорию «Другой, формат (Cf)» в определении Unicode.

По сути, алгоритм определяет последовательность символов с одним и тем же строгим типом направления (R-to-L или L-to-R) с учетом отмены специальных элементов управления Bidi. Числовым строкам (слабые типы) присваивается направление в соответствии с их сильным окружением, как и нейтральным символам. Наконец, символы отображаются в соответствии с направлением строки.

Два свойства символа имеют отношение к определению зеркального отображения глифа в двунаправленном тексте: Bidi_Mirrored = Yes указывает, что глиф должен быть зеркальным при записи R-to-L. Свойство Bidi_Mirroring_Glyph = U + hhhh может затем указывать на зеркальный символ. Например, скобки «()» отражаются таким образом. Формирование рукописных шрифтов, таких как арабский, и зеркальное отображение глифов, имеющих направление, не является частью алгоритма.

Корпус [ править ]

Значение Case является нормативным в Юникоде. Это относится к тем скриптам, которые содержат прописные (они же заглавные, маюскульные) и строчные (маленькие, минускульные) буквы. Разница в регистре встречается в адламском, армянском, чероки, коптском, кириллице, десеретском, глаголице, греческом, хуцури и мхедрули грузинском, латинском, медефайдринском, старовенгерском, осейдж и варанг сити.

(верхний, нижний, заголовок, складной - простой и полный)

Числовые значения и типы [ править ]

Десятичный [ править ]

Символы классифицируются по числовому типу . ^[1] Такие символы, как дроби, подстрочные и надстрочные индексы, римские цифры, числители денежных единиц, числа в кружках и цифры, относящиеся к конкретному сценарию, относятся к типу «Числовой». Они имеют числовое значение, которое может быть десятичным, включая ноль и минус, или обычную дробь. Если такого значения нет, как у большинства символов, числовой тип - «Нет».

Символы, которые имеют числовое значение, разделены на три группы: десятичные (De), цифровые (Di) и числовые (Nu, т. Е. Все остальные). «Десятичный» означает, что символ представляет собой прямую десятичную цифру. Числовой тип Decimal имеют только символы, входящие в непрерывный диапазон кодирования 0–9. Другие цифры, например надстрочные, имеют числовой тип Digit. Все числовые символы, такие как дроби и римские цифры, заканчиваются типом «Числовой». Предполагаемый эффект состоит в том, что простой синтаксический анализатор может использовать эти десятичные числовые значения, не отвлекаясь, скажем, на числовой верхний индекс или дробь. Семьдесят три иероглифа CJK, которые представляют собой числа, в том числе используемые для бухгалтерского учета, набираются числовыми.

С другой стороны, символы, которые могут иметь числовое значение в качестве второго значения, по-прежнему помечаются как числовой тип «Нет» и не имеют числового значения («»). Например, в нумерации абзацев можно использовать латинские буквы, такие как «II.A.1.b», но буквы «I», «A» и «b» не являются числовыми (тип «None») и не имеют числового значения.

v т е Числовой тип ^[a]^[b] ( свойство символа Юникода )
Числовой тип	Код	Имеет числовое значение	Пример	Замечания
Не числовой	`None`	Нет	А X (латиница) ! Д μ に	Числовое значение = "NaN"
Десятичный	`De`	да	0 1 9 ६ (Деванагари 6) ೬ (каннада 6) 𝟨 (математический, без засечек)	Прямая цифра (десятичная система счисления ). В обоих случаях соответствует General Category = Nd ^[a]
Цифра	`Di`	да	¹ (верхний индекс) ① ⒈ (цифра с точкой)	Десятичный, но в типографском контексте
Числовой	`Nu`	да	¾ ௰ (тамильский номер десять) Ⅹ (римская цифра) 六 (хань номер 6)	Числовое значение, но не десятичная система счисления
а. ^ «Раздел 4.6: Числовое значение» (PDF) . Стандарт Юникода . Консорциум Unicode. Март 2020.
б. ^ «Производные числовые типы Unicode 13.0» . База данных символов Юникода . Консорциум Unicode. 2019-09-08.

Шестнадцатеричные цифры [ править ]

Шестнадцатеричные символы - это символы в серии с шестнадцатеричными значениями 0 ... 9ABCDEF (шестнадцать символов, десятичное значение 0–15). Свойство символа Hex_Digit имеет значение Да, когда персонаж находится в такой серии:

Символы в Юникоде, отмеченные `Hex_Digit=Yes`^[a]
`0123456789ABCDEF`	Базовая латиница, заглавные буквы	Также `ASCII_Hex_Digit=Yes`
`0123456789abcdef`	Базовая латиница, строчные буквы	Также `ASCII_Hex_Digit=Yes`
`０１２３４５６７８９ＡＢＣＤＥＦ`	Полноширинные формы , заглавные буквы
`０１２３４５６７８９ａｂｃｄｅｆ`	Полноширинные формы, строчные буквы
а. ^ "Unicode 13.0 UCD: PropList.txt" . 2019-11-27 . Проверено 12 марта 2020 .

Сорок четыре символа помечены как Hex_Digit. Те, что в блоке Basic Latin, также помечены как ASCII_Hex_Digit .

Юникод не имеет отдельных символов для шестнадцатеричных значений. Следствием этого является то, что при использовании обычных символов невозможно определить, предназначено ли шестнадцатеричное значение или даже предназначено ли оно вообще. Это должно быть определено на более высоком уровне, например, добавлением «0x» к шестнадцатеричному числу или контекстом. Единственная особенность заключается в том, что Unicode может отметить, что последовательность может быть или не может быть шестнадцатеричным значением.

Заблокировать [ редактировать ]

Блок представляет собой уникальное имя, непрерывный диапазон кодовых точек. Он идентифицируется его первой и последней кодовой точкой. Блоки не перекрываются . Блок может содержать кодовые точки, которые зарезервированы, не присвоено и т.д. Каждый символ , который будет назначен, имеет один «имя блока» значение из 308 имен , присвоенных в версии Unicode 13.0 Нераспределенных кодовых точек вне существующего блока, имеет значение по умолчанию «No_block».

v т е Блоки Unicode и содержащиеся в них скрипты
Самолет	Блокировать диапазон	Имя блока	Кодовые точки ^[a]	Назначенные символы	Скрипты ^[b]^[c]^[d]^[e]^[f]
0 BMP	U + 0000..U + 007F	Базовая латынь ^[g]	128	128	Латинский (52 символа), Обычный (76 символов)
0 BMP	U + 0080..U + 00FF	Дополнение Latin-1 ^[h]	128	128	Латинский (64 символа), Обычный (64 символа)
0 BMP	U + 0100..U + 017F	Расширенная латиница-A	128	128	латинский
0 BMP	U + 0180..U + 024F	Расширенная латиница-B	208	208	латинский
0 BMP	U + 0250..U + 02AF	Расширения IPA	96	96	латинский
0 BMP	U + 02B0..U + 02FF	Буквы модификатора интервала	80	80	Bopomofo (2 символа), Latin (14 символов), Common (64 символа)
0 BMP	U + 0300..U + 036F	Объединение диакритических знаков	112	112	Унаследовано
0 BMP	U + 0370..U + 03FF	Греческий и коптский	144	135	Коптский (14 символов), греческий (117 символов), общий (4 символа)
0 BMP	U + 0400..U + 04FF	Кириллица	256	256	Кириллица (254 символа), Унаследованное (2 символа)
0 BMP	U + 0500..U + 052F	Дополнение к кириллице	48	48	Кириллица
0 BMP	U + 0530..U + 058F	Армянский	96	91	Армянский
0 BMP	U + 0590..U + 05FF	иврит	112	88	иврит
0 BMP	U + 0600..U + 06FF	арабский	256	255	Арабский (237 символов), Общий (6 символов), Унаследованный (12 символов)
0 BMP	U + 0700..U + 074F	Сирийский	80	77	Сирийский
0 BMP	U + 0750..U + 077F	Дополнение на арабском языке	48	48	арабский
0 BMP	U + 0780..U + 07BF	Thaana	64	50	Thaana
0 BMP	U + 07C0..U + 07FF	НКо	64	62	Nko
0 BMP	U + 0800..U + 083F	Самаритянин	64	61	Самаритянин
0 BMP	U + 0840..U + 085F	Мандаикский	32	29	Мандаикский
0 BMP	U + 0860..U + 086F	Сирийское дополнение	16	11	Сирийский
0 BMP	U + 08A0..U + 08FF	Арабский расширенный-A	96	84	Арабский (83 символа), Общий (1 символ)
0 BMP	U + 0900..U + 097F	Деванагари	128	128	Деванагари (122 символа), Обычный (2 символа), Унаследованный (4 символа)
0 BMP	U + 0980..U + 09FF	Бенгальский	128	96	Бенгальский
0 BMP	U + 0A00..U + 0A7F	Гурмукхи	128	80	Гурмукхи
0 BMP	U + 0A80..U + 0AFF	Гуджарати	128	91	Гуджарати
0 BMP	U + 0B00..U + 0B7F	Ория	128	91	Ория
0 BMP	U + 0B80..U + 0BFF	Тамильский	128	72	Тамильский
0 BMP	U + 0C00..U + 0C7F	телугу	128	98	телугу
0 BMP	U + 0C80..U + 0CFF	Каннада	128	89	Каннада
0 BMP	U + 0D00..U + 0D7F	Малаялам	128	118	Малаялам
0 BMP	U + 0D80..U + 0DFF	Сингальский	128	91	Сингальский
0 BMP	U + 0E00..U + 0E7F	Тайский	128	87	Тайский (86 символов), Общий (1 символ)
0 BMP	U + 0E80..U + 0EFF	Лаосский	128	82	Лаосский
0 BMP	U + 0F00..U + 0FFF	тибетский	256	211	Тибетский (207 символов), Общий (4 символа)
0 BMP	U + 1000..U + 109F	Мьянма	160	160	Мьянма
0 BMP	U + 10A0..U + 10FF	Грузинский	96	88	Грузинский (87 символов), Общий (1 символ)
0 BMP	U + 1100..U + 11FF	Хангыль джамо	256	256	Хангыль
0 BMP	U + 1200..U + 137F	Эфиопский	384	358	Эфиопский
0 BMP	U + 1380..U + 139F	Эфиопское дополнение	32	26 год	Эфиопский
0 BMP	U + 13A0..U + 13FF	Чероки	96	92	Чероки
0 BMP	U + 1400..U + 167F	Единая слоговая речь канадских аборигенов	640	640	Канадские аборигены
0 BMP	U + 1680..U + 169F	Огам	32	29	Огам
0 BMP	U + 16A0..U + 16FF	Рунический	96	89	Рунический (86 символов), Обычный (3 символа)
0 BMP	U + 1700..U + 171F	Тагальский	32	20	Тагальский
0 BMP	U + 1720..U + 173F	Хануноо	32	23	Хануну (21 символ), Обычный (2 символа)
0 BMP	U + 1740..U + 175F	Бухид	32	20	Бухид
0 BMP	U + 1760..U + 177F	Tagbanwa	32	18	Tagbanwa
0 BMP	U + 1780..U + 17FF	Кхмерский	128	114	Кхмерский
0 BMP	U + 1800..U + 18AF	Монгольский	176	157	Монгольский (154 символа), Общий (3 символа)
0 BMP	U + 18B0..U + 18FF	Унифицированная слоговая речь канадских аборигенов расширенная	80	70	Канадские аборигены
0 BMP	U + 1900..U + 194F	Лимбу	80	68	Лимбу
0 BMP	U + 1950..U + 197F	Тай Ле	48	35 год	Тай Ле
0 BMP	U + 1980..U + 19DF	Новый Тай Лю	96	83	Новый Тай Лю
0 BMP	U + 19E0..U + 19FF	Кхмерские символы	32	32	Кхмерский
0 BMP	U + 1A00..U + 1A1F	Бугийский	32	30	Бугийский
0 BMP	U + 1A20..U + 1AAF	Тай Тхам	144	127	Тай Тхам
0 BMP	U + 1AB0..U + 1AFF	Расширенное объединение диакритических знаков	80	17	Унаследовано
0 BMP	U + 1B00..U + 1B7F	Балийский	128	121	Балийский
0 BMP	U + 1B80..U + 1BBF	Суданский	64	64	Суданский
0 BMP	U + 1BC0..U + 1BFF	Батак	64	56	Батак
0 BMP	У + 1C00..U + 1C4F	Лепча	80	74	Лепча
0 BMP	U + 1C50..U + 1C7F	Ол Чики	48	48	Ол Чики
0 BMP	У + 1C80..U + 1C8F	Кириллица расширенная-C	16	9	Кириллица
0 BMP	U + 1C90..U + 1CBF	Грузинский расширенный	48	46	Грузинский
0 BMP	U + 1CC0..U + 1CCF	Сунданская добавка	16	8	Суданский
0 BMP	U + 1CD0..U + 1CFF	Ведические расширения	48	43 год	Обычный (16 символов), Унаследованный (27 символов)
0 BMP	U + 1D00..U + 1D7F	Фонетические расширения	128	128	Кириллица (2 символа), греческий (15 символов), латинский (111 символов)
0 BMP	U + 1D80..U + 1DBF	Дополнение к фонетическим расширениям	64	64	Греческий (1 символ), латинский (63 символа)
0 BMP	У + 1DC0..U + 1DFF	Дополнение для комбинирования диакритических знаков	64	63	Унаследовано
0 BMP	U + 1E00..U + 1EFF	Латинская расширенная дополнительная	256	256	латинский
0 BMP	U + 1F00..U + 1FFF	Греческий расширенный	256	233	Греческий
0 BMP	U + 2000..U + 206F	Общая пунктуация	112	111	Обычный (109 символов), Унаследованный (2 символа)
0 BMP	U + 2070..U + 209F	Верхние и нижние индексы	48	42	Латинский (15 символов), Обычный (27 символов)
0 BMP	U + 20A0..U + 20CF	Символы валюты	48	32	Общий
0 BMP	U + 20D0..U + 20FF	Комбинирование диакритических знаков для символов	48	33	Унаследовано
0 BMP	U + 2100..U + 214F	Буквоподобные символы	80	80	Греческий (1 символ), Латинский (4 символа), Обычный (75 символов)
0 BMP	U + 2150..U + 218F	Числовые формы	64	60	Латинский (41 символ), Обычный (19 символов)
0 BMP	U + 2190..U + 21FF	Стрелки	112	112	Общий
0 BMP	U + 2200..U + 22FF	Математические операторы	256	256	Общий
0 BMP	U + 2300..U + 23FF	Разное Техническое	256	256	Общий
0 BMP	U + 2400..U + 243F	Контрольные изображения	64	39	Общий
0 BMP	U + 2440..U + 245F	Оптическое распознавание символов	32	11	Общий
0 BMP	U + 2460..U + 24FF	Вложенные буквенно-цифровые символы	160	160	Общий
0 BMP	U + 2500..U + 257F	Рисунок Коробки	128	128	Общий
0 BMP	U + 2580..U + 259F	Блочные элементы	32	32	Общий
0 BMP	U + 25A0..U + 25FF	Геометрические фигуры	96	96	Общий
0 BMP	U + 2600..U + 26FF	Разные символы	256	256	Общий
0 BMP	U + 2700..U + 27BF	Дингбаты	192	192	Общий
0 BMP	U + 27C0..U + 27EF	Разные математические символы-A	48	48	Общий
0 BMP	U + 27F0..U + 27FF	Дополнительные стрелки-A	16	16	Общий
0 BMP	U + 2800..U + 28FF	Шаблоны Брайля	256	256	Шрифт Брайля
0 BMP	U + 2900..U + 297F	Дополнительные стрелки-B	128	128	Общий
0 BMP	U + 2980..U + 29FF	Разные математические символы-B	128	128	Общий
0 BMP	U + 2A00..U + 2AFF	Дополнительные математические операторы	256	256	Общий
0 BMP	U + 2B00..U + 2BFF	Разные символы и стрелки	256	253	Общий
0 BMP	U + 2C00..U + 2C5F	Глаголица	96	94	Глаголица
0 BMP	У + 2C60..U + 2C7F	Расширенная латиница-C	32	32	латинский
0 BMP	U + 2C80..U + 2CFF	Коптский	128	123	Коптский
0 BMP	У + 2D00..U + 2D2F	Грузинская добавка	48	40	Грузинский
0 BMP	У + 2Д30..У + 2Д7Ф	Тифинаг	80	59	Тифинаг
0 BMP	У + 2Д80..У + 2ДДФ	Эфиопский расширенный	96	79	Эфиопский
0 BMP	U + 2DE0..U + 2DFF	Кириллица расширенная-A	32	32	Кириллица
0 BMP	U + 2E00..U + 2E7F	Дополнительная пунктуация	128	83	Общий
0 BMP	U + 2E80..U + 2EFF	Дополнение CJK Radicals	128	115	Хан
0 BMP	U + 2F00..U + 2FDF	Kangxi Radicals	224	214	Хан
0 BMP	U + 2FF0..U + 2FFF	Символы идеографического описания	16	12	Общий
0 BMP	U + 3000..U + 303F	Символы и знаки препинания CJK	64	64	Хан (15 символов), Хангыль (2 символа), Обычный (43 символа), Унаследованный (4 символа)
0 BMP	U + 3040..U + 309F	Хирагана	96	93	Хирагана (89 символов), Обычный (2 символа), Унаследованный (2 символа)
0 BMP	U + 30A0..U + 30FF	Катакана	96	96	Катакана (93 символа), Обычный (3 символа)
0 BMP	U + 3100..U + 312F	Бопомофо	48	43 год	Бопомофо
0 BMP	U + 3130..U + 318F	Совместимость с хангыль Джамо	96	94	Хангыль
0 BMP	U + 3190..U + 319F	Канбун	16	16	Общий
0 BMP	U + 31A0..U + 31BF	Бопомофо расширенный	32	32	Бопомофо
0 BMP	U + 31C0..U + 31EF	CJK инсульты	48	36	Общий
0 BMP	U + 31F0..U + 31FF	Фонетические расширения катаканы	16	16	Катакана
0 BMP	U + 3200..U + 32FF	Прилагаемые письма и месяцы CJK	256	255	Хангыль (62 символа), Катакана (47 символов), Общий (146 символов)
0 BMP	U + 3300..U + 33FF	Совместимость с CJK	256	256	Катакана (88 символов), Обычный (168 символов)
0 BMP	U + 3400..U + 4DBF	Расширение унифицированных иероглифов CJK A	6 592	6 592	Хан
0 BMP	У + 4DC0..U + 4DFF	Символы гексаграммы Ицзин	64	64	Общий
0 BMP	U + 4E00..U + 9FFF	Единые иероглифы CJK	20 992	20 989	Хан
0 BMP	U + A000..U + A48F	Yi слоги	1,168	1,165	Йи
0 BMP	U + A490..U + A4CF	Yi Radicals	64	55	Йи
0 BMP	U + A4D0..U + A4FF	Лису	48	48	Лису
0 BMP	U + A500..U + A63F	Вай	320	300	Вай
0 BMP	U + A640..U + A69F	Кириллица расширенная-B	96	96	Кириллица
0 BMP	U + A6A0..U + A6FF	Бамум	96	88	Бамум
0 BMP	U + A700..U + A71F	Буквы тона модификатора	32	32	Общий
0 BMP	U + A720..U + A7FF	Расширенная латиница-D	224	180	Латинский (175 символов), Обычный (5 символов)
0 BMP	U + A800..U + A82F	Силоти Нагри	48	45	Силоти Нагри
0 BMP	U + A830..U + A83F	Общие индийские числовые формы	16	10	Общий
0 BMP	U + A840..U + A87F	Phags-pa	64	56	Phags Pa
0 BMP	U + A880..U + A8DF	Саураштра	96	82	Саураштра
0 BMP	U + A8E0..U + A8FF	Деванагари расширенный	32	32	Деванагари
0 BMP	U + A900..U + A92F	Кая Ли	48	48	Кая Ли (47 символов), Обычный (1 символ)
0 BMP	U + A930..U + A95F	Rejang	48	37	Rejang
0 BMP	U + A960..U + A97F	Хангыль Джамо расширенный-А	32	29	Хангыль
0 BMP	U + A980..U + A9DF	Яванский	96	91	Яванский (90 символов), общий (1 символ)
0 BMP	U + A9E0..U + A9FF	Мьянма расширенный-B	32	31 год	Мьянма
0 BMP	U + AA00..U + AA5F	Чам	96	83	Чам
0 BMP	U + AA60..U + AA7F	Мьянма Extended-A	32	32	Мьянма
0 BMP	U + AA80..U + AADF	Тай Вьет	96	72	Тай Вьет
0 BMP	U + AAE0..U + AAFF	Расширения Meetei Mayek	32	23	Митей Майек
0 BMP	U + AB00..U + AB2F	Эфиопский язык Extended-A	48	32	Эфиопский
0 BMP	U + AB30..U + AB6F	Расширенная латиница-E	64	60	Латинский (56 символов), греческий (1 символ), общий (3 символа)
0 BMP	U + AB70..U + ABBF	Дополнение Cherokee	80	80	Чероки
0 BMP	U + ABC0..U + ABFF	Митей Майек	64	56	Митей Майек
0 BMP	U + AC00..U + D7AF	Слоги хангыль	11 184	11 172	Хангыль
0 BMP	U + D7B0..U + D7FF	Хангыль Джамо расширенный-B	80	72	Хангыль
0 BMP	U + D800..U + DB7F	Высокие суррогаты	896	0	Неизвестный
0 BMP	U + DB80..U + DBFF	Суррогаты с высоким уровнем частного использования	128	0	Неизвестный
0 BMP	U + DC00..U + DFFF	Низкие суррогаты	1,024	0	Неизвестный
0 BMP	U + E000..U + F8FF	Зона частного использования	6 400	6 400	Неизвестный
0 BMP	U + F900..U + FAFF	Идеографы совместимости CJK	512	472	Хан
0 BMP	U + FB00..U + FB4F	Алфавитные формы представления	80	58	Армянский (5 символов), иврит (46 символов), латинский (7 символов)
0 BMP	U + FB50..U + FDFF	Формы представления на арабском языке-A	688	611	Арабский (609 символов), Общий (2 символа)
0 BMP	U + FE00..U + FE0F	Селекторы вариаций	16	16	Унаследовано
0 BMP	U + FE10..U + FE1F	Вертикальные формы	16	10	Общий
0 BMP	U + FE20..U + FE2F	Комбинирование половинных отметок	16	16	Кириллица (2 символа), Наследуется (14 символов)
0 BMP	U + FE30..U + FE4F	Формы совместимости CJK	32	32	Общий
0 BMP	U + FE50..U + FE6F	Варианты малой формы	32	26 год	Общий
0 BMP	U + FE70..U + FEFF	Формы представления на арабском языке-B	144	141	Арабский (140 символов), общий (1 символ)
0 BMP	U + FF00..U + FFEF	Формы половинной и полной ширины	240	225	Хангыль (52 символа), катакана (55 символов), латиница (52 символа), общий (66 символов)
0 BMP	U + FFF0..U + FFFF	Специальные	16	5	Общий
1 SMP	U + 10000..U + 1007F	Слоговое письмо линейного письма B	128	88	Линейное письмо B
1 SMP	U + 10080..U + 100FF	Идеограммы линейного письма B	128	123	Линейное письмо B
1 SMP	U + 10100..U + 1013F	Эгейские числа	64	57	Общий
1 SMP	U + 10140..U + 1018F	Древнегреческие числа	80	79	Греческий
1 SMP	U + 10190..U + 101CF	Древние символы	64	14	Греческий (1 символ), Общий (13 символов)
1 SMP	U + 101D0..U + 101FF	Фестский диск	48	46	Обычный (45 символов), Унаследованный (1 символ)
1 SMP	U + 10280..U + 1029F	Ликийский	32	29	Ликийский
1 SMP	U + 102A0..U + 102DF	Карийский	64	49	Карийский
1 SMP	U + 102E0..U + 102FF	Коптские номера эпактов	32	28 год	Обычный (27 символов), Унаследованный (1 символ)
1 SMP	U + 10300..U + 1032F	Старый курсив	48	39	Старый курсив
1 SMP	U + 10330..U + 1034F	Готика	32	27	Готика
1 SMP	U + 10350..U + 1037F	Старая Пермь	48	43 год	Старая Пермь
1 SMP	U + 10380..U + 1039F	Угаритский	32	31 год	Угаритский
1 SMP	U + 103A0..U + 103DF	Древнеперсидский	64	50	Древнеперсидский
1 SMP	U + 10400..U + 1044F	Deseret	80	80	Deseret
1 SMP	U + 10450..U + 1047F	Шавиан	48	48	Шавиан
1 SMP	U + 10480..U + 104AF	Османья	48	40	Османья
1 SMP	U + 104B0..U + 104FF	Осейдж	80	72	Осейдж
1 SMP	U + 10500..U + 1052F	Эльбасан	48	40	Эльбасан
1 SMP	U + 10530..U + 1056F	Кавказский албанский	64	53	Кавказский албанский
1 SMP	U + 10600..U + 1077F	Линейное письмо А	384	341	Линейное письмо А
1 SMP	U + 10800..U + 1083F	Кипрская слоговая азбука	64	55	Киприот
1 SMP	U + 10840..U + 1085F	Императорский арамейский	32	31 год	Императорский арамейский
1 SMP	U + 10860..U + 1087F	Пальмирена	32	32	Пальмирена
1 SMP	U + 10880..U + 108AF	Набатейский	48	40	Набатейский
1 SMP	U + 108E0..U + 108FF	Хатран	32	26 год	Хатран
1 SMP	U + 10900..U + 1091F	Финикийский	32	29	Финикийский
1 SMP	U + 10920..U + 1093F	Лидийский	32	27	Лидийский
1 SMP	U + 10980..U + 1099F	Мероитские иероглифы	32	32	Мероитские иероглифы
1 SMP	U + 109A0..U + 109FF	Меройский курсив	96	90	Меройский курсив
1 SMP	U + 10A00..U + 10A5F	Харошти	96	68	Харошти
1 SMP	U + 10A60..U + 10A7F	Старый южноаравийский	32	32	Старый южноаравийский
1 SMP	U + 10A80..U + 10A9F	Старый северноаравийский	32	32	Старый северноаравийский
1 SMP	U + 10AC0..U + 10AFF	Манихейский	64	51	Манихейский
1 SMP	U + 10B00..U + 10B3F	Авестийский	64	61	Авестийский
1 SMP	U + 10B40..U + 10B5F	Письменный парфянский	32	30	Письменный парфянский
1 SMP	U + 10B60..U + 10B7F	Пехлеви с надписью	32	27	Пехлеви с надписью
1 SMP	U + 10B80..U + 10BAF	Псалтырь Пехлеви	48	29	Псалтырь Пехлеви
1 SMP	U + 10C00..U + 10C4F	Древнетюркский	80	73	Древнетюркский
1 SMP	U + 10C80..U + 10CFF	Старовенгерский	128	108	Старовенгерский
1 SMP	U + 10D00..U + 10D3F	Ханифи Рохинджа	64	50	Ханифи Рохинджа
1 SMP	U + 10E60..U + 10E7F	Цифровые символы Руми	32	31 год	арабский
1 SMP	U + 10E80..U + 10EBF	Езиды	64	47	Езиды
1 SMP	U + 10F00..U + 10F2F	Старый согдийский	48	40	Старый согдийский
1 SMP	U + 10F30..U + 10F6F	Согдийский	64	42	Согдийский
1 SMP	U + 10FB0..U + 10FDF	Хорезмист	48	28 год	Хорезмист
1 SMP	U + 10FE0..U + 10FFF	Elymaic	32	23	Elymaic
1 SMP	U + 11000..U + 1107F	Брахми	128	109	Брахми
1 SMP	U + 11080..U + 110CF	Kaithi	80	67	Kaithi
1 SMP	U + 110D0..U + 110FF	Сора Сомпенг	48	35 год	Сора Сомпенг
1 SMP	U + 11100..U + 1114F	Чакма	80	71	Чакма
1 SMP	U + 11150..U + 1117F	Махаджани	48	39	Махаджани
1 SMP	U + 11180..U + 111DF	Шарада	96	96	Шарада
1 SMP	U + 111E0..U + 111FF	Сингальские архаические числа	32	20	Сингальский
1 SMP	U + 11200..U + 1124F	Хойки	80	62	Хойки
1 SMP	U + 11280..U + 112AF	Мултани	48	38	Мултани
1 SMP	U + 112B0..U + 112FF	Худавади	80	69	Худавади
1 SMP	U + 11300..U + 1137F	Гранта	128	86	Гранта (85 символов), Унаследовано (1 символ)
1 SMP	U + 11400..U + 1147F	Newa	128	97	Newa
1 SMP	U + 11480..U + 114DF	Тирхута	96	82	Тирхута
1 SMP	U + 11580..U + 115FF	Сиддхам	128	92	Сиддхам
1 SMP	U + 11600..U + 1165F	Моди	96	79	Моди
1 SMP	U + 11660..U + 1167F	Монгольская добавка	32	13	Монгольский
1 SMP	U + 11680..U + 116CF	Такри	80	67	Такри
1 SMP	U + 11700..U + 1173F	Ахом	64	58	Ахом
1 SMP	U + 11800..U + 1184F	Догра	80	60	Догра
1 SMP	U + 118A0..U + 118FF	Варанг Сити	96	84	Варанг Сити
1 SMP	U + 11900..U + 1195F	Дайвс Акуру	96	72	Дайвс Акуру
1 SMP	U + 119A0..U + 119FF	Нандинагари	96	65	Нандинагари
1 SMP	U + 11A00..U + 11A4F	Площадь Занабазар	80	72	Площадь Занабазар
1 SMP	U + 11A50..U + 11AAF	Соёмбо	96	83	Соёмбо
1 SMP	U + 11AC0..U + 11AFF	Пау Чин Хау	64	57	Пау Чин Хау
1 SMP	U + 11C00..U + 11C6F	Bhaiksuki	112	97	Bhaiksuki
1 SMP	U + 11C70..U + 11CBF	Марчен	80	68	Марчен
1 SMP	U + 11D00..U + 11D5F	Масарам Гонди	96	75	Масарам Гонди
1 SMP	U + 11D60..U + 11DAF	Гунджала Гонди	80	63	Гунджала Гонди
1 SMP	U + 11EE0..U + 11EFF	Макасар	32	25	Макасар
1 SMP	U + 11FB0..U + 11FBF	Дополнение Лису	16	1	Лису
1 SMP	U + 11FC0..U + 11FFF	Дополнение на тамильском языке	64	51	Тамильский
1 SMP	U + 12000..U + 123FF	Клинопись	1,024	922	Клинопись
1 SMP	U + 12400..U + 1247F	Клинописные числа и знаки препинания	128	116	Клинопись
1 SMP	U + 12480..U + 1254F	Раннединастическая клинопись	208	196	Клинопись
1 SMP	U + 13000..U + 1342F	Египетские иероглифы	1072	1,071	Египетские иероглифы
1 SMP	U + 13430..U + 1343F	Элементы управления форматом египетских иероглифов	16	9	Египетские иероглифы
1 SMP	U + 14400..U + 1467F	Анатолийские иероглифы	640	583	Анатолийские иероглифы
1 SMP	U + 16800..U + 16A3F	Бамум Дополнение	576	569	Бамум
1 SMP	U + 16A40..U + 16A6F	Mro	48	43 год	Mro
1 SMP	U + 16AD0..U + 16AFF	Басса Вах	48	36	Басса Вах
1 SMP	U + 16B00..U + 16B8F	Пахау Хмонг	144	127	Пахау Хмонг
1 SMP	U + 16E40..U + 16E9F	Медефайдрин	96	91	Медефайдрин
1 SMP	U + 16F00..U + 16F9F	Мяо	160	149	Мяо
1 SMP	U + 16FE0..U + 16FFF	Идеографические символы и знаки препинания	32	7	Хан (2 символа), Киданьский маленький шрифт (1 символ), Нушу (1 символ), Тангут (1 символ), Общий (2 символа)
1 SMP	U + 17000..U + 187FF	Тангутский	6 144	6136	Тангутский
1 SMP	U + 18800..U + 18AFF	Тангутские компоненты	768	768	Тангутский
1 SMP	U + 18B00..U + 18CFF	Киданьский маленький шрифт	512	470	Киданьский маленький шрифт
1 SMP	U + 18D00..U + 18D8F	Тангутская добавка	144	9	Тангутский
1 SMP	U + 1B000..U + 1B0FF	Дополнение кана	256	256	Хирагана (255 символов), Катакана (1 символ)
1 SMP	U + 1B100..U + 1B12F	Кана Расширенная-А	48	31 год	Хирагана
1 SMP	U + 1B130..U + 1B16F	Маленькое расширение Кана	64	7	Хирагана (3 символа), Катакана (4 символа)
1 SMP	U + 1B170..U + 1B2FF	Нушу	400	396	Нюшу
1 SMP	U + 1BC00..U + 1BC9F	Дуплоян	160	143	Дуплоян
1 SMP	U + 1BCA0..U + 1BCAF	Элементы управления сокращенным форматом	16	4	Общий
1 SMP	U + 1D000..U + 1D0FF	Византийские музыкальные символы	256	246	Общий
1 SMP	U + 1D100..U + 1D1FF	Музыкальные символы	256	231	Обычный (209 символов), Унаследованный (22 символа)
1 SMP	U + 1D200..U + 1D24F	Древнегреческая музыкальная нотация	80	70	Греческий
1 SMP	U + 1D2E0..U + 1D2FF	Цифры майя	32	20	Общий
1 SMP	У + 1Д300..У + 1Д35Ф	Символы Тай Сюань Цзин	96	87	Общий
1 SMP	U + 1D360..U + 1D37F	Счетные числа на стержнях	32	25	Общий
1 SMP	У + 1D400..U + 1D7FF	Математические буквенно-цифровые символы	1,024	996	Общий
1 SMP	U + 1D800..U + 1DAAF	Знак Саттона	688	672	Знак
1 SMP	U + 1E000..U + 1E02F	Дополнение к глаголице	48	38	Глаголица
1 SMP	U + 1E100..U + 1E14F	Nyiakeng Puachue Hmong	80	71	Nyiakeng Puachue Hmong
1 SMP	U + 1E2C0..U + 1E2FF	Wancho	64	59	Wancho
1 SMP	U + 1E800..U + 1E8DF	Менде Кикакуи	224	213	Менде Кикакуи
1 SMP	U + 1E900..U + 1E95F	Адлам	96	88	Адлам
1 SMP	U + 1EC70..U + 1ECBF	Индийские числа сияк	80	68	Общий
1 SMP	U + 1ED00..U + 1ED4F	Османские числа Siyaq	80	61	Общий
1 SMP	U + 1EE00..U + 1EEFF	Арабские математические алфавитные символы	256	143	арабский
1 SMP	U + 1F000..U + 1F02F	Плитки для маджонга	48	44 год	Общий
1 SMP	U + 1F030..U + 1F09F	Домино Плитка	112	100	Общий
1 SMP	U + 1F0A0..U + 1F0FF	Играя в карты	96	82	Общий
1 SMP	U + 1F100..U + 1F1FF	Прилагаемое буквенно-цифровое приложение	256	200	Общий
1 SMP	U + 1F200..U + 1F2FF	Прилагаемое идеографическое приложение	256	64	Хирагана (1 символ), Обычный (63 символа)
1 SMP	U + 1F300..U + 1F5FF	Разные символы и пиктограммы	768	768	Общий
1 SMP	U + 1F600..U + 1F64F	Смайлики	80	80	Общий
1 SMP	U + 1F650..U + 1F67F	Декоративные дингбаты	48	48	Общий
1 SMP	U + 1F680..U + 1F6FF	Транспортные и картографические символы	128	114	Общий
1 SMP	U + 1F700..U + 1F77F	Алхимические символы	128	116	Общий
1 SMP	U + 1F780..U + 1F7FF	Расширенные геометрические фигуры	128	101	Общий
1 SMP	U + 1F800..U + 1F8FF	Дополнительные стрелки-C	256	150	Общий
1 SMP	U + 1F900..U + 1F9FF	Дополнительные символы и пиктограммы	256	254	Общий
1 SMP	U + 1FA00..U + 1FA6F	Шахматные символы	112	98	Общий
1 SMP	U + 1FA70..U + 1FAFF	Расширенные символы и пиктограммы-A	144	57	Общий
1 SMP	U + 1FB00..U + 1FBFF	Символы для устаревших вычислений	256	212	Общий
2 глотка	U + 20000..U + 2A6DF	Расширение B унифицированных иероглифов CJK	42 720	42 718	Хан
2 глотка	U + 2A700..U + 2B73F	Расширение унифицированных иероглифов CJK C	4 160	4 149	Хан
2 глотка	U + 2B740..U + 2B81F	Расширение унифицированных иероглифов CJK D	224	222	Хан
2 глотка	U + 2B820..U + 2CEAF	Расширение унифицированных иероглифов CJK E	5776	5762	Хан
2 глотка	U + 2CEB0..U + 2EBEF	Расширение унифицированных иероглифов CJK F	7 488	7 473	Хан
2 глотка	U + 2F800..U + 2FA1F	Приложение к идеографам совместимости CJK	544	542	Хан
3 СОВЕТ	U + 30000..U + 3134F	Расширение унифицированных иероглифов CJK G	4944	4939	Хан
14 SSP	U + E0000..U + E007F	Теги	128	97	Общий
14 SSP	U + E0100..U + E01EF	Дополнение к селекторам вариаций	240	240	Унаследовано
15 PUA-A	U + F0000..U + FFFFF	Зона дополнительного частного использования-A	65 536	65 534	Неизвестный
16 PUA-B	U + 100000..U + 10FFFF	Дополнительная зона частного использования-B	65 536	65 534	Неизвестный
^ Счетчик кодовых точек включает неназначенные кодовые точки: несимвольные, зарезервированные ^ Сценарий содержит один или несколько символов в блоке, как определено свойством сценария. Это не зависит от названия блока. ^ «Обычный», «Неизвестный» (Zyyy) и «Унаследованный» (Zinh или Qaai) относятся к сценариям в ISO 15924 ^ Unicode Блокирует файл данных . Начиная с версии Unicode 13.0 ^ UAX 24: Свойство скрипта Unicode (4-буквенный код) ^ UAX 24: файл данных сценария ^ Называется «C0 Controls and Basic Latin» в ISO / IEC 10646 ^ Называется "Элементы управления C1 и дополнение Latin-1" в ISO / IEC 10646

Скрипт [ править ]

Каждый назначенный символ может иметь одно значение для своего свойства «Сценарий», указывающее, к какому сценарию он принадлежит. ^[18] Значение представляет собой четырехбуквенный код в диапазоне Aaaa-Zzzz, как это доступно в ISO 15924, который отображается в систему записи . Помимо описания фона и использования сценария, Unicode не использует связь между сценарием и языками, которые используют этот сценарий. Итак, «иврит» относится к еврейскому письму, а не к еврейскому языку.

Специальный код Zyyy для «Common» допускает одно значение для символа, который используется в нескольких сценариях. Код Zinh «Унаследованный сценарий», используемый для объединения символов и некоторых других кодовых точек специального назначения, указывает на то, что символ «наследует» свою подлинность сценария от символа, с которым он сочетается. (Ранее для этой цели Unicode использовал частный код Qaai.) Код Zzzz «Неизвестно» используется для всех символов, которые не принадлежат сценарию (т. Е. Значения по умолчанию), таких как символы и символы форматирования. В целом, символы одного скрипта могут быть разбросаны по нескольким блокам, как латинские символы . И наоборот: может присутствовать несколько скриптов в одном блоке, например, блок буквоподобных символов. содержит символы латинского, греческого и общеупотребительного алфавита.

Когда сценарий "" (пустой), в соответствии с Unicode символ не принадлежит сценарию. Это относится к символам, поскольку существующие коды сценариев ISO «Zmth» (математическая нотация), «Zsym» (символ) и «Zsye» (символ, вариант эмодзи) не используются в Unicode. Свойство «Сценарий» также пусто для кодовых точек, не являющихся типографскими символами, таких как элементы управления, замены и кодовые точки для частного использования.

Если есть конкретный сценарий имя псевдонима в ISO 15924, она используется в имени персонажа: U + 0041 A LATIN заглавной буквы A , и U + 05D0 א ЕВРЕЙСКОГО ПИСЬМО Алеф .

v т е Скрипты в ISO 15924 ^[a]^[b] и в Unicode ^[c]^[d]
ISO 15924			Скрипт в Юникоде ^[e]
Код	Официальное название ISO	Направленность	Псевдоним Unicode ^[f]	Версия	Символы	Примечания	Описание
						Взаимодействие с другими людьми
Adlm	Адлам	справа налево	Адлам	9.0	88		Ch 19.9
Афак	Афака	варьируется	ZZ - Не в Unicode, предложение изучается ^[19]
Aghb	Кавказский албанский	слева направо	Кавказский албанский	7.0	53	Древний / исторический	Ch 8.10
Ахом	Ахом, Тай Ахом	слева направо	Ахом	8.0	58	Древний / исторический	Ch 15.15
Араб	арабский	справа налево	арабский	1.0	1,291		Ch 9.2
Аран	Арабский (вариант насталик)	смешанный	ZZ - типографский вариант арабского языка ( § арабский )
Арми	Императорский арамейский	справа налево	Императорский арамейский	5.2	31 год	Древний / исторический	Ch 10.4
Armn	Армянский	слева направо	Армянский	1.0	96		Ch 7.6
Avst	Авестийский	справа налево	Авестийский	5.2	61	Древний / исторический	Ch 10.7
Бали	Балийский	слева направо	Балийский	5.0	121		Ch 17.3
Баму	Бамум	слева направо	Бамум	5.2	657		Ch 19.6
Бас	Басса Вах	слева направо	Басса Вах	7.0	36	Древний / исторический	Ch 19.7
Батк	Батак	слева направо	Батак	6.0	56		Ch 17.6
Beng	Бенгальский (бангла)	слева направо	Бенгальский	1.0	96		Ch 12.2
Bhks	Bhaiksuki	слева направо	Bhaiksuki	9.0	97	Древний / исторический	Ch 14.3
Blis	Блиссимволы	варьируется	ZZ - Не в Unicode, предложение изучается ^[19]
Бопо	Бопомофо	слева направо	Бопомофо	1.0	77		Ch 18.3
Брах	Брахми	слева направо	Брахми	6.0	109	Древний / исторический	Ch 14.1
Brai	Шрифт Брайля	слева направо	Шрифт Брайля	3.0	256		Ch 21.1
Буги	Бугийский	слева направо	Бугийский	4.1	30		Ch 17.2
Buhd	Бухид	слева направо	Бухид	3,2	20		Ch 17.1
Cakm	Чакма	слева направо	Чакма	6.1	71		Ch 13.11
Банки	Единая слоговая речь канадских аборигенов	слева направо	Канадские аборигены	3.0	710		Ch 20.2
Кари	Карийский	слева направо, справа налево	Карийский	5.1	49	Древний / исторический	Ch 8.4
Чам	Чам	слева направо	Чам	5.1	83		Ch 16.10
Шер	Чероки	слева направо	Чероки	3.0	172		Ch 20.1
Chrs	Хорезмист	справа налево , сверху вниз	Хорезмист	13,0	28 год	Древний / исторический	Ch 10.8
Cirt	Cirth	варьируется	ZZ - не в Юникоде
Копт	Коптский	слева направо	Коптский	1.0	137	Древний / исторический, разделенный с греческим в 4.1	Глава 7.3
Cpmn	Кипро-минойский	слева направо	ZZ - не в Юникоде
Cprt	Кипрское слоговое письмо	справа налево	Киприот	4.0	55	Древний / исторический	Глава 8.3
Кирл	Кириллица	слева направо	Кириллица	1.0	443	Включает типографский вариант на старославянском языке ( § Cyrs)	Глава 7.4
Cyrs	Кириллица (старославянский вариант)	варьируется	ZZ - Типографский вариант кириллицы ( § Cyrl )			Древний / исторический
Дева	Деванагари (Нагари)	слева направо	Деванагари	1.0	154		Ch 12.1
Диак	Дайвс Акуру	слева направо	Дайвс Акуру	13,0	72	Древний / исторический	Ch 15.14
Dogr	Догра	слева направо	Догра	11.0	60	Древний / исторический	Ch 15.17
Dsrt	Дезерет (мормон)	слева направо	Deseret	3.1	80		Ch 20.4
Dupl	Стенография Дуплояна, стенография Дуплояна	слева направо	Дуплоян	7.0	143		Ch 21.5
Египет	Египетский демотик	смешанный	ZZ - не в Юникоде
Египет	Египетский иератический	смешанный	ZZ - не в Юникоде
Египетский	Египетские иероглифы	слева направо	Египетские иероглифы	5.2	1,080	Древний / исторический	Ch 11.4
Эльба	Эльбасан	слева направо	Эльбасан	7.0	40	Древний / исторический	Ch 8.9
Элим	Elymaic	справа налево	Elymaic	12.0	23	Древний / исторический	Ch 10.9
Эти	Эфиопский (геэз)	слева направо	Эфиопский	3.0	495		Ch 19.1
Геок	Хуцури (Асомтаврули и Нусхури)	слева направо	Грузинский			Группы Unicode «Хуцори», «Асомтаврули» и «Нусхури» на «грузинский» ( § Геок ). Также «Мхедрули» и «Мтаврули» являются «грузинскими» ( § Геор )	Ch 7.7
Геор	Грузинский (мхедрули и мтаврули)	слева направо	Грузинский	1.0	173	В Unicode также включает Геок (Нусхури)	Ch 7.7
Glag	Глаголица	слева направо	Глаголица	4.1	132	Древний / исторический	Ch 7.5
Гонг	Гунджала Гонди	слева направо	Гунджала Гонди	11.0	63		Ch 13.15
Гонм	Масарам Гонди	слева направо	Масарам Гонди	10.0	75		Ch 13.14
Гот	Готика	слева направо	Готика	3.1	27	Древний / исторический	Ch 8.8
Бабушка	Гранта	слева направо	Гранта	7.0	85	Древний / исторический	Ch 15.13
Грек	Греческий	слева направо	Греческий	1.0	518	Направленность иногда как бустрофедон	Глава 7.2
Гуджр	Гуджарати	слева направо	Гуджарати	1.0	91		Ch 12.4
Гуру	Гурмукхи	слева направо	Гурмукхи	1.0	80		Ch 12.3
Ханб	Хан с Бопомофо (псевдоним Хан + Бопомофо)	смешанный	ZZ - см. § Хани , § Бопо
Вешать	Хангыль (Hangŭl, Hangeul)	слева направо, сверху вниз	Хангыль	1.0	11 739	Слоги хангыль перемещены в 2.0	Ch 18.6
Хани	Хан (ханзи, кандзи, ханджа)	сверху вниз, столбцы справа налево (исторически)	Хан	1.0	94 204		Ch 18.1
Hano	Хануноо (Hanunóo)	слева направо, снизу вверх	Хануноо	3,2	21 год		Ch 17.1
Ганс	Хан (упрощенный вариант)	варьируется	ZZ - подмножество хань (ханзи, кандзи, ханджа) ( § хани )
Хант	Хан (традиционный вариант)	варьируется	ZZ - подмножество § Hani
Hatr	Хатран	справа налево	Хатран	8.0	26 год	Древний / исторический	Ch 10.12
Hebr	иврит	справа налево	иврит	1.0	134		Ch 9.1
Хира	Хирагана	сверху вниз, слева направо	Хирагана	1.0	379		Ch 18.4
Hluw	Анатолийские иероглифы (лувийские иероглифы, хеттские иероглифы)	слева направо	Анатолийские иероглифы	8.0	583	Древний / исторический	Ch 11.6
Хмнг	Пахау Хмонг	слева направо	Пахау Хмонг	7.0	127		Ch 16.11
Hmnp	Nyiakeng Puachue Hmong	слева направо	Nyiakeng Puachue Hmong	12.0	71		Ch 16.12
Hrkt	Слоговые алфавиты японского языка (псевдоним Хирагана + Катакана)	сверху вниз, слева направо	Катакана или Хирагана			См. § Хира , § Кана	Ch 18.4
Подвешенный	Древневенгерский (венгерский рунический)	справа налево	Старовенгерский	8.0	108	Древний / исторический	Ch 8.7
Inds	Инд (Хараппан)	смешанный	ZZ - Не в Unicode, предложение изучается ^[19]
Ital	Старый курсив (этрусский, осканский и др.)	справа налево , слева направо	Старый курсив	3.1	39	Древний / исторический	Глава 8.5
Джамо	Джамо (псевдоним Jamo подмножества хангыль)	варьируется	ZZ - подмножество § Hang
Ява	Яванский	слева направо	Яванский	5.2	90		Ch 17.4
Jpan	Японский (псевдоним Хан + Хирагана + Катакана)	варьируется	ZZ - см. § Хани , § Хира и § Кана
Jurc	Чжурчжэнь	слева направо	ZZ - не в Юникоде
Кали	Кая Ли	слева направо	Кая Ли	5.1	47		Ch 16.9
Кана	Катакана	сверху вниз, слева направо	Катакана	1.0	304		Ch 18.4
Хар	Харошти	справа налево	Харошти	4.1	68	Древний / исторический	Ch 14.2
Кхмр	Кхмерский	слева направо	Кхмерский	3.0	146		Ch 16.4
Ходж	Хойки	слева направо	Хойки	7.0	62	Древний / исторический	Ch 15.7
Китл	Киданьский большой шрифт	слева направо	ZZ - не в Юникоде
Наборы	Киданьский маленький шрифт	сверху вниз	Киданьский маленький шрифт	13,0	471	Древний / исторический	Ch 18.12
Knda	Каннада	слева направо	Каннада	1.0	89		Ch 12.8
Kore	Корейский (псевдоним хангыль + хань)	слева направо	ZZ - см. § Hani , § Hang
Kpel	Kpelle	слева направо	ZZ - Не в Unicode, предложение изучается ^[19]
Кти	Kaithi	слева направо	Kaithi	5.2	67	Древний / исторический	Ch 15.2
Лана	Тай Тхам (Ланна)	слева направо	Тай Тхам	5.2	127		Ch 16.7
Лаоо	Лаосский	слева направо	Лаосский	1.0	82		Ch 16.2
Latf	Латинский (вариант Fraktur)	варьируется	ZZ - Типографский вариант латыни ( § Latn )
Латг	Латинский (гэльский вариант)	слева направо	ZZ - Типографский вариант латыни ( § Latn )
Latn	латинский	слева направо	латинский	1.0	1,374	См. Также: Латинский шрифт в Юникоде	Глава 7.1
Леке	Леке	слева направо	ZZ - не в Юникоде
Лепц	Лепча (Ронг)	слева направо	Лепча	5.1	74		Ch 13.12
Конечности	Лимбу	слева направо	Лимбу	4.0	68		Ch 13.6
Лина	Линейное письмо А	слева направо	Линейное письмо А	7.0	341	Древний / исторический	Глава 8.1
Linb	Линейное письмо B	слева направо	Линейное письмо B	4.0	211	Древний / исторический	Глава 8.2
Лису	Лису (Фрейзер)	слева направо	Лису	5.2	49		Ch 18.9
Лома	Лома	слева направо	ZZ - Не в Unicode, предложение изучается ^[19]
Lyci	Ликийский	слева направо	Ликийский	5.1	29	Древний / исторический	Ch 8.4
Lydi	Лидийский	справа налево	Лидийский	5.1	27	Древний / исторический	Ch 8.4
Mahj	Махаджани	слева направо	Махаджани	7.0	39	Древний / исторический	Ch 15.6
Мака	Макасар	слева направо	Макасар	11.0	25	Древний / исторический	Ch 17.8
Манд	Мандайский, мандейский	справа налево	Мандаикский	6.0	29		Ch 9.5
Мани	Манихейский	справа налево	Манихейский	7.0	51	Древний / исторический	Ch 10.5
Марк	Марчен	слева направо	Марчен	9.0	68	Древний / исторический	Ch 14.5
майя	Иероглифы майя	смешанный	ZZ - не в Юникоде
Медф	Медефайдрин (Обери Окайме, Обери Окаимо)	слева направо, слева направо	Медефайдрин	11.0	91		Ch 19.10
Исправить	Менде Кикакуи	справа налево	Менде Кикакуи	7.0	213		Ch 19.8
Merc	Меройский курсив	справа налево	Меройский курсив	6.1	90	Древний / исторический	Ch 11.5
Меро	Мероитские иероглифы	справа налево	Мероитские иероглифы	6.1	32	Древний / исторический	Ch 11.5
Млым	Малаялам	слева направо	Малаялам	1.0	118		Ch 12.9
Моди	Моди, Moī	слева направо	Моди	7.0	79	Древний / исторический	Ch 15.11
Монг	Монгольский	слева направо, сверху вниз	Монгольский	3.0	167	Mong включает ясные и маньчжурские скрипты	Ch 13.5
Луна	Луна (код Луны, сценарий Луны, тип Луны)	смешанный	ZZ - Не в Unicode, предложение изучается ^[19]
Mroo	Мро, Мру	слева направо	Mro	7.0	43 год		Ch 13.8
Мтей	Мейтей Майек (Meithei, Meetei)	слева направо	Митей Майек	5.2	79		Ch 13.7
Mult	Мултани	слева направо	Мултани	8.0	38	Древний / исторический	Ch 15.9
Mymr	Мьянма (бирманский)	слева направо	Мьянма	3.0	223		Ch 16.3
Nand	Нандинагари	слева направо	Нандинагари	12.0	65	Древний / исторический	Ch 15.12
Нарб	Старый северноаравийский (древний северноаравийский)	справа налево , справа налево	Старый северноаравийский	7.0	32	Древний / исторический	Ch 10.1
Нбат	Набатейский	справа налево	Набатейский	7.0	40	Древний / исторический	Ch 10.10
Newa	Нева, невар, невари, непала липи	слева направо	Newa	9.0	97		Ch 13.3
Nkdb	Наси Донгба (na²¹ɕi³³ to³³ba²¹, Nakhi Tomba)	слева направо	ZZ - не в Юникоде
НКГБ	Накхи Геба (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-baw, Накхи Геба)	слева направо	ZZ - Не в Unicode, предложение изучается ^[19]
Nkoo	N'Ko	справа налево	НКо	5.0	62		Ch 19.4
Ншу	Нюшу	сверху вниз	Нушу	10.0	397		Ch 18.8
Огам	Огам	снизу вверх, слева направо	Огам	3.0	29	Древний / исторический	Ch 8.12
Olck	Ол Чики (Ol Cemet ', Ol, Santali)	слева направо	Ол Чики	5.1	48		Ch 13.10
Орх	Древнетюркский, орхонский рунический	справа налево	Древнетюркский	5.2	73	Древний / исторический	Ch 14.8
Оря	Ория (Одиа)	слева направо	Ория	1.0	91		Ch 12.5
Osge	Осейдж	слева направо	Осейдж	9.0	72		Ch 20.3
Осма	Османья	слева направо	Османья	4.0	40		Ch 19.2
Ougr	Старый уйгурский	смешанный	ZZ - не в Юникоде
ладонь	Пальмирена	справа налево	Пальмирена	7.0	32	Древний / исторический	Ch 10.11
Паук	Пау Чин Хау	слева направо	Пау Чин Хау	7.0	57		Ch 16.13
Pcun	Прото-клинопись	слева направо	ZZ - не в Юникоде
Пельм	Протоэламский	слева направо	ZZ - не в Юникоде
Пермь	Старая Пермь	слева направо	Старая Пермь	7.0	43 год	Древний / исторический	Ch 8.11
Phag	Phags-pa	сверху вниз	Phags-pa	5.0	56	Древний / исторический	Ch 14.4
Phli	Пехлеви с надписью	справа налево	Пехлеви с надписью	5.2	27	Древний / исторический	Ch 10.6
Phlp	Псалтырь Пехлеви	справа налево	Псалтырь Пехлеви	7.0	29	Древний / исторический	Ch 10.6
Phlv	Бронировать Пехлеви	смешанный	ZZ - не в Юникоде
Phnx	Финикийский	справа налево	Финикийский	5.0	29	Древний / исторический ^[g]	Ch 10.3
Piqd	Клингонский (KLI pIqaD)	слева направо	ZZ - отклонено для включения в Unicode ^[20]^[21]
Plrd	Мяо (Поллард)	слева направо	Мяо	6.1	149		Ch 18.10
Прти	Письменный парфянский	справа налево	Письменный парфянский	5.2	30	Древний / исторический	Ch 10.6
Псин	Прото-синайский	смешанный	ZZ - не в Юникоде
Qaaa-Qabx	Зарезервировано для частного использования (диапазон)		ZZ - не в Юникоде
Ранж	Ранджана	слева направо	ZZ - не в Юникоде
Rjng	Реджанг (Реджанг, Каганга)	слева направо	Rejang	5.1	37		Ch 17.5
Рог	Ханифи Рохинджа	справа налево	Ханифи Рохинджа	11.0	50		Ch 16.14
Роро	Ронгоронго	смешанный	ZZ - Не в Unicode, предложение изучается ^[19]
Runr	Рунический	слева направо, бустрофедон	Рунический	3.0	86	Древний / исторический	Ch 8.6
Samr	Самаритянин	справа налево , сверху вниз	Самаритянин	5.2	61		Ch 9.4
Сара	Сарати	смешанный	ZZ - не в Юникоде
Сарб	Старый южноаравийский	справа налево	Старый южноаравийский	5.2	32	Древний / исторический	Ch 10.2
Саур	Саураштра	слева направо	Саураштра	5.1	82		Ch 13.13
Sgnw	Знак	сверху вниз	Знак	8.0	672		Ch 21.6
Шоу	Шавиан (Шоу)	слева направо	Шавиан	4.0	48		Ch 8.13
Шрд	Шарада, Шарада	слева направо	Шарада	6.1	96		Ch 15.3
Шуй	Шуйшу	слева направо	ZZ - не в Юникоде
Сидд	Сиддхам, Сиддхах, Сиддхаматрика	слева направо	Сиддхам	7.0	92	Древний / исторический	Ch 15.5
Синд	Худавади, синдхи	слева направо	Худавади	7.0	69		Ch 15.8
Sinh	Сингальский	слева направо	Сингальский	3.0	111		Ch 13.2
Согдийская	Согдийский	справа налево , сверху вниз	Согдийский	11.0	42	Древний / исторический	Ch 14.10
Сого	Старый согдийский	справа налево	Старый согдийский	11.0	40	Древний / исторический	Ch 14.9
Сора	Сора Сомпенг	слева направо	Сора Сомпенг	6.1	35 год		Ch 15.16
Сойо	Соёмбо	слева направо	Соёмбо	10.0	83	Древний / исторический	Ch 14.7
Сунд	Суданский	слева направо	Суданский	5.1	72		Ch 17.7
Sylo	Силоти Нагри	слева направо	Силоти Нагри	4.1	45	Древний / исторический	Ch 15.1
Syrc	Сирийский	справа налево	Сирийский	3.0	88	Включает типографские варианты Estrangelo ( § Syre ), Western ( § Syrj ) и Eastern ( § Syrn )	Ch 9.3
Сырье	Сирийский (вариант Эстранджело)	смешанный	ZZ - Типографский вариант сирийского языка ( § Syrc )
Сырдж	Сирийский (западный вариант)	смешанный	ZZ - Типографский вариант сирийского языка ( § Syrc )
Сырн	Сирийский (восточный вариант)	смешанный	ZZ - Типографский вариант сирийского языка ( § Syrc )
Tagb	Tagbanwa	слева направо	Tagbanwa	3,2	18		Ch 17.1
Такр	Такри, Шакри, Шанкри	слева направо	Такри	6.1	67		Ch 15.4
Сказка	Тай Ле	слева направо	Тай Ле	4.0	35 год		Ch 16.5
Талу	Новый Тай Лю	слева направо	Новый Тай Лю	4.1	83		Ch 16.6
Тамл	Тамильский	слева направо	Тамильский	1.0	123		Ch 12.6
Тан	Тангутский	сверху вниз, слева направо	Тангутский	9.0	6 914	Древний / исторический	Ch 18.11
Тавт	Тай Вьет	слева направо	Тай Вьет	5.2	72		Ch 16.8
Телу	телугу	слева направо	телугу	1.0	98		Ch 12.7
Тэн	Тенгвар	слева направо	ZZ - не в Юникоде
Tfng	Тифинаг (берберский)	слева направо	Тифинаг	4.1	59		Ch 19.3
Tglg	Тагальский (байбайын, алибата)	слева направо	Тагальский	3,2	20		Ch 17.1
Таа	Thaana	справа налево	Thaana	3.0	50		Ch 13.1
Тайский	Тайский	слева направо	Тайский	1.0	86		Ch 16.1
Тибт	тибетский	слева направо	тибетский	2.0	207	Добавлено в 1.0, удалено в 1.1 и повторно введено в 2.0	Ch 13.4
Тирх	Тирхута	слева направо	Тирхута	7.0	82		Ch 15.10
Tnsa	Танса	слева направо	ZZ - не в Юникоде ^[22]
Тото	Тото	слева направо	ZZ - не в Юникоде
Угар	Угаритский	слева направо	Угаритский	4.0	31 год	Древний / исторический	Ch 11.2
Вайи	Вай	слева направо	Вай	5.1	300		Ch 19.5
Visp	Видимая речь	слева направо	ZZ - не в Юникоде
Вит	Виткуки	слева направо	ZZ - не в Юникоде
Вара	Варанг Сити (Варанг Кшити)	слева направо	Варанг Сити	7.0	84		Ch 13.9
Wcho	Wancho	слева направо	Wancho	12.0	59		Ch 13.16
Воле	Woleai	смешанный	ZZ - Не в Unicode, предложение изучается ^[19]
Xpeo	Древнеперсидский	слева направо	Древнеперсидский	4.1	50	Древний / исторический	Ch 11.3
Xsux	Клинопись, шумеро-аккадский	слева направо	Клинопись	5.0	1,234	Древний / исторический	Ch 11.1
Йези	Езиды	справа налево	Езиды	13,0	47	Древний / исторический	Ch 9.6
Yiii	Йи	слева направо	Йи	3.0	1,220		Ch 18.7
Занб	Площадь Занабазар (Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, Horizontal Square Script)	слева направо	Площадь Занабазар	10.0	72	Древний / исторический	Ch 14.6
Zinh	Код для унаследованного скрипта		Унаследовано		573
Zmth	Математические обозначения		ZZ - не скрипт в Юникоде
Zsym	Символы		ZZ - не скрипт в Юникоде
Zsye	Символы (вариант смайликов)		ZZ - не скрипт в Юникоде
Zxxx	Код для неписаных документов		ZZ - не скрипт в Юникоде
Зыыы	Код для неопределенного сценария		Общий		8 087
Zzzz	Код для некодированного скрипта		Неизвестный		970 188	В Юникоде: все остальные кодовые точки
Примечания ^ Публикации ISO 15924 По состоянию на 17 февраля 2021 г.^{[Обновить]} ^ ISO 15924 Нормативный текстовый файл По состоянию на 17 февраля 2021 г.^{[Обновить]} ^ Изменения ISO 15924 (включая псевдонимы для Unicode; с 17 февраля 2021 г. ^{[Обновить]}) ^ Юникод версии 13.0 ^ Диаграммы Unicode ^ Unicode использует «Псевдоним значения свойства» (Псевдоним) в качестве имени сценария. Эти псевдонимы являются частью Unicode и информативно публикуются рядом с ISO 15924. Имя сценария псевдонима может использоваться в имени символа :, Palmyrene`Palm` → U + 10860 𐡠 ПАЛМИРЕННАЯ БУКВА АЛЕФ . ^ В Юникоде финикийский шрифт предназначен для представления текста на палео-иврите , архаическом финикийском, финикийском , раннем арамейском , позднем финикийском курсиве, финикийских папирусах , силоамском иврите , еврейских печатях , аммонитском , моавитском и пуническом языках . ^[23]

Свойства нормализации [ править ]

Декомпозиции, тип декомпозиции, канонический класс комбинирования, исключения композиции и многое другое.

Возраст [ править ]

Возраст - это версия Стандарта, в которой кодовая точка была впервые обозначена. Номер версии сокращен до нумерации major.minor, хотя используются более подробные номера версий: версии 4.0.0 и 4.0.1 обе называются 4.0 как Age. Для выпусков возраст может быть из диапазона: 1.1, 2.0, 2.1, 3.0, 3.1, 3.2, 4.0, 4.1, 5.0, 5.1, 5.2, 6.0, 6.1, 6.2, 6.3, 7.0, 8.0, 9.0, 10.0, 11.0. , 12,0, 12,1 и 13,0. ^[24] Длинные значения для Age начинаются с буквы V и используют подчеркивание вместо точки: например, V1_1. ^[2] Кодовые точки без специально назначенного значения возраста имеют значение «NA» с длинной формой «Unassigned».

Устарело [ править ]

После определения символа он не будет отозван или изменен при определении свойств (кодовая точка, имя). Но его можно объявить устаревшим : закодированный символ, использование которого категорически не рекомендуется . ^[25] Начиная с версии Unicode 10.0, пятнадцать символов устарели:

U + 0149 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА N ПРЕДШЕСТВУЮЩИЙ АПОСТРОФУ: используйте вместо этого последовательность ʼ0020 006E (ʼ n)
U + 0673 АРАБСКАЯ БУКВА ALEF С ВОЛНЫМ ХАМЗА НИЖЕ: используйте вместо этого последовательность 0627 065F (اٟ)
U + 0F77 TIBETAN VOWEL SIGN VOCALIC RR: используйте вместо этого последовательность 0FB2 0F81 (ྲཱ ྀ)
U + 0F79 TIBETAN VOWEL SIGN VOCALIC LL: используйте вместо этого последовательность 0FB3 0F81 (ླཱ ྀ)
U + 17A3 KHMER INDEPENDENT VOWEL QAQ: используйте 17A2 KHMER LETTER QA (អ) вместо
U + 17A4 KHMER INDEPENDENT VOWEL QAA: используйте вместо этого последовательность 17A2 17B6 (អា)
U + 206A ЗАПРЕТ СИММЕТРИЧНОЙ ЗАМЕНА
U + 206B АКТИВИРОВАТЬ СИММЕТРИЧЕСКУЮ ЗАМЕНУ
U + 206C ЗАПРЕЩАЕТ ФОРМИРОВАНИЕ АРАБСКОЙ ФОРМЫ
U + 206D АКТИВАЦИЯ АРАБСКОГО ФОРМЫ
ФОРМЫ НАЦИОНАЛЬНЫХ ЦИФРОВ U + 206E
НОМИНАЛЬНАЯ ФОРМА ЦИФРОВ U + 206F
U + 2329 ЛЕВЫЙ УГЛОВОЙ КРОНШТЕЙН: вместо этого используйте ЛЕВЫЙ УГОЛ U + 3008 (〈)
U + 232A УГЛОВОЙ КРОНШТЕЙН НАПРАВО: вместо этого используйте КРОНШТЕЙН ПРАВОГО УГЛА U + 3009 (〉).
U + E0001 ЯЗЫКОВЫЙ ТЕГ

Символы формата от U + 206A до U + 206F и U + E0001 вообще не должны использоваться, но для других устаревших символов есть рекомендуемые альтернативы, как показано выше.

Границы [ править ]

Стандарт Unicode определяет следующие свойства, связанные с границами:

Кластер графема
Слово
Линия
Приговор

Ссылки [ править ]

^ a b c d e "Стандарт Unicode, Глава 4: Свойства символов" (PDF) . Unicode, Inc. марта 2020 . Проверено 15 марта 2020 .
^ a b «Приложение № 44 к стандарту Unicode: База данных символов Unicode» . Стандарт Юникода . 2017-06-14.
^ "UCD: Псевдонимы" . База данных символов Юникода . Консорциум Unicode. 2019-03-08.
^ «Стандарты дизайна персонажей - символы пробела» . Стандарты дизайна персонажей . Microsoft . 1998–1999. Архивировано из оригинального 23 августа 2000 года . Проверено 18 мая 2009 .
^ Стандарт Unicode 5.0, печатное издание, стр.205
^ "Общая пунктуация" (PDF) . Стандарт Юникода 5.1 . Unicode Inc . 1991–2008 гг . Проверено 13 мая 2009 .
↑ Сарджент, Мюррей III (29 августа 2006 г.). «Кодирование почти простого текста Unicode математики (версия 2)» . Техническая записка по Unicode № 28 . Unicode Inc . С. 19–20 . Проверено 19 мая 2009 .
^ Гиллам, Ричард (2002). Unicode Demystified: Практическое руководство программиста по стандарту кодирования . Эддисон-Уэсли. ISBN 0-201-70052-2.
^ а б Хиксон, Ян . «12.5 Ссылки на именованные символы» . Стандарт HTML . WHATWG .
^ Вольфрам . "\ [NegativeThickSpace]" . Документация по языку Wolfram Language .
^ Вольфрам . "\ [NegativeMediumSpace]" . Документация по языку Wolfram Language .
^ Вольфрам . "\ [NegativeThinSpace]" . Документация по языку Wolfram Language .
^ Вольфрам . "\ [NegativeVeryThinSpace]" . Документация по языку Wolfram Language .
^ Faltstrom П., изд. (Август 2010 г.). «Несоединение нулевой ширины» . Кодовые точки Unicode и интернационализированные доменные имена для приложений (IDNA) . IETF . сек. А.1. DOI : 10,17487 / RFC5892 . RFC 5892 . Проверено 4 сентября 2019 года .
^ Faltstrom П., изд. (Август 2010 г.). «Столяр нулевой ширины» . Кодовые точки Unicode и интернационализированные доменные имена для приложений (IDNA) . IETF . сек. А.2. DOI : 10,17487 / RFC5892 . RFC 5892 . Проверено 4 сентября 2019 года .
^ "Приложение № 44 к стандарту Unicode, База данных символов Unicode" .
^ a b «Приложение № 9 к стандарту Unicode: двунаправленный алгоритм Unicode» . Стандарт Юникода . 2017-05-14.
^ "Приложение № 24 к стандарту Unicode: Свойство сценария Unicode" . Стандарт Юникода . 2015-06-01.
^ a b c d e f g h i «Предлагаемые новые сценарии» . Консорциум Unicode . 2018-05-25 . Проверено 12 сентября 2019 .
^ Майкл Эверсон (1997-09-18). «Предложение по кодированию клингонов в плоскости 1 стандарта ISO / IEC 10646-2» .
^ Консорциум Unicode (2001-08-14). «Утвержденный протокол совместного заседания UTC 87 / L2 184» .
^ Мори, Стивен; Панди, Аншуман (07.01.2021). «Предложение о добавлении скрипта Tangsa в SMP UCS» (PDF) . Консорциум Unicode . L2 / L2021 / 21027 . Источник 2021-02-19 .
^ «Ближний Восток-II, Древние сценарии» (PDF) . 13.0.0. The Unicode Consortiumtitle = Ближневосточные скрипты II . Источник 2021-01-28 .
^ "UCD: Производный возраст" . База данных символов Юникода . Консорциум Unicode. 2019-09-08.
^ «Стандарт Unicode, Глава 3.4. Символы и кодирование, D13: устаревший символ» (PDF) . Стандарт Юникода . Март 2020.

[fn1-4] «Таблица 4-4: Общая категория» (PDF) . Стандарт Юникода . Консорциум Unicode. Март 2020.

[fn2-5] «Таблица 2-3: Типы кодовых точек» (PDF) . Стандарт Юникода . Консорциум Unicode. Март 2020.

[fn3-6] Политика стабильности кодировки символов Unicode: Стабильность значения свойства Политика стабильности: Некоторые группы gc никогда не изменятся. gc = Nd соответствует Numeric Type = De (десятичный).

[fn4-7] «Таблица 4-9: Построение меток кодовых точек» (PDF) . Стандарт Юникода . Консорциум Unicode. Март 2020. Code Point Метка может быть использована для идентификации точки безымянным кода. Например, <control- hhhh >, <control-0088>. Имя остается пустым, что может предотвратить непреднамеренную замену в документации имени элемента управления на настоящий код управления. Юникод также использует <не символ> для <несимвола>.

[wsdef-8] White_Space - это двоичное свойство Unicode. ^[16]

[ws-9] "Unicode 13.0 UCD: PropList.txt" . 2019-11-27 . Проверено 12 марта 2020 .

[20] Хотя&ZeroWidthSpace;есть один HTML5 именованный объект для U + 200B, дополнительные именаNegativeMediumSpace,NegativeThickSpace,NegativeThinSpaceиNegativeVeryThinSpace(которые являются именаиспользуемые в Wolfram языке для отрицательного авансовым пространств, которые он отображает до частного использования Area )^[10]^[11]^{[12 ]}^[13] также определены в HTML5 как псевдонимы для U + 200B (например&NegativeMediumSpace;). ^[9]

[Number_of_code_points-25] Счетчик кодовых точек включает неназначенные кодовые точки: несимвольные, зарезервированные

[Script_in_block_definition-26] Сценарий содержит один или несколько символов в блоке, как определено свойством сценария. Это не зависит от названия блока.

[Common_and_Inherited-27] «Обычный», «Неизвестный» (Zyyy) и «Унаследованный» (Zinh или Qaai) относятся к сценариям в ISO 15924

[Unicode_blocks_datafile-28] Unicode Блокирует файл данных . Начиная с версии Unicode 13.0

[Unicode_script_property-29] UAX 24: Свойство скрипта Unicode (4-буквенный код)

[Unicode_scripts_datafile-30] UAX 24: файл данных сценария

[Basic_Latin-31] Называется «C0 Controls and Basic Latin» в ISO / IEC 10646

[Latin1_Supplement-32] Называется "Элементы управления C1 и дополнение Latin-1" в ISO / IEC 10646

[cnote_a_grp_ISO_Unicode] 
Публикации ISO 15924 По состоянию на 17 февраля 2021 г.^{[Обновить]}

[cnote_b_grp_ISO_list] 
ISO 15924 Нормативный текстовый файл По состоянию на 17 февраля 2021 г.^{[Обновить]}

[cnote_c_grp_ISO_changes] 
Изменения ISO 15924 (включая псевдонимы для Unicode; с 17 февраля 2021 г. ^{[Обновить]})

[cnote_d_grp_Asof_Unicode_version] 
Юникод версии 13.0

[cnote_e_grp_Unicode_charts] 
Диаграммы Unicode

[cnote_f_grp_Aliases_for_Unicode] 
Unicode использует «Псевдоним значения свойства» (Псевдоним) в качестве имени сценария. Эти псевдонимы являются частью Unicode и информативно публикуются рядом с ISO 15924. Имя сценария псевдонима может использоваться в имени символа :, PalmyrenePalm → U + 10860 𐡠 ПАЛМИРЕННАЯ БУКВА АЛЕФ .

[cnote_g_grp_Scripts] 
В Юникоде финикийский шрифт предназначен для представления текста на палео-иврите , архаическом финикийском, финикийском , раннем арамейском , позднем финикийском курсиве, финикийских папирусах , силоамском иврите , еврейских печатях , аммонитском , моавитском и пуническом языках . ^[23]

[Chapter4-1] "Стандарт Unicode, Глава 4: Свойства символов" (PDF) . Unicode, Inc. марта 2020 . Проверено 15 марта 2020 .

[UAX44-2] «Приложение № 44 к стандарту Unicode: База данных символов Unicode» . Стандарт Юникода . 2017-06-14.

[3] "UCD: Псевдонимы" . База данных символов Юникода . Консорциум Unicode. 2019-03-08.

[10] «Стандарты дизайна персонажей - символы пробела» . Стандарты дизайна персонажей . Microsoft . 1998–1999. Архивировано из оригинального 23 августа 2000 года . Проверено 18 мая 2009 .

[11] Стандарт Unicode 5.0, печатное издание, стр.205

[12] "Общая пунктуация" (PDF) . Стандарт Юникода 5.1 . Unicode Inc . 1991–2008 гг . Проверено 13 мая 2009 .

[13] Сарджент, Мюррей III (29 августа 2006 г.). «Кодирование почти простого текста Unicode математики (версия 2)» . Техническая записка по Unicode № 28 . Unicode Inc . С. 19–20 . Проверено 19 мая 2009 .

[Gillam-14] Гиллам, Ричард (2002). Unicode Demystified: Практическое руководство программиста по стандарту кодирования . Эддисон-Уэсли. ISBN 0-201-70052-2.

[html5entity-15] а б Хиксон, Ян . «12.5 Ссылки на именованные символы» . Стандарт HTML . WHATWG .

[16] Вольфрам . "\ [NegativeThickSpace]" . Документация по языку Wolfram Language .

[17] Вольфрам . "\ [NegativeMediumSpace]" . Документация по языку Wolfram Language .

[18] Вольфрам . "\ [NegativeThinSpace]" . Документация по языку Wolfram Language .

[19] Вольфрам . "\ [NegativeVeryThinSpace]" . Документация по языку Wolfram Language .

[21] Faltstrom П., изд. (Август 2010 г.). «Несоединение нулевой ширины» . Кодовые точки Unicode и интернационализированные доменные имена для приложений (IDNA) . IETF . сек. А.1. DOI : 10,17487 / RFC5892 . RFC 5892 . Проверено 4 сентября 2019 года .

[22] Faltstrom П., изд. (Август 2010 г.). «Столяр нулевой ширины» . Кодовые точки Unicode и интернационализированные доменные имена для приложений (IDNA) . IETF . сек. А.2. DOI : 10,17487 / RFC5892 . RFC 5892 . Проверено 4 сентября 2019 года .

[23] "Приложение № 44 к стандарту Unicode, База данных символов Unicode" .

[UAX9-24] «Приложение № 9 к стандарту Unicode: двунаправленный алгоритм Unicode» . Стандарт Юникода . 2017-05-14.

[33] "Приложение № 24 к стандарту Unicode: Свойство сценария Unicode" . Стандарт Юникода . 2015-06-01.

[uniproposed-34] ^ a b c d e f g h i «Предлагаемые новые сценарии» . Консорциум Unicode . 2018-05-25 . Проверено 12 сентября 2019 .

[35] Майкл Эверсон (1997-09-18). «Предложение по кодированию клингонов в плоскости 1 стандарта ISO / IEC 10646-2» .

[36] Консорциум Unicode (2001-08-14). «Утвержденный протокол совместного заседания UTC 87 / L2 184» .

[37] Мори, Стивен; Панди, Аншуман (07.01.2021). «Предложение о добавлении скрипта Tangsa в SMP UCS» (PDF) . Консорциум Unicode . L2 / L2021 / 21027 . Источник 2021-02-19 .

[38] «Ближний Восток-II, Древние сценарии» (PDF) . 13.0.0. The Unicode Consortiumtitle = Ближневосточные скрипты II . Источник 2021-01-28 .

[DerivedAge-39] "UCD: Производный возраст" . База данных символов Юникода . Консорциум Unicode. 2019-09-08.

[40] «Стандарт Unicode, Глава 3.4. Символы и кодирование, D13: устаревший символ» (PDF) . Стандарт Юникода . Март 2020.

[1]