Стандарт Unicode присваивает свойства символов в каждой точке кода . [1] Эти свойства могут использоваться для обработки «символов» (кодовых точек) в процессах, таких как разрыв строки, направление скрипта справа налево или применение элементов управления. Немного непоследовательно, некоторые «свойства символа» также определены для кодовых точек, которым не назначен символ, и кодовых точек, которые помечены как «<не символ>». Свойства персонажа описаны в Стандартном Приложении №44. [2]
Свойства имеют уровни силы: нормативный, информативный, вспомогательный или предварительный. Для простоты описания свойство символа может быть присвоено путем указания непрерывного диапазона кодовых точек, которые имеют одно и то же свойство.
Имя [ редактировать ]
Символу Unicode присваивается уникальное имя (na). [1] Имя состоит из прописных букв A – Z, цифр 0–9, - (дефис-минус) и <пробел>. Некоторые последовательности исключены: имена, начинающиеся с пробела или дефиса, имена, заканчивающиеся пробелом или дефисом, повторяющиеся пробелы или дефисы и пробелы после дефиса не допускаются. Имя гарантированно уникально в Юникоде и может использоваться для идентификации кодовой точки и ее символа. Идеографические символы, которых насчитывается несколько десятков тысяч, названы в шаблоне « cjk unified ideograph - hhhh ». Например, U + 4E00 一 CJK UNIFIED IDEOGRAPH-4E00 . Также названы символы форматирования: U + 00A0 NO-BREAK SPACE .
Следующие классы кодовых точек не имеют имени (na = ""): элементы управления (общая категория: Cc), частное использование (Co), суррогатное (Cs), несимвольные (Cn) и зарезервированные (Cn). На них могут неофициально ссылаться общее или конкретное мета-имя, называемое «метки кодовых точек»: <control>, <control-0088>, <reserved>, <noncharacter- hhhh >, <private-use- hhhh > , <суррогат>. Поскольку эти метки содержат скобки <>, они никогда не могут отображаться как имя, что предотвращает путаницу.
Имена версии 1.0 [ править ]
В версии 2.0 Unicode были изменены многие имена. С этого момента вступило в силу правило «имя никогда не изменится», включая строгое (нормативное) использование псевдонимов. Неиспользуемые имена версии 1.0 были перемещены в свойство Alias для обеспечения обратной совместимости.
Псевдоним имени персонажа [ править ]
Начиная с версии 2.0 Unicode, опубликованное имя кодовой точки никогда не изменится. Следовательно, в случае неправильного написания имени персонажа или если имя персонажа полностью неверно или серьезно вводит в заблуждение, персонажу может быть назначен формальный псевдоним имени персонажа, и этот псевдоним может использоваться приложениями вместо фактического дефектного имени персонажа. . [1] Например, U + FE18 ︘ ФОРМА ПРЕЗЕНТАЦИИ ДЛЯ ВЕРТИКАЛЬНОГО ПРАВОГО БЕЛОГО ЛЕНТИКУЛЯРНОГО КРОНШТЕЙНА имеет псевдоним имени символа "ПРЕЗЕНТАЦИОННАЯ ФОРМА ДЛЯ ВЕРТИКАЛЬНОЙ ПРАВОЙ БЕЛЫЙ ЛЕНТИКУЛЯРНЫЙ КРОНШТЕЙН", чтобы избежать ошибки в написании "скобки" как "скобки" в фактическом название характера; U + A015 ꀕ YI СЛОВО WU имеет псевдоним имени символа "YI SYLLABLE ITERATION MARK", потому что, в отличие от имени символа, он не имеет фиксированного слогового значения.
В дополнение к псевдонимам имен символов, которые являются исправлением дефектных имен символов, некоторым символам присваиваются псевдонимы, которые являются альтернативными именами или сокращениями. В стандарте Unicode определены пять типов псевдонимов имен символов:
- Исправление: исправления неправильно написанных или серьезно неправильных имен персонажей;
- Управление: имена ISO 6429 для функций управления C0 и C1 (которым не присвоены имена символов в стандарте Unicode);
- Альтернативные: альтернативные имена для некоторых символов формата (только U + FEFF «ZERO WIDTH NO-BREAK SPACE», у которого есть псевдоним «BYTE ORDER MARK»);
- Рисунок: Документированные метки для некоторых функций управляющего кода C1, которые не являются действительными именами ни в одном стандарте;
- Аббревиатура: аббревиатуры или акронимы для управляющих кодов, символов формата, пробелов и селекторов вариантов.
Все формальные псевдонимы имен символов соответствуют правилам для допустимых имен символов и гарантированно уникальны как в псевдониме имени символа, так и в пространстве имен символов (по этой причине имя ISO 6429 «BELL» не определено как псевдоним для U +0007, потому что U + 1F514 назван "BELL"). [1]
Начиная с Unicode версии 12.1, двадцать восемь формальных псевдонимов имен символов определены как исправления для дефектных имен символов. [3]
Характер | Имя | Псевдоним | |
---|---|---|---|
01A2 | Ƣ | ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА OI | ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА ГСГ |
01A3 | ƣ | ЛАТИНСКАЯ СТРОЧНАЯ БУКВА OI | ЛАТИНСКАЯ СТРОЧНАЯ БУКВА ГСГ |
0709 | ܉ | СИРИЙСКАЯ СУБЛИНЕЙНАЯ КОЛОНКА С СКОРОМ ВПРАВО | СИРИЙСКАЯ СУБЛИНЕЙНАЯ КОЛОНКА С СКОРОМ ВЛЕВО |
0CDE | ೞ | КАННАДА ПИСЬМО FA | КАННАДА ПИСЬМО LLLA |
0E9D | ຝ | ЛАО ПИСЬМО ФО ТАМ | LAO ПИСЬМО FO FON |
0E9F | ຟ | ЛАО ПИСЬМО ФО СУНГ | LAO ПИСЬМО FO FAY |
0EA3 | ຣ | ЛАО ПИСЬМО ЛО ЛИНГ | ЛАО ПИСЬМО RO |
0EA5 | ລ | LAO ПИСЬМО ЛО ЛУТ | ЛАО ПИСЬМО ЛО |
0FD0 | ࿐ | ТИБЕТСКИЙ МАРК БСКА- ШОГ ГИ МГО РГЯН | ТИБЕТСКИЙ МАРК БКА- ШОГ ГИ МГО РГЯН |
11EC | ᇬ | ХАНГЫЛЬ ЧОНСОН ИЁН-КИЕОК | ХАНГЫЛЬ ЧОНСОН ЕСИЁН-КИЕОК |
11ED | ᇭ | HANGUL JONGSEONG IEUNG-SSANGKIYEOK | ХАНГЫЛЬ ЧОНГСОН ЕСИЁН-ССАНГИЕОК |
11EE | ᇮ | ХАНГЫЛЬ ЧОНСОН САНГИЁН | ХАНГЫЛЬ ЧОНГСОН ССАНГЕСЫУН |
11EF | ᇯ | ХАНГЫЛЬ ЧОНСОН ИЫН-КИЕУК | ХАНГЫЛЬ ЧОНСОН ЕСЬЮН-КИЕУК |
2118 | ℘ | ЗАГЛАВНАЯ СТРАНИЦА P | ЭЛЛИПТИЧЕСКАЯ ФУНКЦИЯ WEIERSTRASS |
2448 | ⑈ | OCR DASH | MICR НА СИМВОЛЕ США |
2449 | ⑉ | НОМЕР УЧЕТНОЙ ЗАПИСИ КЛИЕНТА OCR | СИМВОЛ MICR DASH |
2B7A | ⭺ | ТРЕУГОЛЬНАЯ СТРЕЛКА ВЛЕВО С ДВОЙНЫМ ГОРИЗОНТАЛЬНЫМ ХОДОМ | ТРЕУГОЛЬНАЯ СТРЕЛКА ВЛЕВО С ДВОЙНЫМ ВЕРТИКАЛЬНЫМ ХОДОМ |
2B7C | ⭼ | ТРЕУГОЛЬНАЯ СТРЕЛКА ВПРАВО С ДВОЙНЫМ ГОРИЗОНТАЛЬНЫМ штрихом | ТРЕУГОЛЬНАЯ СТРЕЛКА ВПРАВО С ДВОЙНЫМ ВЕРТИКАЛЬНЫМ ХОДОМ |
A015 | ꀕ | YI SYLLABLE WU | YI СЛОВОЙ ИТЕРАЦИОННЫЙ ЗНАК |
FE18 | ︘ | ФОРМА ПРЕЗЕНТАЦИИ ДЛЯ ВЕРТИКАЛЬНОГО ПРАВОГО БЕЛОГО ЛЕНТИКУЛЯРНОГО ТОРМОЗА | ФОРМА ПРЕЗЕНТАЦИИ ДЛЯ ВЕРТИКАЛЬНОГО ПРАВОГО БЕЛОГО ЛЕНТИКУЛЯРНОГО СКОБА |
122D4 | 𒋔 | CUNEIFORM SIGN SHIR TENU | КУНЕЙНЫЙ ЗНАК NU11 TENU |
122D5 | 𒋕 | РУБАШКА CUNEIFORM SIGN, ОБОРУДОВАННАЯ НА РУБАШКЕ | ЗНАК CUNEIFORM NU11 НАД NU11 BUR OVER BUR |
16E56 | 𖹖 | МЕДЕФАЙДРИН ЗАГЛАВНАЯ БУКВА HP | МЕДЕФАЙДРИН ЗАГЛАВНАЯ БУКВА H |
16E57 | 𖹗 | МЕДЕФАЙДРИН ЗАГЛАВНАЯ БУКВА NY | МЕДЕФАЙДРИН ЗАГЛАВНАЯ БУКВА NG |
16E76 | 𖹶 | МЕДЕФАЙДРИН СТРОЧНАЯ БУКВА HP | МЕДЕФАЙДРИН СТРОЧНАЯ БУКВА H |
16E77 | 𖹷 | МЕДЕФАЙДРИН СТРОЧНАЯ БУКВА NY | МЕДЕФАЙДРИН СТРОЧНАЯ БУКВА NG |
1B001 | 𛀁 | ХИРАГАНА ПИСЬМО АРХАИЧЕСКОЕ ДА | ХЕНТАЙГАНА ПИСЬМО E-1 |
1D0C5 | 𝃅 | ВИЗАНТИЙСКИЙ МУЗЫКАЛЬНЫЙ СИМВОЛ FHTORA SKLIRON CHROMA VASIS | ВИЗАНТИЙСКИЙ МУЗЫКАЛЬНЫЙ СИМВОЛ FTHORA SKLIRON CHROMA VASIS |
Помимо этих нормативных имен, в таблицах кодов Unicode могут отображаться неофициальные имена . Это другие часто используемые имена для символа, и их необязательно ограничивать буквами A – Z, цифрами 0–9, - (дефис-минус) и <пробел>. Уникальность этих неофициальных имен не гарантируется, и они могут быть изменены или удалены в более поздних версиях стандарта.
Общая категория [ править ]
Каждой кодовой точке присваивается значение для общей категории. Это одно из свойств символа, которые также определены для неназначенных кодовых точек и кодовых точек, которые определены как «не символ».
Общая категория ( свойство символа Unicode ) [a] | |||||
---|---|---|---|---|---|
Ценить | Категория Major, minor | Базовый тип [b] | Назначенный символ [b] | Подсчитать (по состоянию на 13.0) | Замечания |
L, буква | |||||
Лу | Буква в верхнем регистре | Графический | Характер | 1,791 | |
Ll | Буква в нижнем регистре | Графический | Характер | 2155 | |
Lt | Буква, заглавие | Графический | Характер | 31 год | Лигатуры, содержащие прописные буквы, за которыми следуют строчные буквы (например, Dž , Lj , Nj и Dz ) |
Lm | Буква, модификатор | Графический | Характер | 260 | Модификатор письмо |
Ло | Письмо, другое | Графический | Характер | 127 004 | Иероглиф или письмо в Unicase алфавите |
М, Марк | |||||
Mn | Марк, без промежутка | Графический | Характер | 1839 | |
Mc | Отметка, интервал совмещения | Графический | Характер | 443 | |
Мне | Марка, включающая | Графический | Характер | 13 | |
N, число | |||||
Nd | Число, десятичная цифра | Графический | Характер | 650 | Все они, и только они, имеют числовой тип = De [c] |
Nl | Число, буква | Графический | Характер | 236 | Цифры, состоящие из букв или буквоподобных символов (например, римские цифры ) |
Нет | Число, другое | Графический | Характер | 895 | Например, вульгарные дроби , надстрочные и подстрочные цифры. |
P, пунктуация | |||||
ПК | Пунктуация, разъем | Графический | Характер | 10 | Включает подчеркивание "_" |
Pd | Пунктуация, тире | Графический | Характер | 25 | Включает несколько знаков дефиса |
Ps | Пунктуация, открытая | Графический | Характер | 75 | Открытие скобки символов |
Pe | Знаки препинания, закрыть | Графический | Характер | 73 | Символы закрывающей скобки |
число Пи | Пунктуация, начальная цитата | Графический | Характер | 12 | Открывающая кавычка . Не включает "нейтральные" кавычки ASCII. Может вести себя как Ps или Pe в зависимости от использования |
ПФ | Пунктуация, заключительная цитата | Графический | Характер | 10 | Закрывающая кавычка. Может вести себя как Ps или Pe в зависимости от использования |
По | Пунктуация, другое | Графический | Характер | 593 | |
S, символ | |||||
См | Символ, математика | Графический | Характер | 948 | Математические символы (например, + , - , = , × , ÷ , √ , ∊ , ≠ ). Не включает круглые и квадратные скобки, которые есть в категориях Ps и Pe. Также не входит ! , * , - или / , которые, несмотря на частое использование в качестве математических операторов, в первую очередь считаются «пунктуацией». |
Sc | Символ, валюта | Графический | Характер | 62 | Символы валюты |
Sk | Символ, модификатор | Графический | Характер | 123 | |
Так | Символ, другое | Графический | Характер | 6 431 | |
Z, разделитель | |||||
Zs | Разделитель, пробел | Графический | Характер | 17 | Включает пробел, но не включает TAB , CR или LF , которые являются Cc |
Zl | Разделитель, линия | Формат | Характер | 1 | Только U + 2028 СЕПАРАТОР ЛИНИИ (LSEP) |
Zp | Разделитель, абзац | Формат | Характер | 1 | Только U + 2029 РАЗДЕЛИТЕЛЬ ПАРАМЕТРОВ (PSEP) |
C, Другое | |||||
Копия | Другое, контроль | Контроль | Характер | 65 (никогда не изменится) [c] | Без имени, [d] <control> |
Cf | Другое, формат | Формат | Характер | 161 | Включает мягкий дефис , объединяющие управляющие символы ( zwnj и zwj ), управляющие символы для поддержки двунаправленного текста и символы языковых тегов. |
CS | Другой, суррогатный | Суррогат | Не (но абстрактно) | 2048 (никогда не изменится) [c] | Без имени, [d] <суррогат> |
Co | Другое, личное использование | Частное использование | Не (но абстрактно) | Всего 137 468 (никогда не изменится) [c] ( 6400 в BMP , 131 068 в самолетах 15–16 ) | Без имени, [d] <private-use> |
Cn | Другое, не назначено | Нехарактерный | Нет | 66 (никогда не изменится) [c] | Без имени, [d] <несимвола> |
Зарезервированный | Нет | 830 606 | Без имени, [d] <зарезервировано> | ||
|
Пунктуация [ править ]
У символов есть отдельные свойства, чтобы обозначить, что они являются символом пунктуации . Все свойства имеют значения Да / Нет : Dash , Quotation_Mark , Sentence_Terminal , Terminal_Punctuation .
Этот раздел нуждается в расширении . Вы можете помочь, добавив к нему . ( Февраль 2012 г. ) |
Пробел [ править ]
Пробелы - это часто используемое понятие для создания типографского эффекта. В основном он охватывает невидимые символы, которые имеют эффект интервала в отображаемом тексте. Он включает в себя пробелы , табуляции и элементы управления форматированием новой строки. В Юникоде для такого символа установлено свойство WSpace = yes. В версии 13.0 25 пробелов.
Имя | Кодовая точка | Коробка ширины | Может сломаться ? | В IDN ? | Сценарий | Блокировать | Общая категория | Примечания | |
---|---|---|---|---|---|---|---|---|---|
табуляция символов | U + 0009 | 9 | да | Нет | Общий | Базовая латынь | Другое, контроль | HT, горизонтальная табуляция . HTML / XML именованный объект : 	 , LaTeX : '\ вкладка' | |
перевод строки | U + 000A | 10 | Это разрыв строки | Общий | Базовая латынь | Другое, контроль | LF, перевод строки . Именованный объект HTML / XML:
 | ||
табуляция строк | U + 000B | 11 | Это разрыв строки | Общий | Базовая латынь | Другое, контроль | VT, вертикальная вкладка | ||
подача формы | U + 000C | 12 | Это разрыв строки | Общий | Базовая латынь | Другое, контроль | FF, подача формы | ||
возврат каретки | U + 000D | 13 | Это разрыв строки | Общий | Базовая латынь | Другое, контроль | CR, возврат каретки | ||
Космос | U + 0020 | 32 | да | Нет | Общий | Базовая латынь | Разделитель, пробел | Чаще всего (обычное пространство ASCII) | |
следующая строка | U + 0085 | 133 | Это разрыв строки | Общий | Дополнение Latin-1 | Другое, контроль | NEL, Следующая строка | ||
беспрерывное пространство | U + 00A0 | 160 | Нет | Нет | Общий | Дополнение Latin-1 | Разделитель, пробел | Неразрывный пробел : идентичен U + 0020, но не точка, в которой линия может быть прервана. Именованный объект HTML / XML:, LaTeX: '\' | |
Огамовый пробел | U + 1680 | 5760 | да | Нет | Огам | Огам | Разделитель, пробел | Используется для разделения слов в огамском тексте. Обычно это вертикальная линия в вертикальном тексте или горизонтальная линия в горизонтальном тексте, но также может быть пустым пространством в шрифтах без основы. Требуется шрифт Огам. | |
en quad | U + 2000 | 8192 | да | Нет | Общий | Общая пунктуация | Разделитель, пробел | Ширина одного эн . U + 2002 канонически эквивалентен этому персонажу; U + 2002 предпочтительнее. | |
em quad | U + 2001 | 8193 | да | Нет | Общий | Общая пунктуация | Разделитель, пробел | Также известен как «баранья четверка». Ширина одной эм . U + 2003 канонически эквивалентен этому персонажу; U + 2003 предпочтительнее. | |
en space | U + 2002 | 8194 | да | Нет | Общий | Общая пунктуация | Разделитель, пробел | Также известен как «орех». Ширина одного эн . U + 2000 En Quad канонически эквивалентен этому персонажу; U + 2002 предпочтительнее. Именованный объект HTML / XML:,   LaTeX: '\ enspace' | |
em пробел | U + 2003 | 8195 | да | Нет | Общий | Общая пунктуация | Разделитель, пробел | Также известен как «баранина». Ширина одной эм . U + 2001 Em Quad канонически эквивалентен этому персонажу; U + 2003 предпочтительнее. Именованный объект HTML / XML:,   LaTeX: '\ quad' | |
пробел по три на каждую | U + 2004 | 8196 | да | Нет | Общий | Общая пунктуация | Разделитель, пробел | Также известен как «толстое пространство». Одна треть em шириной. Именованный объект HTML / XML:  | |
четыре пробела на каждую | U + 2005 | 8197 | да | Нет | Общий | Общая пунктуация | Разделитель, пробел | Также известен как «средний космос». Одна четверть em шириной. Именованный объект HTML / XML:  | |
шесть пробелов на каждую | U + 2006 | 8198 | да | Нет | Общий | Общая пунктуация | Разделитель, пробел | Одна шестая дюйма шириной. В компьютерной типографике иногда приравнивается к U + 2009. | |
фигура пространство | U + 2007 | 8199 | Нет | Нет | Общий | Общая пунктуация | Разделитель, пробел | Фигурное пространство . В шрифтах с моноширинными цифрами, равными ширине одной цифры. Именованный объект HTML / XML:  | |
пробел | U + 2008 | 8200 | да | Нет | Общий | Общая пунктуация | Разделитель, пробел | Такой же ширины, как и узкая пунктуация в шрифте, т. Е. Ширина точки или запятой. [4] Именованный объект HTML / XML:  | |
тонкое пространство | U + 2009 | 8201 | да | Нет | Общий | Общая пунктуация | Разделитель, пробел | Тонкое пространство ; одна пятая (иногда одна шестая) ширины em. Рекомендуется для использования в качестве разделителя тысяч для измерений в единицах СИ . В отличие от U + 2002 - U + 2008, его ширина может регулироваться при наборе. [5] HTML / XML именованный объект:   ; LaTeX: '\,' | |
пространство для волос | U + 200A | 8202 | да | Нет | Общий | Общая пунктуация | Разделитель, пробел | Тоньше тонкого пространства. Именованный объект HTML / XML:   ( работает не во всех браузерах) | |
разделитель строк | U + 2028 | 8232 | Это разрыв строки | Общий | Общая пунктуация | Разделитель, линия | |||
разделитель абзацев | U + 2029 | 8233 | Это разрыв строки | Общий | Общая пунктуация | Разделитель, абзац | |||
узкое неразрывное пространство | U + 202F | 8239 | Нет | Нет | Общий | Общая пунктуация | Разделитель, пробел | Узкое пространство без перерывов . По функциям аналогичен U + 00A0 No-Break Space. При использовании с монгольским языком его ширина обычно составляет треть нормального пространства; в другом контексте его ширина иногда напоминает ширину Тонкого пространства (U + 2009). | |
среднее математическое пространство | U + 205F | 8287 | да | Нет | Общий | Общая пунктуация | Разделитель, пробел | MMSP. Используется в математических формулах. Четыре восемнадцатые эм. [6] В математической типографике ширина пробелов обычно указывается в целых числах, кратных восемнадцатой em, и 4/18 em может использоваться в нескольких ситуациях, например, между a и + и между + и b в выражении a + b . [7] Именованный объект HTML / XML:  | |
идеографическое пространство | U + 3000 | 12288 | да | Нет | Общий | Символы и знаки препинания CJK | Разделитель, пробел | По ширине, как ячейка символа CJK ( полная ширина ). Используется, например, в тай тоу . |
Имя | Кодовая точка | Коробка ширины | Может сломаться ? | В IDN ? | Сценарий | Блокировать | Общая категория | Примечания | |
---|---|---|---|---|---|---|---|---|---|
монгольский разделитель гласных | U + 180E | 6158 | | да | Нет | Монгольский | Монгольский | Другое, Формат | МВС. Символ с узким пробелом, используемый в монгольском языке, чтобы последние два символа слова принимали разные формы. [8] Он больше не классифицируется как пробел (т. Е. В категории Zs) в Unicode 6.3.0, хотя это было в предыдущих версиях стандарта. |
пространство нулевой ширины | U + 200B | 8203 | Взаимодействие с другими людьми | да | Нет | ? | Общая пунктуация | Другое, Формат | ZWSP, пространство нулевой ширины . Используется для обозначения границ слов для систем обработки текста при использовании скриптов, в которых не используется явный интервал. Он похож на мягкий дефис , с той разницей, что последний используется для обозначения границ слогов и должен отображать видимый дефис, когда линия разрывается на нем. Именованный объект HTML / XML : ​ [9] [c] |
без стыковки с нулевой шириной | U + 200C | 8204 | | да | Зависит от контекста [14] | ? | Общая пунктуация | Другое, Формат | ZWNJ, без стыковки с нулевой шириной . При размещении между двумя символами, которые в противном случае были бы связаны, ZWNJ заставляет их печатать в их окончательной и исходной формах соответственно. Именованный объект HTML / XML:‌ |
соединитель нулевой ширины | U + 200D | 8205 | | да | Зависит от контекста [15] | ? | Общая пунктуация | Другое, Формат | ZWJ, соединитель нулевой ширины . При размещении между двумя символами, которые в противном случае не были бы связаны, ZWJ заставляет их печатать их в связанных формах. Также может использоваться для изолированного отображения объединяемых форм. В зависимости от того, ожидается ли по умолчанию лигатура или конъюнкт, может либо вызывать (как в смайликах, так и в сингальском ) или подавлять (как в Деванагари ) замену одним глифом, при этом разрешая использование отдельных форм соединения (в отличие от ZWNJ). Именованный объект HTML / XML:‍ |
соединитель слов | U + 2060 | 8288 | | Нет | Нет | ? | Общая пунктуация | Другое, Формат | WJ, соединитель слов . Подобно U + 200B, но не точка, в которой линия может быть прервана. Именованный объект HTML / XML:⁠ |
неразрывный пробел нулевой ширины | U + FEFF | 65279 | | Нет | Нет | ? | Формы представления на арабском языке -B | Другое, Формат | Неразрывный пробел нулевой ширины . Используется в основном как знак порядка байтов . Использование в качестве индикатора неразрывности устарело с Unicode 3.2; см. вместо этого U + 2060. |
|
Прочие общие характеристики [ править ]
Идеографический, буквенный, безхарактерный.
[ править ]
Формовка, ширина.
Двунаправленное письмо [ править ]
К двунаправленному письму относятся шесть свойств символов: Bidi_Class, Bidi_Control, Bidi_Mirrored, Bidi_Mirroring_Glyph, Bidi_Paired_Bracket и Bidi_Paired_Bracket_Type.
Одной из основных функций Unicode является поддержка двунаправленного ( Bidi ) отображения текста справа налево (R-to-L) и слева направо (L-to-R). Двунаправленный алгоритм Unicode UAX9 [17] описывает процесс представления текста с изменением направления сценария. Например, он включает цитату на иврите в английском тексте. Bidi_Character_Type отмечает поведение персонажа при направленном письме. Чтобы переопределить направление, Unicode определил специальные символы управления форматированием ( Bidi-Control s). Эти символы могут определять направление и по определению влияют только на двунаправленное письмо.
У каждой кодовой точки есть свойство Bidi_Class . Он определяет его поведение в двунаправленном тексте, интерпретируемом алгоритмом:
Тип [2] | Описание | Сила | Направленность | Общий объем | Символ Bidi_Control [3] |
---|---|---|---|---|---|
L | Слева направо | Сильный | Слева направо | Большинство алфавитных и слоговых символов, китайские иероглифы, неевропейские или неарабские цифры, символ LRM, ... | U + 200E МАРКА СЛЕВА НАПРАВО (LRM) |
р | Справа налево | Сильный | R-to-L | Адлам, иврит, мандайский, менде кикакуи, н'ко, самаритянский, древние письменности, такие как харошти и набатейский, персонаж RLM, ... | U + 200F ПРАВО НАЛЕВО МАРКА (RLM) |
AL | Арабское письмо | Сильный | R-to-L | Арабский, ханифи рохинджа, согдийский, сирийский и тханский алфавиты и большинство знаков препинания, характерных для этих алфавитов, символ ALM, ... | U + 061C АРАБСКАЯ БУКВА (ALM) |
EN | Европейский номер | Слабый | Европейские цифры, восточно-арабские-индийские цифры, коптские эпактные числа, ... | ||
ES | Европейский сепаратор | Слабый | знак плюс , минус , ... | ||
ET | Терминатор европейского номера | Слабый | знак градуса , символы валюты, ... | ||
AN | Арабский номер | Слабый | Арабско-индийские цифры, арабские десятичные дроби и разделители тысяч, цифры руми, цифры ханифи рохинья, ... | ||
CS | Общий разделитель чисел | Слабый | двоеточие , запятая , точка , неразрывный пробел , ... | ||
NSM | Непространственный знак | Слабый | Знаки в общих категориях: Отметить, без пробелов, и Отметить, заключить (Mn, Me) | ||
BN | Граница нейтральная | Слабый | Игнорируемые, несимволы, управляющие символы по умолчанию, кроме явно заданных других типов | ||
B | Разделитель абзацев | Нейтральный | разделитель абзацев , соответствующие функции новой строки, определение абзаца протокола более высокого уровня | ||
S | Разделитель сегментов | Нейтральный | Вкладки | ||
WS | Пробел | Нейтральный | пробел , пробел , разделитель строк , подача формы , общие пробелы в блоках пунктуации (меньший набор, чем список пробелов Unicode ) | ||
НА | Другие нейтральные | Нейтральный | Все остальные символы, включая символ замены объекта | ||
ЖРД | Вложение слева направо | Явный | Слева направо | Только символ LRE | U + 202A ЛЕВАЯ ВСТАВКА (LRE) |
МРО | Слева направо Переопределение | Явный | Слева направо | Только персонаж LRO | U + 202D ПЕРЕХОД СЛЕВА НАПРАВО (LRO) |
RLE | Вложение справа налево | Явный | R-to-L | Только символ RLE | U + 202B ПРАВОЕ ВЛОЖЕНИЕ (RLE) |
RLO | Переопределение справа налево | Явный | R-to-L | Только символ RLO | U + 202E ПЕРЕХОД ВПРАВО-ВЛЕВО (RLO) |
Поп-направленный формат | Явный | Только символ PDF | НАПРАВЛЕННОЕ ФОРМАТИРОВАНИЕ POP U + 202C (PDF) | ||
LRI | Изоляция слева направо | Явный | Слева направо | Только символ LRI | U + 2066 ИЗОЛЯЦИЯ СЛЕВА НАПРАВО (LRI) |
RLI | Изоляция справа налево | Явный | R-to-L | Только символ RLI | U + 2067 ИЗОЛЯЦИЯ ПРАВО-ЛЕВО (RLI) |
FSI | Первый сильный изолятор | Явный | Только символ FSI | U + 2068 ПЕРВЫЙ СИЛЬНЫЙ ИЗОЛЯТОР (FSI) | |
PDI | Поп-направленный изолятор | Явный | Только символ PDI | НАПРАВЛЕННЫЙ ИЗОЛЯТОР POP U + 2069 (PDI) | |
Примечания
|
В обычных ситуациях алгоритм может определять направление текста по этому свойству символа. Для управления более сложными ситуациями с Bidi, например, когда в английском тексте есть цитата на иврите, в Unicode добавляются дополнительные параметры. Двенадцать символов имеют свойство Bidi_Control = Yes : ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM и RLO, как указано в таблице. Это невидимые управляющие символы форматирования, используемые только алгоритмом и не имеющие никакого эффекта за пределами двунаправленного форматирования. [17] Несмотря на название, они являются символами форматирования, а не управляющими символами, и имеют общую категорию «Другой, формат (Cf)» в определении Unicode.
По сути, алгоритм определяет последовательность символов с одним и тем же строгим типом направления (R-to-L или L-to-R) с учетом отмены специальных элементов управления Bidi. Числовым строкам (слабые типы) присваивается направление в соответствии с их сильным окружением, как и нейтральным символам. Наконец, символы отображаются в соответствии с направлением строки.
Два свойства символа имеют отношение к определению зеркального отображения глифа в двунаправленном тексте: Bidi_Mirrored = Yes указывает, что глиф должен быть зеркальным при записи R-to-L. Свойство Bidi_Mirroring_Glyph = U + hhhh может затем указывать на зеркальный символ. Например, скобки «()» отражаются таким образом. Формирование рукописных шрифтов, таких как арабский, и зеркальное отображение глифов, имеющих направление, не является частью алгоритма.
Корпус [ править ]
Значение Case является нормативным в Юникоде. Это относится к тем скриптам, которые содержат прописные (они же заглавные, маюскульные) и строчные (маленькие, минускульные) буквы. Разница в регистре встречается в адламском, армянском, чероки, коптском, кириллице, десеретском, глаголице, греческом, хуцури и мхедрули грузинском, латинском, медефайдринском, старовенгерском, осейдж и варанг сити.
(верхний, нижний, заголовок, складной - простой и полный)
Числовые значения и типы [ править ]
Десятичный [ править ]
Символы классифицируются по числовому типу . [1] Такие символы, как дроби, подстрочные и надстрочные индексы, римские цифры, числители денежных единиц, числа в кружках и цифры, относящиеся к конкретному сценарию, относятся к типу «Числовой». Они имеют числовое значение, которое может быть десятичным, включая ноль и минус, или обычную дробь. Если такого значения нет, как у большинства символов, числовой тип - «Нет».
Символы, которые имеют числовое значение, разделены на три группы: десятичные (De), цифровые (Di) и числовые (Nu, т. Е. Все остальные). «Десятичный» означает, что символ представляет собой прямую десятичную цифру. Числовой тип Decimal имеют только символы, входящие в непрерывный диапазон кодирования 0–9. Другие цифры, например надстрочные, имеют числовой тип Digit. Все числовые символы, такие как дроби и римские цифры, заканчиваются типом «Числовой». Предполагаемый эффект состоит в том, что простой синтаксический анализатор может использовать эти десятичные числовые значения, не отвлекаясь, скажем, на числовой верхний индекс или дробь. Семьдесят три иероглифа CJK, которые представляют собой числа, в том числе используемые для бухгалтерского учета, набираются числовыми.
С другой стороны, символы, которые могут иметь числовое значение в качестве второго значения, по-прежнему помечаются как числовой тип «Нет» и не имеют числового значения («»). Например, в нумерации абзацев можно использовать латинские буквы, такие как «II.A.1.b», но буквы «I», «A» и «b» не являются числовыми (тип «None») и не имеют числового значения.
Числовой тип [a] [b] ( свойство символа Юникода ) | ||||
---|---|---|---|---|
Числовой тип | Код | Имеет числовое значение | Пример | Замечания |
Не числовой | None | Нет |
| Числовое значение = "NaN" |
Десятичный | De | да |
| Прямая цифра (десятичная система счисления ). В обоих случаях соответствует General Category = Nd [a] |
Цифра | Di | да |
| Десятичный, но в типографском контексте |
Числовой | Nu | да |
| Числовое значение, но не десятичная система счисления |
а. ^ «Раздел 4.6: Числовое значение» (PDF) . Стандарт Юникода . Консорциум Unicode. Март 2020. | ||||
б. ^ «Производные числовые типы Unicode 13.0» . База данных символов Юникода . Консорциум Unicode. 2019-09-08. |
Шестнадцатеричные цифры [ править ]
Шестнадцатеричные символы - это символы в серии с шестнадцатеричными значениями 0 ... 9ABCDEF (шестнадцать символов, десятичное значение 0–15). Свойство символа Hex_Digit имеет значение Да, когда персонаж находится в такой серии:
Символы в Юникоде, отмеченные Hex_Digit=Yes [a] | |||
---|---|---|---|
0123456789ABCDEF | Базовая латиница, заглавные буквы | Также ASCII_Hex_Digit=Yes | |
0123456789abcdef | Базовая латиница, строчные буквы | Также ASCII_Hex_Digit=Yes | |
0123456789ABCDEF | Полноширинные формы , заглавные буквы | ||
0123456789abcdef | Полноширинные формы, строчные буквы | ||
а. ^ "Unicode 13.0 UCD: PropList.txt" . 2019-11-27 . Проверено 12 марта 2020 . |
Сорок четыре символа помечены как Hex_Digit. Те, что в блоке Basic Latin, также помечены как ASCII_Hex_Digit .
Юникод не имеет отдельных символов для шестнадцатеричных значений. Следствием этого является то, что при использовании обычных символов невозможно определить, предназначено ли шестнадцатеричное значение или даже предназначено ли оно вообще. Это должно быть определено на более высоком уровне, например, добавлением «0x» к шестнадцатеричному числу или контекстом. Единственная особенность заключается в том, что Unicode может отметить, что последовательность может быть или не может быть шестнадцатеричным значением.
Заблокировать [ редактировать ]
Блок представляет собой уникальное имя, непрерывный диапазон кодовых точек. Он идентифицируется его первой и последней кодовой точкой. Блоки не перекрываются . Блок может содержать кодовые точки, которые зарезервированы, не присвоено и т.д. Каждый символ , который будет назначен, имеет один «имя блока» значение из 308 имен , присвоенных в версии Unicode 13.0 Нераспределенных кодовых точек вне существующего блока, имеет значение по умолчанию «No_block».
Самолет | Блокировать диапазон | Имя блока | Кодовые точки [a] | Назначенные символы | Скрипты [b] [c] [d] [e] [f] |
---|---|---|---|---|---|
0 BMP | U + 0000..U + 007F | Базовая латынь [g] | 128 | 128 | Латинский (52 символа), Обычный (76 символов) |
0 BMP | U + 0080..U + 00FF | Дополнение Latin-1 [h] | 128 | 128 | Латинский (64 символа), Обычный (64 символа) |
0 BMP | U + 0100..U + 017F | Расширенная латиница-A | 128 | 128 | латинский |
0 BMP | U + 0180..U + 024F | Расширенная латиница-B | 208 | 208 | латинский |
0 BMP | U + 0250..U + 02AF | Расширения IPA | 96 | 96 | латинский |
0 BMP | U + 02B0..U + 02FF | Буквы модификатора интервала | 80 | 80 | Bopomofo (2 символа), Latin (14 символов), Common (64 символа) |
0 BMP | U + 0300..U + 036F | Объединение диакритических знаков | 112 | 112 | Унаследовано |
0 BMP | U + 0370..U + 03FF | Греческий и коптский | 144 | 135 | Коптский (14 символов), греческий (117 символов), общий (4 символа) |
0 BMP | U + 0400..U + 04FF | Кириллица | 256 | 256 | Кириллица (254 символа), Унаследованное (2 символа) |
0 BMP | U + 0500..U + 052F | Дополнение к кириллице | 48 | 48 | Кириллица |
0 BMP | U + 0530..U + 058F | Армянский | 96 | 91 | Армянский |
0 BMP | U + 0590..U + 05FF | иврит | 112 | 88 | иврит |
0 BMP | U + 0600..U + 06FF | арабский | 256 | 255 | Арабский (237 символов), Общий (6 символов), Унаследованный (12 символов) |
0 BMP | U + 0700..U + 074F | Сирийский | 80 | 77 | Сирийский |
0 BMP | U + 0750..U + 077F | Дополнение на арабском языке | 48 | 48 | арабский |
0 BMP | U + 0780..U + 07BF | Thaana | 64 | 50 | Thaana |
0 BMP | U + 07C0..U + 07FF | НКо | 64 | 62 | Nko |
0 BMP | U + 0800..U + 083F | Самаритянин | 64 | 61 | Самаритянин |
0 BMP | U + 0840..U + 085F | Мандаикский | 32 | 29 | Мандаикский |
0 BMP | U + 0860..U + 086F | Сирийское дополнение | 16 | 11 | Сирийский |
0 BMP | U + 08A0..U + 08FF | Арабский расширенный-A | 96 | 84 | Арабский (83 символа), Общий (1 символ) |
0 BMP | U + 0900..U + 097F | Деванагари | 128 | 128 | Деванагари (122 символа), Обычный (2 символа), Унаследованный (4 символа) |
0 BMP | U + 0980..U + 09FF | Бенгальский | 128 | 96 | Бенгальский |
0 BMP | U + 0A00..U + 0A7F | Гурмукхи | 128 | 80 | Гурмукхи |
0 BMP | U + 0A80..U + 0AFF | Гуджарати | 128 | 91 | Гуджарати |
0 BMP | U + 0B00..U + 0B7F | Ория | 128 | 91 | Ория |
0 BMP | U + 0B80..U + 0BFF | Тамильский | 128 | 72 | Тамильский |
0 BMP | U + 0C00..U + 0C7F | телугу | 128 | 98 | телугу |
0 BMP | U + 0C80..U + 0CFF | Каннада | 128 | 89 | Каннада |
0 BMP | U + 0D00..U + 0D7F | Малаялам | 128 | 118 | Малаялам |
0 BMP | U + 0D80..U + 0DFF | Сингальский | 128 | 91 | Сингальский |
0 BMP | U + 0E00..U + 0E7F | Тайский | 128 | 87 | Тайский (86 символов), Общий (1 символ) |
0 BMP | U + 0E80..U + 0EFF | Лаосский | 128 | 82 | Лаосский |
0 BMP | U + 0F00..U + 0FFF | тибетский | 256 | 211 | Тибетский (207 символов), Общий (4 символа) |
0 BMP | U + 1000..U + 109F | Мьянма | 160 | 160 | Мьянма |
0 BMP | U + 10A0..U + 10FF | Грузинский | 96 | 88 | Грузинский (87 символов), Общий (1 символ) |
0 BMP | U + 1100..U + 11FF | Хангыль джамо | 256 | 256 | Хангыль |
0 BMP | U + 1200..U + 137F | Эфиопский | 384 | 358 | Эфиопский |
0 BMP | U + 1380..U + 139F | Эфиопское дополнение | 32 | 26 год | Эфиопский |
0 BMP | U + 13A0..U + 13FF | Чероки | 96 | 92 | Чероки |
0 BMP | U + 1400..U + 167F | Единая слоговая речь канадских аборигенов | 640 | 640 | Канадские аборигены |
0 BMP | U + 1680..U + 169F | Огам | 32 | 29 | Огам |
0 BMP | U + 16A0..U + 16FF | Рунический | 96 | 89 | Рунический (86 символов), Обычный (3 символа) |
0 BMP | U + 1700..U + 171F | Тагальский | 32 | 20 | Тагальский |
0 BMP | U + 1720..U + 173F | Хануноо | 32 | 23 | Хануну (21 символ), Обычный (2 символа) |
0 BMP | U + 1740..U + 175F | Бухид | 32 | 20 | Бухид |
0 BMP | U + 1760..U + 177F | Tagbanwa | 32 | 18 | Tagbanwa |
0 BMP | U + 1780..U + 17FF | Кхмерский | 128 | 114 | Кхмерский |
0 BMP | U + 1800..U + 18AF | Монгольский | 176 | 157 | Монгольский (154 символа), Общий (3 символа) |
0 BMP | U + 18B0..U + 18FF | Унифицированная слоговая речь канадских аборигенов расширенная | 80 | 70 | Канадские аборигены |
0 BMP | U + 1900..U + 194F | Лимбу | 80 | 68 | Лимбу |
0 BMP | U + 1950..U + 197F | Тай Ле | 48 | 35 год | Тай Ле |
0 BMP | U + 1980..U + 19DF | Новый Тай Лю | 96 | 83 | Новый Тай Лю |
0 BMP | U + 19E0..U + 19FF | Кхмерские символы | 32 | 32 | Кхмерский |
0 BMP | U + 1A00..U + 1A1F | Бугийский | 32 | 30 | Бугийский |
0 BMP | U + 1A20..U + 1AAF | Тай Тхам | 144 | 127 | Тай Тхам |
0 BMP | U + 1AB0..U + 1AFF | Расширенное объединение диакритических знаков | 80 | 17 | Унаследовано |
0 BMP | U + 1B00..U + 1B7F | Балийский | 128 | 121 | Балийский |
0 BMP | U + 1B80..U + 1BBF | Суданский | 64 | 64 | Суданский |
0 BMP | U + 1BC0..U + 1BFF | Батак | 64 | 56 | Батак |
0 BMP | У + 1C00..U + 1C4F | Лепча | 80 | 74 | Лепча |
0 BMP | U + 1C50..U + 1C7F | Ол Чики | 48 | 48 | Ол Чики |
0 BMP | У + 1C80..U + 1C8F | Кириллица расширенная-C | 16 | 9 | Кириллица |
0 BMP | U + 1C90..U + 1CBF | Грузинский расширенный | 48 | 46 | Грузинский |
0 BMP | U + 1CC0..U + 1CCF | Сунданская добавка | 16 | 8 | Суданский |
0 BMP | U + 1CD0..U + 1CFF | Ведические расширения | 48 | 43 год | Обычный (16 символов), Унаследованный (27 символов) |
0 BMP | U + 1D00..U + 1D7F | Фонетические расширения | 128 | 128 | Кириллица (2 символа), греческий (15 символов), латинский (111 символов) |
0 BMP | U + 1D80..U + 1DBF | Дополнение к фонетическим расширениям | 64 | 64 | Греческий (1 символ), латинский (63 символа) |
0 BMP | У + 1DC0..U + 1DFF | Дополнение для комбинирования диакритических знаков | 64 | 63 | Унаследовано |
0 BMP | U + 1E00..U + 1EFF | Латинская расширенная дополнительная | 256 | 256 | латинский |
0 BMP | U + 1F00..U + 1FFF | Греческий расширенный | 256 | 233 | Греческий |
0 BMP | U + 2000..U + 206F | Общая пунктуация | 112 | 111 | Обычный (109 символов), Унаследованный (2 символа) |
0 BMP | U + 2070..U + 209F | Верхние и нижние индексы | 48 | 42 | Латинский (15 символов), Обычный (27 символов) |
0 BMP | U + 20A0..U + 20CF | Символы валюты | 48 | 32 | Общий |
0 BMP | U + 20D0..U + 20FF | Комбинирование диакритических знаков для символов | 48 | 33 | Унаследовано |
0 BMP | U + 2100..U + 214F | Буквоподобные символы | 80 | 80 | Греческий (1 символ), Латинский (4 символа), Обычный (75 символов) |
0 BMP | U + 2150..U + 218F | Числовые формы | 64 | 60 | Латинский (41 символ), Обычный (19 символов) |
0 BMP | U + 2190..U + 21FF | Стрелки | 112 | 112 | Общий |
0 BMP | U + 2200..U + 22FF | Математические операторы | 256 | 256 | Общий |
0 BMP | U + 2300..U + 23FF | Разное Техническое | 256 | 256 | Общий |
0 BMP | U + 2400..U + 243F | Контрольные изображения | 64 | 39 | Общий |
0 BMP | U + 2440..U + 245F | Оптическое распознавание символов | 32 | 11 | Общий |
0 BMP | U + 2460..U + 24FF | Вложенные буквенно-цифровые символы | 160 | 160 | Общий |
0 BMP | U + 2500..U + 257F | Рисунок Коробки | 128 | 128 | Общий |
0 BMP | U + 2580..U + 259F | Блочные элементы | 32 | 32 | Общий |
0 BMP | U + 25A0..U + 25FF | Геометрические фигуры | 96 | 96 | Общий |
0 BMP | U + 2600..U + 26FF | Разные символы | 256 | 256 | Общий |
0 BMP | U + 2700..U + 27BF | Дингбаты | 192 | 192 | Общий |
0 BMP | U + 27C0..U + 27EF | Разные математические символы-A | 48 | 48 | Общий |
0 BMP | U + 27F0..U + 27FF | Дополнительные стрелки-A | 16 | 16 | Общий |
0 BMP | U + 2800..U + 28FF | Шаблоны Брайля | 256 | 256 | Шрифт Брайля |
0 BMP | U + 2900..U + 297F | Дополнительные стрелки-B | 128 | 128 | Общий |
0 BMP | U + 2980..U + 29FF | Разные математические символы-B | 128 | 128 | Общий |
0 BMP | U + 2A00..U + 2AFF | Дополнительные математические операторы | 256 | 256 | Общий |
0 BMP | U + 2B00..U + 2BFF | Разные символы и стрелки | 256 | 253 | Общий |
0 BMP | U + 2C00..U + 2C5F | Глаголица | 96 | 94 | Глаголица |
0 BMP | У + 2C60..U + 2C7F | Расширенная латиница-C | 32 | 32 | латинский |
0 BMP | U + 2C80..U + 2CFF | Коптский | 128 | 123 | Коптский |
0 BMP | У + 2D00..U + 2D2F | Грузинская добавка | 48 | 40 | Грузинский |
0 BMP | У + 2Д30..У + 2Д7Ф | Тифинаг | 80 | 59 | Тифинаг |
0 BMP | У + 2Д80..У + 2ДДФ | Эфиопский расширенный | 96 | 79 | Эфиопский |
0 BMP | U + 2DE0..U + 2DFF | Кириллица расширенная-A | 32 | 32 | Кириллица |
0 BMP | U + 2E00..U + 2E7F | Дополнительная пунктуация | 128 | 83 | Общий |
0 BMP | U + 2E80..U + 2EFF | Дополнение CJK Radicals | 128 | 115 | Хан |
0 BMP | U + 2F00..U + 2FDF | Kangxi Radicals | 224 | 214 | Хан |
0 BMP | U + 2FF0..U + 2FFF | Символы идеографического описания | 16 | 12 | Общий |
0 BMP | U + 3000..U + 303F | Символы и знаки препинания CJK | 64 | 64 | Хан (15 символов), Хангыль (2 символа), Обычный (43 символа), Унаследованный (4 символа) |
0 BMP | U + 3040..U + 309F | Хирагана | 96 | 93 | Хирагана (89 символов), Обычный (2 символа), Унаследованный (2 символа) |
0 BMP | U + 30A0..U + 30FF | Катакана | 96 | 96 | Катакана (93 символа), Обычный (3 символа) |
0 BMP | U + 3100..U + 312F | Бопомофо | 48 | 43 год | Бопомофо |
0 BMP | U + 3130..U + 318F | Совместимость с хангыль Джамо | 96 | 94 | Хангыль |
0 BMP | U + 3190..U + 319F | Канбун | 16 | 16 | Общий |
0 BMP | U + 31A0..U + 31BF | Бопомофо расширенный | 32 | 32 | Бопомофо |
0 BMP | U + 31C0..U + 31EF | CJK инсульты | 48 | 36 | Общий |
0 BMP | U + 31F0..U + 31FF | Фонетические расширения катаканы | 16 | 16 | Катакана |
0 BMP | U + 3200..U + 32FF | Прилагаемые письма и месяцы CJK | 256 | 255 | Хангыль (62 символа), Катакана (47 символов), Общий (146 символов) |
0 BMP | U + 3300..U + 33FF | Совместимость с CJK | 256 | 256 | Катакана (88 символов), Обычный (168 символов) |
0 BMP | U + 3400..U + 4DBF | Расширение унифицированных иероглифов CJK A | 6 592 | 6 592 | Хан |
0 BMP | У + 4DC0..U + 4DFF | Символы гексаграммы Ицзин | 64 | 64 | Общий |
0 BMP | U + 4E00..U + 9FFF | Единые иероглифы CJK | 20 992 | 20 989 | Хан |
0 BMP | U + A000..U + A48F | Yi слоги | 1,168 | 1,165 | Йи |
0 BMP | U + A490..U + A4CF | Yi Radicals | 64 | 55 | Йи |
0 BMP | U + A4D0..U + A4FF | Лису | 48 | 48 | Лису |
0 BMP | U + A500..U + A63F | Вай | 320 | 300 | Вай |
0 BMP | U + A640..U + A69F | Кириллица расширенная-B | 96 | 96 | Кириллица |
0 BMP | U + A6A0..U + A6FF | Бамум | 96 | 88 | Бамум |
0 BMP | U + A700..U + A71F | Буквы тона модификатора | 32 | 32 | Общий |
0 BMP | U + A720..U + A7FF | Расширенная латиница-D | 224 | 180 | Латинский (175 символов), Обычный (5 символов) |
0 BMP | U + A800..U + A82F | Силоти Нагри | 48 | 45 | Силоти Нагри |
0 BMP | U + A830..U + A83F | Общие индийские числовые формы | 16 | 10 | Общий |
0 BMP | U + A840..U + A87F | Phags-pa | 64 | 56 | Phags Pa |
0 BMP | U + A880..U + A8DF | Саураштра | 96 | 82 | Саураштра |
0 BMP | U + A8E0..U + A8FF | Деванагари расширенный | 32 | 32 | Деванагари |
0 BMP | U + A900..U + A92F | Кая Ли | 48 | 48 | Кая Ли (47 символов), Обычный (1 символ) |
0 BMP | U + A930..U + A95F | Rejang | 48 | 37 | Rejang |
0 BMP | U + A960..U + A97F | Хангыль Джамо расширенный-А | 32 | 29 | Хангыль |
0 BMP | U + A980..U + A9DF | Яванский | 96 | 91 | Яванский (90 символов), общий (1 символ) |
0 BMP | U + A9E0..U + A9FF | Мьянма расширенный-B | 32 | 31 год | Мьянма |
0 BMP | U + AA00..U + AA5F | Чам | 96 | 83 | Чам |
0 BMP | U + AA60..U + AA7F | Мьянма Extended-A | 32 | 32 | Мьянма |
0 BMP | U + AA80..U + AADF | Тай Вьет | 96 | 72 | Тай Вьет |
0 BMP | U + AAE0..U + AAFF | Расширения Meetei Mayek | 32 | 23 | Митей Майек |
0 BMP | U + AB00..U + AB2F | Эфиопский язык Extended-A | 48 | 32 | Эфиопский |
0 BMP | U + AB30..U + AB6F | Расширенная латиница-E | 64 | 60 | Латинский (56 символов), греческий (1 символ), общий (3 символа) |
0 BMP | U + AB70..U + ABBF | Дополнение Cherokee | 80 | 80 | Чероки |
0 BMP | U + ABC0..U + ABFF | Митей Майек | 64 | 56 | Митей Майек |
0 BMP | U + AC00..U + D7AF | Слоги хангыль | 11 184 | 11 172 | Хангыль |
0 BMP | U + D7B0..U + D7FF | Хангыль Джамо расширенный-B | 80 | 72 | Хангыль |
0 BMP | U + D800..U + DB7F | Высокие суррогаты | 896 | 0 | Неизвестный |
0 BMP | U + DB80..U + DBFF | Суррогаты с высоким уровнем частного использования | 128 | 0 | Неизвестный |
0 BMP | U + DC00..U + DFFF | Низкие суррогаты | 1,024 | 0 | Неизвестный |
0 BMP | U + E000..U + F8FF | Зона частного использования | 6 400 | 6 400 | Неизвестный |
0 BMP | U + F900..U + FAFF | Идеографы совместимости CJK | 512 | 472 | Хан |
0 BMP | U + FB00..U + FB4F | Алфавитные формы представления | 80 | 58 | Армянский (5 символов), иврит (46 символов), латинский (7 символов) |
0 BMP | U + FB50..U + FDFF | Формы представления на арабском языке-A | 688 | 611 | Арабский (609 символов), Общий (2 символа) |
0 BMP | U + FE00..U + FE0F | Селекторы вариаций | 16 | 16 | Унаследовано |
0 BMP | U + FE10..U + FE1F | Вертикальные формы | 16 | 10 | Общий |
0 BMP | U + FE20..U + FE2F | Комбинирование половинных отметок | 16 | 16 | Кириллица (2 символа), Наследуется (14 символов) |
0 BMP | U + FE30..U + FE4F | Формы совместимости CJK | 32 | 32 | Общий |
0 BMP | U + FE50..U + FE6F | Варианты малой формы | 32 | 26 год | Общий |
0 BMP | U + FE70..U + FEFF | Формы представления на арабском языке-B | 144 | 141 | Арабский (140 символов), общий (1 символ) |
0 BMP | U + FF00..U + FFEF | Формы половинной и полной ширины | 240 | 225 | Хангыль (52 символа), катакана (55 символов), латиница (52 символа), общий (66 символов) |
0 BMP | U + FFF0..U + FFFF | Специальные | 16 | 5 | Общий |
1 SMP | U + 10000..U + 1007F | Слоговое письмо линейного письма B | 128 | 88 | Линейное письмо B |
1 SMP | U + 10080..U + 100FF | Идеограммы линейного письма B | 128 | 123 | Линейное письмо B |
1 SMP | U + 10100..U + 1013F | Эгейские числа | 64 | 57 | Общий |
1 SMP | U + 10140..U + 1018F | Древнегреческие числа | 80 | 79 | Греческий |
1 SMP | U + 10190..U + 101CF | Древние символы | 64 | 14 | Греческий (1 символ), Общий (13 символов) |
1 SMP | U + 101D0..U + 101FF | Фестский диск | 48 | 46 | Обычный (45 символов), Унаследованный (1 символ) |
1 SMP | U + 10280..U + 1029F | Ликийский | 32 | 29 | Ликийский |
1 SMP | U + 102A0..U + 102DF | Карийский | 64 | 49 | Карийский |
1 SMP | U + 102E0..U + 102FF | Коптские номера эпактов | 32 | 28 год | Обычный (27 символов), Унаследованный (1 символ) |
1 SMP | U + 10300..U + 1032F | Старый курсив | 48 | 39 | Старый курсив |
1 SMP | U + 10330..U + 1034F | Готика | 32 | 27 | Готика |
1 SMP | U + 10350..U + 1037F | Старая Пермь | 48 | 43 год | Старая Пермь |
1 SMP | U + 10380..U + 1039F | Угаритский | 32 | 31 год | Угаритский |
1 SMP | U + 103A0..U + 103DF | Древнеперсидский | 64 | 50 | Древнеперсидский |
1 SMP | U + 10400..U + 1044F | Deseret | 80 | 80 | Deseret |
1 SMP | U + 10450..U + 1047F | Шавиан | 48 | 48 | Шавиан |
1 SMP | U + 10480..U + 104AF | Османья | 48 | 40 | Османья |
1 SMP | U + 104B0..U + 104FF | Осейдж | 80 | 72 | Осейдж |
1 SMP | U + 10500..U + 1052F | Эльбасан | 48 | 40 | Эльбасан |
1 SMP | U + 10530..U + 1056F | Кавказский албанский | 64 | 53 | Кавказский албанский |
1 SMP | U + 10600..U + 1077F | Линейное письмо А | 384 | 341 | Линейное письмо А |
1 SMP | U + 10800..U + 1083F | Кипрская слоговая азбука | 64 | 55 | Киприот |
1 SMP | U + 10840..U + 1085F | Императорский арамейский | 32 | 31 год | Императорский арамейский |
1 SMP | U + 10860..U + 1087F | Пальмирена | 32 | 32 | Пальмирена |
1 SMP | U + 10880..U + 108AF | Набатейский | 48 | 40 | Набатейский |
1 SMP | U + 108E0..U + 108FF | Хатран | 32 | 26 год | Хатран |
1 SMP | U + 10900..U + 1091F | Финикийский | 32 | 29 | Финикийский |
1 SMP | U + 10920..U + 1093F | Лидийский | 32 | 27 | Лидийский |
1 SMP | U + 10980..U + 1099F | Мероитские иероглифы | 32 | 32 | Мероитские иероглифы |
1 SMP | U + 109A0..U + 109FF | Меройский курсив | 96 | 90 | Меройский курсив |
1 SMP | U + 10A00..U + 10A5F | Харошти | 96 | 68 | Харошти |
1 SMP | U + 10A60..U + 10A7F | Старый южноаравийский | 32 | 32 | Старый южноаравийский |
1 SMP | U + 10A80..U + 10A9F | Старый северноаравийский | 32 | 32 | Старый северноаравийский |
1 SMP | U + 10AC0..U + 10AFF | Манихейский | 64 | 51 | Манихейский |
1 SMP | U + 10B00..U + 10B3F | Авестийский | 64 | 61 | Авестийский |
1 SMP | U + 10B40..U + 10B5F | Письменный парфянский | 32 | 30 | Письменный парфянский |
1 SMP | U + 10B60..U + 10B7F | Пехлеви с надписью | 32 | 27 | Пехлеви с надписью |
1 SMP | U + 10B80..U + 10BAF | Псалтырь Пехлеви | 48 | 29 | Псалтырь Пехлеви |
1 SMP | U + 10C00..U + 10C4F | Древнетюркский | 80 | 73 | Древнетюркский |
1 SMP | U + 10C80..U + 10CFF | Старовенгерский | 128 | 108 | Старовенгерский |
1 SMP | U + 10D00..U + 10D3F | Ханифи Рохинджа | 64 | 50 | Ханифи Рохинджа |
1 SMP | U + 10E60..U + 10E7F | Цифровые символы Руми | 32 | 31 год | арабский |
1 SMP | U + 10E80..U + 10EBF | Езиды | 64 | 47 | Езиды |
1 SMP | U + 10F00..U + 10F2F | Старый согдийский | 48 | 40 | Старый согдийский |
1 SMP | U + 10F30..U + 10F6F | Согдийский | 64 | 42 | Согдийский |
1 SMP | U + 10FB0..U + 10FDF | Хорезмист | 48 | 28 год | Хорезмист |
1 SMP | U + 10FE0..U + 10FFF | Elymaic | 32 | 23 | Elymaic |
1 SMP | U + 11000..U + 1107F | Брахми | 128 | 109 | Брахми |
1 SMP | U + 11080..U + 110CF | Kaithi | 80 | 67 | Kaithi |
1 SMP | U + 110D0..U + 110FF | Сора Сомпенг | 48 | 35 год | Сора Сомпенг |
1 SMP | U + 11100..U + 1114F | Чакма | 80 | 71 | Чакма |
1 SMP | U + 11150..U + 1117F | Махаджани | 48 | 39 | Махаджани |
1 SMP | U + 11180..U + 111DF | Шарада | 96 | 96 | Шарада |
1 SMP | U + 111E0..U + 111FF | Сингальские архаические числа | 32 | 20 | Сингальский |
1 SMP | U + 11200..U + 1124F | Хойки | 80 | 62 | Хойки |
1 SMP | U + 11280..U + 112AF | Мултани | 48 | 38 | Мултани |
1 SMP | U + 112B0..U + 112FF | Худавади | 80 | 69 | Худавади |
1 SMP | U + 11300..U + 1137F | Гранта | 128 | 86 | Гранта (85 символов), Унаследовано (1 символ) |
1 SMP | U + 11400..U + 1147F | Newa | 128 | 97 | Newa |
1 SMP | U + 11480..U + 114DF | Тирхута | 96 | 82 | Тирхута |
1 SMP | U + 11580..U + 115FF | Сиддхам | 128 | 92 | Сиддхам |
1 SMP | U + 11600..U + 1165F | Моди | 96 | 79 | Моди |
1 SMP | U + 11660..U + 1167F | Монгольская добавка | 32 | 13 | Монгольский |
1 SMP | U + 11680..U + 116CF | Такри | 80 | 67 | Такри |
1 SMP | U + 11700..U + 1173F | Ахом | 64 | 58 | Ахом |
1 SMP | U + 11800..U + 1184F | Догра | 80 | 60 | Догра |
1 SMP | U + 118A0..U + 118FF | Варанг Сити | 96 | 84 | Варанг Сити |
1 SMP | U + 11900..U + 1195F | Дайвс Акуру | 96 | 72 | Дайвс Акуру |
1 SMP | U + 119A0..U + 119FF | Нандинагари | 96 | 65 | Нандинагари |
1 SMP | U + 11A00..U + 11A4F | Площадь Занабазар | 80 | 72 | Площадь Занабазар |
1 SMP | U + 11A50..U + 11AAF | Соёмбо | 96 | 83 | Соёмбо |
1 SMP | U + 11AC0..U + 11AFF | Пау Чин Хау | 64 | 57 | Пау Чин Хау |
1 SMP | U + 11C00..U + 11C6F | Bhaiksuki | 112 | 97 | Bhaiksuki |
1 SMP | U + 11C70..U + 11CBF | Марчен | 80 | 68 | Марчен |
1 SMP | U + 11D00..U + 11D5F | Масарам Гонди | 96 | 75 | Масарам Гонди |
1 SMP | U + 11D60..U + 11DAF | Гунджала Гонди | 80 | 63 | Гунджала Гонди |
1 SMP | U + 11EE0..U + 11EFF | Макасар | 32 | 25 | Макасар |
1 SMP | U + 11FB0..U + 11FBF | Дополнение Лису | 16 | 1 | Лису |
1 SMP | U + 11FC0..U + 11FFF | Дополнение на тамильском языке | 64 | 51 | Тамильский |
1 SMP | U + 12000..U + 123FF | Клинопись | 1,024 | 922 | Клинопись |
1 SMP | U + 12400..U + 1247F | Клинописные числа и знаки препинания | 128 | 116 | Клинопись |
1 SMP | U + 12480..U + 1254F | Раннединастическая клинопись | 208 | 196 | Клинопись |
1 SMP | U + 13000..U + 1342F | Египетские иероглифы | 1072 | 1,071 | Египетские иероглифы |
1 SMP | U + 13430..U + 1343F | Элементы управления форматом египетских иероглифов | 16 | 9 | Египетские иероглифы |
1 SMP | U + 14400..U + 1467F | Анатолийские иероглифы | 640 | 583 | Анатолийские иероглифы |
1 SMP | U + 16800..U + 16A3F | Бамум Дополнение | 576 | 569 | Бамум |
1 SMP | U + 16A40..U + 16A6F | Mro | 48 | 43 год | Mro |
1 SMP | U + 16AD0..U + 16AFF | Басса Вах | 48 | 36 | Басса Вах |
1 SMP | U + 16B00..U + 16B8F | Пахау Хмонг | 144 | 127 | Пахау Хмонг |
1 SMP | U + 16E40..U + 16E9F | Медефайдрин | 96 | 91 | Медефайдрин |
1 SMP | U + 16F00..U + 16F9F | Мяо | 160 | 149 | Мяо |
1 SMP | U + 16FE0..U + 16FFF | Идеографические символы и знаки препинания | 32 | 7 | Хан (2 символа), Киданьский маленький шрифт (1 символ), Нушу (1 символ), Тангут (1 символ), Общий (2 символа) |
1 SMP | U + 17000..U + 187FF | Тангутский | 6 144 | 6136 | Тангутский |
1 SMP | U + 18800..U + 18AFF | Тангутские компоненты | 768 | 768 | Тангутский |
1 SMP | U + 18B00..U + 18CFF | Киданьский маленький шрифт | 512 | 470 | Киданьский маленький шрифт |
1 SMP | U + 18D00..U + 18D8F | Тангутская добавка | 144 | 9 | Тангутский |
1 SMP | U + 1B000..U + 1B0FF | Дополнение кана | 256 | 256 | Хирагана (255 символов), Катакана (1 символ) |
1 SMP | U + 1B100..U + 1B12F | Кана Расширенная-А | 48 | 31 год | Хирагана |
1 SMP | U + 1B130..U + 1B16F | Маленькое расширение Кана | 64 | 7 | Хирагана (3 символа), Катакана (4 символа) |
1 SMP | U + 1B170..U + 1B2FF | Нушу | 400 | 396 | Нюшу |
1 SMP | U + 1BC00..U + 1BC9F | Дуплоян | 160 | 143 | Дуплоян |
1 SMP | U + 1BCA0..U + 1BCAF | Элементы управления сокращенным форматом | 16 | 4 | Общий |
1 SMP | U + 1D000..U + 1D0FF | Византийские музыкальные символы | 256 | 246 | Общий |
1 SMP | U + 1D100..U + 1D1FF | Музыкальные символы | 256 | 231 | Обычный (209 символов), Унаследованный (22 символа) |
1 SMP | U + 1D200..U + 1D24F | Древнегреческая музыкальная нотация | 80 | 70 | Греческий |
1 SMP | U + 1D2E0..U + 1D2FF | Цифры майя | 32 | 20 | Общий |
1 SMP | У + 1Д300..У + 1Д35Ф | Символы Тай Сюань Цзин | 96 | 87 | Общий |
1 SMP | U + 1D360..U + 1D37F | Счетные числа на стержнях | 32 | 25 | Общий |
1 SMP | У + 1D400..U + 1D7FF | Математические буквенно-цифровые символы | 1,024 | 996 | Общий |
1 SMP | U + 1D800..U + 1DAAF | Знак Саттона | 688 | 672 | Знак |
1 SMP | U + 1E000..U + 1E02F | Дополнение к глаголице | 48 | 38 | Глаголица |
1 SMP | U + 1E100..U + 1E14F | Nyiakeng Puachue Hmong | 80 | 71 | Nyiakeng Puachue Hmong |
1 SMP | U + 1E2C0..U + 1E2FF | Wancho | 64 | 59 | Wancho |
1 SMP | U + 1E800..U + 1E8DF | Менде Кикакуи | 224 | 213 | Менде Кикакуи |
1 SMP | U + 1E900..U + 1E95F | Адлам | 96 | 88 | Адлам |
1 SMP | U + 1EC70..U + 1ECBF | Индийские числа сияк | 80 | 68 | Общий |
1 SMP | U + 1ED00..U + 1ED4F | Османские числа Siyaq | 80 | 61 | Общий |
1 SMP | U + 1EE00..U + 1EEFF | Арабские математические алфавитные символы | 256 | 143 | арабский |
1 SMP | U + 1F000..U + 1F02F | Плитки для маджонга | 48 | 44 год | Общий |
1 SMP | U + 1F030..U + 1F09F | Домино Плитка | 112 | 100 | Общий |
1 SMP | U + 1F0A0..U + 1F0FF | Играя в карты | 96 | 82 | Общий |
1 SMP | U + 1F100..U + 1F1FF | Прилагаемое буквенно-цифровое приложение | 256 | 200 | Общий |
1 SMP | U + 1F200..U + 1F2FF | Прилагаемое идеографическое приложение | 256 | 64 | Хирагана (1 символ), Обычный (63 символа) |
1 SMP | U + 1F300..U + 1F5FF | Разные символы и пиктограммы | 768 | 768 | Общий |
1 SMP | U + 1F600..U + 1F64F | Смайлики | 80 | 80 | Общий |
1 SMP | U + 1F650..U + 1F67F | Декоративные дингбаты | 48 | 48 | Общий |
1 SMP | U + 1F680..U + 1F6FF | Транспортные и картографические символы | 128 | 114 | Общий |
1 SMP | U + 1F700..U + 1F77F | Алхимические символы | 128 | 116 | Общий |
1 SMP | U + 1F780..U + 1F7FF | Расширенные геометрические фигуры | 128 | 101 | Общий |
1 SMP | U + 1F800..U + 1F8FF | Дополнительные стрелки-C | 256 | 150 | Общий |
1 SMP | U + 1F900..U + 1F9FF | Дополнительные символы и пиктограммы | 256 | 254 | Общий |
1 SMP | U + 1FA00..U + 1FA6F | Шахматные символы | 112 | 98 | Общий |
1 SMP | U + 1FA70..U + 1FAFF | Расширенные символы и пиктограммы-A | 144 | 57 | Общий |
1 SMP | U + 1FB00..U + 1FBFF | Символы для устаревших вычислений | 256 | 212 | Общий |
2 глотка | U + 20000..U + 2A6DF | Расширение B унифицированных иероглифов CJK | 42 720 | 42 718 | Хан |
2 глотка | U + 2A700..U + 2B73F | Расширение унифицированных иероглифов CJK C | 4 160 | 4 149 | Хан |
2 глотка | U + 2B740..U + 2B81F | Расширение унифицированных иероглифов CJK D | 224 | 222 | Хан |
2 глотка | U + 2B820..U + 2CEAF | Расширение унифицированных иероглифов CJK E | 5776 | 5762 | Хан |
2 глотка | U + 2CEB0..U + 2EBEF | Расширение унифицированных иероглифов CJK F | 7 488 | 7 473 | Хан |
2 глотка | U + 2F800..U + 2FA1F | Приложение к идеографам совместимости CJK | 544 | 542 | Хан |
3 СОВЕТ | U + 30000..U + 3134F | Расширение унифицированных иероглифов CJK G | 4944 | 4939 | Хан |
14 SSP | U + E0000..U + E007F | Теги | 128 | 97 | Общий |
14 SSP | U + E0100..U + E01EF | Дополнение к селекторам вариаций | 240 | 240 | Унаследовано |
15 PUA-A | U + F0000..U + FFFFF | Зона дополнительного частного использования-A | 65 536 | 65 534 | Неизвестный |
16 PUA-B | U + 100000..U + 10FFFF | Дополнительная зона частного использования-B | 65 536 | 65 534 | Неизвестный |
|
Скрипт [ править ]
Каждый назначенный символ может иметь одно значение для своего свойства «Сценарий», указывающее, к какому сценарию он принадлежит. [18] Значение представляет собой четырехбуквенный код в диапазоне Aaaa-Zzzz, как это доступно в ISO 15924, который отображается в систему записи . Помимо описания фона и использования сценария, Unicode не использует связь между сценарием и языками, которые используют этот сценарий. Итак, «иврит» относится к еврейскому письму, а не к еврейскому языку.
Специальный код Zyyy для «Common» допускает одно значение для символа, который используется в нескольких сценариях. Код Zinh «Унаследованный сценарий», используемый для объединения символов и некоторых других кодовых точек специального назначения, указывает на то, что символ «наследует» свою подлинность сценария от символа, с которым он сочетается. (Ранее для этой цели Unicode использовал частный код Qaai.) Код Zzzz «Неизвестно» используется для всех символов, которые не принадлежат сценарию (т. Е. Значения по умолчанию), таких как символы и символы форматирования. В целом, символы одного скрипта могут быть разбросаны по нескольким блокам, как латинские символы . И наоборот: может присутствовать несколько скриптов в одном блоке, например, блок буквоподобных символов. содержит символы латинского, греческого и общеупотребительного алфавита.
Когда сценарий "" (пустой), в соответствии с Unicode символ не принадлежит сценарию. Это относится к символам, поскольку существующие коды сценариев ISO «Zmth» (математическая нотация), «Zsym» (символ) и «Zsye» (символ, вариант эмодзи) не используются в Unicode. Свойство «Сценарий» также пусто для кодовых точек, не являющихся типографскими символами, таких как элементы управления, замены и кодовые точки для частного использования.
Если есть конкретный сценарий имя псевдонима в ISO 15924, она используется в имени персонажа: U + 0041 A LATIN заглавной буквы A , и U + 05D0 א ЕВРЕЙСКОГО ПИСЬМО Алеф .
ISO 15924 | Скрипт в Юникоде [e] | ||||||
---|---|---|---|---|---|---|---|
Код | Официальное название ISO | Направленность | Псевдоним Unicode [f] | Версия | Символы | Примечания | Описание |
Взаимодействие с другими людьми | |||||||
Adlm | Адлам | справа налево | Адлам | 9.0 | 88 | Ch 19.9 | |
Афак | Афака | варьируется | - Не в Unicode, предложение изучается [19] | ||||
Aghb | Кавказский албанский | слева направо | Кавказский албанский | 7.0 | 53 | Древний / исторический | Ch 8.10 |
Ахом | Ахом, Тай Ахом | слева направо | Ахом | 8.0 | 58 | Древний / исторический | Ch 15.15 |
Араб | арабский | справа налево | арабский | 1.0 | 1,291 | Ch 9.2 | |
Аран | Арабский (вариант насталик) | смешанный | - типографский вариант арабского языка ( § арабский ) | ||||
Арми | Императорский арамейский | справа налево | Императорский арамейский | 5.2 | 31 год | Древний / исторический | Ch 10.4 |
Armn | Армянский | слева направо | Армянский | 1.0 | 96 | Ch 7.6 | |
Avst | Авестийский | справа налево | Авестийский | 5.2 | 61 | Древний / исторический | Ch 10.7 |
Бали | Балийский | слева направо | Балийский | 5.0 | 121 | Ch 17.3 | |
Баму | Бамум | слева направо | Бамум | 5.2 | 657 | Ch 19.6 | |
Бас | Басса Вах | слева направо | Басса Вах | 7.0 | 36 | Древний / исторический | Ch 19.7 |
Батк | Батак | слева направо | Батак | 6.0 | 56 | Ch 17.6 | |
Beng | Бенгальский (бангла) | слева направо | Бенгальский | 1.0 | 96 | Ch 12.2 | |
Bhks | Bhaiksuki | слева направо | Bhaiksuki | 9.0 | 97 | Древний / исторический | Ch 14.3 |
Blis | Блиссимволы | варьируется | - Не в Unicode, предложение изучается [19] | ||||
Бопо | Бопомофо | слева направо | Бопомофо | 1.0 | 77 | Ch 18.3 | |
Брах | Брахми | слева направо | Брахми | 6.0 | 109 | Древний / исторический | Ch 14.1 |
Brai | Шрифт Брайля | слева направо | Шрифт Брайля | 3.0 | 256 | Ch 21.1 | |
Буги | Бугийский | слева направо | Бугийский | 4.1 | 30 | Ch 17.2 | |
Buhd | Бухид | слева направо | Бухид | 3,2 | 20 | Ch 17.1 | |
Cakm | Чакма | слева направо | Чакма | 6.1 | 71 | Ch 13.11 | |
Банки | Единая слоговая речь канадских аборигенов | слева направо | Канадские аборигены | 3.0 | 710 | Ch 20.2 | |
Кари | Карийский | слева направо, справа налево | Карийский | 5.1 | 49 | Древний / исторический | Ch 8.4 |
Чам | Чам | слева направо | Чам | 5.1 | 83 | Ch 16.10 | |
Шер | Чероки | слева направо | Чероки | 3.0 | 172 | Ch 20.1 | |
Chrs | Хорезмист | справа налево , сверху вниз | Хорезмист | 13,0 | 28 год | Древний / исторический | Ch 10.8 |
Cirt | Cirth | варьируется | - не в Юникоде | ||||
Копт | Коптский | слева направо | Коптский | 1.0 | 137 | Древний / исторический, разделенный с греческим в 4.1 | Глава 7.3 |
Cpmn | Кипро-минойский | слева направо | - не в Юникоде | ||||
Cprt | Кипрское слоговое письмо | справа налево | Киприот | 4.0 | 55 | Древний / исторический | Глава 8.3 |
Кирл | Кириллица | слева направо | Кириллица | 1.0 | 443 | Включает типографский вариант на старославянском языке ( § Cyrs) | Глава 7.4 |
Cyrs | Кириллица (старославянский вариант) | варьируется | - Типографский вариант кириллицы ( § Cyrl ) | Древний / исторический | |||
Дева | Деванагари (Нагари) | слева направо | Деванагари | 1.0 | 154 | Ch 12.1 | |
Диак | Дайвс Акуру | слева направо | Дайвс Акуру | 13,0 | 72 | Древний / исторический | Ch 15.14 |
Dogr | Догра | слева направо | Догра | 11.0 | 60 | Древний / исторический | Ch 15.17 |
Dsrt | Дезерет (мормон) | слева направо | Deseret | 3.1 | 80 | Ch 20.4 | |
Dupl | Стенография Дуплояна, стенография Дуплояна | слева направо | Дуплоян | 7.0 | 143 | Ch 21.5 | |
Египет | Египетский демотик | смешанный | - не в Юникоде | ||||
Египет | Египетский иератический | смешанный | - не в Юникоде | ||||
Египетский | Египетские иероглифы | слева направо | Египетские иероглифы | 5.2 | 1,080 | Древний / исторический | Ch 11.4 |
Эльба | Эльбасан | слева направо | Эльбасан | 7.0 | 40 | Древний / исторический | Ch 8.9 |
Элим | Elymaic | справа налево | Elymaic | 12.0 | 23 | Древний / исторический | Ch 10.9 |
Эти | Эфиопский (геэз) | слева направо | Эфиопский | 3.0 | 495 | Ch 19.1 | |
Геок | Хуцури (Асомтаврули и Нусхури) | слева направо | Грузинский | Группы Unicode «Хуцори», «Асомтаврули» и «Нусхури» на «грузинский» ( § Геок ). Также «Мхедрули» и «Мтаврули» являются «грузинскими» ( § Геор ) | Ch 7.7 | ||
Геор | Грузинский (мхедрули и мтаврули) | слева направо | Грузинский | 1.0 | 173 | В Unicode также включает Геок (Нусхури) | Ch 7.7 |
Glag | Глаголица | слева направо | Глаголица | 4.1 | 132 | Древний / исторический | Ch 7.5 |
Гонг | Гунджала Гонди | слева направо | Гунджала Гонди | 11.0 | 63 | Ch 13.15 | |
Гонм | Масарам Гонди | слева направо | Масарам Гонди | 10.0 | 75 | Ch 13.14 | |
Гот | Готика | слева направо | Готика | 3.1 | 27 | Древний / исторический | Ch 8.8 |
Бабушка | Гранта | слева направо | Гранта | 7.0 | 85 | Древний / исторический | Ch 15.13 |
Грек | Греческий | слева направо | Греческий | 1.0 | 518 | Направленность иногда как бустрофедон | Глава 7.2 |
Гуджр | Гуджарати | слева направо | Гуджарати | 1.0 | 91 | Ch 12.4 | |
Гуру | Гурмукхи | слева направо | Гурмукхи | 1.0 | 80 | Ch 12.3 | |
Ханб | Хан с Бопомофо (псевдоним Хан + Бопомофо) | смешанный | - см. § Хани , § Бопо | ||||
Вешать | Хангыль (Hangŭl, Hangeul) | слева направо, сверху вниз | Хангыль | 1.0 | 11 739 | Слоги хангыль перемещены в 2.0 | Ch 18.6 |
Хани | Хан (ханзи, кандзи, ханджа) | сверху вниз, столбцы справа налево (исторически) | Хан | 1.0 | 94 204 | Ch 18.1 | |
Hano | Хануноо (Hanunóo) | слева направо, снизу вверх | Хануноо | 3,2 | 21 год | Ch 17.1 | |
Ганс | Хан (упрощенный вариант) | варьируется | - подмножество хань (ханзи, кандзи, ханджа) ( § хани ) | ||||
Хант | Хан (традиционный вариант) | варьируется | - подмножество § Hani | ||||
Hatr | Хатран | справа налево | Хатран | 8.0 | 26 год | Древний / исторический | Ch 10.12 |
Hebr | иврит | справа налево | иврит | 1.0 | 134 | Ch 9.1 | |
Хира | Хирагана | сверху вниз, слева направо | Хирагана | 1.0 | 379 | Ch 18.4 | |
Hluw | Анатолийские иероглифы (лувийские иероглифы, хеттские иероглифы) | слева направо | Анатолийские иероглифы | 8.0 | 583 | Древний / исторический | Ch 11.6 |
Хмнг | Пахау Хмонг | слева направо | Пахау Хмонг | 7.0 | 127 | Ch 16.11 | |
Hmnp | Nyiakeng Puachue Hmong | слева направо | Nyiakeng Puachue Hmong | 12.0 | 71 | Ch 16.12 | |
Hrkt | Слоговые алфавиты японского языка (псевдоним Хирагана + Катакана) | сверху вниз, слева направо | Катакана или Хирагана | См. § Хира , § Кана | Ch 18.4 | ||
Подвешенный | Древневенгерский (венгерский рунический) | справа налево | Старовенгерский | 8.0 | 108 | Древний / исторический | Ch 8.7 |
Inds | Инд (Хараппан) | смешанный | - Не в Unicode, предложение изучается [19] | ||||
Ital | Старый курсив (этрусский, осканский и др.) | справа налево , слева направо | Старый курсив | 3.1 | 39 | Древний / исторический | Глава 8.5 |
Джамо | Джамо (псевдоним Jamo подмножества хангыль) | варьируется | - подмножество § Hang | ||||
Ява | Яванский | слева направо | Яванский | 5.2 | 90 | Ch 17.4 | |
Jpan | Японский (псевдоним Хан + Хирагана + Катакана) | варьируется | - см. § Хани , § Хира и § Кана | ||||
Jurc | Чжурчжэнь | слева направо | - не в Юникоде | ||||
Кали | Кая Ли | слева направо | Кая Ли | 5.1 | 47 | Ch 16.9 | |
Кана | Катакана | сверху вниз, слева направо | Катакана | 1.0 | 304 | Ch 18.4 | |
Хар | Харошти | справа налево | Харошти | 4.1 | 68 | Древний / исторический | Ch 14.2 |
Кхмр | Кхмерский | слева направо | Кхмерский | 3.0 | 146 | Ch 16.4 | |
Ходж | Хойки | слева направо | Хойки | 7.0 | 62 | Древний / исторический | Ch 15.7 |
Китл | Киданьский большой шрифт | слева направо | - не в Юникоде | ||||
Наборы | Киданьский маленький шрифт | сверху вниз | Киданьский маленький шрифт | 13,0 | 471 | Древний / исторический | Ch 18.12 |
Knda | Каннада | слева направо | Каннада | 1.0 | 89 | Ch 12.8 | |
Kore | Корейский (псевдоним хангыль + хань) | слева направо | - см. § Hani , § Hang | ||||
Kpel | Kpelle | слева направо | - Не в Unicode, предложение изучается [19] | ||||
Кти | Kaithi | слева направо | Kaithi | 5.2 | 67 | Древний / исторический | Ch 15.2 |
Лана | Тай Тхам (Ланна) | слева направо | Тай Тхам | 5.2 | 127 | Ch 16.7 | |
Лаоо | Лаосский | слева направо | Лаосский | 1.0 | 82 | Ch 16.2 | |
Latf | Латинский (вариант Fraktur) | варьируется | - Типографский вариант латыни ( § Latn ) | ||||
Латг | Латинский (гэльский вариант) | слева направо | - Типографский вариант латыни ( § Latn ) | ||||
Latn | латинский | слева направо | латинский | 1.0 | 1,374 | См. Также: Латинский шрифт в Юникоде | Глава 7.1 |
Леке | Леке | слева направо | - не в Юникоде | ||||
Лепц | Лепча (Ронг) | слева направо | Лепча | 5.1 | 74 | Ch 13.12 | |
Конечности | Лимбу | слева направо | Лимбу | 4.0 | 68 | Ch 13.6 | |
Лина | Линейное письмо А | слева направо | Линейное письмо А | 7.0 | 341 | Древний / исторический | Глава 8.1 |
Linb | Линейное письмо B | слева направо | Линейное письмо B | 4.0 | 211 | Древний / исторический | Глава 8.2 |
Лису | Лису (Фрейзер) | слева направо | Лису | 5.2 | 49 | Ch 18.9 | |
Лома | Лома | слева направо | - Не в Unicode, предложение изучается [19] | ||||
Lyci | Ликийский | слева направо | Ликийский | 5.1 | 29 | Древний / исторический | Ch 8.4 |
Lydi | Лидийский | справа налево | Лидийский | 5.1 | 27 | Древний / исторический | Ch 8.4 |
Mahj | Махаджани | слева направо | Махаджани | 7.0 | 39 | Древний / исторический | Ch 15.6 |
Мака | Макасар | слева направо | Макасар | 11.0 | 25 | Древний / исторический | Ch 17.8 |
Манд | Мандайский, мандейский | справа налево | Мандаикский | 6.0 | 29 | Ch 9.5 | |
Мани | Манихейский | справа налево | Манихейский | 7.0 | 51 | Древний / исторический | Ch 10.5 |
Марк | Марчен | слева направо | Марчен | 9.0 | 68 | Древний / исторический | Ch 14.5 |
майя | Иероглифы майя | смешанный | - не в Юникоде | ||||
Медф | Медефайдрин (Обери Окайме, Обери Окаимо) | слева направо, слева направо | Медефайдрин | 11.0 | 91 | Ch 19.10 | |
Исправить | Менде Кикакуи | справа налево | Менде Кикакуи | 7.0 | 213 | Ch 19.8 | |
Merc | Меройский курсив | справа налево | Меройский курсив | 6.1 | 90 | Древний / исторический | Ch 11.5 |
Меро | Мероитские иероглифы | справа налево | Мероитские иероглифы | 6.1 | 32 | Древний / исторический | Ch 11.5 |
Млым | Малаялам | слева направо | Малаялам | 1.0 | 118 | Ch 12.9 | |
Моди | Моди, Moī | слева направо | Моди | 7.0 | 79 | Древний / исторический | Ch 15.11 |
Монг | Монгольский | слева направо, сверху вниз | Монгольский | 3.0 | 167 | Mong включает ясные и маньчжурские скрипты | Ch 13.5 |
Луна | Луна (код Луны, сценарий Луны, тип Луны) | смешанный | - Не в Unicode, предложение изучается [19] | ||||
Mroo | Мро, Мру | слева направо | Mro | 7.0 | 43 год | Ch 13.8 | |
Мтей | Мейтей Майек (Meithei, Meetei) | слева направо | Митей Майек | 5.2 | 79 | Ch 13.7 | |
Mult | Мултани | слева направо | Мултани | 8.0 | 38 | Древний / исторический | Ch 15.9 |
Mymr | Мьянма (бирманский) | слева направо | Мьянма | 3.0 | 223 | Ch 16.3 | |
Nand | Нандинагари | слева направо | Нандинагари | 12.0 | 65 | Древний / исторический | Ch 15.12 |
Нарб | Старый северноаравийский (древний северноаравийский) | справа налево , справа налево | Старый северноаравийский | 7.0 | 32 | Древний / исторический | Ch 10.1 |
Нбат | Набатейский | справа налево | Набатейский | 7.0 | 40 | Древний / исторический | Ch 10.10 |
Newa | Нева, невар, невари, непала липи | слева направо | Newa | 9.0 | 97 | Ch 13.3 | |
Nkdb | Наси Донгба (na²¹ɕi³³ to³³ba²¹, Nakhi Tomba) | слева направо | - не в Юникоде | ||||
НКГБ | Накхи Геба (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-baw, Накхи Геба) | слева направо | - Не в Unicode, предложение изучается [19] | ||||
Nkoo | N'Ko | справа налево | НКо | 5.0 | 62 | Ch 19.4 | |
Ншу | Нюшу | сверху вниз | Нушу | 10.0 | 397 | Ch 18.8 | |
Огам | Огам | снизу вверх, слева направо | Огам | 3.0 | 29 | Древний / исторический | Ch 8.12 |
Olck | Ол Чики (Ol Cemet ', Ol, Santali) | слева направо | Ол Чики | 5.1 | 48 | Ch 13.10 | |
Орх | Древнетюркский, орхонский рунический | справа налево | Древнетюркский | 5.2 | 73 | Древний / исторический | Ch 14.8 |
Оря | Ория (Одиа) | слева направо | Ория | 1.0 | 91 | Ch 12.5 | |
Osge | Осейдж | слева направо | Осейдж | 9.0 | 72 | Ch 20.3 | |
Осма | Османья | слева направо | Османья | 4.0 | 40 | Ch 19.2 | |
Ougr | Старый уйгурский | смешанный | - не в Юникоде | ||||
ладонь | Пальмирена | справа налево | Пальмирена | 7.0 | 32 | Древний / исторический | Ch 10.11 |
Паук | Пау Чин Хау | слева направо | Пау Чин Хау | 7.0 | 57 | Ch 16.13 | |
Pcun | Прото-клинопись | слева направо | - не в Юникоде | ||||
Пельм | Протоэламский | слева направо | - не в Юникоде | ||||
Пермь | Старая Пермь | слева направо | Старая Пермь | 7.0 | 43 год | Древний / исторический | Ch 8.11 |
Phag | Phags-pa | сверху вниз | Phags-pa | 5.0 | 56 | Древний / исторический | Ch 14.4 |
Phli | Пехлеви с надписью | справа налево | Пехлеви с надписью | 5.2 | 27 | Древний / исторический | Ch 10.6 |
Phlp | Псалтырь Пехлеви | справа налево | Псалтырь Пехлеви | 7.0 | 29 | Древний / исторический | Ch 10.6 |
Phlv | Бронировать Пехлеви | смешанный | - не в Юникоде | ||||
Phnx | Финикийский | справа налево | Финикийский | 5.0 | 29 | Древний / исторический [g] | Ch 10.3 |
Piqd | Клингонский (KLI pIqaD) | слева направо | - отклонено для включения в Unicode [20] [21] | ||||
Plrd | Мяо (Поллард) | слева направо | Мяо | 6.1 | 149 | Ch 18.10 | |
Прти | Письменный парфянский | справа налево | Письменный парфянский | 5.2 | 30 | Древний / исторический | Ch 10.6 |
Псин | Прото-синайский | смешанный | - не в Юникоде | ||||
Qaaa-Qabx | Зарезервировано для частного использования (диапазон) | - не в Юникоде | |||||
Ранж | Ранджана | слева направо | - не в Юникоде | ||||
Rjng | Реджанг (Реджанг, Каганга) | слева направо | Rejang | 5.1 | 37 | Ch 17.5 | |
Рог | Ханифи Рохинджа | справа налево | Ханифи Рохинджа | 11.0 | 50 | Ch 16.14 | |
Роро | Ронгоронго | смешанный | - Не в Unicode, предложение изучается [19] | ||||
Runr | Рунический | слева направо, бустрофедон | Рунический | 3.0 | 86 | Древний / исторический | Ch 8.6 |
Samr | Самаритянин | справа налево , сверху вниз | Самаритянин | 5.2 | 61 | Ch 9.4 | |
Сара | Сарати | смешанный | - не в Юникоде | ||||
Сарб | Старый южноаравийский | справа налево | Старый южноаравийский | 5.2 | 32 | Древний / исторический | Ch 10.2 |
Саур | Саураштра | слева направо | Саураштра | 5.1 | 82 | Ch 13.13 | |
Sgnw | Знак | сверху вниз | Знак | 8.0 | 672 | Ch 21.6 | |
Шоу | Шавиан (Шоу) | слева направо | Шавиан | 4.0 | 48 | Ch 8.13 | |
Шрд | Шарада, Шарада | слева направо | Шарада | 6.1 | 96 | Ch 15.3 | |
Шуй | Шуйшу | слева направо | - не в Юникоде | ||||
Сидд | Сиддхам, Сиддхах, Сиддхаматрика | слева направо | Сиддхам | 7.0 | 92 | Древний / исторический | Ch 15.5 |
Синд | Худавади, синдхи | слева направо | Худавади | 7.0 | 69 | Ch 15.8 | |
Sinh | Сингальский | слева направо | Сингальский | 3.0 | 111 | Ch 13.2 | |
Согдийская | Согдийский | справа налево , сверху вниз | Согдийский | 11.0 | 42 | Древний / исторический | Ch 14.10 |
Сого | Старый согдийский | справа налево | Старый согдийский | 11.0 | 40 | Древний / исторический | Ch 14.9 |
Сора | Сора Сомпенг | слева направо | Сора Сомпенг | 6.1 | 35 год | Ch 15.16 | |
Сойо | Соёмбо | слева направо | Соёмбо | 10.0 | 83 | Древний / исторический | Ch 14.7 |
Сунд | Суданский | слева направо | Суданский | 5.1 | 72 | Ch 17.7 | |
Sylo | Силоти Нагри | слева направо | Силоти Нагри | 4.1 | 45 | Древний / исторический | Ch 15.1 |
Syrc | Сирийский | справа налево | Сирийский | 3.0 | 88 | Включает типографские варианты Estrangelo ( § Syre ), Western ( § Syrj ) и Eastern ( § Syrn ) | Ch 9.3 |
Сырье | Сирийский (вариант Эстранджело) | смешанный | - Типографский вариант сирийского языка ( § Syrc ) | ||||
Сырдж | Сирийский (западный вариант) | смешанный | - Типографский вариант сирийского языка ( § Syrc ) | ||||
Сырн | Сирийский (восточный вариант) | смешанный | - Типографский вариант сирийского языка ( § Syrc ) | ||||
Tagb | Tagbanwa | слева направо | Tagbanwa | 3,2 | 18 | Ch 17.1 | |
Такр | Такри, Шакри, Шанкри | слева направо | Такри | 6.1 | 67 | Ch 15.4 | |
Сказка | Тай Ле | слева направо | Тай Ле | 4.0 | 35 год | Ch 16.5 | |
Талу | Новый Тай Лю | слева направо | Новый Тай Лю | 4.1 | 83 | Ch 16.6 | |
Тамл | Тамильский | слева направо | Тамильский | 1.0 | 123 | Ch 12.6 | |
Тан | Тангутский | сверху вниз, слева направо | Тангутский | 9.0 | 6 914 | Древний / исторический | Ch 18.11 |
Тавт | Тай Вьет | слева направо | Тай Вьет | 5.2 | 72 | Ch 16.8 | |
Телу | телугу | слева направо | телугу | 1.0 | 98 | Ch 12.7 | |
Тэн | Тенгвар | слева направо | - не в Юникоде | ||||
Tfng | Тифинаг (берберский) | слева направо | Тифинаг | 4.1 | 59 | Ch 19.3 | |
Tglg | Тагальский (байбайын, алибата) | слева направо | Тагальский | 3,2 | 20 | Ch 17.1 | |
Таа | Thaana | справа налево | Thaana | 3.0 | 50 | Ch 13.1 | |
Тайский | Тайский | слева направо | Тайский | 1.0 | 86 | Ch 16.1 | |
Тибт | тибетский | слева направо | тибетский | 2.0 | 207 | Добавлено в 1.0, удалено в 1.1 и повторно введено в 2.0 | Ch 13.4 |
Тирх | Тирхута | слева направо | Тирхута | 7.0 | 82 | Ch 15.10 | |
Tnsa | Танса | слева направо | - не в Юникоде [22] | ||||
Тото | Тото | слева направо | - не в Юникоде | ||||
Угар | Угаритский | слева направо | Угаритский | 4.0 | 31 год | Древний / исторический | Ch 11.2 |
Вайи | Вай | слева направо | Вай | 5.1 | 300 | Ch 19.5 | |
Visp | Видимая речь | слева направо | - не в Юникоде | ||||
Вит | Виткуки | слева направо | - не в Юникоде | ||||
Вара | Варанг Сити (Варанг Кшити) | слева направо | Варанг Сити | 7.0 | 84 | Ch 13.9 | |
Wcho | Wancho | слева направо | Wancho | 12.0 | 59 | Ch 13.16 | |
Воле | Woleai | смешанный | - Не в Unicode, предложение изучается [19] | ||||
Xpeo | Древнеперсидский | слева направо | Древнеперсидский | 4.1 | 50 | Древний / исторический | Ch 11.3 |
Xsux | Клинопись, шумеро-аккадский | слева направо | Клинопись | 5.0 | 1,234 | Древний / исторический | Ch 11.1 |
Йези | Езиды | справа налево | Езиды | 13,0 | 47 | Древний / исторический | Ch 9.6 |
Yiii | Йи | слева направо | Йи | 3.0 | 1,220 | Ch 18.7 | |
Занб | Площадь Занабазар (Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, Horizontal Square Script) | слева направо | Площадь Занабазар | 10.0 | 72 | Древний / исторический | Ch 14.6 |
Zinh | Код для унаследованного скрипта | Унаследовано | 573 | ||||
Zmth | Математические обозначения | - не скрипт в Юникоде | |||||
Zsym | Символы | - не скрипт в Юникоде | |||||
Zsye | Символы (вариант смайликов) | - не скрипт в Юникоде | |||||
Zxxx | Код для неписаных документов | - не скрипт в Юникоде | |||||
Зыыы | Код для неопределенного сценария | Общий | 8 087 | ||||
Zzzz | Код для некодированного скрипта | Неизвестный | 970 188 | В Юникоде: все остальные кодовые точки | |||
Примечания
|
Свойства нормализации [ править ]
Декомпозиции, тип декомпозиции, канонический класс комбинирования, исключения композиции и многое другое.
Возраст [ править ]
Возраст - это версия Стандарта, в которой кодовая точка была впервые обозначена. Номер версии сокращен до нумерации major.minor, хотя используются более подробные номера версий: версии 4.0.0 и 4.0.1 обе называются 4.0 как Age. Для выпусков возраст может быть из диапазона: 1.1, 2.0, 2.1, 3.0, 3.1, 3.2, 4.0, 4.1, 5.0, 5.1, 5.2, 6.0, 6.1, 6.2, 6.3, 7.0, 8.0, 9.0, 10.0, 11.0. , 12,0, 12,1 и 13,0. [24] Длинные значения для Age начинаются с буквы V и используют подчеркивание вместо точки: например, V1_1. [2] Кодовые точки без специально назначенного значения возраста имеют значение «NA» с длинной формой «Unassigned».
Устарело [ править ]
После определения символа он не будет отозван или изменен при определении свойств (кодовая точка, имя). Но его можно объявить устаревшим : закодированный символ, использование которого категорически не рекомендуется . [25] Начиная с версии Unicode 10.0, пятнадцать символов устарели:
- U + 0149 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА N ПРЕДШЕСТВУЮЩИЙ АПОСТРОФУ: используйте вместо этого последовательность ʼ0020 006E (ʼ n)
- U + 0673 АРАБСКАЯ БУКВА ALEF С ВОЛНЫМ ХАМЗА НИЖЕ: используйте вместо этого последовательность 0627 065F (اٟ)
- U + 0F77 TIBETAN VOWEL SIGN VOCALIC RR: используйте вместо этого последовательность 0FB2 0F81 (ྲཱ ྀ)
- U + 0F79 TIBETAN VOWEL SIGN VOCALIC LL: используйте вместо этого последовательность 0FB3 0F81 (ླཱ ྀ)
- U + 17A3 KHMER INDEPENDENT VOWEL QAQ: используйте 17A2 KHMER LETTER QA (អ) вместо
- U + 17A4 KHMER INDEPENDENT VOWEL QAA: используйте вместо этого последовательность 17A2 17B6 (អា)
- U + 206A ЗАПРЕТ СИММЕТРИЧНОЙ ЗАМЕНА
- U + 206B АКТИВИРОВАТЬ СИММЕТРИЧЕСКУЮ ЗАМЕНУ
- U + 206C ЗАПРЕЩАЕТ ФОРМИРОВАНИЕ АРАБСКОЙ ФОРМЫ
- U + 206D АКТИВАЦИЯ АРАБСКОГО ФОРМЫ
- ФОРМЫ НАЦИОНАЛЬНЫХ ЦИФРОВ U + 206E
- НОМИНАЛЬНАЯ ФОРМА ЦИФРОВ U + 206F
- U + 2329 ЛЕВЫЙ УГЛОВОЙ КРОНШТЕЙН: вместо этого используйте ЛЕВЫЙ УГОЛ U + 3008 (〈)
- U + 232A УГЛОВОЙ КРОНШТЕЙН НАПРАВО: вместо этого используйте КРОНШТЕЙН ПРАВОГО УГЛА U + 3009 (〉).
- U + E0001 ЯЗЫКОВЫЙ ТЕГ
Символы формата от U + 206A до U + 206F и U + E0001 вообще не должны использоваться, но для других устаревших символов есть рекомендуемые альтернативы, как показано выше.
Границы [ править ]
Стандарт Unicode определяет следующие свойства, связанные с границами:
- Кластер графема
- Слово
- Линия
- Приговор
Ссылки [ править ]
- ^ a b c d e "Стандарт Unicode, Глава 4: Свойства символов" (PDF) . Unicode, Inc. марта 2020 . Проверено 15 марта 2020 .
- ^ a b «Приложение № 44 к стандарту Unicode: База данных символов Unicode» . Стандарт Юникода . 2017-06-14.
- ^ "UCD: Псевдонимы" . База данных символов Юникода . Консорциум Unicode. 2019-03-08.
- ^ «Стандарты дизайна персонажей - символы пробела» . Стандарты дизайна персонажей . Microsoft . 1998–1999. Архивировано из оригинального 23 августа 2000 года . Проверено 18 мая 2009 .
- ^ Стандарт Unicode 5.0, печатное издание, стр.205
- ^ "Общая пунктуация" (PDF) . Стандарт Юникода 5.1 . Unicode Inc . 1991–2008 гг . Проверено 13 мая 2009 .
- ↑ Сарджент, Мюррей III (29 августа 2006 г.). «Кодирование почти простого текста Unicode математики (версия 2)» . Техническая записка по Unicode № 28 . Unicode Inc . С. 19–20 . Проверено 19 мая 2009 .
- ^ Гиллам, Ричард (2002). Unicode Demystified: Практическое руководство программиста по стандарту кодирования . Эддисон-Уэсли. ISBN 0-201-70052-2.
- ^ а б Хиксон, Ян . «12.5 Ссылки на именованные символы» . Стандарт HTML . WHATWG .
- ^ Вольфрам . "\ [NegativeThickSpace]" . Документация по языку Wolfram Language .
- ^ Вольфрам . "\ [NegativeMediumSpace]" . Документация по языку Wolfram Language .
- ^ Вольфрам . "\ [NegativeThinSpace]" . Документация по языку Wolfram Language .
- ^ Вольфрам . "\ [NegativeVeryThinSpace]" . Документация по языку Wolfram Language .
- ^ Faltstrom П., изд. (Август 2010 г.). «Несоединение нулевой ширины» . Кодовые точки Unicode и интернационализированные доменные имена для приложений (IDNA) . IETF . сек. А.1. DOI : 10,17487 / RFC5892 . RFC 5892 . Проверено 4 сентября 2019 года .
- ^ Faltstrom П., изд. (Август 2010 г.). «Столяр нулевой ширины» . Кодовые точки Unicode и интернационализированные доменные имена для приложений (IDNA) . IETF . сек. А.2. DOI : 10,17487 / RFC5892 . RFC 5892 . Проверено 4 сентября 2019 года .
- ^ "Приложение № 44 к стандарту Unicode, База данных символов Unicode" .
- ^ a b «Приложение № 9 к стандарту Unicode: двунаправленный алгоритм Unicode» . Стандарт Юникода . 2017-05-14.
- ^ "Приложение № 24 к стандарту Unicode: Свойство сценария Unicode" . Стандарт Юникода . 2015-06-01.
- ^ a b c d e f g h i «Предлагаемые новые сценарии» . Консорциум Unicode . 2018-05-25 . Проверено 12 сентября 2019 .
- ^ Майкл Эверсон (1997-09-18). «Предложение по кодированию клингонов в плоскости 1 стандарта ISO / IEC 10646-2» .
- ^ Консорциум Unicode (2001-08-14). «Утвержденный протокол совместного заседания UTC 87 / L2 184» .
- ^ Мори, Стивен; Панди, Аншуман (07.01.2021). «Предложение о добавлении скрипта Tangsa в SMP UCS» (PDF) . Консорциум Unicode . L2 / L2021 / 21027 . Источник 2021-02-19 .
- ^ «Ближний Восток-II, Древние сценарии» (PDF) . 13.0.0. The Unicode Consortiumtitle = Ближневосточные скрипты II . Источник 2021-01-28 .
- ^ "UCD: Производный возраст" . База данных символов Юникода . Консорциум Unicode. 2019-09-08.
- ^ «Стандарт Unicode, Глава 3.4. Символы и кодирование, D13: устаревший символ» (PDF) . Стандарт Юникода . Март 2020.