Блок Basic Latin или C0 Controls и Basic Latin Unicode является первым блоком стандарта Unicode и единственным блоком, который закодирован в один байт в UTF-8 . Блок содержит все буквы и управляющие коды кодировки ASCII. Она варьируется от U + 0000 до U + 007F, содержит 128 символов и включает в себя элементы управления C0 , ASCII знаков препинания и символов , ASCII цифр , как прописные буквы и строчные буквы из английского алфавита и характер управления .
Элементы управления C0 и базовая латынь | |
---|---|
Диапазон | U + 0000..U + 007F (128 кодовых точек) |
Самолет | BMP |
Скрипты | Латинский (52 символа) Общий (76 символов) |
Основные алфавиты | Английский французский немецкий испанский вьетнамский |
Наборы символов | Арабские цифры знаки препинания |
Назначенный | 128 кодовых точек 33 элемента управления или форматирования |
Неиспользованный | 0 зарезервированных кодовых точек |
Исходные стандарты | ISO / IEC 8859 , ISO 646 |
История версий Unicode | |
1.0.0 (1991) | 128 (+128) |
Примечание : [1] [2] |
Блок Basic Latin был включен в его нынешнем виде из версии 1.0.0 стандарта Unicode, без добавления или изменения репертуара символов. [3] Его имя блока в Unicode 1.0 было ASCII . [4]
Таблица персонажей
Код | Результат | Описание | Акроним |
---|---|---|---|
C0 контролирует | |||
U + 0000 | Нулевой символ | NUL | |
U + 0001 | Начало заголовка | SOH | |
U + 0002 | Начало текста | STX | |
U + 0003 | Символ конца текста | ETX | |
U + 0004 | Символ конца передачи | EOT | |
U + 0005 | Характер запроса | ENQ | |
U + 0006 | Признать характер | ACK | |
U + 0007 | Белл характер | BEL | |
U + 0008 | Backspace | BS | |
U + 0009 | Горизонтальная вкладка | HT | |
U + 000A | Перевод строки | LF | |
U + 000B | Вертикальная табуляция | VT | |
U + 000C | Подача формы | FF | |
U + 000D | Возврат каретки | CR | |
U + 000E | Сдвиг | ТАК | |
U + 000F | Перейти в | SI | |
U + 0010 | Выход из канала передачи данных | DLE | |
U + 0011 | Управление устройством 1 | DC1 | |
U + 0012 | Контроль устройств 2 | DC2 | |
U + 0013 | Контроль устройств 3 | DC3 | |
U + 0014 | Контроль устройств 4 | DC4 | |
U + 0015 | Отрицательно-подтверждающий символ | НАК | |
U + 0016 | Синхронный холостой ход | SYN | |
U + 0017 | Конец блока передачи | ETB | |
U + 0018 | Отменить символ | МОЖЕТ | |
U + 0019 | Конец среднего | ЭМ | |
U + 001A | Замещающий персонаж | SUB | |
U + 001B | Эскейп-персонаж | ESC | |
U + 001C | Разделитель файлов | FS | |
U + 001D | Разделитель групп | GS | |
U + 001E | Разделитель записей | RS | |
U + 001F | Разделитель единиц | нас | |
Пунктуация и символы ASCII | |||
U + 0020 | Космос | SP | |
U + 0021 | ! | Восклицательный знак | EXC |
U + 0022 | " | Кавычка | QUO |
U + 0023 | # | Знак числа | |
U + 0024 | $ | Знак доллара | |
U + 0025 | % | Знак процента | |
U + 0026 | & | Амперсанд | |
U + 0027 | ' | Апостроф | |
U + 0028 | ( | Левая скобка | |
U + 0029 | ) | Правая скобка | |
U + 002A | * | Звездочка | |
U + 002B | + | Знак плюс | |
U + 002C | , | Запятая | |
U + 002D | - | Дефис-минус | |
U + 002E | . | Полная остановка или период | |
U + 002F | / | Солидус или косая черта | |
Цифры ASCII | |||
U + 0030 | 0 | Цифра ноль | |
U + 0031 | 1 | Цифра один | |
U + 0032 | 2 | Цифра два | |
U + 0033 | 3 | Цифра три | |
U + 0034 | 4 | Цифра четыре | |
U + 0035 | 5 | Цифра пятая | |
U + 0036 | 6 | Цифра шесть | |
U + 0037 | 7 | Цифра седьмая | |
U + 0038 | 8 | Цифра восемь | |
U + 0039 | 9 | Цифра девять | |
Пунктуация и символы ASCII | |||
U + 003A | : | Двоеточие | |
U + 003B | ; | Точка с запятой | |
U + 003C | < | Знак "меньше" | |
U + 003D | знак равно | Знак равенства | |
U + 003E | > | Знак "больше" | |
U + 003F | ? | Вопросительный знак | |
U + 0040 | @ | На вывеске или в рекламе на | |
Прописные буквы латинского алфавита | |||
U + 0041 | А | Латинская заглавная буква А | |
U + 0042 | B | Латинская заглавная буква B | |
U + 0043 | C | Латинская заглавная буква C | |
U + 0044 | D | Латинская заглавная буква D | |
U + 0045 | E | Латинская заглавная буква E | |
U + 0046 | F | Латинская заглавная буква F | |
U + 0047 | грамм | Латинская заглавная буква G | |
U + 0048 | ЧАС | Латинская заглавная буква H | |
U + 0049 | я | Латинская заглавная буква I | |
U + 004A | J | Латинская заглавная буква J | |
U + 004B | K | Латинская заглавная буква K | |
U + 004C | L | Латинская заглавная буква L | |
U + 004D | M | Латинская заглавная буква M | |
U + 004E | N | Латинская заглавная буква N | |
U + 004F | О | Латинская заглавная буква O | |
U + 0050 | п | Латинская заглавная буква P | |
U + 0051 | Q | Латинская заглавная буква Q | |
U + 0052 | р | Латинская заглавная буква R | |
U + 0053 | S | Латинская заглавная буква S | |
U + 0054 | Т | Латинская заглавная буква T | |
U + 0055 | U | Латинская заглавная буква U | |
U + 0056 | V | Латинская заглавная буква V | |
U + 0057 | W | Латинская заглавная буква W | |
U + 0058 | Икс | Латинская заглавная буква X | |
U + 0059 | Y | Латинская заглавная буква Y | |
U + 005A | Z | Латинская заглавная буква Z | |
Пунктуация и символы ASCII | |||
U + 005B | [ | Левая квадратная скобка | |
U + 005C | \ | Обратная косая черта [A] | |
U + 005D | ] | Правая квадратная скобка | |
U + 005E | ^ | Circumflex акцент | |
U + 005F | _ | Низкая линия | |
U + 0060 | ` | Серьезный акцент | |
Строчный латинский алфавит | |||
U + 0061 | а | Латинская строчная буква А | |
U + 0062 | б | Латинская строчная буква B | |
U + 0063 | c | Латинская строчная буква C | |
U + 0064 | d | Латинская строчная буква D | |
U + 0065 | е | Латинская строчная буква E | |
U + 0066 | ж | Латинская строчная буква F | |
U + 0067 | грамм | Латинская строчная буква G | |
U + 0068 | час | Латинская строчная буква H | |
U + 0069 | я | Латинская строчная буква I | |
U + 006A | j | Латинская строчная буква J | |
U + 006B | k | Латинская строчная буква K | |
U + 006C | л | Латинская строчная буква L | |
U + 006D | м | Латинская строчная буква M | |
U + 006E | п | Латинская строчная буква N | |
U + 006F | о | Латинская строчная буква O | |
U + 0070 | п | Латинская строчная буква P | |
U + 0071 | q | Латинская строчная буква Q | |
U + 0072 | р | Латинская строчная буква R | |
U + 0073 | s | Латинская строчная буква S | |
U + 0074 | т | Латинская строчная буква T | |
U + 0075 | ты | Латинская строчная буква U | |
U + 0076 | v | Латинская строчная буква V | |
U + 0077 | ш | Латинская строчная буква W | |
U + 0078 | Икс | Латинская строчная буква X | |
U + 0079 | y | Латинская строчная буква Y | |
U + 007A | z | Латинская строчная буква Z | |
Пунктуация и символы ASCII | |||
U + 007B | { | Левая фигурная скобка | |
U + 007C | | | Вертикальная полоса | |
U + 007D | } | Правая фигурная скобка | |
U + 007E | ~ | Тильда | |
Управляющий персонаж | |||
U + 007F | Удалить | DEL |
- A Буква U + 005C (\) может отображаться как знак йены (¥) или вон (₩) в японских / корейских шрифтах, ошибочно принимая Unicode (особенно UTF-8) за устаревший набор символов, который заменяет обратную косую черту этими знаками. [5]
Подзаголовки
Блок C0 Controls и Basic Latin содержит шесть подзаголовков. [6]
C0 контролирует
В C0 управление , упоминаемое как коды С0 управления ASCII , в версии 1.0, унаследовано от ASCII и других схем кодирования 7-битных и 8-битной. Имена псевдонимов для элементов управления C0 взяты из стандарта ISO / IEC 6429: 1992 . [6]
Пунктуация и символы ASCII
Этот подзаголовок относится к стандартным знакам пунктуации, простым математическим операторам и таким символам, как знак доллара, процент, амперсанд, подчеркивание и вертикальная черта . [6]
Цифры ASCII
Подзаголовок ASCII Digits содержит стандартные европейские цифровые символы 1–9 и 0. [6]
Прописные буквы латинского алфавита
Подзаголовок прописного латинского алфавита содержит стандартный 26-буквенный латинский алфавит без ударения в мажускуле . [6]
Строчный латинский алфавит
Подзаголовок нижнего регистра латинского алфавита содержит стандартный 26-буквенный латинский алфавит без ударения в минускуле . [6]
Управляющий персонаж
Подзаголовок управляющего символа содержит символ «Удалить». [6]
Количество символов, букв и контрольных кодов
В таблице ниже показано количество букв , символов и управляющих кодов в каждом из подзаголовков в блоке C0 Controls и Basic Latin.
Тип подзаголовка | Количество символов | Диапазон персонажей |
---|---|---|
C0 контролирует | 32 управляющих кода | U + 0000 - U + 001F |
Пунктуация и символы ASCII | 33 знака препинания и символа | От U + 0020 до U + 002F, от U + 003A до U + 0040, от U + 005B до U + 0060 и от U + 007B до U + 007E |
Цифры ASCII | 10 цифр | U + 0030 - U + 0039 |
Латинский алфавит в верхнем регистре | 26 латинских букв без ударения в маюскуле. | U + 0041 - U + 005A |
Строчный латинский алфавит | 26 латинских букв без ударения в минускуле. | U + 0061 - U + 007A |
Управляющий персонаж | 1 управляющий код, содержащий символ «Удалить». | U + 007F |
Блокировать
C0 Controls и Basic Latin [1] Официальная таблица кодов Консорциума Unicode (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | B | C | D | E | F | |
U + 000x | NUL | SOH | STX | ETX | EOT | ENQ | ACK | BEL | BS | HT | LF | VT | FF | CR | ТАК | SI |
U + 001x | DLE | DC1 | DC2 | DC3 | DC4 | НАК | SYN | ETB | МОЖЕТ | ЭМ | SUB | ESC | FS | GS | RS | нас |
U + 002x | SP | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
U + 003x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | знак равно | > | ? |
U + 004x | @ | А | B | C | D | E | F | грамм | ЧАС | я | J | K | L | M | N | О |
U + 005x | п | Q | р | S | Т | U | V | W | Икс | Y | Z | [ | \ | ] | ^ | _ |
U + 006x | ` | а | б | c | d | е | ж | грамм | час | я | j | k | л | м | п | о |
U + 007x | п | q | р | s | т | ты | v | ш | Икс | y | z | { | | | } | ~ | DEL |
Заметки
|
Варианты
Некоторые символы определены для рендеринга как стандартизованный вариант, если за ними следуют индикаторы вариантов.
Для нуля с коротким диагональным ходом определен вариант: U + 0030 DIGIT ZERO, U + FE00 VS1 (0︀). [7] [8]
За двенадцатью символами (#, * и цифры) могут следовать U + FE0E VS15 или U + FE0F VS16 для создания вариантов смайликов . [9] [10] [11] [12] Они KEYCAP базовых символов, например , # ️⃣ (U + 0023 НОМЕР ЗНАК U + FE0F VS16 U + 20E3 КОМБИНИРОВАНИЯ ограждающих KEYCAP). Версия VS15 - это «текстовое представление», а версия VS16 - «в стиле эмодзи». [8]
U + | 0023 | 002A | 0030 | 0031 | 0032 | 0033 | 0034 | 0035 | 0036 | 0037 | 0038 | 0039 |
база | # | * | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
база + VS15 + колпачок | # ︎⃣ | * ︎⃣ | 0︎⃣ | 1︎⃣ | 2︎⃣ | 3︎⃣ | 4︎⃣ | 5︎⃣ | 6︎⃣ | 7︎⃣ | 8︎⃣ | 9︎⃣ |
база + VS16 + колпачок | # ️⃣ | * ️⃣ | 0️⃣ | 1️⃣ | 2️⃣ | 3️⃣ | 4️⃣ | 5️⃣ | 6️⃣ | 7️⃣ | 8️⃣ | 9️⃣ |
История
Следующие документы, относящиеся к Unicode, фиксируют цель и процесс определения определенных символов в блоке Basic Latin:
Версия | Окончательные коды [a] | Считать | Идентификатор UTC | L2 ID | ID WG2 | Документ |
---|---|---|---|---|---|---|
1.0.0 | U + 0000..007F | 128 | (быть определенным) | |||
UTC / 1999-013 | Карлссон, Кент (1999-05-27), Тильды и разложение микрознаков | |||||
L2 / 99-176R | Мур, Лиза (1999-11-04), "Micro Sign Case Mappings", Протоколы совместной встречи UTC / L2 в Сиэтле, 8-10 июня 1999 г. | |||||
L2 / 04-145 | Старнер, Дэвид (2004-04-30), C с примерами символов штрихов из отчета BAE 1884 (Дорси) | |||||
L2 / 04-202 | Андерсон, Дебора (2004-06-07), Slashed C Feedback | |||||
N3046 | Suignard, Мишель (2006-02-22), Улучшение формального определения управляющих символов | |||||
N3103 (pdf , doc ) | Умамахесваран, ВС (25 августа 2006 г.), «M48.33», неподтвержденный протокол собрания 48 РГ 2, Маунтин-Вью, Калифорния, США; 2006-04-24 / 27 | |||||
L2 / 11-043 | Фрейтаг, Асмус; Карлссон, Кент (02.02.2011), Предложение по исправлению ошибок и несоответствий в определенных присвоениях свойств для букв верхнего и нижнего индекса | |||||
L2 / 11-160 | PRI # 181 Изменение общей категории двенадцати символов , 2011-05-02 | |||||
L2 / 11-261R2 | Мур, Лиза (2011-08-16), "Consensus 128-C3", UTC # 128 / L2 # 225 минут , Примите рекомендации Кена Уистлера в L2 / 11-281 по псевдонимам имен для управляющих символов с добавлением сокращений BEL и NUL. | |||||
L2 / 11-438 [b] [c] | N4182 | Эдберг, Питер (2011-12-22), Последовательности вариаций эмодзи (редакция L2 / 11-429) | ||||
L2 / 15-107 | Мур, Лиза (2015-05-12), «Consensus 143-C5», UTC # 143 минуты , добавьте 12 последовательностей клавиш в emoji-data.txt в качестве предварительных именованных последовательностей в Unicode 8.0. | |||||
L2 / 15-268 | Битон, Барбара; Фрейтаг, Асмус; Янку, Лауреньиу; Сарджент, Мюррей (2015-10-30), Предложение о представлении нулевого варианта пустого множества с косой чертой | |||||
L2 / 15-301 [d] [c] | Pournader, Roozbeh (2015-11-01), Предложение по 278 стандартизированным последовательностям вариаций для эмодзи | |||||
L2 / 15-254 | Мур, Лиза (2015-11-16), "B.12.1.2 Предложение по представлению нулевого варианта с косой чертой в пустом множестве", UTC № 145 Минуты | |||||
L2 / 17-294 | N4914 | Лунде, Кен (2017-08-14), Предложение о добавлении стандартизированной последовательности вариаций для U + FF10 FULLWIDTH DIGIT ZERO | ||||
|
Смотрите также
- Латинский шрифт в Юникоде
- Набор символов
- ISO 8859-1
Рекомендации
- ^ «База данных символов Юникода» . Стандарт Юникода . Проверено 9 июля 2016 .
- ^ «Нумерованные версии стандарта Unicode» . Стандарт Юникода . Проверено 9 июля 2016 .
- ^ Стандартная версия Unicode 1.0, том 1 . Addison-Wesley Publishing Company, Inc. 1990. ISBN 0-201-56788-1.
- ^ «3.8: Блок-за-блок-схемы» (PDF) . Стандарт Юникода . версия 1.0. Консорциум Unicode .
- ^ Сортировка всего: когда обратная косая черта не является обратной?
- ^ Б с д е е г «Таблицы кодов Unicode 6.2» (PDF) . Стандарт Юникода . Проверено 1 апреля 2013 года .
- ^ Битон, Барбара; Фрейтаг, Асмус; Янку, Лауреньиу; Сарджент, Мюррей (30 октября 2015 г.). «L2 / 15-268: Предложение представить вариант с косой чертой для пустого множества» (PDF) .
- ^ а б «Последовательности вариаций эмодзи UTS # 51» . Консорциум Unicode.
- ^ Эдберг, Питер (22 декабря 2011 г.). «L2 / 11-438: Последовательности вариаций эмодзи (редакция L2 / 11-429)» (PDF) .
- ^ Пурнадер, Рузбех (01.11.2015). «L2 / 15-301: предложение для 278 стандартизированных последовательностей вариаций для смайликов» (PDF) .
- ^ «UTR # 51: Unicode Emoji» . Консорциум Unicode. 2020-02-11.
- ^ «UCD: данные эмодзи для UTR №51» . Консорциум Unicode. 2020-01-28.