ISO / IEC 2022

ISO 2022
Язык (и)	Разные.
Стандарт	ISO / IEC 2022, ECMA-35, ANSI X3.41, JIS X 0202
Классификация	Система кодирования с отслеживанием состояния (с предварительно настроенными подмножествами без сохранения состояния)
Преобразует / кодирует	US-ASCII и, в зависимости от реализации: ГБ 2312 JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 KS X 1001 CNS 11643 ISO 646 ISO 8859 / 10367 Различные другие
Преемник	ISO 10646 ( Юникод )
Другая связанная кодировка (и)	Подмножества с сохранением состояния : ISO-2022-JP , ISO-2022-CN , ISO-2022-KR Предварительно сконфигурированные версии : ISO 4873 , EUC
v т е

ISO / IEC 2022 структура данных код технологии символов и методы расширения , является ISO стандартом (эквивалентно ECMA стандарта ECMA-35 , ^[1]^[2] ANSI стандарт ANSI X3.41 ^[3] и японский промышленный стандарт JIS X 0202 ) с указанием:

Инфраструктура из нескольких наборов символов с конкретными структурами, которые могут быть включены в единую систему кодирования символов , включая несколько наборов графических символов и несколько наборов как первичных (C0), так и вторичных (C1) управляющих кодов , ^[4]
Формат для кодирования этих наборов, предполагающий, что на байт доступно 8 бит, ^[5]
Формат для кодирования этих наборов в той же системе кодирования, когда только 7 бит доступны на байт, ^[6] и метод преобразования любых соответствующих символьных данных для прохождения через такую 7-битную среду, ^[7]
Общая структура управляющих кодов ANSI , ^[8] и
Конкретные форматы escape-кода для идентификации отдельных наборов символов ^[9] для объявления использования определенных функций или подмножеств кодирования, ^[10] и для взаимодействия с другими системами кодирования или переключения на них. ^[10]

Многие из наборов символов, включенных как кодировки ISO / IEC 2022, являются «двухбайтовыми» кодировками, где два байта соответствуют одному символу. Это делает ISO-2022 кодировкой переменной ширины. Но конкретная реализация не обязательно должна реализовывать весь стандарт; уровень соответствия и поддерживаемые наборы символов определяются реализацией.

Хотя многие механизмы, определенные стандартом ISO / IEC 2022, используются нечасто, несколько установленных кодировок основаны на подмножестве системы ISO / IEC 2022. ^[11] В частности, 7-битные системы кодирования, использующие механизмы ISO / IEC 2022, включают ISO-2022-JP (или кодирование JIS ), которое в основном использовалось в электронной почте на японском языке . 8-битные системы кодирования, соответствующие ISO / IEC 2022, включают ISO / IEC 4873 (ECMA-43), который, в свою очередь, соответствует ISO / IEC 8859 , ^[12]^[13] и Extended Unix Code , который используется для Востока. Азиатские языки. ^[14]Более специализированные приложения ISO 2022 включают систему кодирования MARC-8, используемую в записях библиотеки MARC 21 . ^[3]

Введение [ править ]

В этом разделе не процитировать любые источники . Пожалуйста, помогите улучшить этот раздел , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален . ( Сентябрь 2019 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Многие языки или языковые семьи, не основанные на латинском алфавите, такие как греческий , кириллица , арабский или иврит , исторически были представлены на компьютерах с различными 8-битными расширенными кодировками ASCII . Письменные языки Восточной Азии , в частности китайский , японский и корейский , используют гораздо больше символов, чем может быть представлено в 8- битном компьютерном байте, и впервые были представлены на компьютерах с двухбайтовой кодировкой, зависящей от языка .

ИСО / МЭК 2022 был разработан как метод решения обеих этих проблем: для представления символов в нескольких наборах символов в рамках единой кодировки символов и для представления больших наборов символов.

Второе требование ISO-2022 заключалось в том, что он должен быть совместим с 7-битными каналами связи. Таким образом, даже несмотря на то, что ISO-2022 представляет собой 8-битный набор символов, любую 8-битную последовательность можно перекодировать, чтобы использовать только 7 бит без потерь и, как правило, лишь с небольшим увеличением размера.

Для представления нескольких наборов символов кодировки символов ISO / IEC 2022 включают escape-последовательности, которые указывают набор символов для следующих символов. Управляющие последовательности зарегистрированы в ISO и следуют шаблонам, определенным в стандарте. Эти кодировки символов требуют, чтобы данные обрабатывались последовательно в прямом направлении, поскольку правильная интерпретация данных зависит от ранее встреченных управляющих последовательностей. Однако обратите внимание, что другие стандарты, такие как ISO-2022-JP, могут налагать дополнительные условия, такие как текущий набор символов сбрасывается до US-ASCII перед концом строки.

Для представления больших наборов символов ISO / IEC 2022 основывается на свойстве ISO / IEC 646 , согласно которому один семибитный символ обычно определяет 94 графических (печатаемых) символа (в дополнение к пробелу и 33 управляющим символам). Таким образом, используя два байта, можно представить до 8 836 (94 × 94) символов; и, используя три байта, до 830 584 (94 × 94 × 94) символов. Хотя стандарт определяет это, ни один зарегистрированный набор символов не использует три байта (хотя незарегистрированный G2 EUC-TW использует). Для двухбайтовых наборов символов кодовая точка каждого символа обычно указывается в так называемой форме kuten (японский:区点) (иногда называемой qūwèi (китайский:区位), особенно при работе с GB2312).и связанные стандарты), который определяет зону (区, японский: ku , китайский: qū ), а также точку (японский:点 ten ) или положение (китайский:位 wèi ) этого символа в зоне.

Следовательно, управляющие последовательности не только объявляют, какой набор символов используется, но также, зная свойства этих наборов символов, знают, какая кодировка - 94, 96, 8 836 или 830 584 символов (или другого размера). решается.

На практике управляющие последовательности, объявляющие наборы национальных символов, могут отсутствовать, если контекст или соглашение диктует, что должен использоваться определенный набор национальных символов. Например, ISO-8859-1 заявляет, что никакой управляющей последовательности не требуется, а RFC 1922, который определяет ISO-2022-CN, позволяет использовать символы SHIFT ISO-2022 без явного использования escape-последовательностей.

Определения ISO-2022 наборов символов ISO-8859-X представляют собой конкретные фиксированные комбинации компонентов, которые образуют ISO-2022. В частности, нижние управляющие символы (C0), набор символов US-ASCII (в GL) и верхние управляющие символы (C1) являются стандартными, а старшие символы (GR) определены для каждого из вариантов ISO-8859-X; например, ISO-8859-1 определяется ^{[ необходима ссылка ]} комбинацией ISO-IR-1, ISO-IR-6, ISO-IR-77 и ISO-IR-100 без каких-либо сдвигов или изменений символов.

Хотя наборы символов ISO / IEC 2022, использующие управляющие последовательности, все еще широко используются, особенно ISO-2022-JP, большинство современных приложений электронной почты преобразуются для использования более простых преобразований Unicode, таких как UTF-8 . Кодировки, которые не используют управляющие последовательности, такие как наборы ISO-8859, по-прежнему очень распространены.

Структура кода [ править ]

Обозначения и номенклатура [ править ]

Кодирование ISO / IEC 2022 определяет двухуровневое соответствие между кодами символов и отображаемыми символами. Управляющие последовательности позволяют «назначить» ^[15] любой из большого реестра наборов графических символов в один из четырех рабочих наборов с именами от G0 до G3, а более короткие управляющие последовательности определяют рабочий набор, который «вызывается» ^[16] для интерпретации байтов в потоке.

Значения байтов кодирования («битовые комбинации») часто даются в виде столбцов , где два десятичных числа в диапазоне 00–15 (каждое соответствует одной шестнадцатеричной цифре) разделены косой чертой. ^[17] Следовательно, например, коды с 2/0 (0x20) по 2/15 (0x2F) включительно могут упоминаться как «столбец 02». Это обозначение, используемое в самом стандарте ISO / IEC 2022 / ECMA-35. ^[18] Они могут быть описаны в другом месте с использованием шестнадцатеричного числа , как это часто используется в этой статье, или с использованием соответствующих символов ASCII, ^[19] хотя escape-последовательности на самом деле определены в терминах байтовых значений, а графика, присвоенная этому байтовому значению. могут быть изменены, не влияя на последовательность управления.

Байтовые значения из 7-битного графического диапазона ASCII (шестнадцатеричный 0x20–0x7F), находящиеся в левой части таблицы кодов символов, называются кодами «GL» (где «GL» означает «графика слева»), в то время как байты из диапазона «high ASCII» (0xA0–0xFF), если он доступен (т. е. в 8-битной среде), называются кодами «GR» («графика справа») . ^[20] Термины «CL» (0x00–0x1F) и «CR» (0x80–0x9F) определены для диапазонов управления, но диапазон CL всегда вызывает основные (C0) элементы управления, тогда как диапазон CR всегда либо вызывает вторичный (C1) управляет или не используется. ^[20]

Фиксированные закодированные символы [ править ]

Символ удаления DEL (0x7F), то экранирующий символ ESC (0x1B) и символ пробела SP (0x20) обозначены «фиксированные» закодированные символы ^[21] и всегда доступны , когда G0 вызывается через GL, независимо от того, какие наборы символов являются назначен. Они не могут быть включены в графические наборы символов, хотя могут быть другие размеры или типы пробельных символов . ^[22]

Общий синтаксис escape-последовательностей [ править ]

Последовательности, в которых используется символ ESC (escape), принимают форму , где за символом ESC следует ноль или более промежуточных байтов ^[23] ( I ) из диапазона 0x20–0x2F и один последний байт ^[24] ( F ) из диапазона 0x30–0x7E. ^[25]ESC [I...] F

Первый байт I или его отсутствие определяет тип escape-последовательности; он может, например, обозначать рабочий набор или единственную функцию управления. Во всех типах управляющих последовательностей F байтов в диапазоне 0x30–0x3F зарезервированы для незарегистрированного частного использования, определенного по предварительному соглашению между сторонами. ^[26]

Наборы графических символов [ править ]

Каждый из четырех рабочих наборов G0 через G3 может представлять собой набор 94-символьного или 94 ^п -character множества многобайтового . Кроме того, G1 , G3 через может быть 96- или 96 - ^п -character множество.

В 96- или 96 - ^п -character набора, то байты 0x20 через 0x7F , когда GL-вызов или 0xA0 через 0xFF при GR-вызове выделены и может быть использован в наборе. В 94- или 94 ^п -character набора, байты 0x20 и 0x7F не используются. ^[27] Когда 96- или 96 - ^п -character множество вызывается в области GL, пространство и удаления символов (коды 0x20 и 0x7F) не доступны до получения 94- или 94 ^п -character множества (например, множество G0 ) вызывается в GL. ^[20] Наборы из 96 символов не могут быть назначены для G0.

Регистрация набора как 96-символьного не обязательно означает, что байты 0x20 / A0 и 0x7F / FF фактически назначаются набором; некоторые примеры графических наборов символов, которые зарегистрированы как 96-наборы, но не используют эти байты, включают набор G1 IS 434 , ^[28] набор чертежей коробки из ISO / IEC 10367 , ^[29] и ISO-IR-164 ( подмножество набора G1 стандарта ISO-8859-8 только с буквами, используемым CCITT ). ^[30]

Комбинирование персонажей [ править ]

Ожидается, что символы будут символами-пробелами, а не комбинациями символов, если иное не указано в рассматриваемом графическом наборе. ^[31] ИСО 2022 / ECMA-35 также признает использование Backspace и перевозки контрольных символов возврата как средство объединения в противном случае Spacing символов, а также последовательность CSI «графический символ» Combination (GCC) ^[31] ( CSI 0x20 (SP) 0x5F (_)). ^[32]

Использование обратного пробела и возврата каретки таким образом разрешено ISO / IEC 646, но запрещено ISO / IEC 4873 / ECMA-43 ^[33] и ISO / IEC 8859 , ^[34]^[35] на том основании, что он оставляет репертуар графического персонажа не определен. ISO / IEC 4873 / ECMA-43, однако, разрешает использование функции GCC на основании того, что последовательность символов остается неизменной и просто отображается в одном пространстве, а не штампуется поверх, чтобы сформировать символ с другое значение. ^[36]

Наборы управляющих символов [ править ]

Наборы управляющих символов классифицируются как «первичные» или «вторичные» наборы управляющих символов ^[37], соответственно, также называемые наборами управляющих символов «C0» и «C1». ^[38]

Управляющий набор C0 должен содержать управляющий символ ESC (escape) в 0x1B ^[39] (набор C0, содержащий только ESC, зарегистрирован как ISO-IR-104) ^[40], тогда как набор управления C1 может не содержать управляющего символа вообще . ^[27] Следовательно, это полностью отдельные регистрации: набор C0 - это только набор C0, а набор C1 - только набор C1. ^[38]

Если коды из набора C0 стандарта ISO 6429 / ECMA-48, т. Е. Управляющие коды ASCII , появляются в наборе C0, они должны появиться в своих местоположениях ISO 6429 / ECMA-48. ^[39] Включение символов управления передачей в набор C0, помимо десяти, включенных в ISO 6429 / ECMA-48 (а именно SOH, STX, ETX, EOT, ENQ, ACK, DLE, NAK, SYN и ETB), ^[41] или включение любого из этих десяти в набор C1 также запрещено стандартом ISO / IEC 2022 / ECMA-35. ^[39]^[27]

Управляющий набор C0 вызывается в диапазоне CL от 0x00 до 0x1F, ^[42] тогда как управляющий символ C1 может быть вызван в диапазоне CR от 0x80 до 0x9F (в 8-битной среде) или с помощью управляющих последовательностей (в 7- битовая или 8-битная среда), ^[37], но не то и другое одновременно. Какой стиль вызова C1 используется, необходимо указать в определении версии кода. ^[43] Например, ISO / IEC 4873 определяет байты CR для используемых элементов управления C1 (SS2 и SS3). ^[44] При необходимости, о том, какой вызов используется, можно сообщить с помощью последовательностей извещателей .

В последнем случае одиночные управляющие символы из набора управляющих символов C1 вызываются с использованием управляющих последовательностей типа Fe ^[27], означающих те, в которых за управляющим символом ESC следует байт из столбцов 04 или 05 (то есть, ESC 0x40 (@)через ESC 0x5F (_)). ^[45]

Другие функции управления [ править ]

Дополнительные функции управления назначаются управляющим последовательностям типа Fs (в диапазоне ESC 0x60 (`)до ESC 0x7E (~)); они имеют постоянно присвоенные значения, а не зависят от обозначений C0 или C1. ^[45]^[46] Регистрация функций управления в последовательностях типа «Fs» должна быть одобрена ISO / IEC JTC 1 / SC 2 . ^[46] Другие одиночные функции управления могут быть зарегистрированы для управляющих последовательностей типа «3Ft» (в диапазоне до ), ^[47] хотя в настоящее время последовательности «3Ft» не назначаются (по состоянию на 2019 год). ^[48]ESC 0x23 (#) [I...] 0x40 (@)ESC 0x23 (#) [I...] 0x7E (~)

Следующие escape-последовательности назначены для отдельных функций управления: ^[48]

Код	Шестигранник	Сокр.	Имя	Эффект
ESC `	`1B 60`	DMI	Отключить ручной ввод	Отключает некоторые или все возможности ручного ввода на устройстве.
`ESC a`	`1B 61`	INT	Прерывать	Прерывает текущий процесс.
`ESC b`	`1B 62`	EMI	Включить ручной ввод	Включает возможности ручного ввода на устройстве.
`ESC c`	`1B 63`	РИС	Сброс в исходное состояние	Сбрасывает устройство в исходное состояние после включения.
`ESC d`	`1B 64`	CMD	Разделитель метода кодирования	Используется при взаимодействии с внешней системой кодирования / представления, см. Ниже.
`ESC n`	`1B 6E`	LS2	Блокировка второй смены	Функция сдвига, см. Ниже.
`ESC o`	`1B 6F`	LS3	Блокировка третьей смены	Функция сдвига, см. Ниже.
`ESC \|`	`1B 7C`	LS3R	Блокировка сдвига три вправо	Функция сдвига, см. Ниже.
`ESC }`	`1B 7D`	LS2R	Блокировка сдвига два вправо	Функция сдвига, см. Ниже.
`ESC ~`	`1B 7E`	LS1R	Блокировка сдвига вправо	Функция сдвига, см. Ниже.

Управляющие последовательности типа «Fp» ( ESC 0x30 (0)через ESC 0x3F (?)) или типа «3Fp» ( через ) зарезервированы для управляющих кодов одноразового частного использования по предварительному соглашению между сторонами. ^[49] Несколько таких последовательностей обоих типов используются терминалами DEC, такими как VT100 , и, таким образом, поддерживаются эмуляторами терминалов . ^[50]ESC 0x23 (#) [I...] 0x30 (0)ESC 0x23 (#) [I...] 0x3F (?)

Функции сдвига [ править ]

По умолчанию коды GL определяют символы G0, а коды GR (если они доступны) определяют символы G1; это может быть иначе оговорено по предварительному согласованию. Набор, вызываемый для каждой области, также может быть изменен с помощью управляющих кодов, называемых сдвигами, как показано в таблице ниже. ^[51]

8-битный код может иметь коды GR, определяющие символы G1, то есть с соответствующим 7-битным кодом, использующим Shift In и Shift Out для переключения между наборами (например, JIS X 0201 ), ^[52] хотя некоторые вместо этого имеют коды GR, определяющие G2 символов с соответствующим 7-битным кодом, использующим односменный код для доступа ко второму набору (например, T.51 ). ^[53]

Коды, показанные в таблице ниже, являются наиболее распространенными кодировками этих управляющих кодов, соответствующими ISO / IEC 6429 . Сдвиги LS2, LS3, LS1R, LS2R и LS3R регистрируются как отдельные функции управления и всегда кодируются как escape-последовательности, перечисленные ниже ^[48], тогда как другие являются частью набора управляющих кодов C0 или C1 (как показано ниже, SI (LS0) и SO (LS1) - это элементы управления C0, а SS2 и SS3 - элементы управления C1), что означает, что их кодирование и доступность могут различаться в зависимости от того, какие наборы элементов управления назначены: они должны присутствовать в назначенных наборах элементов управления, если используются их функции. . ^[42]^[43] Сами элементы управления C1, как упомянуто выше, могут быть представлены с помощью управляющих последовательностей или 8-битных байтов, но не обоих одновременно.

Альтернативные кодировки односменных передач в виде управляющих кодов C0 доступны в определенных наборах управляющих кодов. Например, SS2 и SS3 обычно доступны по адресу 0x19 и 0x1D соответственно в T.51 ^[53] и T.61 . ^[54] Это кодирование в настоящее время рекомендуется ISO / IEC 2022 / ECMA-35 для приложений, требующих 7-битных однобайтовых представлений SS2 и SS3, ^[55], а также может использоваться только для SS2, ^[56] хотя старый код также существуют наборы с SS2 на 0x1C ^[57]^[58]^[59], и они были упомянуты как таковые в более ранней редакции стандарта. ^[60] Кодирование одиночных смен 0x8E и 0x8F, как показано ниже, является обязательным дляISO / IEC 4873 уровни 2 и 3. ^[61]

Код	Шестигранник	Сокр.	Имя	Эффект
`SI`	`0F`	SI LS0	Shift In Locking shift zero	С этого момента GL кодирует G0 ^[62]^[63]
`SO`	`0E`	SO LS1	Shift Out Блокировка первого сдвига	GL кодирует G1 с этого момента ^[62]^[63]
`ESC n`	`1B 6E`	LS2	Блокировка второй смены	С этого момента GL кодирует G2 ^[62]^[63]
`ESC o`	`1B 6F`	LS3	Блокировка третьей смены	С этого момента GL кодирует G3 ^[62]^[63]
Область CR: `SS2` Код выхода: `ESC N`	Область CR: `8E` Код выхода: `1B 4E`	SS2	Одна смена два	GL или GR (см. Ниже) кодируют G2 только для следующего за ним символа ^[64]
Область CR: `SS3` Код выхода: `ESC O`	Область CR: `8F` Код выхода: `1B 4F`	SS3	Одна смена три	GL или GR (см. Ниже) кодируют G3 только для следующего за ним символа ^[64]
`ESC ~`	`1B 7E`	LS1R	Блокировка сдвига вправо	GR теперь кодирует G1 ^[65]
`ESC }`	`1B 7D`	LS2R	Блокировка сдвига два вправо	GR теперь кодирует G2 ^[65]
`ESC \|`	`1B 7C`	LS3R	Блокировка сдвига три вправо	GR теперь кодирует G3 ^[65]

В 8-битных средах в качестве области с одинарным сдвигом может использоваться либо GL, либо GR, но не оба вместе. Это должно быть указано в определении версии кода. ^[64] Например, ISO / IEC 4873 определяет GL, а упакованный EUC определяет GR. В 7-битных средах в качестве односменной области используется только GL. ^[66]^[67] Если необходимо, информация о том, какая односменная область используется, может быть передана с использованием последовательностей извещателей .

Имена «блокирующий нулевой сдвиг» (LS0) и «блокирующий сдвиг один» (LS1) относятся к той же паре управляющих символов C0 (0x0F и 0x0E), что и имена «сдвиг внутрь» (SI) и «сдвиг наружу» (SO ). Однако стандарт называет их LS0 и LS1, когда они используются в 8-битных средах, и как SI и SO, когда они используются в 7-битных средах. ^[51]

Стандарт ISO / IEC 2022 / ECMA-35 разрешает, но не рекомендует использовать G1, G2 или G3 одновременно в GL и GR. ^[68]

Регистрация наборов графических и управляющих кодов [ править ]

ИСО Международный регистр кодированных наборов символов , которые будут использованы с помощью управляющих последовательностей (ISO-IR) списки графических наборов символов, контрольных кодовых наборов, кодов одного управления и так далее , которые были зарегистрированы для использования с ISO / IEC 2022. Процедура регистрации коды и наборы с реестром ISO-IR указаны в ISO / IEC 2375 . Каждая регистрация получает уникальную escape-последовательность и уникальный номер записи реестра для ее идентификации. ^[69]^[70] Например, набор символов CCITT для упрощенного китайского языка известен как ISO-IR-165 .

Регистрация кодированных наборов символов в реестре ISO-IR определяет документы, определяющие набор символов или функцию управления, связанную с управляющей последовательностью ISO / IEC 2022, не предназначенной для частного использования. Это может быть стандартный документ; однако регистрация не создает новый стандарт ISO, не обязывает ISO или IEC принять его в качестве международного стандарта и не обязывает ISO или IEC добавлять какие-либо из своих символов в универсальный набор кодированных символов . ^[71]

Обозначения набора символов [ править ]

Экранирующие последовательности для обозначения наборов символов принимают форму . Как упоминалось выше, промежуточные ( I ) байты находятся в диапазоне 0x20–0x2F, а последний ( F ) байт - из диапазона 0x30–0x7E. Первый байт I (или, для многобайтового набора, первые два) идентифицирует тип набора символов и рабочий набор, которому он должен быть назначен, тогда как байт F (и любые дополнительные байты I ) идентифицируют набор символов сам по себе, как указано в регистре ISO-IR (или, для управляющих последовательностей частного использования, по предварительному согласованию).ESC I [I...] F

Дополнительные байты I могут быть добавлены перед байтом F для расширения диапазона байтов F. В настоящее время это используется только с наборами из 94 символов, которым были присвоены коды формы . ^[72] С другой стороны, не было зарегистрировано 96-битных многобайтовых наборов, поэтому приведенные ниже последовательности являются строго теоретическими.ESC ( ! F

Как и в случае с другими типами управляющих последовательностей, диапазон 0x30–0x3F зарезервирован для байтов F частного использования ^[26], в данном случае для определений наборов символов частного использования (которые могут включать незарегистрированные наборы, определенные протоколами, такими как ARIB STD-B24 ^{[ 73]} или MARC-8 , ^[3] или наборы, зависящие от поставщика, такие как DEC Special Graphics ). ^[74] Однако в последовательности обозначений графического набора, если второй байт I (для однобайтового набора) или третий байт I (для двухбайтового набора) равен 0x20 (пробел), обозначенный набор будет " динамически переопределяемый набор символов "(DRCS), определенный по предварительному соглашению,^[75], который также считается частным использованием.^[26] Графический набор, рассматриваемый как DRCS, подразумевает, что он представляет собой шрифт точных глифов, а не набор абстрактных символов.^[76] Способ, которым наборы DRCS и связанные шрифты передаются, выделяются и управляются, не оговаривается самим стандартом ISO / IEC 2022 / ECMA-35, хотя он рекомендует распределять их последовательно, начиная сбайта F 0x40 (@);^[77] однако способ передачи шрифтов DRCS определяется в некоторых телекоммуникационных протоколах, таких как World System Teletext .^[78]

Также есть три особых случая для многобайтовых кодов. Все кодовые последовательности ESC $ @, ESC $ Aи ESC $ Bбыли зарегистрированы, когда современная версия стандарта разрешала многобайтовые наборы только в G0, поэтому они должны быть приняты вместо последовательностей до ESC $ ( @конца ESC $ ( Bдля обозначения набора символов G0. ^[79]

Существуют дополнительные (редко используемые) функции для переключения наборов управляющих символов, но это одноуровневый поиск, в котором (как отмечено выше) набор C0 всегда вызывается через CL, а набор C1 всегда вызывается через CR или через используя escape-коды. Как отмечалось выше, требуется, чтобы любой набор символов C0 включал символ ESC в позиции 0x1B, чтобы были возможны дальнейшие изменения. Последовательности обозначений контрольных наборов (в отличие от графических наборов) могут также использоваться в рамках ISO / IEC 10646 (UCS / Unicode) в контекстах, где уместна обработка управляющих кодов ANSI , при условии, что каждый байт в последовательности дополнен до размер кодовой единицы кодирования. ^[80]

Таблица I байтов escape-последовательности и обозначение или другая функция, которую они выполняют, приведена ниже. ^[81]

Код	Шестигранник	Сокр.	Имя	Эффект	Пример
`ESC SP F`	`1B 20 F`	ACS	Анонсировать структуру кода	Определяет используемые функции кода, например рабочие наборы (см. Ниже ). ^[82]	`ESC SP L` ( ISO 4873 уровень 1)
`ESC ! F`	`1B 21 F`	CZD	C0-обозначить	`F` выбирает набор управляющих символов C0, который будет использоваться. ^[83]	`ESC ! @` ( Коды ASCII C0 )
`ESC " F`	`1B 22 F`	C1D	C1-обозначить	`F` выбирает для использования набор управляющих символов C1. ^[84]	`ESC " C` ( Коды ISO 6429 C1 )
`ESC # F`	`1B 23 F`	-	(Единая функция управления)	(Зарезервировано для последовательностей функций управления, см. Выше .)	`ESC # 6` (частное использование: линия двойной ширины DEC ) ^[85]
`ESC $ F`^[а] `ESC $ ( F`	`1B 24 F`^[а] `1B 24 28 F`	GZDM4	G0-обозначить многобайтовый 94-набор	`Р` выбирает 94 ^п -character набор , который будет использоваться для G0. ^[79]	`ESC $ ( C` ( KS X 1001 в G0)
`ESC $ ) F`	`1B 24 29 F`	G1DM4	G1-обозначить многобайтовый 94-набор	`Р` выбирает 94 ^п -character набор , который будет использоваться для G1. ^[79]	`ESC $ ) A` ( GB 2312 в G1)
`ESC $ * F`	`1B 24 2A F`	G2DM4	G2-обозначить многобайтовый 94-набор	`Р` выбирает 94 ^п -character набор , который будет использоваться для G2. ^[79]	`ESC $ * B` ( JIS X 0208 в G2)
`ESC $ + F`	`1B 24 2B F`	G3DM4	G3-обозначить многобайтовый 94-набор	`Р` выбирает 94 ^п -character набор , который будет использоваться для G3. ^[79]	`ESC $ + D` ( JIS X 0212 в G3)
`ESC $ , F`	`1B 24 2C F`	-	(не используется)	(не используется) ^[b]	-
`ESC $ - F`	`1B 24 2D F`	G1DM6	G1-обозначить многобайтовый 96-набор	`Р` выбирает 96 ^п -character набор , который будет использоваться для G1. ^[79]	`ESC $ - 1` (частное использование)
`ESC $ . F`	`1B 24 2E F`	G2DM6	G2-обозначить многобайтовый 96-разрядный	`F` выбирает набор символов 96 ^n, который будет использоваться для G2. ^[79]	`ESC $ . 2` (частное использование)
`ESC $ / F`	`1B 24 2F F`	G3DM6	G3-обозначить многобайтовый 96-наборный	`Р` выбирает 96 ^п -character набор , который будет использоваться для G3. ^[79]	`ESC $ + 3` (частное использование)
`ESC % F`	`1B 25 F`	ДОКУМЕНТЫ	Назначьте другую систему кодирования	Система кодирования переключателей, см. Ниже .	`ESC % G` ( UTF-8 )
`ESC & F`	`1B 26 F`	IRR	Определить измененную регистрацию	Префиксное обозначение экранируется для обозначения ревизии. ^[c]	`ESC & @ ESC $ B` ( JIS X 0208: 1990 в G0)
`ESC ' F`	`1B 27 F`	-	(не используется)	(не используется)	-
`ESC ( F`	`1B 28 F`	GZD4	G0-обозначение 94-набор	`F` выбирает набор из 94 символов, который будет использоваться для G0. ^[79]	`ESC ( B` ( ASCII в G0)
`ESC ) F`	`1B 29 F`	G1D4	G1-обозначение 94-набор	`F` выбирает набор из 94 символов, который будет использоваться для G1. ^[79]	`ESC ) I` ( JIS X 0201 Кана в G1)
`ESC * F`	`1B 2A F`	G2D4	G2-обозначение 94-набор	`F` выбирает набор из 94 символов, который будет использоваться для G2. ^[79]	`ESC * v` ( ITU T.61 RHS в G2)
`ESC + F`	`1B 2B F`	G3D4	G3-обозначение 94-набор	`F` выбирает набор из 94 символов, который будет использоваться для G3. ^[79]	`ESC + D` ( NATS-SEFI-ADD в G3)
`ESC , F`	`1B 2C F`	-	(не используется)	(не используется) ^[d]	-
`ESC - F`	`1B 2D F`	G1D6	G1-обозначение 96-набор	`F` выбирает набор из 96 символов, который будет использоваться для G1. ^[79]	`ESC - A` ( ISO 8859-1 RHS в G1)
`ESC . F`	`1B 2E F`	G2D6	G2-обозначение 96-набор	`F` выбирает набор из 96 символов, который будет использоваться для G2. ^[79]	`ESC . B` ( ISO 8859-2 RHS в G2)
`ESC / F`	`1B 2F F`	G3D6	G3-обозначение 96-набор	`F` выбирает набор из 96 символов, который будет использоваться для G3. ^[79]	`ESC / b` ( ISO 8859-15 RHS в G3)

Обратите внимание, что реестр F байтов независим для разных типов. Графический набор из 94 символов, обозначенный ESC ( Aчерез, ESC + Aникоим образом не связан с набором из 96 символов, обозначенным ESC - Aчерез ESC / A. И ни один из них не имеет отношения к 94 ⁿ -символу, обозначенному ESC $ ( Aчерез ESC $ + Aи так далее; последние байты должны интерпретироваться в контексте. (Действительно, без каких-либо промежуточных байтов ESC Aэто способ указать управляющий код C1 0x81.)

Также обратите внимание, что наборы управляющих символов C0 и C1 независимы; набор управляющих символов C0, обозначенный ESC ! A(который является контрольным набором NATS для передачи газетного текста), не совпадает с контрольным набором символов C1, обозначенным ESC " A( контрольный набор атрибутов CCITT для Videotex ).

Взаимодействие с другими системами кодирования [ править ]

Стандарт также определяет способ определения систем кодирования, которые не следуют своей собственной структуре.

Также определена последовательность возврата к ISO / IEC 2022; регистрации, которые поддерживают эту последовательность, закодированную в ISO / IEC 2022, включают (по состоянию на 2019 год) различные форматы Videotex , UTF-8 и UTF-1 . ^[89] Второй байт I 0x2F ( /) включен в последовательности обозначений кодов, которые не используют эту последовательность байтов для возврата к ISO 2022; у них могут быть собственные средства для возврата к ISO 2022 (например, другая или дополненная последовательность) или вообще не быть. ^[90] Все существующие регистрации последнего типа (по состоянию на 2019 год) представляют собой прозрачные необработанные данные, форматы Unicode / UCS или их подмножества. ^[91]

Код	Шестигранник	Сокр.	Имя	Эффект
`ESC % @`	`1B 25 40`	ДОКУМЕНТЫ	Укажите другую систему кодирования («стандартный возврат»)	Вернитесь к ISO / IEC 2022 из другой кодировки. ^[90]
`ESC % F`	`1B 25 F`		Укажите другую систему кодирования («со стандартным возвратом») ^[89]	`F` выбирает 8-битный код; использовать, `ESC % @`чтобы вернуться. ^[90]
`ESC % / F`	`1B 25 2F F`		Укажите другую систему кодирования («без стандартного возврата») ^[91]	`F` выбирает 8-битный код; стандартного способа возврата нет. ^[90]
`ESC d`	`1B 64`	CMD	Разделитель метода кодирования	Обозначает конец кодированной последовательности ISO / IEC 2022. ^[92]

Особый интерес представляют последовательности, которые переключаются на форматы ISO / IEC 10646 ( Unicode ), которые не соответствуют структуре ISO / IEC 2022. К ним относятся UTF-8 (который не резервирует диапазон 0x80–0x9F для управляющих символов), его предшественник UTF-1 (который смешивает байты GR и GL в многобайтовых кодах), а также UTF-16 и UTF-32 (которые используют более широкие единицы кодирования). ^[89]^[91]

Также было зарегистрировано несколько кодов для подмножеств (уровни 1 и 2) UTF-8, UTF-16 и UTF-32, а также для трех уровней UCS-2 . ^[91] Однако в настоящее время в стандарте ISO / IEC 10646 указаны только коды уровня 3 для UTF-8, UTF-16 и UTF-32 и код неопределенного уровня для UTF-8, а остальные указаны как устарело. ^[93] ISO / IEC 10646 предусматривает, что форматы с прямым порядком байтов UTF-16 и UTF-32 обозначаются их управляющими последовательностями. ^[94]

Формат Юникода	Код (ы)	Шестнадцатеричный ^[93]	Устаревшие коды	Не рекомендуется использовать шестнадцатеричный код ^[89]^[91]^[93]
UTF-1	(UTF-1 не входит в текущий ISO / IEC 10646.)		`ESC % B`	`1B 25 42`
UTF-8	`ESC % G`, `ESC % / I`	`1B 25 47`, ^[95] `1B 25 2F 49`^[96]	`ESC % / G`, `ESC % / H`	`1B 25 2F 47`, `1B 25 2F 48`
UTF-16	`ESC % / L`	`1B 25 2F 4C`^[97]	`ESC % / @`, `ESC % / C`, `ESC % / E`, `ESC % / J`, `ESC % / K`	`1B 25 2F 40`, `1B 25 2F 43`, `1B 25 2F 45`, `1B 25 2F 4A`, `1B 25 2F 4B`
UTF-32	`ESC % / F`	`1B 25 2F 46`	`ESC % / A`, `ESC % / D`	`1B 25 2F 41`, `1B 25 2F 44`

Из последовательностей, переключающихся на UTF-8, ESC % Gподдерживается, например, xterm . ^[50]

Хотя использование варианта стандартной возвращаемой последовательности из UTF-16 и UTF-32 разрешено, байты управляющей последовательности должны быть дополнены до размера кодовой единицы кодирования (например, 001B 0025 0040для UTF-16), т. Е. кодирование стандартной возвращаемой последовательности не полностью соответствует ISO / IEC 2022. По этой причине обозначения для UTF-16 и UTF-32 используют синтаксис без стандартного возврата. ^[98]

Объявления о структуре кода [ править ]

Последовательность «объявить структуру кода» ( ) используется для объявления определенной структуры кода или определенной группы средств ISO 2022, которые используются в конкретной версии кода. Хотя объявления могут быть объединены, некоторые противоречивые комбинации (в частности, использование объявлений о блокировке смен 16–23 с объявлениями 1, 3 и 4) запрещены стандартом, как и использование дополнительных объявлений поверх объявлений уровня 12–14 ISO / IEC 4873. ^[82] (в которых полностью указаны допустимые конструктивные особенности). Последовательность объявлений следующая:ESC SP (0x20) F

Число	Код	Шестигранник	Анонсирована функция версии кода ^[82]
1	`ESC SP A`	`1B 20 41`	G0 в GL, GR отсутствует или не используется, блокировка сдвигов отсутствует.
2	`ESC SP B`	`1B 20 42`	G0 и G1 вызываются в GL путем блокировки сдвигов, GR отсутствует или не используется.
3	`ESC SP C`	`1B 20 43`	G0 в GL, G1 в GR, без блокирующих сдвигов, требует 8-битной среды.
4	`ESC SP D`	`1B 20 44`	G0 в GL, G1 в GR, если 8-битная, блокировка не смещается, если только в 7-битной среде.
5	`ESC SP E`	`1B 20 45`	Функции сдвига сохраняются при преобразовании 7 бит / 8 бит.
6	`ESC SP F`	`1B 20 46`	C1 управляет с помощью escape-последовательностей.
7	`ESC SP G`	`1B 20 47`	C1 управляет областью CR в 8-битных средах, иначе как escape-последовательности.
8	`ESC SP H`	`1B 20 48`	Только графические наборы из 94 символов.
9	`ESC SP I`	`1B 20 49`	94-символьные и / или 96-символьные графические наборы.
10	`ESC SP J`	`1B 20 4A`	Использует 7-битный код, даже если восьмой бит доступен для использования.
11	`ESC SP K`	`1B 20 4B`	Требуется 8-битный код.
12	`ESC SP L`	`1B 20 4C`	Соответствует ISO / IEC 4873 (ECMA-43) уровень 1.
13	`ESC SP M`	`1B 20 4D`	Соответствует ISO / IEC 4873 (ECMA-43) уровень 2.
14	`ESC SP N`	`1B 20 4E`	Соответствует уровню 3 ISO / IEC 4873 (ECMA-43).
16	`ESC SP P`	`1B 20 50`	SI / LS0 используется.
18	`ESC SP R`	`1B 20 52`	SO / LS1 используется.
19	`ESC SP S`	`1B 20 53`	LS1R используется в 8-битных средах, SO используется в 7-битных средах.
20	`ESC SP T`	`1B 20 54`	LS2 б / у.
21 год	`ESC SP U`	`1B 20 55`	LS2R используется в 8-битных средах, LS2 используется в 7-битных средах.
22	`ESC SP V`	`1B 20 56`	LS3 б / у.
23	`ESC SP W`	`1B 20 57`	LS3R используется в 8-битных средах, LS3 используется в 7-битных средах.
26 год	`ESC SP Z`	`1B 20 5A`	SS2 используется.
27	`ESC SP [`	`1B 20 5B`	SS3 используется.
28 год	`ESC SP \`	`1B 20 5C`	Одиночные смены вызывают через GR.

Версии кода ISO / IEC 2022 [ править ]

Различные кодировки ISO 2022 и другие кодировки CJK, поддерживаемые Mozilla Firefox с 2004 года (эта поддержка была сокращена в более поздних версиях, чтобы избежать некоторых атак межсайтового скриптинга ).

Японские версии электронной почты [ править ]

ISO-2022-JP - широко используемая кодировка японского языка, в частности, в электронной почте . Он был введен для использования в сети JUNET и позже кодифицирован в IETF RFC 1468 от 1993 года.^[99] Он имеет преимущество перед другими кодировками для японского языка в том, что не требует 8-битной чистой передачи. Microsoft называет это кодовой страницей 50220 . ^[100] Он начинается с ASCII и включает следующие escape-последовательности:

ESC ( B для перехода на ASCII (1 байт на символ)
ESC ( Jдля перехода на JIS X 0201-1976 (ISO / IEC 646: JP) Римский набор (1 байт на символ)
ESC $ @для перехода на JIS X 0208-1978 (2 байта на символ)
ESC $ Bдля перехода на JIS X 0208-1983 (2 байта на символ)

Использование двух символов, добавленных в JIS X 0208-1990, разрешено, но без включения последовательности IRR, т. Е. С использованием той же escape-последовательности, что и JIS X 0208-1983. ^[99] Кроме того, из-за возможности регистрации до назначения многобайтовых наборов, за исключением G0, escape-последовательности для JIS X 0208 не включают второй I- байт (. ^[79]

Примечания RFC , что некоторые существующие системы не отличающие ESC ( Bот ESC ( J, или не отличающих ESC $ @от ESC $ B, но оговаривает , что управляющие последовательности не должны быть изменены с помощью систем просто ретрансляция сообщений , таких как сообщения электронной почты. ^[99] WHATWG Кодирование Стандарт ссылается HTML5 ручками ESC ( Bи ESC ( Jотчетливо, но лечит ESC $ @такие же , как ESC $ Bпри декодировании, и используют только ESC $ Bдля JIS X 0208 при кодировании. ^[101] RFC также отмечает, что некоторые прошлые системы ошибочно использовали последовательность ESC ( Hдля перехода от JIS X 0208, который фактически зарегистрирован для ISO-IR-11 (шведский вариант ISO 646и World System Teletext ). ^[99]^[e]

Использование ESC ( Iдля переключения на набор Kana JIS X 0201-1976 (1 байт на символ) не является частью профиля ISO-2022-JP, ^[99], но также иногда используется. Python допускает это в варианте, который он обозначает ISO-2022-JP-EXT (который также включает JIS X 0212, как описано ниже, завершая охват EUC-JP ); ^[102]^[103] это близко как в имени и структуры в кодировке обозначается ISO-2022-JPext от DEC , который , кроме того , добавляет двухбайтовый определенный пользователем регион доступ с , ESC $ ( 0чтобы завершить охват Супер DEC Kanji . ^[104]Вариант WHATWG / HTML5 позволяет декодировать катакану JIS X 0201 во входных данных ISO-2022-JP, но при кодировании преобразует символы в их эквиваленты JIS X 0208. ^[101] Кодовая страница Microsoft для ISO-2022-JP с дополнительно разрешенной кана JIS X 0201 - это кодовая страница 50221 . ^[100]

Другие, более старые варианты, известные как JIS7 и JIS8, основаны непосредственно на 7-битных и 8-битных кодировках, определенных JIS X 0201, и позволяют использовать JIS X 0201 kana из G1 без управляющих последовательностей, используя Shift Out и Shift In или установку восьмого bit (вызывается GR) соответственно. ^[105] Они не получили широкого распространения; ^[105] Поддержка JIS X 0208 в расширенном 8-битном JIS X 0201 чаще всего достигается с помощью Shift JIS . Кодовая страница Microsoft для ISO 2022 на основе JIS X 0201 с однобайтовой катаканой через Shift Out и Shift In - это кодовая страница 50222 . ^[100]

ISO-2022-JP-2 - это многоязычное расширение ISO-2022-JP, определенное в RFC 1554 (от 1993 г.), которое разрешает следующие escape-последовательности в дополнение к ISO-2022-JP. В ИСО / МЭК 8859 части набора 96-символьныхкоторые не могут быть назначены к G0, а доступиз G2используя 7-битный вид последовательности выхода из одного сдвига кода SS2:^[106]

ESC $ Aдля перехода на GB 2312-1980 (2 байта на символ)
ESC $ ( Cдля перехода на KS X 1001-1992 (2 байта на символ)
ESC $ ( Dдля перехода на JIS X 0212-1990 (2 байта на символ)
ESC . Aдля переключения на старшую часть ISO / IEC 8859-1 , расширенный набор Latin 1 (1 байт на символ) [обозначен как G2]
ESC . Fдля переключения на старшую часть ISO / IEC 8859-7 , базовый греческий набор (1 байт на символ) [обозначен как G2]

ISO-2022-JP с представлением ISO-2022-JP-2 для JIS X 0212, но не с другими расширениями, впоследствии был назван ISO-2022-JP-1 в RFC 2237 от 1997 года. ^[107]

Стандарт JIS X 0213 , впервые опубликованный в 2000 году, определяет обновленную версию ISO-2022-JP без расширений ISO-2022-JP-2, названную ISO-2022-JP-3 . Дополнения, внесенные JIS X 0213 по сравнению с базовым стандартом JIS X 0208, привели к новой регистрации, сделанной для расширенной плоскости 1 JIS, в то время как новая плоскость 2 получила собственную регистрацию. Дальнейшие дополнения к плоскости 1 в издании стандарта 2004 г. привели к добавлению дополнительной регистрации к дальнейшей редакции профиля, получившей название ISO-2022-JP-2004 . Помимо основных кодов обозначений ISO-2022-JP, распознаются следующие обозначения:

ESC ( Iдля перехода на JIS X 0201-1976 набор Kana (1 байт на символ)
ESC $ ( Oдля перехода на JIS X 0213-2000 Plane 1 (2 байта на символ)
ESC $ ( Pдля перехода на JIS X 0213-2000 Plane 2 (2 байта на символ)
ESC $ ( Qдля перехода на JIS X 0213-2004 Plane 1 (2 байта на символ, только ISO-2022-JP-2004)

Другие 7-битные версии [ править ]

ISO-2022-KR определен в RFC 1557 от 1993 года.^[108] Он кодирует ASCII и корейский двухбайтовый KS X 1001-1992 ,^[109]^[110], ранее называвшийся KS C 5601-1987. В отличие от ISO-2022-JP-2, он использует символы Shift Out и Shift In для переключения между ними, после включенияESC $ ) Cодного раза в начало строки для обозначения KS X 1001 в G1.^[108]

ISO-2022-CN и ISO-2022-CN-EXT определены в RFC 1922 от 1996 года. Это 7-битные кодировки, в которых используются как функции Shift Out и Shift In (для переключения между G0 и G1), так и 7-битный escape-код формирует односменные функции SS2 и SS3 (для доступа к G2 и G3).^[111] Они поддерживают наборы символов GB 2312 (для упрощенного китайского ) и CNS 11643 (для традиционного китайского ).

Базовый профиль ISO-2022-CN использует ASCII в качестве набора G0 (сдвиг), а также включает GB 2312 и первые две плоскости CNS 11643 (поскольку этих двух плоскостей достаточно для представления всех традиционных китайских иероглифов из общего Big5 , к которому RFC предоставляет соответствие в приложении): ^[111]

ESC $ ) Aдля перехода на GB 2312-1980 (2 байта на символ) [назначен G1]
ESC $ ) Gдля переключения на CNS 11643-1992 Плоскость 1 (2 байта на символ) [назначен G1]
ESC $ * Hдля переключения на CNS 11643-1992 Плоскость 2 (2 байта на символ) [назначен G2]

Профиль ISO-2022-CN-EXT допускает следующие дополнительные наборы и плоскости. ^[111]

ESC $ ) Eдля перехода на ISO-IR-165 (2 байта на символ) [обозначено как G1]
ESC $ + Iдля переключения на CNS 11643-1992 Плоскость 3 (2 байта на символ) [назначен G3]
ESC $ + Jдля переключения на CNS 11643-1992 Плоскость 4 (2 байта на символ) [назначен G3]
ESC $ + Kдля переключения на CNS 11643-1992 Плоскость 5 (2 байта на символ) [назначен G3]
ESC $ + Lдля переключения на CNS 11643-1992 Плоскость 6 (2 байта на символ) [назначен G3]
ESC $ + Mдля переключения на CNS 11643-1992 Плоскость 7 (2 байта на символ) [назначен G3]

Профиль ISO-2022-CN-EXT дополнительно перечисляет дополнительные стандартные графические наборы Guobiao как разрешенные, но при условии, что им назначены зарегистрированные управляющие последовательности ISO 2022: ^[111]

GB 12345 в G1
GB 7589 или GB 13131 в G2
GB 7590 или GB 13132 в G3

Символ после ESC(для однобайтовых наборов символов) или ESC $(для многобайтовых наборов символов) указывает тип набора символов и рабочий набор, которому назначен. В приведенных выше примерах символ ((0x28) обозначает набор из 94 символов для набора символов G0, тогда как ), *или +(0x29–0x2B) обозначает набор символов G1 – G3.

ISO-2022-KR и ISO-2022-CN используются реже, чем ISO-2022-JP, и иногда намеренно не поддерживаются из соображений безопасности. Примечательно, что стандарт кодирования WHATWG, используемый HTML5, отображает ISO-2022-KR, ISO-2022-CN и ISO-2022-CN-EXT (а также HZ-GB-2312 ) на «заменяющий» декодер, ^[112] который сопоставляет весь ввод с символом замены ( ), чтобы предотвратить определенные межсайтовые сценарии и связанные атаки, которые используют разницу в поддержке кодирования между клиентом и сервером. ^[113] Хотя та же проблема безопасности (позволяющая по-разному интерпретировать последовательности байтов ASCII) также применима к ISO-2022-JP и UTF-16, их нельзя было обработать таким образом, поскольку они гораздо чаще используются в развернутом контенте. ^[114]

ISO / IEC 4873 [ править ]

Связь между редакциями и уровнями ECMA-43 (ISO / IEC 4873) и EUC .

Подмножество ISO 2022, применяемое к 8-битным однобайтовым кодировкам, определяется ISO / IEC 4873 , также опубликованным Ecma International как ECMA-43. ISO / IEC 8859 определяет 8-битные коды для ISO / IEC 4873 (или ECMA-43) уровня 1. ^[12]^[13]

ISO / IEC 4873 / ECMA-43 определяет три уровня кодирования: ^[115]

Уровень 1, который включает набор C0, набор ASCII G0, необязательный набор C1 и необязательный однобайтовый (94-символьный или 96-символьный) набор G1. G0 вызывается над GL, а G1 вызывается над GR. Использование сдвиговых функций не допускается.
Уровень 2, который включает (94 или 96 символов) однобайтовый набор G2 и / или G3 в дополнение к обязательному набору G1. Разрешены только функции SS2 и SS3 с одинарным сдвигом (т. Е. Блокирующие сдвиги запрещены), и они активизируются в области GL (включая 0x 20 и 0x7F в случае набора 96). SS2 и SS3 должны быть доступны в C1 по адресу 0x8E и 0x8F соответственно. Этот минимальный необходимый набор C1 для ISO 4873 зарегистрирован как ISO-IR-105. ^[116]
Уровень 3, который разрешает функции блокировки-сдвига GR LS1R, LS2R и LS3R в дополнение к одиночным сдвигам, но в остальном имеет те же ограничения, что и уровень 2.

Более ранние редакции стандарта разрешали присвоения не-ASCII в наборе G0 при условии, что инвариантные позиции ISO 646 были сохранены, что другие позиции были назначены символам интервалов (не объединению), что 0x23 было присвоено либо £, либо # , и что 0x24 был присвоен либо $, либо ¤ . ^[117] Например, 8-битное кодирование JIS X 0201 совместимо с более ранними версиями. Впоследствии это было изменено, чтобы полностью указать набор ISO 646: 1991 IRV / ISO-IR No. 6 ( ASCII ). ^[118]^[119]^[120]

Использование ISO 646 IRV (синхронизировано с ASCII с 1991 года) на уровне 1 ISO / IEC 4873 без установки C1 или G1, то есть использование IRV в 8-битной среде, в которой коды сдвига не используются, а старший бит всегда нулевой, известен как ISO 4873 DV , в котором DV означает «Версия по умолчанию». ^[121]

В случаях, когда повторяющиеся символы доступны в разных наборах, текущая редакция ISO / IEC 4873 / ECMA-43 разрешает использование этих символов только в рабочем наборе с наименьшим номером, в котором они появляются. ^[122] Например, если символ появляется в как набор G1, так и набор G3, он должен использоваться из набора G1. Однако использование других наборов отмечено как разрешенное в более ранних версиях. ^[120]

ISO / IEC 8859 определяет полные кодировки на уровне 1 ISO / IEC 4873 и не позволяет использовать несколько частей ISO / IEC 8859 вместе. В нем оговаривается, что ISO / IEC 10367 должен использоваться вместо уровней 2 и 3 ISO / IEC 4873. ^[12]^[13] ISO / IEC 10367: 1991 включает наборы G0 и G1, соответствующие тем, которые используются в первых 9 частях ISO / IEC 8859 (т.е. те, которые существовали по состоянию на 1991 год, когда он был опубликован), и некоторые дополнительные наборы. ^[123]

Управляющие последовательности обозначения набора символов используются для идентификации или переключения между версиями во время обмена информацией только в том случае, если этого требует другой протокол, и в этом случае стандарт требует последовательности извещателя ISO / IEC 2022, определяющей уровень ISO / IEC 4873, за которой следует полный набор экранирований, определяющих обозначения набора символов для C0, C1, G0, G1, G2 и G3 соответственно (но опуская обозначения G2 и G3 для уровня 1), с F- байтом 0x7E, обозначающим пустой набор. Каждый уровень ISO / IEC 4873 имеет свою собственную последовательность дикторов ISO / IEC 2022, которая выглядит следующим образом: ^[124]

Код	Шестигранник	Объявление
`ESC SP L`	`1B 20 4C`	ISO 4873 Уровень 1
`ESC SP M`	`1B 20 4D`	ISO 4873 Уровень 2
`ESC SP N`	`1B 20 4E`	ISO 4873 Уровень 3

Расширенный код Unix [ править ]

Расширенный код Unix (EUC) - это 8-битная система кодирования символов переменной ширины , используемая в основном для японского , корейского и упрощенного китайского языков . Он основан на ISO 2022, и только наборы символов, соответствующие структуре ISO 2022, могут иметь формы EUC. Может быть представлено до четырех наборов кодированных символов (в G0, G1, G2 и G3). Набор G0 вызывается через GL, набор G1 вызывается через GR, а наборы G2 и G3 (если они есть) вызываются с использованием одиночных сдвигов SS2 и SS3, которые используются через GR (не GL), то есть на 0x8E и 0x8F соответственно. ^[14] Коды блокировки смены не используются. ^[125]

Код, присвоенный набору G0, - это ASCII или национальный набор символов ISO 646, например KS-Roman (KS X 1003) или JIS-Roman (нижняя половина JIS X 0201 ). ^[14] Следовательно, 0x5C ( обратная косая черта в US-ASCII) используется для обозначения знака иены в некоторых версиях EUC-JP и знака Won в некоторых версиях EUC-KR.

G1 используется для набора кодированных символов 94x94, представленного в двух байтах. Форма EUC-CN из GB2312 и EUC-KR являются примерами таких двухбайтовых кодов EUC. EUC-JP включает символы, представленные до трех байтов (т. Е. SS3 плюс два байта), тогда как один символ в EUC-TW может занимать до четырех байтов (т. Е. SS2 плюс три байта).

Сам код EUC не использует диктор или последовательности обозначений из ISO 2022; тем не менее, это соответствует следующей последовательности из четырех последовательностей дикторов, значения которых разбиваются следующим образом. ^[126]

Индивидуальная последовательность	Шестнадцатеричный	Обозначенная особенность EUC
`ESC SP C`	`1B 20 43`	ISO-8 (8-бит, G0 в GL, G1 в GR)
`ESC SP Z`	`1B 20 5A`	G2 доступен через SS2
`ESC SP [`	`1B 20 5B`	Доступ к G3 через SS3
`ESC SP \`	`1B 20 5C`	Односменные вызовы через GR

Сравнение с другими кодировками [ править ]

Преимущества [ править ]

Поскольку весь диапазон кодировок графических символов ISO / IEC 2022 может быть вызван через GL, доступные глифы существенно не ограничиваются невозможностью представления GR и C1, например, в системе, ограниченной 7-битными кодировками. Соответственно, это позволяет отображать большой набор символов в такой системе. Как правило, эта 7-битная совместимость не является преимуществом, за исключением обратной совместимости со старыми системами. Подавляющее большинство современных компьютеров используют 8 бит для каждого байта.
По сравнению с Unicode, ISO / IEC 2022 обходит унификацию Han , используя коды последовательности для переключения между дискретными кодировками для разных языков Восточной Азии. Это позволяет избежать проблем ^{[ необходима ссылка ],} связанных с унификацией, таких как сложность поддержки нескольких языков CJK с соответствующими вариантами символов в одном документе и шрифте.

Недостатки [ править ]

Поскольку ISO / IEC 2022 является кодировкой с отслеживанием состояния, программа не может перемещаться в середине блока текста для поиска, вставки или удаления символов. Это делает манипуляции с текстом очень громоздкими и медленными по сравнению с кодировками без сохранения состояния. Любой переход в середине текста может потребовать возврата к предыдущей escape-последовательности, прежде чем байты, следующие за escape-последовательностью, могут быть интерпретированы.
Из-за природы ИСО / МЭК 2022 с отслеживанием состояния идентичный и эквивалентный символ может быть закодирован в различных наборах символов, которые могут быть обозначены для любого из G0 - G3, которые могут быть вызваны с использованием одиночных сдвигов или блокирующих сдвигов для GL или GR. Следовательно, символы могут быть представлены несколькими способами, а это означает, что две визуально идентичные и эквивалентные строки нельзя надежно сравнивать на предмет равенства.
Некоторые системы, такие как DICOM и несколько клиентов электронной почты, используют вариант ISO-2022 (например, «ISO 2022 IR 100» ^[127] ) в дополнение к поддержке нескольких других кодировок. ^[128] Этот тип вариаций затрудняет переносимую передачу текста между компьютерными системами.
UTF-1 , многобайтовый формат преобразования Unicode , совместимый с представлением 8-битных управляющих символов ISO / IEC 2022, имеет различные недостатки по сравнению с UTF-8 , а также переключение с или на другие наборы символов в соответствии с ISO / IEC 2022. , как правило, не требуется в документах Unicode.
Благодаря escape-последовательностям можно создавать последовательности байтов атаки, в которых вредоносная строка (например, межсайтовый скриптинг ) маскируется до тех пор, пока она не будет декодирована в Unicode, что может позволить ей обойти дезинфекцию. ^[129] Таким образом, использование этой кодировки рассматривается как подозрительное в пакетах защиты от вредоносных программ, ^[130]^{[ необходим лучший источник ]} и 7-битные данные ISO 2022 (за исключением ISO-2022-JP) полностью отображаются на заменяющий символ в HTML5 для предотвращения атак. ^[131]^[132] Ограниченные версии 8-битного кода ISO 2022, в которых не используются escape-символы или коды блокировки, например расширенный код Unix., не разделяйте эту проблему.
Конкатенация может создавать проблемы. Такие профили, как ISO-2022-JP, указывают, что поток начинается в состоянии ASCII и должен заканчиваться в состоянии ASCII. ^[99] Это необходимо, чтобы гарантировать, что символы в объединенных потоках ISO-2022-JP и / или ASCII будут интерпретироваться в правильном наборе. Это приводит к тому, что если поток, который заканчивается многобайтовым символом, объединяется с потоком, который начинается с многобайтового символа, генерируется пара escape-кодов, переключающихся на ASCII и сразу же уходящих от него. Однако, как указано в Техническом отчете Unicode № 36 («Вопросы безопасности Unicode»), пары управляющих последовательностей ISO 2022 без символов между ними должны генерировать заменяющий символ (« »), чтобы предотвратить их использование для маскировки вредоносных последовательностей, таких как в видемежсайтовый скриптинг . ^[133] Внедрение этой меры, например, в Mozilla Thunderbird , привело к проблемам взаимодействия с неожиданными символами « », генерируемыми при объединении двух потоков ISO-2022-JP. ^[129]

См. Также [ править ]

ISO 2709
ISO / IEC 646
ISO-IR-102
Коды управления C0 и C1
CJK
Стандарты MARC
Моджибаке
люит
ISO / IEC JTC 1 / SC 2

Сноски [ править ]

^ a b Указано только для F байтов 0x40 ( @), 0x41 ( A) и 0x42 ( B) по историческим причинам. ^[79] Некоторые реализации, такие как кодирование эмодзи SoftBank 2G , используют дополнительные escape- последовательности этой формы для целей, не соответствующих требованиям ISO-2022. ^[86]
↑ Перечислено MARC-8 . ^[3] Историю см. В сноскениже.ESC , F
^ F , скорректированный до диапазона 1-63, указывает, какая (совместимая снизу вверх) ревизия следующей регистрации необходима, чтобы старые системы знали, что они старые. ^[87]
^ В более ранних выпусках 96-символьных наборов не существовало, и escape-коды, используемые теперь для 96-символьных наборов, были зарезервированы как пространство для дополнительных 94-символьных наборов. Соответственно,ESC 0x1B 0x2Cпоследовательность была определена в ранних редакциях стандарта как обозначение дополнительных 94-значных наборов символов для G0. ^[88] Поскольку 96-символьные наборы не могут быть назначены для G0, этот первыйбайт I не используется в текущей редакции стандарта. Тем не менее, он все еще включен в список MARC-8 . ^[3]
^ См. Также, например, Printronix (2012), Справочное руководство программиста OKI® (PDF) , стр. 26 годдля более новой системы, которая использует ESC ( Hдля перехода на ASCII из DBCS.

Ссылки [ править ]

↑ ECMA-35 (1994) , Краткая история
↑ ECMA-35 (1994) , стр. 51, приложение D
^ a b c d e «Техника 2: Использование стандартных наборов альтернативных графических символов» . Спецификации MARC 21 для структуры записи, наборов символов и средств обмена . Библиотека Конгресса . 2007-12-05.
↑ ECMA-35 (1994) , главы 6, 7
↑ ECMA-35 (1994) , глава 8
↑ ECMA-35 (1994) , глава 9
↑ ECMA-35 (1994) , глава 11
↑ ECMA-35 (1994) , глава 13
↑ ECMA-35 (1994) , главы 12, 14
^ a b ECMA-35 (1994) , глава 15
^ Lunde (2008) , стр. 228-234, глава 4 («Методы кодирования»), раздел «Кодирование ISO-2022»
^ a b c ISO / IEC FDIS 8859-10 (1998) , стр. 1, глава 1 («Объем»)
^ a b c ECMA-144 (2000) , стр. 1, глава 1 («Объем»)
^ a b c Lunde (2008) , стр. 242-245, глава 4 («Методы кодирования»), раздел «Кодирование EUC»
↑ ECMA-35 (1994) , стр. 4, определение 4.11
↑ ECMA-35 (1994) , стр. 5, определение 4.18
^ См., Например, ISO-IR-14 (1975) , в котором обозначение G0 римского набора JIS X 0201 определяется как.ESC 2/8 4/10
↑ ECMA-35 (1994) , стр. 5, глава 5.1
^ См., Например, RFC 1468 (1993) , определяющий обозначение G0 для набора римских символов JIS X 0201 какESC ( J.
^ a b c ECMA-35 (1994) , стр. 15–16, глава 8.1
↑ ECMA-35 (1994) , стр. 7, глава 6.2
↑ ECMA-35 (1994) , стр. 10, глава 6.3.2
↑ ECMA-35 (1994) , стр. 4, определение 4.17
↑ ECMA-35 (1994) , стр. 4, определение 4.14
↑ ECMA-35 (1994) , стр. 28, глава 13.1
^ a b c ECMA-35 (1994) , стр. 33, глава 13.3.3
^ а б в г ECMA-35 (1994) , стр. 11, глава 6.4.3
↑ ISO-IR-208 (1999)
↑ ISO-IR-155 (1990)
↑ ISO-IR-164 (1992)
^ а б ECMA-35 (1994) , стр. 10, глава 6.3.3
^ Google Inc. (2014). "ansi.go, строка 134" . Библиотека управляющих последовательностей ANSI для Go .
↑ ECMA-43 (1991) , стр. 5, глава 7 («Спецификация символов 8-битного кода»)
↑ ISO / IEC FDIS 8859-10 (1998) , стр. 3, глава 6 («Спецификация набора кодированных символов»)
↑ ECMA-144 (2000) , стр. 3, глава 6 («Спецификация набора кодированных символов»)
↑ ECMA-43 (1991) , стр. 19, приложение C («Составные графические символы»)
^ а б ECMA-35 (1994) , стр. 10, глава 6.4.1
^ а б ECMA-35 (1994) , стр. 11, глава 6.4.4
^ a b c ECMA-35 (1994) , стр. 11, глава 6.4.2
↑ ISO-IR-104 (1985)
↑ ISO-IR-1 (1975)
^ а б ECMA-35 (1994) , стр. 19, глава 8.5.1
^ а б ECMA-35 (1994) , стр. 19, глава 8.5.2
↑ ECMA-43 (1991) , стр. 8, глава 7.6 («Набор С1»)
^ а б ECMA-35 (1994) , стр. 29, глава 13.2.1
^ а б ECMA-35 (1994) , стр. 12, глава 6.5.1
↑ ECMA-35 (1994) , стр. 12, глава 6.5.2
^ a b c ISO-IR , стр. 19, глава 2.7 («Функции единого управления»)
↑ ECMA-35 (1994) , стр. 12, глава 6.5.3
^ a b Мой, Эдвард; Гильдея, Стивен; Дики, Томас. «Элементы управления, начинающиеся с ESC» . Последовательности управления XTerm .
^ а б ECMA-35 (1994) , стр. 14, глава 7.3, таблица 2
↑ ISO-IR-14 (1975)
^ a b ITU-T (1995-08-11). Рекомендация T.51 (1992) Поправка 1 .
↑ ISO-IR-106 (1985)
↑ ECMA-35 (1994) , стр. 15, глава 7.3, примечание 23
↑ ISO-IR-140 (1987)
↑ ISO-IR-7 (1975)
↑ ISO-IR-26 (1976)
↑ ISO-IR-36 (1977)
↑ ECMA-35 (1980) , стр. 8, глава 5.1.7
↑ ISO-IR-105 (1985)
^ а б в г ECMA-35 (1994) , стр. 17, глава 8.3.1
^ а б в г ECMA-35 (1994) , стр. 23, глава 9.3.1
^ a b c ECMA-35 (1994) , стр. 19, глава 8.4
^ a b c ECMA-35 (1994) , стр. 17, глава 8.3.2
↑ ECMA-35 (1994) , стр. 23-24, глава 9.4.
↑ ECMA-35 (1994) , стр. 27, глава 11.1
↑ ECMA-35 (1994) , стр. 17, глава 8.3.3
↑ ECMA-35 (1994) , стр. 47, приложение B
^ ISO-IR , стр. 2, глава 1 («Введение»)
^ ISO / IEC 2375 (2003)
^ ISO-IR , стр. 10, глава 2.2 («Набор графических символов из 94 символов со вторым промежуточным байтом»)
^ ARIB STD-B24 (2008) , стр. 39, часть 2, таблица 7-3
^ Mascheck, Свен; Ле Бретон, Стефан; Гамильтон, Ричард Л. «О« альтернативном наборе символов рисования линий » » . ~ sven_mascheck / .
↑ ECMA-35 (1994) , стр. 36, глава 14.4
↑ ECMA-35 (1994) , стр. 36, глава 14.4.2, примечание 48
↑ ECMA-35 (1994) , стр. 36, глава 14.4.2, примечание 47
↑ ETS 300706 (1997) , стр. 103, глава 14 («Динамически повторно определяемые персонажи»)
^ a b c d e f g h i j k l m n o p q ECMA-35 (1994) , стр. 35-36, глава 14.3.2
^ ISO / IEC 10646 (2017) , стр. 19-20, глава 12.4 («Идентификация набора функций управления»)
↑ ECMA-35 (1994) , стр. 32, таблица 5
^ a b c ECMA-35 (1994) , стр. 37-41, глава 15.2
↑ ECMA-35 (1994) , стр. 34, глава 14.2.2
↑ ECMA-35 (1994) , стр. 34, глава 14.2.3
^ Цифровой . «DECDWL - линия двойной ширины, линия одинарной высоты» . Информация для программиста видеотерминала VT510 .
Перейти ↑ Kawasaki, Yusuke (2010). «Кодировать :: JP :: Emoji :: Кодирование» . Кодировать-JP-Emoji . Строка 268.
↑ ECMA-35 (1994) , стр. 36-37, глава 14.5.
↑ ECMA-35 (1980) , стр. 14-15, глава 5.3.7.
^ a b c d ISO-IR , стр. 20, глава 2.8.1 («Системы кодирования со стандартным возвратом»)
↑ a b c d ECMA-35 (1994) , стр. 41-42, глава 15.4.
^ a b c d e ISO-IR , стр. 21, глава 2.8.2 («Системы кодирования без стандартного возврата»)
↑ ECMA-35 (1994) , стр. 41, глава 15.3
^ a b c ISO / IEC 10646 (2017) , стр. 19, глава 12.2 («Идентификация схемы кодирования UCS»)
↑ ISO / IEC 10646 (2017) , стр. 18–19, глава 12.1 («Цель и контекст идентификации»)
↑ ISO-IR-196 (1996)
↑ ISO-IR-192 (1996)
↑ ISO-IR-195 (1996)
↑ ISO / IEC 10646 (2017) , стр. 20, глава 12.5 («Идентификация системы кодирования ISO / IEC 2022»)
^ Б с д е е RFC 1468 (1993)
^ a b c «Идентификаторы кодовой страницы» . Центр разработки для Windows . Microsoft.
^ a b Стандарт кодирования WHATWG , раздел 12.2 («ISO-2022-JP»)
^ Чанг, Хе-Шик. «Модули / cjkcodecs / _codecs_iso2022.c, строка 1122» . Исходное дерево cPython . Фонд программного обеспечения Python.
^ «кодеки - Реестр кодеков и базовые классы § Стандартные кодировки» . Документация Python 3.7.4 . Фонд программного обеспечения Python.
^ «2: Кодовые наборы и преобразование кодовых наборов» . Технический справочник DIGITAL UNIX по использованию японских функций . Корпорация цифрового оборудования , Compaq .
^ a b Lunde (2008) , стр. 236-238, глава 4 («Методы кодирования»), раздел «Предшественник кодирования ISO-2022-JP - кодирование JIS»
^ RFC 1554 (1993)
^ RFC 2237 (1997)
^ a b RFC 1557 (1993)
^ "KS X 1001: 1992" (PDF) .
↑ ISO-IR-149 (1988)
^ а б в г RFC 1922 (1996)
^ WHATWG Encoding Standard , глава 4.2 («Имена и метки»), привязка «замена»
^ Стандарт кодирования WHATWG , раздел 14.1 («замена»)
^ WHATWG Encoding Standard , раздел 2 («Предпосылки безопасности»)
↑ ECMA-43 (1991) , стр. 9-10, глава 8 («Уровни»)
↑ ISO-IR-105 (1985)
↑ ECMA-43 (1985) , стр. 7-11, глава 7.3 («Набор G0»)
↑ ECMA-43 (1991) , стр. 6-8, глава 7.4 («Набор G0»)
↑ ECMA-43 (1991) , стр. 11, глава 10.3 («Определение версии»)
^ а б ECMA-43 (1991) , стр. 23, приложение E («Основные различия между вторым изданием (1985 г.) и настоящим (третьим) изданием этого стандарта ECMA»)
^ IPTC (1995). Рекомендуемый формат сообщений IPTC (PDF) (5-е изд.). IPTC TEC 7901.
↑ ECMA-43 (1991) , стр. 10, глава 9.2 («Уникальное кодирование символов»)
^ Ван Wingen, Johan W (1999). «8. Расширение кода, ISO 2022 и 2375, ISO 4873 и 10367» . Наборы символов. Буквы, жетоны и коды . Терена.
↑ ECMA-43 (1991) , стр. 10-11, глава 10 («Определение версии и уровня»)
^ Lunde (2008) , стр. 253-255, глава 4 («Методы кодирования»), раздел «EUC по сравнению с кодировками ISO-2022».
^ IBM . «Архитектура представления символьных данных (CDRA)» . С. 157–162.
^ DICOM PS3.2 2016d - Соответствие; D.6.2 Наборы символов; D.6 Поддержка наборов символов
^ «Вариант DICOM ISO 2022» .
^ a b Сивонен, Анри (2018-12-17). «(НЕ ПРЕДСТАВЛЕННЫЙ ПРОЕКТ) Отсутствие генерации U + FFFD для содержимого ASCII-состояния нулевой длины между escape-последовательностями ISO-2022-JP» (PDF) .
^ https://bugzilla.mozilla.org/show_bug.cgi?id=935453
^ WHATWG Encoding Standard , глава 4.2 («Имена и метки»), привязка «замена»
^ Стандарт кодирования WHATWG , раздел 14.1 («замена»)
^ Дэвис, Марк; Suignard, Мишель (2014-09-19). «3.6.2 Некоторые выходные данные для всех входов» . Технический отчет Unicode № 36: Вопросы безопасности Unicode (редакция 15) . Консорциум Unicode.

Цитированные стандарты и индексы реестра [ править ]

ARIB (2008). ARIB STD-B24: Спецификация кодирования и передачи данных для цифрового вещания (PDF) (стандарт ARIB). 5.2-E1. 1 . Архивировано (PDF) из оригинала 10.07.2017 . Проверено 10 июля 2017 .
ECMA (1980). ECMA-35: Расширение набора 7-битных кодированных символов (PDF) (Стандарт ECMA) (2-е изд.).
ECMA (1994). ECMA-35: Структура кода символов и методы расширения (PDF) (Стандарт ECMA) (6-е изд.).
ECMA (1985). ECMA-43: Структура и правила набора 8-битных кодированных символов (PDF) (Стандарт ECMA) (2-е изд.).
ECMA (1991). ECMA-43: Структура и правила набора 8-битных кодированных символов (PDF) (Стандарт ECMA) (3-е изд.).
ECMA (2000). ECMA-144: 8-битные однобайтовые графические наборы символов: латинский алфавит № 6 (PDF) (стандарт ECMA) (3-е изд.).
Европейский вещательный союз (1997). ETS 300 706: Расширенная спецификация телетекста (PDF) (Европейские стандарты электросвязи). ETSI .
ISO / IEC JTC 1 / SC 2 (2003). ISO / IEC 2375: 2003: Информационные технологии - Процедура регистрации управляющих последовательностей и кодированных наборов символов . ISO .
ISO / IEC JTC 1 / SC 2 (12 февраля 1998 г.). ISO / IEC FDIS 8859-10: Информационные технологии - 8-битные однобайтовые наборы графических символов - Часть 10: Латинский алфавит № 6 (PDF) (окончательный проект международного стандарта).
ISO / IEC JTC 1 / SC 2 (2017). ISO / IEC 10646: Информационные технологии - Универсальный набор кодированных символов (UCS) (стандарт ISO) (5-е изд.). ISO .
ISO-IR: Международный регистр наборов кодированных символов ISO / IEC для использования с escape-последовательностями (PDF) (индекс реестра). ITSCJ / IPSJ .
ван Кестерен, Энн . Стандарт кодирования WHATWG (WHATWG Living Standard). WHATWG .

Процитированные зарегистрированные наборы кодов [ править ]

ISO / TC 97 / SC 2 (1975-12-01). ISO-IR-1: Набор управляющих символов стандарта ISO 646 (PDF) . ITSCJ / IPSJ .
Sveriges Standardiseringskommission (1975-12-01). ISO-IR-7: NATS Control set для передачи газетного текста (PDF) . ITSCJ / IPSJ .
Японский комитет промышленных стандартов (1975-12-01). ISO-IR-14: Набор символов японского римского алфавита (PDF) . ITSCJ / IPSJ .
IPTC (1976-03-25). ISO-IR-26: Комплект управления для передачи газетного текста (PDF) . ITSCJ / IPSJ .
ISO / TC 97 / SC 2 (1977-10-15). ISO-IR-36: набор управляющих символов ISO 646, в котором IS4 заменен на Single Shift для G2 (SS2) (PDF) . ITSCJ / IPSJ .
ISO / TC97 / SC2 / WG-7 ; ECMA (1 августа 1985 г.). ISO-IR-104: Минимальный C0 установлен для ISO 4873 (PDF) . ITSCJ / IPSJ .
ISO / TC97 / SC2 / WG-7 ; ECMA (1 августа 1985 г.). ISO-IR-105: Минимальный набор C1 для ISO 4873 (PDF) . ITSCJ / IPSJ .
МСЭ (1 августа 1985 г.). ISO-IR-106: Основной набор функций управления Teletex (PDF) . ITSCJ / IPSJ .
Řad pro normalizaci a měřeni (1987-07-31). ISO-IR-140: Набор управляющих символов C0 стандарта ISO 646 с заменой EM на SS2 (PDF) . ITSCJ / IPSJ .
Корейское бюро стандартов (1988-10-01). ISO-IR-149: корейский набор графических символов для обмена информацией (KS C 5601: 1987) (PDF) . ITSCJ / IPSJ .
ИСО / МЭК / JTC1 / SC2 / WG3 (1990-04-16). ISO-IR-155: Базовый набор коробочных чертежей (PDF) . ITSCJ / IPSJ .
CCITT (13 июля 1992 г.). ISO-IR-164: Дополнительный набор графических символов для иврита (PDF) . ITSCJ / IPSJ .
ECMA (1996-04-22). ISO-IR-192: Формат преобразования UCS (UTF-8), уровень реализации 3, без стандартного возврата (PDF) . ITSCJ / IPSJ .
ECMA (1996-04-22). ISO-IR-195: Формат преобразования UCS (UTF-16), уровень реализации 3, без стандартного возврата (PDF) . ITSCJ / IPSJ .
ECMA (1996-04-22). ISO-IR-196: Формат преобразования UCS (UTF-8) со стандартным возвратом (PDF) . ITSCJ / IPSJ .
Национальное управление по стандартам Ирландии (1999-12-07). ISO-IR-208: Набор символов в кодировке Огам для обмена информацией (PDF) . ITSCJ / IPSJ .

Интернет-запросы на комментарии, процитированные [ править ]

Murai, J .; Crispin, M .; ван дер Поэль, Э. (1993). «RFC 1468: Японская кодировка символов для Интернет-сообщений» . Запросы на комментарии . IETF . DOI : 10.17487 / rfc1468 .
Охта, М .; Ханда, К. (1993). «RFC 1554: ISO-2022-JP-2: многоязычное расширение ISO-2022-JP» . Запросы на комментарии . IETF . DOI : 10.17487 / rfc1554 .
Choi, U .; Chon, K .; Парк, Х. (1993). «RFC 1557: корейская кодировка символов для Интернет-сообщений» . Запросы на комментарии . IETF . DOI : 10.17487 / rfc1557 .
Чжу, HF .; Hu, DY .; Wang, ZG .; Kao, TC .; Чанг, WCH .; Криспин, М. (1996). «RFC 1922: Кодировка китайских символов для Интернет-сообщений» . Запросы на комментарии . IETF . DOI : 10.17487 / rfc1922 .
Тамару, К. (1997). «RFC 2237: Японская кодировка символов для Интернет-сообщений» . Запросы на комментарии . IETF . DOI : 10.17487 / rfc2237 .

Процитированы другие опубликованные работы [ править ]

Лунде, Кен (2008). CJKV Обработка информации (2-е изд.). O'Reilly Media . ISBN 9780596514471.CS1 maint: ref duplicates default (link)

Дальнейшее чтение [ править ]

Лунде, Кен (1998). CJKV Обработка информации . Кембридж, Массачусетс: O'Reilly & Associates . ISBN 1-56592-224-7.CS1 maint: ref duplicates default (link)

Внешние ссылки [ править ]

ИСО / МЭК 2022: 1994
ИСО / МЭК 2022: 1994 / Кор 1: 1999
ECMA-35 , эквивалент ISO / IEC 2022 и свободно загружаемый.
Международный регистр наборов кодированных символов для использования с escape-последовательностями , полный список назначенных наборов символов и их escape-последовательностей
История кодов символов в Северной Америке, Европе и Восточной Азии с 1999 г., ред. 2004 г.
Кен Лунд «s CJK.INF : документ о кодирующая китайском, японском и корейском языках (CJK) языков, в том числе обсуждение различных вариантов ISO / IEC 2022.

[legacygzdm4-87] Указано только для F байтов 0x40 ( @), 0x41 ( A) и 0x42 ( B) по историческим причинам. ^[79] Некоторые реализации, такие как кодирование эмодзи SoftBank 2G , используют дополнительные escape- последовательности этой формы для целей, не соответствующих требованиям ISO-2022. ^[86]

[88] Перечислено MARC-8 . ^[3] Историю см. В сноскениже.ESC , F

[90] F , скорректированный до диапазона 1-63, указывает, какая (совместимая снизу вверх) ревизия следующей регистрации необходима, чтобы старые системы знали, что они старые. ^[87]

[92] В более ранних выпусках 96-символьных наборов не существовало, и escape-коды, используемые теперь для 96-символьных наборов, были зарезервированы как пространство для дополнительных 94-символьных наборов. Соответственно,ESC 0x1B 0x2Cпоследовательность была определена в ранних редакциях стандарта как обозначение дополнительных 94-значных наборов символов для G0. ^[88] Поскольку 96-символьные наборы не могут быть назначены для G0, этот первыйбайт I не используется в текущей редакции стандарта. Тем не менее, он все еще включен в список MARC-8 . ^[3]

[106] См. Также, например, Printronix (2012), Справочное руководство программиста OKI® (PDF) , стр. 26 годдля более новой системы, которая использует ESC ( Hдля перехода на ASCII из DBCS.

[1] ECMA-35 (1994) , Краткая история

[2] ECMA-35 (1994) , стр. 51, приложение D

[marc-escs-3] «Техника 2: Использование стандартных наборов альтернативных графических символов» . Спецификации MARC 21 для структуры записи, наборов символов и средств обмена . Библиотека Конгресса . 2007-12-05.

[4] ECMA-35 (1994) , главы 6, 7

[5] ECMA-35 (1994) , глава 8

[6] ECMA-35 (1994) , глава 9

[7] ECMA-35 (1994) , глава 11

[8] ECMA-35 (1994) , глава 13

[9] ECMA-35 (1994) , главы 12, 14

[ch15-10] ECMA-35 (1994) , глава 15

[lunde2022-11] Lunde (2008) , стр. 228-234, глава 4 («Методы кодирования»), раздел «Кодирование ISO-2022»

[8859-10-s1-12] ISO / IEC FDIS 8859-10 (1998) , стр. 1, глава 1 («Объем»)

[ecma-144-s1-13] ECMA-144 (2000) , стр. 1, глава 1 («Объем»)

[lundeeuc-14] Lunde (2008) , стр. 242-245, глава 4 («Методы кодирования»), раздел «Кодирование EUC»

[15] ECMA-35 (1994) , стр. 4, определение 4.11

[16] ECMA-35 (1994) , стр. 5, определение 4.18

[17] См., Например, ISO-IR-14 (1975) , в котором обозначение G0 римского набора JIS X 0201 определяется как.ESC 2/8 4/10

[18] ECMA-35 (1994) , стр. 5, глава 5.1

[19] См., Например, RFC 1468 (1993) , определяющий обозначение G0 для набора римских символов JIS X 0201 какESC ( J.

[8.1-20] ECMA-35 (1994) , стр. 15–16, глава 8.1

[21] ECMA-35 (1994) , стр. 7, глава 6.2

[22] ECMA-35 (1994) , стр. 10, глава 6.3.2

[23] ECMA-35 (1994) , стр. 4, определение 4.17

[24] ECMA-35 (1994) , стр. 4, определение 4.14

[13.1-25] ECMA-35 (1994) , стр. 28, глава 13.1

[13.3.3-26] ECMA-35 (1994) , стр. 33, глава 13.3.3

[6.4.3-27] а б в г ECMA-35 (1994) , стр. 11, глава 6.4.3

[28] ISO-IR-208 (1999)

[29] ISO-IR-155 (1990)

[30] ISO-IR-164 (1992)

[6.3.3-31] а б ECMA-35 (1994) , стр. 10, глава 6.3.3

[32] Google Inc. (2014). "ansi.go, строка 134" . Библиотека управляющих последовательностей ANSI для Go .

[33] ECMA-43 (1991) , стр. 5, глава 7 («Спецификация символов 8-битного кода»)

[8859-10-s6-34] ISO / IEC FDIS 8859-10 (1998) , стр. 3, глава 6 («Спецификация набора кодированных символов»)

[ecma-144-s6-35] ECMA-144 (2000) , стр. 3, глава 6 («Спецификация набора кодированных символов»)

[36] ECMA-43 (1991) , стр. 19, приложение C («Составные графические символы»)

[6.4.1-37] а б ECMA-35 (1994) , стр. 10, глава 6.4.1

[6.4.4-38] а б ECMA-35 (1994) , стр. 11, глава 6.4.4

[6.4.2-39] ECMA-35 (1994) , стр. 11, глава 6.4.2

[40] ISO-IR-104 (1985)

[41] ISO-IR-1 (1975)

[8.5.1-42] а б ECMA-35 (1994) , стр. 19, глава 8.5.1

[8.5.2-43] а б ECMA-35 (1994) , стр. 19, глава 8.5.2

[ecma-43-7.6-44] ECMA-43 (1991) , стр. 8, глава 7.6 («Набор С1»)

[13.12.1-45] а б ECMA-35 (1994) , стр. 29, глава 13.2.1

[6.5.1-46] а б ECMA-35 (1994) , стр. 12, глава 6.5.1

[6.5.2-47] ECMA-35 (1994) , стр. 12, глава 6.5.2

[irfixctrl-48] ISO-IR , стр. 19, глава 2.7 («Функции единого управления»)

[6.5.3-49] ECMA-35 (1994) , стр. 12, глава 6.5.3

[xtctrlesc-50] Мой, Эдвард; Гильдея, Стивен; Дики, Томас. «Элементы управления, начинающиеся с ESC» . Последовательности управления XTerm .

[table2-51] а б ECMA-35 (1994) , стр. 14, глава 7.3, таблица 2

[52] ISO-IR-14 (1975)

[T.51-amd1995-53] ITU-T (1995-08-11). Рекомендация T.51 (1992) Поправка 1 .

[reg106-54] ISO-IR-106 (1985)

[55] ECMA-35 (1994) , стр. 15, глава 7.3, примечание 23

[reg140-56] ISO-IR-140 (1987)

[reg7-57] ISO-IR-7 (1975)

[reg26-58] ISO-IR-26 (1976)

[reg36-59] ISO-IR-36 (1977)

[60] ECMA-35 (1980) , стр. 8, глава 5.1.7

[61] ISO-IR-105 (1985)

[8.3.1-62] а б в г ECMA-35 (1994) , стр. 17, глава 8.3.1

[9.3.1-63] а б в г ECMA-35 (1994) , стр. 23, глава 9.3.1

[8.4-64] ECMA-35 (1994) , стр. 19, глава 8.4

[8.3.2-65] ECMA-35 (1994) , стр. 17, глава 8.3.2

[9.4-66] ECMA-35 (1994) , стр. 23-24, глава 9.4.

[11.1-67] ECMA-35 (1994) , стр. 27, глава 11.1

[8.3.3-68] ECMA-35 (1994) , стр. 17, глава 8.3.3

[69] ECMA-35 (1994) , стр. 47, приложение B

[irintro-70] ISO-IR , стр. 2, глава 1 («Введение»)

[71] ISO / IEC 2375 (2003)

[irsecond94-72] ISO-IR , стр. 10, глава 2.2 («Набор графических символов из 94 символов со вторым промежуточным байтом»)

[73] ARIB STD-B24 (2008) , стр. 39, часть 2, таблица 7-3

[74] Mascheck, Свен; Ле Бретон, Стефан; Гамильтон, Ричард Л. «О« альтернативном наборе символов рисования линий » » . ~ sven_mascheck / .

[14.4-75] ECMA-35 (1994) , стр. 36, глава 14.4

[note48-76] ECMA-35 (1994) , стр. 36, глава 14.4.2, примечание 48

[note47-77] ECMA-35 (1994) , стр. 36, глава 14.4.2, примечание 47

[78] ETS 300706 (1997) , стр. 103, глава 14 («Динамически повторно определяемые персонажи»)

[14.3.2-79] ^ a b c d e f g h i j k l m n o p q ECMA-35 (1994) , стр. 35-36, глава 14.3.2

[iso10646czdc1d-80] ISO / IEC 10646 (2017) , стр. 19-20, глава 12.4 («Идентификация набора функций управления»)

[table5-81] ECMA-35 (1994) , стр. 32, таблица 5

[15.2-82] ECMA-35 (1994) , стр. 37-41, глава 15.2

[14.2.2-83] ECMA-35 (1994) , стр. 34, глава 14.2.2

[14.2.3-84] ECMA-35 (1994) , стр. 34, глава 14.2.3

[85] Цифровой . «DECDWL - линия двойной ширины, линия одинарной высоты» . Информация для программиста видеотерминала VT510 .

[86] Перейти ↑ Kawasaki, Yusuke (2010). «Кодировать :: JP :: Emoji :: Кодирование» . Кодировать-JP-Emoji . Строка 268.

[14.5-89] ECMA-35 (1994) , стр. 36-37, глава 14.5.

[91] ECMA-35 (1980) , стр. 14-15, глава 5.3.7.

[irdocs-93] ISO-IR , стр. 20, глава 2.8.1 («Системы кодирования со стандартным возвратом»)

[15.4-94] ECMA-35 (1994) , стр. 41-42, глава 15.4.

[irdocsslash-95] ISO-IR , стр. 21, глава 2.8.2 («Системы кодирования без стандартного возврата»)

[15.3-96] ECMA-35 (1994) , стр. 41, глава 15.3

[iso10646docs-97] ISO / IEC 10646 (2017) , стр. 19, глава 12.2 («Идентификация схемы кодирования UCS»)

[98] ISO / IEC 10646 (2017) , стр. 18–19, глава 12.1 («Цель и контекст идентификации»)

[iso-ir-196-99] ISO-IR-196 (1996)

[iso-ir-192-100] ISO-IR-192 (1996)

[101] ISO-IR-195 (1996)

[iso10646stdret-102] ISO / IEC 10646 (2017) , стр. 20, глава 12.5 («Идентификация системы кодирования ISO / IEC 2022»)

[rfc1468-103] Б с д е е RFC 1468 (1993)

[wdc-104] «Идентификаторы кодовой страницы» . Центр разработки для Windows . Microsoft.

[whatwgiso2022jp-105] Стандарт кодирования WHATWG , раздел 12.2 («ISO-2022-JP»)

[107] Чанг, Хе-Шик. «Модули / cjkcodecs / _codecs_iso2022.c, строка 1122» . Исходное дерево cPython . Фонд программного обеспечения Python.

[108] «кодеки - Реестр кодеков и базовые классы § Стандартные кодировки» . Документация Python 3.7.4 . Фонд программного обеспечения Python.

[decunix-109] «2: Кодовые наборы и преобразование кодовых наборов» . Технический справочник DIGITAL UNIX по использованию японских функций . Корпорация цифрового оборудования , Compaq .

[lundejisenc-110] Lunde (2008) , стр. 236-238, глава 4 («Методы кодирования»), раздел «Предшественник кодирования ISO-2022-JP - кодирование JIS»

[111] RFC 1554 (1993)

[112] RFC 2237 (1997)

[rfc1557-113] RFC 1557 (1993)

[ksx-114] "KS X 1001: 1992" (PDF) .

[ksc-115] ISO-IR-149 (1988)

[rfc1922-116] а б в г RFC 1922 (1996)

[117] WHATWG Encoding Standard , глава 4.2 («Имена и метки»), привязка «замена»

[118] Стандарт кодирования WHATWG , раздел 14.1 («замена»)

[119] WHATWG Encoding Standard , раздел 2 («Предпосылки безопасности»)

[ecma-43-8-120] ECMA-43 (1991) , стр. 9-10, глава 8 («Уровни»)

[121] ISO-IR-105 (1985)

[122] ECMA-43 (1985) , стр. 7-11, глава 7.3 («Набор G0»)

[ecma-43-7.4-123] ECMA-43 (1991) , стр. 6-8, глава 7.4 («Набор G0»)

[ecma-43-10.3-124] ECMA-43 (1991) , стр. 11, глава 10.3 («Определение версии»)

[ecma-43-annexE-125] а б ECMA-43 (1991) , стр. 23, приложение E («Основные различия между вторым изданием (1985 г.) и настоящим (третьим) изданием этого стандарта ECMA»)

[iptc7901-126] IPTC (1995). Рекомендуемый формат сообщений IPTC (PDF) (5-е изд.). IPTC TEC 7901.

[ecma-43-9.2-127] ECMA-43 (1991) , стр. 10, глава 9.2 («Уникальное кодирование символов»)

[vanWingen-128] Ван Wingen, Johan W (1999). «8. Расширение кода, ISO 2022 и 2375, ISO 4873 и 10367» . Наборы символов. Буквы, жетоны и коды . Терена.

[ecma-43-10-129] ECMA-43 (1991) , стр. 10-11, глава 10 («Определение версии и уровня»)

[130] Lunde (2008) , стр. 253-255, глава 4 («Методы кодирования»), раздел «EUC по сравнению с кодировками ISO-2022».

[cdra-131] IBM . «Архитектура представления символьных данных (CDRA)» . С. 157–162.

[132] DICOM PS3.2 2016d - Соответствие; D.6.2 Наборы символов; D.6 Поддержка наборов символов

[DICOM-133] «Вариант DICOM ISO 2022» .

[sivonen2018-134] Сивонен, Анри (2018-12-17). «(НЕ ПРЕДСТАВЛЕННЫЙ ПРОЕКТ) Отсутствие генерации U + FFFD для содержимого ASCII-состояния нулевой длины между escape-последовательностями ISO-2022-JP» (PDF) .

[135] ttps://bugzilla.mozilla.org/show_bug.cgi?id=935453

[136] WHATWG Encoding Standard , глава 4.2 («Имена и метки»), привязка «замена»

[137] Стандарт кодирования WHATWG , раздел 14.1 («замена»)

[138] Дэвис, Марк; Suignard, Мишель (2014-09-19). «3.6.2 Некоторые выходные данные для всех входов» . Технический отчет Unicode № 36: Вопросы безопасности Unicode (редакция 15) . Консорциум Unicode.

[1]

vтеКодировки символов
Ранние телекоммуникации	Телеграфный код Иголка Морс Нелатинский Вабун / Кана китайский язык Кириллица Корейский Бодо и Мюррей FIELDATA ASCII ISO / IEC 646 BCDIC 353 355 357 358 359 360 EBCDIC Телетекс и Видеотекс / Телетекст ISO / IEC 6937 / ITU T.51 ITU T.61 ITU T.101 Телетекст мировой системы задний план наборы
ISO / IEC 8859	Одобренный -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 -13 -14 -15 -16 Заброшенный -12 Адаптации ISO-IR-182 ISO-IR-200 ISO-IR-201 Предложено, но не утверждено ISO-IR-111 ISO-IR-197 Французский / голландский / турецкий проект
Библиографическое использование	MARC-8 ANSEL CCCII / EACC ISO 5426 / 5426-2 / 5427 / 5428 / 6438 /6861/ 6862 / 10585 /10586/10754/11822
Национальные стандарты	ArmSCII BraSCII CNS 11643 ELOT 927 ГОСТ 10859 ГБ 2312 ГБ 12052 ГБ 18030 HKSCS IS 434 ISCII JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 КОИ-7 КПС 9566 KS X 1001 KS X 1002 LST 1284 LST 1564 LST 1590-1 LST 1590-2 LST 1590-3 LST 1590-4 PASCII RUSCII SI 960 ТИС-620 TSCII VISCII VSCII ЮСКИИ
ISO / IEC 2022	7-битный CN CN-EXT JP JP-EXT JP-1 JP-2 JP-3 KR ISO / IEC 4873 ISO / IEC 8859 ISO / IEC 10367 Расширенный код Unix / EUC CN KR JP TW
Кодовые страницы Mac OS («скрипты»)	Армянский арабский Баренц кириллица кельтский CentEuro КитайскийSimp / EUC-CN ChineseTrad / Big5 хорватский Кириллица Деванагари / ISCII Дингбаты Фарси (персидский) Гэльский Грузинский Греческий Гуджарати / ISCII Гурмукхи / ISCII иврит Исландия Инуиты Японский / Shift JIS Клавиатура Корейский / EUC-KR Латинский (Кермит) Мальтийский / Эсперанто Огам / IS 434 Роман румынский Саами Символ Тайский / TIS-620 турецкий Тюркская кириллица украинец VT100
Кодовые страницы DOS	100 111 112 113 151 152 161 162 163 164 165 166 210 220 301 437 449 489 620 667 668 707 708 709 710 711 714 715 720 721 737 768 770 771 772 773 774 775 776 777 778 790 850 851 852 853 854 855 / 872 856 857 858 859 860 861 862 863 864 865 866 / 808 867 868 869 874 / один тысяча сто шестьдесят один / 1162 файл 876 877 878 881 882 883 884 885 891 895 896 897 898 899 900 903 904 906 907 909 910 911 926 927 928 929 932 934 936 938 941 942 943 944 946 947 948 949 950/1370 951 966 991 1034 1039 1040 1041 1042 1043 1044 1046 1086 1088 1092 1093 1098 1108 1109 1114 1115 1116 1117 1118 1119 1125 / 848 1126 1127 1131 / 849 1139 1167 1168 1300 1351 1361 1362 1363 1372 1373 1374 1375 1380 1381 1385 1386 1391 1392 1393 1394 3012 3021 3843 3844 3845 3846 3847 3848 30000 30001 30002 30003 30004 30005 30006 30007 30008 30009 30010 30011 30012 30013 30014 30015 30016 30017 30018 30019 30020 30021 30022 30023 30024 30025 30026 30027 30028 30029 30030 30031 30032 30033 30034 30039 30040 58152 58210 58335 59234 59829 60258 60853 61282 62306 CS Индийский CSX Индийский CSX + Индийский CWI-2 Иранская система Каменицкий KOI8 Мазовецкое воеводство МИК
Кодовые страницы IBM AIX	367 371 806 813 819 895 896 912 913 914 915 916 919 920 921 / 901 922 / 902 923 952 953 954 955 956 957 958 959 960 961 963 964 965 970 971 1004 1006 1008 1009 1010 1011 1012 1013 1014 1015 1016 1017 1018 1019 1029 1036 1089 1111 1124 1129 / 1163 1133 1350 1382 1383
Кодовые страницы IBM для кодировок других поставщиков	Apple Macintosh 1275 1280 1281 1282 1283 1284 1285 1286 Adobe 1038 1276 1277 DEC 1020 1021 1023 1090 1100 1101 1102 1103 1104 1105 1106 1107 1287 1288 HP 1050 1051 1052 1053 1054 1055 1056 1057 1058
Кодовые страницы Windows	CER-GS 874 / 1162 файла ( TIS-620 ) 932 / 943 ( Сдвиг JIS ) 936 / одна тысячи триста восемьдесят-шесть ( GBK ) 950 / 1370 ( Big5 ) 949 / 1363 ( EUC-KR ) 1169 1174 Расширенная латиница-8 1200 ( UTF-16LE ) 1201 ( UTF-16BE ) 1250 1251 1252 1253 1254 1255 1256 1257 1258 1261 1270 54936 (GB18030) Армянский Кириллица + финский Кириллица + французский Кириллица + немецкий Политонический греческий 65001 ( UTF-8 )
Кодовые страницы Microsoft для кодировок других поставщиков	Apple Macintosh 10000 10001 10002 10003 10004 10005 10006 10007 10008 10010 10017 10021 10029 10079 10081 10082
Кодовые страницы EBCDIC	37 390 391 392 393 394 395 435 829 834 835 837 839 881 882 883 884 885 886 887 888 889 890 931 933 / 1364 935 / 1388 937 / 1371 939 / 1399 1001 1003 1005 1007 1024 1027 1028 1030 1031 1032 1033 1037 1068 1071 1073 1074 1075 1076 1077 1078 1080 1082 1083 1085 1087 1091 1136 1150 1151 1152 1278 1279 1303 1364 1376 1377
Терминалы DEC ( VTx )	Многонациональная (MCS) Национальная замена (NRCS) французский канадец Швейцарский испанский Великобритания нидерландский язык Финский Французский Норвежский и датский Шведский Норвежский и датский (альтернативный) 8-битный греческий 8-битный турецкий 7-битный иврит 8-битный иврит Специальная графика Технические (TCS)
Специфичная для платформы	Желудь Adobe Standard Adobe Latin 1 Амстрад КТК Яблоко I Яблоко II Яблоко III ATASCII Atari ST BICS Калькуляторы Casio CDC Compucolor II CP / M + ДЕКАБРЬ RADIX 50 DEC MCS / NRCS DG International ЭЛВРО-Юниор FIELDATA ДРАГОЦЕННЫЙ КАМЕНЬ GEOS GSM 03.38 Расширение HP Roman HP Роман-8 HP Роман-9 HP FOCAL ХП РПЛ IBM SQUOZE LICS LMBCS Маттел Водолей Минитель MSX NEC APC Следующий OricSCII PCW PETSCII Sega SC-3000 Калькуляторы Sharp Sharp MZ Sinclair QL Телетекст Калькуляторы TI TRS-80 Ventura International Символ Вентуры WISCII XCCS ZX80 ZX81 ZX Spectrum
Юникод / ISO / IEC 10646	UTF-1 UTF-7 UTF-8 UTF-16 ( UTF-16LE / UTF-16BE ) / UCS-2 UTF-32 ( UTF-32LE / UTF-32BE ) / UCS-4 UTF-EBCDIC ГБ 18030 BOCU-1 ЦЭСУ-8 ГКГУ
Система набора TeX	Пробка IL1 IL2 IL3 L7X LGR LY1 OML OMS OMX OT1 OT2 OT3 OT4 PL0 QX T2A T2B T2C T2D Т3 Т4 T5 TS1 TS3 U X2
Разные кодовые страницы	ABICOMP APL 293 310 (графический побег) 351 (GDDM) 907 (OEM) ISO-IR-68 ARIB STD-B24 Гц IEC-P27-1 ИНИС 7-битный 8-битный Кириллица ISO-IR-169 ISO 2033 Йохаб Модзикё SEASCII Стэнфорд / ИТС TACE16 TRON UTF-5 UTF-6 WTF-8
Контрольные и непечатаемые наборы символов	Азбука Морзе Коды управления C0 и C1 ISO / IEC 6429 / ANSI X3.64 / ECMA-48 / JIS X 0211 ISO 6630 DIN 31626 JIS X 0207 ITU T.101 C0 C1 Коды управления EBCDIC Элементы управления Unicode, формат и символы-разделители Пробельные символы
похожие темы	Кодовая страница Кодовая страница Windows CCSID Кодировки символов в HTML Обнаружение кодировки Ханьское объединение Аппаратное обеспечение Моджибаке
Наборы символов

vтеСтандарты Ecma International
Интерфейсы приложений	Escape-код ANSI Общая языковая инфраструктура Office Open XML OpenXPS
Файловые системы (лента)	Продвинутая интеллектуальная лента DDS DLT Супер DLT Голографический универсальный диск Линейная лента-открытая (Ultrium-1) VXA
Файловые системы (диск)	CD-ROM Файловая система компакт-диска (CDFS) ТОЛСТЫЙ FAT12 FAT16 FAT16B FD UDF Оптическая сверхплотность Универсальный медиа-диск
Графика	Универсальный 3D
Языки программирования	C ++ / CLI C # Эйфелева JavaScript ( E4X , ECMAScript ) Дротик
Интерфейсы радиосвязи	NFC UWB
Другой	ECMA-35
Список стандартов Ecma (1961-настоящее время)

vтеСтандарты ISO по номеру стандарта
Список стандартов ISO / romanizations ISO / стандартам МЭК
1–9999	1 2 3 4 5 6 7 9 16 17 31 год -0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 -12 -13 68-1 128 216 217 226 228 233 259 261 262 269 302 306 361 428 500 518 519 639 -1 -2 -3 -5 -6 646 657 668 690 704 732 764 838 843 860 898 965 999 1000 1004 1007 1073-1 1073-2 1155 1413 1538 1629 г. 1745 1989 г. 2014 г. 2015 г. 2022 г. 2033 г. 2047 2108 2145 2146 2240 2281 2533 2709 2711 2720 2788 2848 2852 3029 3103 3166 -1 -2 -3 3297 3307 3601 3602 3864 3901 3950 3977 4031 4157 4165 4217 4909 5218 5426 5427 5428 5725 5775 5776 5800 5807 5964 6166 6344 6346 6385 6425 6429 6438 6523 6709 6943 7001 7002 7010 7027 7064 7098 7185 7200 7498 -1 7637 7736 7810 7811 7812 7813 7816 7942 8000 8093 8178 8217 8373 8501-1 8571 8583 8601 8613 8632 8651 8652 8691 8805/8806 8807 8820-5 8859 -1 -2 -3 -4 -5 -6 -7 -8 -8-я -9 -10 -11 -12 -13 -14 -15 -16 8879 9000/9001 9036 9075 9126 9141 9227 9241 9293 9314 9362 9407 9496 9506 9529 9564 9592/9593 9594 9660 9797-1 9897 9899 9945 9984 9985 9995
10000–19999	10005 10006 10007 10116 10118-3 10160 10161 10165 10179 10206 10218 10303 -11 -21 -22 -28 -238 10383 10487 10585 10589 10646 10664 10746 10861 10957 10962 10967 11073 11170 11179 11404 11544 11783 11784 11785 11801 11889 11898 11940 ( -2 ) 11941 11941 (TR) 11992 12006 12182 12207 12234-2 12620 13211 -1 -2 13216 13250 13399 13406-2 13450 13485 13490 13567 13568 13584 13616 13816 14000 14031 14224 14289 14396 14443 14496 -2 -3 -6 -10 -11 -12 -14 -17 -20 14644 14649 14651 14698 14750 14764 14882 14971 15022 15189 15288 15291 15292 15398 15408 15444 -3 15445 15438 15504 15511 15686 15693 15706 -2 15707 15897 15919 15924 15926 15926 WIP 15930 16023 16262 16355-1 16612-2 16750 16949 (ТС) 17024 17025 17100 17203 17369 17442 17799 18000 18004 18014 18245 18629 18916 19005 19011 19092 -1 -2 19114 19115 19125 19136 19407 19439 19500 19501 19502 19503 19505 19506 19507 19508 19509 19510 19600 19752 19757 19770 19775-1 19794-5 19831
20000–29999	20000 20022 20121 20400 21000 21047 21500 21827 22000 22300 22395 23090-3 23270 23271 23360 24517 24613 24617 24707 25178 25964 26000 26262 26300 26324 27000 серии 27000 27001 27002 27005 27006 27729 28000 29110 29148 29199-2 29500
30000+	30170 31000 32000 37001 38500 40500 42010 45001 50001 55000 56000 80000 -1
Категория

vтеСписок стандартов Международной электротехнической комиссии
Стандарты МЭК	IEC 60027 IEC 60034 IEC 60038 IEC 60062 IEC 60063 IEC 60068 IEC 60112 IEC 60228 IEC 60269 IEC 60297 IEC 60309 IEC 60320 IEC 60364 IEC 60446 IEC 60559 IEC 60601 IEC 60870 МЭК 60870-5 МЭК 60870-6 IEC 60906-1 IEC 60908 IEC 60929 IEC 60958 AES3 S / PDIF IEC 61030 IEC 61131 МЭК 61131-3 МЭК 61131-9 IEC 61158 IEC 61162 IEC 61334 IEC 61346 IEC 61355 IEC 61360 IEC 61400 IEC 61499 IEC 61508 IEC 61511 IEC 61784 МЭК 61850 МЭК 61851 МЭК 61883 IEC 61960 IEC 61968 IEC 61970 IEC 62014-4 IEC 62026 IEC 62056 IEC 62061 IEC 62196 IEC 62262 IEC 62264 IEC 62304 IEC 62325 IEC 62351 IEC 62365 IEC 62366 IEC 62379 IEC 62386 IEC 62455 IEC 62680 IEC 62682 IEC 62700 IEC 63110 IEC 63119
Стандарты ISO / IEC	ISO / IEC 646 ISO / IEC 2022 ISO / IEC 4909 ISO / IEC 5218 ISO / IEC 6429 ISO / IEC 6523 ISO / IEC 7810 ISO / IEC 7811 ISO / IEC 7812 ISO / IEC 7813 ISO / IEC 7816 ISO / IEC 7942 ISO / IEC 8613 ISO / IEC 8632 ISO / IEC 8652 ISO / IEC 8859 ИСО / МЭК 9126 ИСО / МЭК 9293 ISO / IEC 9496 ISO / IEC 9529 ISO / IEC 9592 ISO / IEC 9593 ISO / IEC 9899 ISO / IEC 9945 ISO / IEC 9995 ISO / IEC 10021 ИСО / МЭК 10116 ISO / IEC 10165 ИСО / МЭК 10179 ISO / IEC 10646 ISO / IEC 10967 ИСО / МЭК 11172 ИСО / МЭК 11179 ISO / IEC 11404 ISO / IEC 11544 ISO / IEC 11801 ISO / IEC 12207 ISO / IEC 13250 ISO / IEC 13346 ИСО / МЭК 13522-5 ISO / IEC 13568 ISO / IEC 13816 ИСО / МЭК 13818 ISO / IEC 14443 ISO / IEC 14496 ISO / IEC 14651 ISO / IEC 14750 ISO / IEC 14882 ISO / IEC 15288 ISO / IEC 15291 ISO / IEC 15408 ISO / IEC 15444 ISO / IEC 15445 ISO / IEC 15504 ISO / IEC 15511 ИСО / МЭК 15693 ИСО / МЭК 15897 ISO / IEC 15938 ISO / IEC 16262 ISO / IEC 17024 ISO / IEC 17025 ISO / IEC 18000 ISO / IEC 18004 ISO / IEC 18014 ISO / IEC 19752 ISO / IEC 19757 ISO / IEC 19770 ISO / IEC 19788 ISO / IEC 20000 ISO / IEC 21000 ISO / IEC 21827 ISO / IEC 23000 ISO / IEC 23003 ISO / IEC 23008 ISO / IEC 23270 ISO / IEC 23360 ISO / IEC 24707 ISO / IEC 24727 ISO / IEC 24744 ISO / IEC 24752 ISO / IEC 26300 ISO / IEC 27000 ISO / IEC серии 27000 ISO / IEC 27002 ISO / IEC 27040 ISO / IEC 29110 ИСО / МЭК 29119 ISO / IEC 33001 ISO / IEC 38500 ISO / IEC 42010 ISO / IEC 80000
Связанный	Международная электротехническая комиссия