Расширенный код Unix

Расширенный код Unix ( EUC ) - это система кодирования многобайтовых символов, используемая в основном для японского , корейского и упрощенного китайского языков .

Наиболее часто используемые коды EUC - это кодировки переменной ширины с символом, принадлежащим к набору кодированных символов, совместимому с ISO / IEC 646 (например, ASCII ), занимающим один байт, и символом, принадлежащим к набору кодированных символов 94x94 (например, GB 2312 ). в два байта. Форма EUC-CN из GB 2312 и EUC-KR являются примерами таких двухбайтовых кодов EUC. EUC-JP включает символы, представленные до трех байтов, включая начальный код сдвига , тогда как один символ в EUC-TW может занимать до четырех байтов.

Современные приложения с большей вероятностью будут использовать UTF-8 , который поддерживает все символы кодов EUC и многое другое, и, как правило, более переносим с меньшим количеством отклонений и ошибок от поставщиков. Однако EUC по-прежнему очень популярен, особенно EUC-KR для Южной Кореи.

Структура кодирования [ править ]

Связь между упакованными EUC и другими 8-битными профилями ISO 2022

Структура EUC основана на стандарте ISO / IEC 2022 , который определяет систему наборов графических символов, которые могут быть представлены последовательностью 94 7-битных байтов 0x 21–7E или, альтернативно, 0xA1 – FE, если восьмой бит доступен. Это позволяет использовать наборы из 94 графических символов или 8836 (94 ² ) символов или 830584 (94 ³ ) символа. Хотя изначально 0x20 и 0x7F всегда были пробелом и символом удаления, а 0xA0 и 0xFF не использовались, более поздние версии ISO / IEC 2022разрешено использование байтов 0xA0 и 0xFF (или 0x20 и 0x7F) в наборах при определенных обстоятельствах, что позволяет включать наборы из 96 символов. Диапазоны 0x00–1F и 0x80–9F используются для управляющих кодов C0 и C1 .

EUC - это семейство 8-битных профилей ISO / IEC 2022 в отличие от 7-битных профилей, таких как ISO-2022-JP . Таким образом, формы EUC могут иметь только наборы символов, соответствующие ISO 2022 . С помощью схемы EUC можно представить до четырех наборов кодированных символов (называемых G0, G1, G2 и G3 или кодовых наборов 0, 1, 2 и 3). Набор G0 установлен в соответствующий ISO / IEC 646 кодированный набор символов, такой как US-ASCII , ISO 646: KR ( KS X 1003 ) или ISO 646: JP (нижняя половина JIS X 0201 ), и вызывается через GL (т. Е. 0x21–0x7E, старший бит очищен). ^[1] Если используется US-ASCII, это делает кодрасширенная кодировка ASCII ; наиболее частым отклонением от US-ASCII является то, что 0x5C ( обратная косая черта в US-ASCII) часто используется для обозначения знака йены в EUC-JP (см. ниже) и знака выигрыша в EUC-KR.

Другие кодовые наборы вызываются через GR (то есть с набором наиболее значимых битов). Следовательно, чтобы получить форму EUC символа, устанавливается самый старший бит каждого байта кодирования (эквивалентно добавлению 128 к каждому 7-битному байту кодирования или добавлению 160 к каждому числу в коде kuten ); это позволяет программное обеспечение легко отличить ли конкретный байт в строке символов принадлежит ISO 646 кода или расширенного кода. Символы в кодовых наборах 2 и 3 имеют префиксы управляющих кодов SS2 (0x8E) и SS3 (0x8F) соответственно и вызываются через GR. Помимо исходного кода сдвига, любой байт за пределами диапазона 0xA0–0xFF, появляющийся в символе из кодовых наборов с 1 по 3, не является допустимым кодом EUC. ^[1]

Сам код EUC не использует последовательности объявления и обозначения из ISO 2022 . ^[1] Однако спецификация кода эквивалентна следующей последовательности из четырех последовательностей объявлений ISO 2022 со следующими значениями. ^[1]

Индивидуальная последовательность	Шестнадцатеричный	Обозначенная особенность EUC
`ESC SP C`	`1B 20 43`	ISO-8 (8-бит, G0 в GL, G1 в GR)
`ESC SP Z`	`1B 20 5A`	G2 доступен через SS2
`ESC SP [`	`1B 20 5B`	G3 доступен через SS3
`ESC SP \`	`1B 20 5C`	Односменные вызовы через GR

Формат с фиксированной шириной [ править ]

Описанное выше кодирование переменной ширины на основе ISO-2022 иногда называют упакованным форматом EUC , который обычно обозначается как EUC. Однако внутренняя обработка данных EUC может использовать формат преобразования фиксированной ширины, называемый полным двухбайтовым форматом EUC . Это означает: ^[2]

Кодовый набор 0 как два байта в диапазоне 0x21–0x7E (за исключением того, что первый может быть 0x00).
Кодовый набор 1 как два байта в диапазоне 0xA0–0xFF (за исключением того, что первый может быть 0x80).
Кодовый набор 2 в виде байта в диапазоне 0x20–0x7E (или 0x00), за которым следует байт в диапазоне 0xA0–0xFF.
Кодовый набор 3 в виде байта в диапазоне 0xA0–0xFF (или 0x80), за которым следует байт в диапазоне 0x21–0x7E.

Начальные байты 0x00 и 0x80 используются в случаях, когда кодовый набор использует только один байт. Существует также четырехбайтовый формат фиксированной длины. ^[2] Эти форматы кодирования фиксированной длины подходят для внутренней обработки и обычно не встречаются при обмене.

EUC-JP зарегистрирован IANA в обоих форматах: в упакованном формате как «EUC-JP» или «csEUCPkdFmtJapanese» и в формате фиксированной ширины как «csEUCFixWidJapanese». ^[3] В стандарт кодирования WHATWG, используемый HTML5, включен только упакованный формат . ^[4]

EUC-CN [ править ]

EUC-CN

MIME / IANA	GB2312
Псевдоним (а)	csGB2312
Язык (и)	Упрощенный китайский , английский , русский
Стандарт	ГБ 2312 (1980)
Классификация	Расширенная ASCII - , переменной ширины кодирование , кодирование CJK , EUC
Расширяется	US-ASCII
Расширения	748, ГБК , ГБ 18030 , x-mac-chinesesimp
Преобразует / кодирует	ГБ 2312
Преемник	ГБК , ГБ 18030
v т е

EUC-CN ^[5] - это обычная закодированная форма стандарта GB 2312 для упрощенных китайских иероглифов . В отличие от японских JIS X 0208 и ISO-2022-JP , GB 2312 обычно не используется в 7-битной версии кода ISO 2022 , ^[a] хотя вариантная форма называется HZ (которая разделяет текст GB 2312 последовательностями ASCII) иногда использовался в USENET .

Символ ASCII представлен в своей обычной кодировке. Символ из GB 2312 представлен двумя байтами, оба из диапазона 0xA1–0xFE.

Связанные системы кодирования материкового Китая [ править ]

Код 748 [ править ]

Кодировка, относящаяся к EUC-CN, - это код «748», используемый в системе набора текста WITS, разработанной компанией Beijing Founder Technology (в настоящее время устарел ее новой системой набора текста FITS). Код 748 содержит все GB 2312 , но не соответствует требованиям ISO 2022 и, следовательно, не является настоящим кодом EUC. (Он использует 8-битный ведущий байт, но различает второй байт с его наиболее значимым набором битов и один с очищенным наиболее значимым битом, и, следовательно, он более похож по структуре на Big5 и другие системы кодирования DBCS, не соответствующие ISO 2022. .) Часть кода 748, не относящаяся к GB2312, содержит традиционные и гонконгские символы и другие глифы, используемые при наборе газет.

GBK и GB 18030 [ править ]

GBK - это расширение GB 2312 . Он определяет расширенную форму кодировки EUC-CN, способную представлять более широкий массив символов CJK, полученных в основном из Unicode 1.1 , включая традиционные китайские символы и символы, используемые только в японском языке . Однако это не настоящий код EUC, поскольку байты ASCII могут отображаться как байты следа (а байты C1 , не ограничиваясь одиночными сдвигами, могут отображаться как байты начала или окончания) из-за того, что требуется большее пространство для кодирования.

Варианты GBK реализуются кодовая страница Windows , 936. ( Microsoft Windows кодовой страницы для упрощенного китайских), и кодовой страницы IBM, 1386.

Кодировка символов GB 18030 на основе Unicode определяет расширение GBK, способное кодировать весь Unicode . Однако Unicode, закодированный как GB 18030, является кодировкой переменной ширины, которая может использовать до четырех байтов на символ из-за того, что требуется еще большее пространство для кодирования. Являясь расширением GBK, он является расширенным набором EUC-CN, но сам по себе не является настоящим кодом EUC. Будучи кодировкой Unicode, ее репертуар идентичен репертуару других форматов преобразования Unicode, таких как UTF-8 .

Mac OS Китайский упрощенный [ править ]

Другие варианты EUC-CN, отличающиеся от механизма EUC, включают упрощенный китайский сценарий Mac OS (известный как кодовая страница 10008 или x-mac-chinesesimp). ^[6] Он использует байты 0x80, 0x81, 0x82, 0xA0, 0xFD, 0xFE и 0xFF для U с умлаутом (ü), двумя специальными метрическими символами шрифта, неразрывным пробелом , знаком авторского права (©), товарным знаком. знак (™) и многоточие (…) соответственно. ^[5] Это отличается тем, что считается однобайтовым символом по сравнению с первым байтом двухбайтового символа как из EUC (где из них 0xFD и 0xFE определены как ведущие байты), так и из GBK (где из них , 0x81, 0x82, 0xFD и 0xFE определены как ведущие байты).

Такое использование 0xA0, 0xFD, 0xFE и 0xFF соответствует варианту Apple Shift_JIS .

Помимо этих изменений в диапазоне старших байтов, другой отличительной особенностью двухбайтовой части Mac OS Chinese Simplified является включение двух расширений к базовому GB 2312-80, установленному в строках 6 и 8. ^[5] Они считаются «стандартные расширения для GB 2312», ни одно из которых не является собственностью Apple: расширение строки 8 было взято из GB 6345.1 , ^[5] оба расширения включены в GB / T 12345 (традиционный китайский вариант GB 2312), ^{[7 ],} и оба расширения включены в GB 18030 (преемник GB 2312). ^[8]

EUC-JP [ править ]

EUC-JP

MIME / IANA	EUC-JP
Псевдоним (а)	Unixized JIS (UJIS), csEUCPkdFmtЯпонский
Язык (и)	Японский , английский , русский
Классификация	Extended ISO 646 , переменной ширины кодирование , кодирование CJK , EUC
Расширяется	US-ASCII или ISO 646: JP
Преобразует / кодирует	JIS X 0208 , JIS X 0212 , JIS X 0201
Преемник	EUC-JISx0213
v т е

EUC-JIS-2004
Псевдоним (а)	EUC-JISx0213
Язык (и)	Японский , айнский , английский , русский
Стандарт	JIS X 0213
Классификация	Расширенная ASCII - , переменной ширины кодирование , кодирование CJK , EUC
Расширяется	US-ASCII
Преобразует / кодирует	JIS X 0213 , JIS X 0201 (Кана)
Предшествует	EUC-JP
v т е

EUC-JP - это кодировка переменной ширины, используемая для представления элементов трех японских стандартов набора символов , а именно JIS X 0208 , JIS X 0212 и JIS X 0201 . Другие названия для этой кодировки включают Unixized JIS (или UJIS ) и AT&T JIS . ^[2] 0,1% всех веб-страниц используют EUC-JP с августа 2018 года ^{[9], в} то время как 2,8% веб-сайтов на японском языке используют эту кодировку (реже, чем Shift JIS или UTF-8 ). Это называется кодовой страницей 954 от IBM. ^[10]^[11] У Microsoft есть два номера кодовой страницы для этой кодировки (51932 и 20932).

Эта схема кодирования позволяет легко смешивать 7-битный ASCII и 8-битный японский язык без необходимости использования управляющих символов, используемых ISO-2022-JP , который основан на тех же стандартах набора символов, и без байтов ASCII, появляющихся в качестве байтов следа. (в отличие от Shift JIS ).

Родственная и частично совместимая кодировка, называемая EUC-JISx0213 или EUC-JIS-2004 , кодирует JIS X 0201 и JIS X 0213 ^[12] (аналогично Shift_JISx0213 , его аналогу на основе Shift_JIS).

По сравнению с EUC-CN или EUC-KR, EUC-JP не получил такого широкого распространения на ПК и системах Macintosh в Японии, которые использовали Shift JIS или его расширения ( кодовая страница Windows 932 в Microsoft Windows и MacJapanese в классической Mac OS ) , хотя он стал активно использоваться в Unix или Unix-подобных операционных системах (кроме HP-UX ). Поэтому, используют ли японские веб-сайты EUC-JP или Shift_JIS, часто зависит от того, какую ОС использует автор.

Символы кодируются следующим образом:

В кодировке, совместимой с EUC / ISO 2022 , управляющие символы C0 , пробел и DEL представлены как в ASCII.
Графический символ из ASCII (кодовый набор 0) представлен как его обычное однобайтовое представление в диапазоне 0x21 - 0x7E. В то время как некоторые варианты EUC-JP закодировать нижнюю половину из JIS X 0201 здесь, большинство кодирования ASCII, ^[13] , в том числе W3C / стандартного WHATWG кодирования используется HTML5 , ^[14] и так делает EUC-JIS-2004. ^[12] Хотя это означает, что 0x5C обычно отображается в Unicode как U + 005C REVERSE SOLIDUS ( обратная косая черта ASCII ), U + 005C может отображаться как знак йены в некоторых шрифтах японской локали, например, в Microsoft Windows, для совместимости с нижняя половина JIS X 0201 . ^[15]^[16]
Символ из JIS X 0208 (кодовый набор 1) представлен двумя байтами, оба в диапазоне 0xA1 - 0xFE. Это отличается от представления ISO-2022-JP наличием старшего бита. Этот кодовый набор может также содержать расширения поставщиков в некоторых вариантах EUC-JP. В EUC-JIS-2004 здесь кодируется первая плоскость JIS X 0213 , которая фактически является расширенным набором стандарта JIS X 0208 . ^[12]
Персонаж из верхней половины из JIS X 0201 ( полуширина кана , кодовый набор 2) представлен на два байта, первых из которых 0x8e, второй обычное JIS X 0201 представления в диапазоне 0xA1 - 0xDF. В некоторых вариантах этот набор может содержать расширения поставщиков IBM .
Символ из JIS X 0212 (кодовый набор 3) представлен в EUC-JP тремя байтами, первый из которых равен 0x8F, а следующие два находятся в диапазоне 0xA1–0xFE, то есть с установленным старшим битом. В дополнение к стандартному JIS X 0212 кодовый набор 3 некоторых вариантов EUC-JP может также содержать расширения в строках 83 и 84 для представления символов из расширений IBM Shift JIS, в которых отсутствуют стандартные сопоставления JIS X 0212, которые могут быть закодированы в любом из двух макеты, одна из которых определяется самой IBM, а другая - OSF . ^[17]^[18] В EUC-JIS-2004 здесь кодируется вторая плоскость JIS X 0213 , ^[12] которая не конфликтует с выделенными строками в стандарте JIS X 0212 . ^[19]Некоторые реализации EUC-JIS-2004, такие как тот, который используется Python , позволяют использовать в этом наборе символы JIS X 0212 и JIS X 0213 plane 2. ^[19]

Связанные японские методы кодирования [ править ]

Расширения поставщиков для EUC-JP (например, от Open Software Foundation , IBM или NEC ) часто распределялись внутри отдельных кодовых наборов ^[17]^[18], в отличие от использования недопустимых последовательностей EUC (как в популярных расширениях EUC). -CN и EUC-KR).

Однако некоторые кодировки, зависящие от производителя, частично совместимы с EUC-JP из-за кодирования JIS X 0208 поверх GR, но не соответствуют упакованной структуре EUC. Часто они не включают использование одинарных смен от EUC-JP и, следовательно, не являются прямым расширением EUC-JP, за исключением Super DEC Kanji.

DEC Kanji [ править ]

Digital Equipment Corporation определяет два варианта EUC-JP, которые только частично соответствуют упакованному формату EUC, но также имеют некоторое сходство с полным двухбайтовым форматом. Общий формат кодирования «DEC Kanji» в основном соответствует EUC фиксированной ширины (полные двухбайтовые); однако кодовый набор 0 не требуется дополнять слева нулевыми байтами (аналогично упакованному формату). ^[20] JIS X 0208, как обычно, используется для кодового набора 1; кодовый набор 2 (катакана половинной ширины) отсутствует; кодовый набор 3 кодируется как двухбайтовый формат фиксированной ширины (т. е. без байта сдвига и с набором только первого старшего бита), но используется для двухбайтовых пользовательских символов, а не для JIS X 0212. ^[20]В базовом кодировании «DEC Kanji» только первые 31 строка кодового набора 3 используются для определяемых пользователем символов: строки с 32 по 94 зарезервированы, как и неиспользуемые строки в кодовом наборе 1. ^[21]

Кодирование «Super DEC Kanji» принимает коды как из кодирования «DEC Kanji», так и из EUC в упакованном формате, всего пять кодовых наборов. ^[20] Это также позволяет использовать весь определенный пользователем кодовый набор и неиспользуемые строки на концах кодовых наборов JIS X 0208 и JIS X 0212 (строки 85–94 и 78–94 соответственно) для определяемых пользователем символы. ^[21]

HP-16 [ править ]

Hewlett-Packard определяет кодировку, называемую «HP-16». Это сопровождает их кодировку "HP-15", которая является вариантом Shift JIS . HP-16 кодирует JIS X 0208 с использованием тех же байтов, что и в EUC-JP, но не использует одинарные коды сдвига (таким образом, опуская наборы кодов 2 и 3), и добавляет три определяемые пользователем области, которые не соответствуют упакованному формату Структура EUC: ^[20]

Ведущие байты 0xA1 – C2, конечные байты 0x21–7E
Ведущие байты 0xC3 – E3, конечные байты 0x21–3F
Ведущие байты 0xC3 – E1, конечные байты 0x40–64

ИКИС [ править ]

Кодировка IKIS (интерактивная информационная система кандзи), используемая Data General, похожа на кодировку EUC-JP без одиночных сдвигов, то есть только с кодовыми наборами 0 и 1. Катакана половинной ширины вместо этого включена в строку 8 JIS X 0208 (сталкивается с рамкой - рисунок символов добавлен к стандарту в 1983 году). Строки с 9 по 12 JIS X 0208 используются для определяемых пользователем символов. ^[20]^[21]

Адаптация EUC-JP для EBCDIC [ править ]

Кейс (кандзи-обработки расширенный информационная система) является EBCDIC кодированием , используемого Hitachi , ^[21] с двухбайтовыми символами (а-DBCS Хост кодирование) включало использование сдвигающих последовательностей, что делает его состояние кодирования. В частности, последовательность 0x0A 0x41переключается в однобайтовый режим, а последовательность 0x0A 0x42переключается в двухбайтовый режим. ^[b] Однако символы JIS X 0208 кодируются с использованием тех же байтовых последовательностей, которые использовались для их кодирования в EUC-JP. Это приводит к дублированию кодировок идеографического пространства.—0x4040 для структуры кода DBCS-Host и 0xA1A1, как в EUC-JP. Это отличается от кодировки IBM DBCS-Host для японского языка, структура которой основана на версиях, предшествующих JIS X 0208, в целом. Диапазон начальных байтов расширяется до 0x59, из которых ведущие байты 0x81 – A0 предназначены для определяемых пользователем символов ^[20], а оставшаяся часть используется для корпоративных символов, включая как кандзи, так и не кандзи. ^[21]

JEF (расширенная функция японской обработки) ^[21] - это кодировка EBCDIC, используемая на мэйнфреймах Fujitsu , в отличие от FMR (вариант Shift JIS), используемого на ПК Fujitsu. Как и KEIS, JEF - это кодирование с отслеживанием состояния, переключение в двухбайтовый режим DBCS-Host с использованием последовательностей сдвига (где 0x29переключается в однобайтовый режим и 0x28переключается в двухбайтовый режим). Также, как и в KEIS, коды JIS X 0208 представлены так же, как в EUC-JP. ^[20] Диапазон старших байтов расширяется до 0x41, причем 0x80 – A0 предназначены для определения пользователя; Ведущим байтам 0x41–7F присвоены номера строк от 101 до 163 для целей kuten , хотя строка 162 (ведущий байт 0x7E) не используется. ^[20]^[21]Строки с 101 по 148 используются для расширенных кандзи, а строки с 149 по 163 - для расширенных без кандзи. ^[21]

EUC-KR [ править ]

EUC-KR
Структура кода EUC-KR
MIME / IANA	EUC-KR
Псевдоним (а)	Вансунг, IBM-970
Язык (и)	Корейский , английский , русский
Стандарт	KS X 2901 (KS C 5861)
Классификация	Extended ISO 646 , переменной ширины кодирование , кодирование CJK , EUC
Расширяется	US-ASCII или ISO 646: KR
Расширения	Mac OS Korean , IBM-949 , унифицированный код хангыль (Windows-949)
Преобразует / кодирует	KS X 1001
Преемник	Единый код хангыль (веб-стандарты)
v т е

EUC-KR - это кодировка переменной ширины для представления корейского текста с использованием двух наборов кодированных символов: KS X 1001 (ранее KS C 5601) ^[22]^[23] и либо ISO 646 : KR ( KS X 1003 , ранее KS C 5636 ). или US-ASCII , в зависимости от варианта. KS X 2901 (ранее KS C 5861 ) определяет кодировку, а RFC 1557 назвал ее EUC-KR.

Символ, взятый из KS X 1001 (G1, кодовый набор 1), кодируется как два байта в GR (0xA1–0xFE), а символ из KS X 1003 или US-ASCII (G0, кодовый набор 0) занимает один байт в GL ( 0x21–0x7E).

При использовании с ASCII она называется кодовой страницей 970 от IBM. ^[24]^[25]^[26] Она известна как кодовая страница 51949 от Microsoft. ^[27] Это, как правило , называют Wansung ( корейский : 완성 , латинизируется : Wanseong , лит 'precomposed ^[28] ') в Республике Корея .

По состоянию на февраль 2021 ^{[Обновить]}года 0,1% всех веб-страниц во всем мире используют EUC-KR ^[9], что вводит в заблуждение, поскольку используется 13,2% веб-страниц в Южной Корее (только страна, для которой предназначена кодировка) ^[29], что делает его самым популярным. кодировка не- UTF-8 / Unicode для языка / веб-домена, в то время как только 6,0% веб-страниц используют корейский язык (что делает UTF-8 менее популярным в Южной Корее, чем (по-видимому) во всех странах мира). ^[30] Включая расширения, это наиболее широко используемая устаревшая кодировка символов в Корее на всех трех основных платформах ( macOS , другие Unix-подобные ОС и Windows), но ее использование очень медленно перемещается на UTF-8, поскольку она становится все более популярной. популярность, особенно в Linux и macOS.

Как и большинство других кодировок, UTF-8 теперь предпочтительнее для нового использования, решая проблемы с согласованностью между платформами и поставщиками.

Связанные корейские системы кодирования [ править ]

Единый код хангыля [ править ]

Распространенным расширением EUC-KR является Unified Hangul Code ( 한글 코드 , Tonghabhyeong Hangeul Kodeu , ^[31] или 통합 완성형 , Tonghab Wansunghyung ), который является корейской кодовой страницей по умолчанию в Microsoft Windows. Ему присвоен номер кодовой страницы 949 от Microsoft и 1261 ^[32] или 1363 ^[33] от IBM. Кодовая страница IBM 949 - это другое, не связанное с этим расширение EUC-KR.

Унифицированный код хангыль расширяет EUC-KR за счет использования кодов, которые не соответствуют структуре EUC, для включения дополнительных блоков слогов, завершая охват составных блоков слогов, доступных в Johab и Unicode. W3C / WHATWG Encoding Standard используется HTML5 включает в себя унифицированные расширения хангыль кода в своем определении EUC-KR. ^[34]

Mac OS Korean (HangulTalk) [ править ]

Другие кодировки, включающие EUC-KR в качестве подмножества, включают корейский сценарий Mac OS (известный как кодовая страница 10003 или x-mac-korean) ^[6], который использовался HangulTalk (MacOS-KH), корейской локализацией классической Mac OS . Он был разработан компанией Elex Computer ( 일 렉스 ), которая в то время была авторизованным дистрибьютором компьютеров Apple Macintosh в Южной Корее. ^[35]^[21]

HangulTalk добавляет символы расширения с ведущими байтами между 0xA1 и 0xAD, как в неиспользуемом пространстве внутри плоскости GR EUC-KR (байты следа 0xA1–0xFE), так и с использованием кодов, отличных от EUC, вне его (байты следа 0x41–0xA0). Некоторые из этих символов представляют собой стилизованные дингбаты, не зависящие от шрифта . ^[21] Многие из этих символов не имеют точных сопоставлений Unicode, и программное обеспечение Apple по-разному отображает эти случаи для комбинирования последовательностей , для приблизительного сопоставления с добавленным символом частного использования в качестве модификатора для целей двустороннего использования или с символами частного использования . ^[36]

Apple также использует определенные однобайтовые коды за пределами плоскости EUC-KR для дополнительных символов: 0x80 для необходимого пробела , 0x81 для знака победы (₩), 0x82 для короткого тире (-), 0x83 для знака авторского права (© ), 0x84 для широкого подчеркивания (＿) и 0xFF для многоточия (…). ^[36] Хотя ни один из этих дополнительных однобайтовых кодов не находится в пределах диапазона старших байтов простого EUC-KR (в отличие от расширений Apple для EUC-CN, см. Выше ), некоторые из них находятся в пределах диапазона старших байтов унифицированного кода хангыль (в частности, 0x81, 0x82, 0x83 и 0x84).

EUC-TW [ править ]

EUC-TW - это кодировка переменной ширины, которая поддерживает US-ASCII и 16 плоскостей CNS 11643 , каждая из которых имеет размер 94x94. Это редко используемая кодировка для традиционных китайских иероглифов, используемых на Тайване . Варианты Big5 гораздо чаще , чем EUC-TW, хотя Big5 только кодирует первые две плоскости ЦНС 11643 Hanzi , в то время как UTF-8 , становится все более распространенным.

В кодировке EUC / ISO 2022 управляющие символы C0 , пробел ASCII и DEL кодируются так же, как в ASCII.
Графический символ из US-ASCII (G0, кодовый набор 0) кодируется в GL как его обычное однобайтовое представление (0x21–0x7E).
Символ из плоскости 1 CNS 11643 (кодовый набор 1) кодируется как два байта в GR (0xA1–0xFE).
Символ в плоскости с 1 по 16 CNS 11643 (кодовый набор 2) кодируется четырьмя байтами:
- Первый байт всегда 0x8E (одиночный сдвиг 2).
- Второй байт (0xA1–0xB0) указывает плоскость, номер которой получается вычитанием 0xA0 из этого байта.
- Третий и четвертый байты находятся в GR (0xA1–0xFE).

Обратите внимание, что плоскость 1 CNS 11643 кодируется дважды как кодовый набор 1 и часть кодового набора 2.

См. Также [ править ]

CJK
Японский язык и компьютеры
Корейский язык и компьютеры
Кодировка китайских символов

Примечания [ править ]

^ 7-битные версии кода ISO 2022, поддерживающие GB 2312, включают ISO-2022-CN (с кодами сдвига) и ISO-2022-JP-2 (без кодов сдвига), оба из которых также поддерживают другие наборы, отличные от ASCII.
^ Эти последовательности, как показано, преобразованы из их десятичных форм (10 65и10 66), перечисленных Лунде. ^[20] Лунде перечисляет шестнадцатеричные формы для обоих как0xA0 0x42, по-видимому, ошибочно.

Ссылки [ править ]

^ а б в г IBM . «Архитектура представления символьных данных (CDRA)» . С. 157–162.
^ a b c Лунде, Кен (2008). Обработка информации CJKV: компьютерные технологии Китая, Японии, Кореи и Вьетнама . О'Рейли. С. 242–244. ISBN 9780596800925.
^ «Наборы символов» . IANA.
^ «4.2. Имена и метки» . Стандарт кодирования . WHATWG.
^ a b c d «Сопоставление (внешняя версия) от китайской упрощенной кодировки Mac OS до Unicode 3.0 и более поздних версий» . Яблоко, Inc .
^ a b «Свойство Encoding.WindowsCodePage - .NET Framework (текущая версия)» . MSDN . Microsoft.
^ Лунде, Кен (1998). Приложение F: GB / T 12345 (PDF) . CJKV Обработка информации . O'Reilly Media . ISBN 9781565922242.
^ Управление по стандартизации Китая (SAC) (2005-11-18). GB 18030-2005: Информационные технологии - набор символов китайского кодирования .
^ a b «Исторические тенденции использования кодировок символов для веб-сайтов» . W3Techs.
^ "Информационный документ CCSID 954" . Архивировано из оригинала на 2016-03-27.
^ Международные компоненты для Unicode (ICU), ibm-954_P101-2007.ucm , 2002-12-03
^ a b c d «Таблицы сопоставления кодов JIS X 0213» . x0213.org.
^ «Неоднозначности при преобразовании японского EUC в Unicode (ненормативный)» . Японский профиль XML . W3C.
^ "Декодер EUC-JP" . Стандарт кодирования . WHATWG. «Если байт является байтом ASCII, вернуть кодовую точку, значение которой - байт».
^ «3.1.1 Детали проблем» . Проблемы и решения для Unicode и символов, определенных пользователем / поставщиком . Открытая группа в Японии. Архивировано из оригинала на 1999-02-03 . Проверено 14 августа 2019 .
↑ Каплан, Майкл С. (17 сентября 2005 г.). "Когда обратная косая черта не является обратной?" .
^ a b «4.2 Обзор правил преобразования кодового набора между eucJP-open и UCS» . Проблемы и решения для Unicode и символов, определенных пользователем / поставщиком . Открытая группа в Японии. Архивировано из оригинала на 1999-02-03 . Проверено 14 августа 2019 .
^ a b Лунде, Кен (13 января 2009 г.). «Приложение J: Наборы японских символов» (PDF) . CJKV Обработка информации (2-е изд.). ISBN 978-0-596-51447-1.
^ а б Чанг, Хешик. «Readme для CJKCodecs» . cPython . Фонд программного обеспечения Python.
^ a b c d e f g h i Лунде, Кен (13 января 2009 г.). «Приложение F: методы кодирования поставщика» (PDF) . CJKV Обработка информации (2-е изд.). ISBN 978-0-596-51447-1.
^ Б с д е е г ч я J Лунде, Кен (2009). «Приложение E: Стандарты набора символов поставщика» (PDF) . Обработка информации CJKV: китайские, японские, корейские и вьетнамские вычисления (2-е изд.). Севастополь, Калифорния : О'Рейли . ISBN 978-0-596-51447-1.
^ "KS X 1001: 1992" (PDF) .
^ "KS C 5601: 1987" (PDF) . 1988-10-01.
^ "CCSID 970" . IBM Globalization . IBM. Архивировано из оригинала на 2014-12-01.
^ "ibm-970_P110_P110-2006_U2 (псевдоним euc-kr)" . Converter Explorer - Демонстрация ICU . Международные компоненты для Unicode.
^ Международные компоненты для Unicode (ICU), ibm-970_P110_P110-2006_U2.ucm , 2002-12-03
^ «Идентификаторы кодовой страницы» . Центр разработки для Windows . Microsoft.
^ Лунде, Кен (2009). «Глава 3: Стандарты набора символов» . CJKV Обработка информации . п. 146. ISBN. 978-0596514471.
^ «Распределение кодировок символов среди веб-сайтов, использующих .kr» . w3techs.com . Проверено 11 февраля 2021 .
^ «Распределение кодировок символов среди веб-сайтов, использующих корейский язык» . w3techs.com . Проверено 3 июля 2020 .
^ "한글 코드 에 대하여" (на корейском языке). W3C. Архивировано из оригинала на 2013-05-24 . Проверено 7 января 2019 .
^ В ucnv_lmb.cpp , файле, исходящем от IBM и включенном вдерево исходных текстов International Components for Unicode , главный байт 0x11 комментируется как относящийся к "Korean: ibm-1261" после определенияULMBCS_GRP_KOи сопоставляется с"windows-949"кодеком ICU вOptGroupByteToCPNameмассиве позже в файле.
^ «Кодированные идентификаторы набора символов - CCSID 1363» , IBM Globalization , IBM, заархивировано из оригинала 29 ноября 2014 г.
^ «5. Индексы (§ индекс EUC-KR)» , Стандарт кодирования , WHATWG
^ Гил, Ходжин. «HangulTalk: де-факто стандартная среда Hangul для Mac» . Руководство по использованию хангыля на Macintosh .
^ а б Apple (2005-04-05). «Карта (внешняя версия) из корейской кодировки Mac OS в Unicode 3.2 и новее» . Консорциум Unicode .

Внешние ссылки [ править ]

Таблица кодов EUC-JP (без ASCII и половинной ширины)
Идентификаторы кодовой страницы
GB18030-2000 - Новый китайский национальный стандарт
Новое поколение программного обеспечения допечатной подготовки в Китае - упоминает код 748
Описание кода EUC-TW (на китайском языке)
Страница руководства EUC-JISX0213 в модуле Perl Encode
Международный регистр наборов кодированных символов для использования с escape-последовательностью - раздел 2.4 (стр. 14f.) С наборами кодированных символов Китая, Японии, Южной Кореи, Северной Кореи и Тайваня (ISO / IEC)
Стандарты набора символов китайского, японского и корейского языков и системы кодирования

[6] 7-битные версии кода ISO 2022, поддерживающие GB 2312, включают ISO-2022-CN (с кодами сдвига) и ISO-2022-JP-2 (без кодов сдвига), оба из которых также поддерживают другие наборы, отличные от ASCII.

[23] Эти последовательности, как показано, преобразованы из их десятичных форм (10 65и10 66), перечисленных Лунде. ^[20] Лунде перечисляет шестнадцатеричные формы для обоих как0xA0 0x42, по-видимому, ошибочно.

[cdra-1] а б в г IBM . «Архитектура представления символьных данных (CDRA)» . С. 157–162.

[lunde-2] Лунде, Кен (2008). Обработка информации CJKV: компьютерные технологии Китая, Японии, Кореи и Вьетнама . О'Рейли. С. 242–244. ISBN 9780596800925.

[ianaeuc-3] «Наборы символов» . IANA.

[4] «4.2. Имена и метки» . Стандарт кодирования . WHATWG.

[macsimchinese-5] «Сопоставление (внешняя версия) от китайской упрощенной кодировки Mac OS до Unicode 3.0 и более поздних версий» . Яблоко, Inc .

[msdnlabels-7] «Свойство Encoding.WindowsCodePage - .NET Framework (текущая версия)» . MSDN . Microsoft.

[cjkv-12345-8] Лунде, Кен (1998). Приложение F: GB / T 12345 (PDF) . CJKV Обработка информации . O'Reilly Media . ISBN 9781565922242.

[gb18030-9] Управление по стандартизации Китая (SAC) (2005-11-18). GB 18030-2005: Информационные технологии - набор символов китайского кодирования .

[w3techs-10] «Исторические тенденции использования кодировок символов для веб-сайтов» . W3Techs.

[11] "Информационный документ CCSID 954" . Архивировано из оригинала на 2016-03-27.

[12] Международные компоненты для Unicode (ICU), ibm-954_P101-2007.ucm , 2002-12-03

[x0213org-13] «Таблицы сопоставления кодов JIS X 0213» . x0213.org.

[w3cxmleuc-14] «Неоднозначности при преобразовании японского EUC в Unicode (ненормативный)» . Японский профиль XML . W3C.

[15] "Декодер EUC-JP" . Стандарт кодирования . WHATWG. «Если байт является байтом ASCII, вернуть кодовую точку, значение которой - байт».

[16] «3.1.1 Детали проблем» . Проблемы и решения для Unicode и символов, определенных пользователем / поставщиком . Открытая группа в Японии. Архивировано из оригинала на 1999-02-03 . Проверено 14 августа 2019 .

[17] Каплан, Майкл С. (17 сентября 2005 г.). "Когда обратная косая черта не является обратной?" .

[osfibmextensions-18] «4.2 Обзор правил преобразования кодового набора между eucJP-open и UCS» . Проблемы и решения для Unicode и символов, определенных пользователем / поставщиком . Открытая группа в Японии. Архивировано из оригинала на 1999-02-03 . Проверено 14 августа 2019 .

[lundeJ-19] Лунде, Кен (13 января 2009 г.). «Приложение J: Наборы японских символов» (PDF) . CJKV Обработка информации (2-е изд.). ISBN 978-0-596-51447-1.

[hyeshik-20] а б Чанг, Хешик. «Readme для CJKCodecs» . cPython . Фонд программного обеспечения Python.

[lundeF-21] ^ a b c d e f g h i Лунде, Кен (13 января 2009 г.). «Приложение F: методы кодирования поставщика» (PDF) . CJKV Обработка информации (2-е изд.). ISBN 978-0-596-51447-1.

[lunde2009appE-22] Б с д е е г ч я J Лунде, Кен (2009). «Приложение E: Стандарты набора символов поставщика» (PDF) . Обработка информации CJKV: китайские, японские, корейские и вьетнамские вычисления (2-е изд.). Севастополь, Калифорния : О'Рейли . ISBN 978-0-596-51447-1.

[ksx-24] "KS X 1001: 1992" (PDF) .

[ksc-25] "KS C 5601: 1987" (PDF) . 1988-10-01.

[26] "CCSID 970" . IBM Globalization . IBM. Архивировано из оригинала на 2014-12-01.

[27] "ibm-970_P110_P110-2006_U2 (псевдоним euc-kr)" . Converter Explorer - Демонстрация ICU . Международные компоненты для Unicode.

[28] Международные компоненты для Unicode (ICU), ibm-970_P110_P110-2006_U2.ucm , 2002-12-03

[29] «Идентификаторы кодовой страницы» . Центр разработки для Windows . Microsoft.

[30] Лунде, Кен (2009). «Глава 3: Стандарты набора символов» . CJKV Обработка информации . п. 146. ISBN. 978-0596514471.

[31] «Распределение кодировок символов среди веб-сайтов, использующих .kr» . w3techs.com . Проверено 11 февраля 2021 .

[32] «Распределение кодировок символов среди веб-сайтов, использующих корейский язык» . w3techs.com . Проверено 3 июля 2020 .

[33] "한글 코드 에 대하여" (на корейском языке). W3C. Архивировано из оригинала на 2013-05-24 . Проверено 7 января 2019 .

[34] В ucnv_lmb.cpp , файле, исходящем от IBM и включенном вдерево исходных текстов International Components for Unicode , главный байт 0x11 комментируется как относящийся к "Korean: ibm-1261" после определенияULMBCS_GRP_KOи сопоставляется с"windows-949"кодеком ICU вOptGroupByteToCPNameмассиве позже в файле.

[35] «Кодированные идентификаторы набора символов - CCSID 1363» , IBM Globalization , IBM, заархивировано из оригинала 29 ноября 2014 г.

[whatwgext-36] «5. Индексы (§ индекс EUC-KR)» , Стандарт кодирования , WHATWG

[37] Гил, Ходжин. «HangulTalk: де-факто стандартная среда Hangul для Mac» . Руководство по использованию хангыля на Macintosh .

[mackoreantxt-38] а б Apple (2005-04-05). «Карта (внешняя версия) из корейской кодировки Mac OS в Unicode 3.2 и новее» . Консорциум Unicode .

vтеКодировки символов
Ранние телекоммуникации	Телеграфный код Иголка Морс Нелатинский Вабун / Кана Китайский Кириллица Корейский Бодо и Мюррей FIELDATA ASCII ISO / IEC 646 BCDIC 353 355 357 358 359 360 EBCDIC Телетекс и Видеотекс / Телетекст ISO / IEC 6937 / ITU T.51 ITU T.61 ITU T.101 Телетекст мировой системы фон наборы
ISO / IEC 8859	Одобренный -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 -13 -14 -15 -16 Заброшенный -12 Адаптации ISO-IR-182 ISO-IR-200 ISO-IR-201 Предложено, но не утверждено ISO-IR-111 ISO-IR-197 Французский / голландский / турецкий проект
Библиографическое использование	MARC-8 ANSEL CCCII / EACC ISO 5426 / 5426-2 / 5427 / 5428 / 6438 /6861/ 6862 / 10585 /10586/10754/11822
Национальные стандарты	ArmSCII BraSCII CNS 11643 ELOT 927 ГОСТ 10859 ГБ 2312 ГБ 12052 ГБ 18030 HKSCS IS 434 ISCII JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 КОИ-7 КПС 9566 KS X 1001 KS X 1002 LST 1284 LST 1564 LST 1590-1 LST 1590-2 LST 1590-3 LST 1590-4 PASCII RUSCII SI 960 ТИС-620 TSCII VISCII VSCII ЮСКИИ
ISO / IEC 2022	7-битный CN CN-EXT JP JP-EXT JP-1 JP-2 JP-3 KR ISO / IEC 4873 ISO / IEC 8859 ISO / IEC 10367 Расширенный код Unix / EUC CN KR JP TW
Кодовые страницы Mac OS («скрипты»)	Армянский арабский Баренц кириллица кельтская CentEuro КитайскийSimp / EUC-CN Китайский Трад / Big5 хорватский Кириллица Деванагари / ISCII Дингбаты Фарси (персидский) Гэльский Грузинский Греческий Гуджарати / ISCII Гурмукхи / ISCII иврит Исландия Инуиты Японский / Shift JIS Клавиатура Корейский / EUC-KR Латынь (Кермит) Мальтийский / эсперанто Огам / IS 434 Римский румынский Саами Символ Тайский / TIS-620 турецкий Тюркская кириллица украинец VT100
Кодовые страницы DOS	100 111 112 113 151 152 161 162 163 164 165 166 210 220 301 437 449 489 620 667 668 707 708 709 710 711 714 715 720 721 737 768 770 771 772 773 774 775 776 777 778 790 850 851 852 853 854 855 / 872 856 857 858 859 860 861 862 863 864 865 866 / 808 867 868 869 874 / одна тысяча сто шестьдесят-одна / 1162 файла 876 877 878 881 882 883 884 885 891 895 896 897 898 899 900 903 904 906 907 909 910 911 926 927 928 929 932 934 936 938 941 942 943 944 946 947 948 949 950/1370 951 966 991 1034 1039 1040 1041 1042 1043 1044 1046 1086 1088 1092 1093 1098 1108 1109 1114 1115 1116 1117 1118 1119 1125 / 848 1126 1127 1131 / 849 1139 1167 1168 1300 1351 1361 1362 1363 1372 1373 1374 1375 1380 1381 1385 1386 1391 1392 1393 1394 3012 3021 3843 3844 3845 3846 3847 3848 30000 30001 30002 30003 30004 30005 30006 30007 30008 30009 30010 30011 30012 30013 30014 30015 30016 30017 30018 30019 30020 30021 30022 30023 30024 30025 30026 30027 30028 30029 30030 30031 30032 30033 30034 30039 30040 58152 58210 58335 59234 59829 60258 60853 61282 62306 CS Индийский CSX Индийский CSX + Индийский CWI-2 Иранская система Каменицкий KOI8 Мазовецкое воеводство МИК
Кодовые страницы IBM AIX	367 371 806 813 819 895 896 912 913 914 915 916 919 920 921 / 901 922 / 902 923 952 953 954 955 956 957 958 959 960 961 963 964 965 970 971 1004 1006 1008 1009 1010 1011 1012 1013 1014 1015 1016 1017 1018 1019 1029 1036 1089 1111 1124 1129 / 1163 1133 1350 1382 1383
Кодовые страницы IBM для кодировок других поставщиков	Apple Macintosh 1275 1280 1281 1282 1283 1284 1285 1286 Adobe 1038 1276 1277 DEC 1020 1021 1023 1090 1100 1101 1102 1103 1104 1105 1106 1107 1287 1288 HP 1050 1051 1052 1053 1054 1055 1056 1057 1058
Кодовые страницы Windows	CER-GS 874 / 1162 файла ( TIS-620 ) 932 / 943 ( Сдвиг JIS ) 936 / 1 386 ( GBK ) 950 / 1370 ( Big5 ) 949 / 1363 ( EUC-KR ) 1169 1174 Расширенная латиница-8 1200 ( UTF-16LE ) 1201 ( UTF-16BE ) 1250 1251 1252 1253 1254 1255 1256 1257 1258 1261 1270 54936 (GB18030) Армянский Кириллица + финский Кириллица + французский Кириллица + немецкий Политонический греческий 65001 ( UTF-8 )
Кодовые страницы Microsoft для кодировок других поставщиков	Apple Macintosh 10000 10001 10002 10003 10004 10005 10006 10007 10008 10010 10017 10021 10029 10079 10081 10082
Кодовые страницы EBCDIC	37 390 391 392 393 394 395 435 829 834 835 837 839 881 882 883 884 885 886 887 888 889 890 931 933 / 1364 935 / 1388 937 / 1371 939 / 1399 1001 1003 1005 1007 1024 1027 1028 1030 1031 1032 1033 1037 1068 1071 1073 1074 1075 1076 1077 1078 1080 1082 1083 1085 1087 1091 1136 1150 1151 1152 1278 1279 1303 1364 1376 1377
Терминалы DEC ( VTx )	Многонациональная (MCS) Национальная замена (NRCS) французский канадец Швейцарский испанский объединенное Королевство нидерландский язык Финский Французский Норвежский и датский Шведский Норвежский и датский (альтернативный) 8-битный греческий 8-битный турецкий 7-битный иврит 8-битный иврит Специальная графика Технические (TCS)
Для конкретной платформы	Желудь Adobe Standard Adobe Latin 1 Амстрад КТК Яблоко I Яблоко II Яблоко III ATASCII Atari ST BICS Калькуляторы Casio CDC Compucolor II CP / M + ДЕКАБРЬ RADIX 50 DEC MCS / NRCS DG International ЭЛВРО-Юниор FIELDATA GEM GEOS GSM 03.38 Расширение HP Roman HP Роман-8 HP Роман-9 HP FOCAL ХП РПЛ IBM SQUOZE LICS LMBCS Маттел Водолей Минитель MSX NEC APC Следующий OricSCII PCW PETSCII Sega SC-3000 Калькуляторы Sharp Sharp MZ Sinclair QL Телетекст Калькуляторы TI TRS-80 Ventura International Символ Вентуры WISCII XCCS ZX80 ZX81 ZX Spectrum
Юникод / ISO / IEC 10646	UTF-1 UTF-7 UTF-8 UTF-16 ( UTF-16LE / UTF-16BE ) / UCS-2 UTF-32 ( UTF-32LE / UTF-32BE ) / UCS-4 UTF-EBCDIC ГБ 18030 BOCU-1 ЦЭСУ-8 ГКГУ
Система набора TeX	Пробка IL1 IL2 IL3 L7X LGR LY1 OML OMS OMX OT1 OT2 OT3 OT4 PL0 QX T2A T2B T2C T2D Т3 Т4 Т5 TS1 TS3 U X2
Разные кодовые страницы	ABICOMP APL 293 310 (графический побег) 351 (GDDM) 907 (OEM) ISO-IR-68 ARIB STD-B24 Гц IEC-P27-1 ИНИС 7-битный 8 бит Кириллица ISO-IR-169 ISO 2033 Йохаб Модзикё SEASCII Стэнфорд / ИТС TACE16 TRON UTF-5 UTF-6 WTF-8
Контрольные и непечатаемые наборы символов	Азбука Морзе Коды управления C0 и C1 ISO / IEC 6429 / ANSI X3.64 / ECMA-48 / JIS X 0211 ISO 6630 DIN 31626 JIS X 0207 ITU T.101 C0 C1 Коды управления EBCDIC Управление Unicode, формат и символы-разделители Пробельные символы
похожие темы	Кодовая страница Кодовая страница Windows CCSID Кодировки символов в HTML Обнаружение кодировки Ханьское объединение Аппаратное обеспечение Моджибаке
Наборы символов