Из Википедии, бесплатной энциклопедии
  (Перенаправлено из EUC-CN )
Перейти к навигации Перейти к поиску

Расширенный код Unix ( EUC ) - это система кодирования многобайтовых символов, используемая в основном для японского , корейского и упрощенного китайского языков .

Наиболее часто используемые коды EUC - это кодировки переменной ширины с символом, принадлежащим к набору кодированных символов, совместимому с ISO / IEC 646 (например, ASCII ), занимающим один байт, и символом, принадлежащим к набору кодированных символов 94x94 (например, GB 2312 ). в два байта. Форма EUC-CN из GB 2312 и EUC-KR являются примерами таких двухбайтовых кодов EUC. EUC-JP включает символы, представленные до трех байтов, включая начальный код сдвига , тогда как один символ в EUC-TW может занимать до четырех байтов.

Современные приложения с большей вероятностью будут использовать UTF-8 , который поддерживает все символы кодов EUC и многое другое, и, как правило, более переносим с меньшим количеством отклонений и ошибок от поставщиков. Однако EUC по-прежнему очень популярен, особенно EUC-KR для Южной Кореи.

Структура кодирования [ править ]

Связь между упакованными EUC и другими 8-битными профилями ISO 2022

Структура EUC основана на стандарте ISO / IEC 2022 , который определяет систему наборов графических символов, которые могут быть представлены последовательностью 94 7-битных байтов 0x 21–7E или, альтернативно, 0xA1 – FE, если восьмой бит доступен. Это позволяет использовать наборы из 94 графических символов или 8836 (94 2 ) символов или 830584 (94 3 ) символа. Хотя изначально 0x20 и 0x7F всегда были пробелом и символом удаления, а 0xA0 и 0xFF не использовались, более поздние версии ISO / IEC 2022разрешено использование байтов 0xA0 и 0xFF (или 0x20 и 0x7F) в наборах при определенных обстоятельствах, что позволяет включать наборы из 96 символов. Диапазоны 0x00–1F и 0x80–9F используются для управляющих кодов C0 и C1 .

EUC - это семейство 8-битных профилей ISO / IEC 2022 в отличие от 7-битных профилей, таких как ISO-2022-JP . Таким образом, формы EUC могут иметь только наборы символов, соответствующие ISO 2022 . С помощью схемы EUC можно представить до четырех наборов кодированных символов (называемых G0, G1, G2 и G3 или кодовых наборов 0, 1, 2 и 3). Набор G0 установлен в соответствующий ISO / IEC 646 кодированный набор символов, такой как US-ASCII , ISO 646: KR ( KS X 1003 ) или ISO 646: JP (нижняя половина JIS X 0201 ), и вызывается через GL (т. Е. 0x21–0x7E, старший бит очищен). [1] Если используется US-ASCII, это делает кодрасширенная кодировка ASCII ; наиболее частым отклонением от US-ASCII является то, что 0x5C ( обратная косая черта в US-ASCII) часто используется для обозначения знака йены в EUC-JP (см. ниже) и знака выигрыша в EUC-KR.

Другие кодовые наборы вызываются через GR (то есть с набором наиболее значимых битов). Следовательно, чтобы получить форму EUC символа, устанавливается самый старший бит каждого байта кодирования (эквивалентно добавлению 128 к каждому 7-битному байту кодирования или добавлению 160 к каждому числу в коде kuten ); это позволяет программное обеспечение легко отличить ли конкретный байт в строке символов принадлежит ISO 646 кода или расширенного кода. Символы в кодовых наборах 2 и 3 имеют префиксы управляющих кодов SS2 (0x8E) и SS3 (0x8F) соответственно и вызываются через GR. Помимо исходного кода сдвига, любой байт за пределами диапазона 0xA0–0xFF, появляющийся в символе из кодовых наборов с 1 по 3, не является допустимым кодом EUC. [1]

Сам код EUC не использует последовательности объявления и обозначения из ISO 2022 . [1] Однако спецификация кода эквивалентна следующей последовательности из четырех последовательностей объявлений ISO 2022 со следующими значениями. [1]

Формат с фиксированной шириной [ править ]

Описанное выше кодирование переменной ширины на основе ISO-2022 иногда называют упакованным форматом EUC , который обычно обозначается как EUC. Однако внутренняя обработка данных EUC может использовать формат преобразования фиксированной ширины, называемый полным двухбайтовым форматом EUC . Это означает: [2]

  • Кодовый набор 0 как два байта в диапазоне 0x21–0x7E (за исключением того, что первый может быть 0x00).
  • Кодовый набор 1 как два байта в диапазоне 0xA0–0xFF (за исключением того, что первый может быть 0x80).
  • Кодовый набор 2 в виде байта в диапазоне 0x20–0x7E (или 0x00), за которым следует байт в диапазоне 0xA0–0xFF.
  • Кодовый набор 3 в виде байта в диапазоне 0xA0–0xFF (или 0x80), за которым следует байт в диапазоне 0x21–0x7E.

Начальные байты 0x00 и 0x80 используются в случаях, когда кодовый набор использует только один байт. Существует также четырехбайтовый формат фиксированной длины. [2] Эти форматы кодирования фиксированной длины подходят для внутренней обработки и обычно не встречаются при обмене.

EUC-JP зарегистрирован IANA в обоих форматах: в упакованном формате как «EUC-JP» или «csEUCPkdFmtJapanese» и в формате фиксированной ширины как «csEUCFixWidJapanese». [3] В стандарт кодирования WHATWG, используемый HTML5, включен только упакованный формат . [4]

EUC-CN [ править ]

EUC-CN [5] - это обычная закодированная форма стандарта GB 2312 для упрощенных китайских иероглифов . В отличие от японских JIS X 0208 и ISO-2022-JP , GB 2312 обычно не используется в 7-битной версии кода ISO 2022 , [a] хотя вариантная форма называется HZ (которая разделяет текст GB 2312 последовательностями ASCII) иногда использовался в USENET .

Символ ASCII представлен в своей обычной кодировке. Символ из GB 2312 представлен двумя байтами, оба из диапазона 0xA1–0xFE.

Связанные системы кодирования материкового Китая [ править ]

Код 748 [ править ]

Кодировка, относящаяся к EUC-CN, - это код «748», используемый в системе набора текста WITS, разработанной компанией Beijing Founder Technology (в настоящее время устарел ее новой системой набора текста FITS). Код 748 содержит все GB 2312 , но не соответствует требованиям ISO 2022 и, следовательно, не является настоящим кодом EUC. (Он использует 8-битный ведущий байт, но различает второй байт с его наиболее значимым набором битов и один с очищенным наиболее значимым битом, и, следовательно, он более похож по структуре на Big5 и другие системы кодирования DBCS, не соответствующие ISO 2022. .) Часть кода 748, не относящаяся к GB2312, содержит традиционные и гонконгские символы и другие глифы, используемые при наборе газет.

GBK и GB 18030 [ править ]

GBK - это расширение GB 2312 . Он определяет расширенную форму кодировки EUC-CN, способную представлять более широкий массив символов CJK, полученных в основном из Unicode 1.1 , включая традиционные китайские символы и символы, используемые только в японском языке . Однако это не настоящий код EUC, поскольку байты ASCII могут отображаться как байты следа (а байты C1 , не ограничиваясь одиночными сдвигами, могут отображаться как байты начала или окончания) из-за того, что требуется большее пространство для кодирования.

Варианты GBK реализуются кодовая страница Windows , 936. ( Microsoft Windows кодовой страницы для упрощенного китайских), и кодовой страницы IBM, 1386.

Кодировка символов GB 18030 на основе Unicode определяет расширение GBK, способное кодировать весь Unicode . Однако Unicode, закодированный как GB 18030, является кодировкой переменной ширины, которая может использовать до четырех байтов на символ из-за того, что требуется еще большее пространство для кодирования. Являясь расширением GBK, он является расширенным набором EUC-CN, но сам по себе не является настоящим кодом EUC. Будучи кодировкой Unicode, ее репертуар идентичен репертуару других форматов преобразования Unicode, таких как UTF-8 .

Mac OS Китайский упрощенный [ править ]

Другие варианты EUC-CN, отличающиеся от механизма EUC, включают упрощенный китайский сценарий Mac OS (известный как кодовая страница 10008 или x-mac-chinesesimp). [6] Он использует байты 0x80, 0x81, 0x82, 0xA0, 0xFD, 0xFE и 0xFF для U с умлаутом (ü), двумя специальными метрическими символами шрифта, неразрывным пробелом , знаком авторского права (©), товарным знаком. знак (™) и многоточие (…) соответственно. [5] Это отличается тем, что считается однобайтовым символом по сравнению с первым байтом двухбайтового символа как из EUC (где из них 0xFD и 0xFE определены как ведущие байты), так и из GBK (где из них , 0x81, 0x82, 0xFD и 0xFE определены как ведущие байты).

Такое использование 0xA0, 0xFD, 0xFE и 0xFF соответствует варианту Apple Shift_JIS .

Помимо этих изменений в диапазоне старших байтов, другой отличительной особенностью двухбайтовой части Mac OS Chinese Simplified является включение двух расширений к базовому GB 2312-80, установленному в строках 6 и 8. [5] Они считаются «стандартные расширения для GB 2312», ни одно из которых не является собственностью Apple: расширение строки 8 было взято из GB 6345.1 , [5] оба расширения включены в GB / T 12345 (традиционный китайский вариант GB 2312), [7 ], и оба расширения включены в GB 18030 (преемник GB 2312). [8]

EUC-JP [ править ]

EUC-JP - это кодировка переменной ширины, используемая для представления элементов трех японских стандартов набора символов , а именно JIS X 0208 , JIS X 0212 и JIS X 0201 . Другие названия для этой кодировки включают Unixized JIS (или UJIS ) и AT&T JIS . [2] 0,1% всех веб-страниц используют EUC-JP с августа 2018 года [9], в то время как 2,8% веб-сайтов на японском языке используют эту кодировку (реже, чем Shift JIS или UTF-8 ). Это называется кодовой страницей 954 от IBM. [10] [11] У Microsoft есть два номера кодовой страницы для этой кодировки (51932 и 20932).

Эта схема кодирования позволяет легко смешивать 7-битный ASCII и 8-битный японский язык без необходимости использования управляющих символов, используемых ISO-2022-JP , который основан на тех же стандартах набора символов, и без байтов ASCII, появляющихся в качестве байтов следа. (в отличие от Shift JIS ).

Родственная и частично совместимая кодировка, называемая EUC-JISx0213 или EUC-JIS-2004 , кодирует JIS X 0201 и JIS X 0213 [12] (аналогично Shift_JISx0213 , его аналогу на основе Shift_JIS).

По сравнению с EUC-CN или EUC-KR, EUC-JP не получил такого широкого распространения на ПК и системах Macintosh в Японии, которые использовали Shift JIS или его расширения ( кодовая страница Windows 932 в Microsoft Windows и MacJapanese в классической Mac OS ) , хотя он стал активно использоваться в Unix или Unix-подобных операционных системах (кроме HP-UX ). Поэтому, используют ли японские веб-сайты EUC-JP или Shift_JIS, часто зависит от того, какую ОС использует автор.

Символы кодируются следующим образом:

  • В кодировке, совместимой с EUC / ISO 2022 , управляющие символы C0 , пробел и DEL представлены как в ASCII.
  • Графический символ из ASCII (кодовый набор 0) представлен как его обычное однобайтовое представление в диапазоне 0x21 - 0x7E. В то время как некоторые варианты EUC-JP закодировать нижнюю половину из JIS X 0201 здесь, большинство кодирования ASCII, [13] , в том числе W3C / стандартного WHATWG кодирования используется HTML5 , [14] и так делает EUC-JIS-2004. [12] Хотя это означает, что 0x5C обычно отображается в Unicode как U + 005C REVERSE SOLIDUS ( обратная косая черта ASCII ), U + 005C может отображаться как знак йены в некоторых шрифтах японской локали, например, в Microsoft Windows, для совместимости с нижняя половина JIS X 0201 . [15][16]
  • Символ из JIS X 0208 (кодовый набор 1) представлен двумя байтами, оба в диапазоне 0xA1 - 0xFE. Это отличается от представления ISO-2022-JP наличием старшего бита. Этот кодовый набор может также содержать расширения поставщиков в некоторых вариантах EUC-JP. В EUC-JIS-2004 здесь кодируется первая плоскость JIS X 0213 , которая фактически является расширенным набором стандарта JIS X 0208 . [12]
  • Персонаж из верхней половины из JIS X 0201 ( полуширина кана , кодовый набор 2) представлен на два байта, первых из которых 0x8e, второй обычное JIS X 0201 представления в диапазоне 0xA1 - 0xDF. В некоторых вариантах этот набор может содержать расширения поставщиков IBM .
  • Символ из JIS X 0212 (кодовый набор 3) представлен в EUC-JP тремя байтами, первый из которых равен 0x8F, а следующие два находятся в диапазоне 0xA1–0xFE, то есть с установленным старшим битом. В дополнение к стандартному JIS X 0212 кодовый набор 3 некоторых вариантов EUC-JP может также содержать расширения в строках 83 и 84 для представления символов из расширений IBM Shift JIS, в которых отсутствуют стандартные сопоставления JIS X 0212, которые могут быть закодированы в любом из двух макеты, одна из которых определяется самой IBM, а другая - OSF . [17] [18] В EUC-JIS-2004 здесь кодируется вторая плоскость JIS X 0213 , [12] которая не конфликтует с выделенными строками в стандарте JIS X 0212 . [19]Некоторые реализации EUC-JIS-2004, такие как тот, который используется Python , позволяют использовать в этом наборе символы JIS X 0212 и JIS X 0213 plane 2. [19]

Связанные японские методы кодирования [ править ]

Расширения поставщиков для EUC-JP (например, от Open Software Foundation , IBM или NEC ) часто распределялись внутри отдельных кодовых наборов [17] [18], в отличие от использования недопустимых последовательностей EUC (как в популярных расширениях EUC). -CN и EUC-KR).

Однако некоторые кодировки, зависящие от производителя, частично совместимы с EUC-JP из-за кодирования JIS X 0208 поверх GR, но не соответствуют упакованной структуре EUC. Часто они не включают использование одинарных смен от EUC-JP и, следовательно, не являются прямым расширением EUC-JP, за исключением Super DEC Kanji.

DEC Kanji [ править ]

Digital Equipment Corporation определяет два варианта EUC-JP, которые только частично соответствуют упакованному формату EUC, но также имеют некоторое сходство с полным двухбайтовым форматом. Общий формат кодирования «DEC Kanji» в основном соответствует EUC фиксированной ширины (полные двухбайтовые); однако кодовый набор 0 не требуется дополнять слева нулевыми байтами (аналогично упакованному формату). [20] JIS X 0208, как обычно, используется для кодового набора 1; кодовый набор 2 (катакана половинной ширины) отсутствует; кодовый набор 3 кодируется как двухбайтовый формат фиксированной ширины (т. е. без байта сдвига и с набором только первого старшего бита), но используется для двухбайтовых пользовательских символов, а не для JIS X 0212. [20]В базовом кодировании «DEC Kanji» только первые 31 строка кодового набора 3 используются для определяемых пользователем символов: строки с 32 по 94 зарезервированы, как и неиспользуемые строки в кодовом наборе 1. [21]

Кодирование «Super DEC Kanji» принимает коды как из кодирования «DEC Kanji», так и из EUC в упакованном формате, всего пять кодовых наборов. [20] Это также позволяет использовать весь определенный пользователем кодовый набор и неиспользуемые строки на концах кодовых наборов JIS X 0208 и JIS X 0212 (строки 85–94 и 78–94 соответственно) для определяемых пользователем символы. [21]

HP-16 [ править ]

Hewlett-Packard определяет кодировку, называемую «HP-16». Это сопровождает их кодировку "HP-15", которая является вариантом Shift JIS . HP-16 кодирует JIS X 0208 с использованием тех же байтов, что и в EUC-JP, но не использует одинарные коды сдвига (таким образом, опуская наборы кодов 2 и 3), и добавляет три определяемые пользователем области, которые не соответствуют упакованному формату Структура EUC: [20]

  • Ведущие байты 0xA1 – C2, конечные байты 0x21–7E
  • Ведущие байты 0xC3 – E3, конечные байты 0x21–3F
  • Ведущие байты 0xC3 – E1, конечные байты 0x40–64

ИКИС [ править ]

Кодировка IKIS (интерактивная информационная система кандзи), используемая Data General, похожа на кодировку EUC-JP без одиночных сдвигов, то есть только с кодовыми наборами 0 и 1. Катакана половинной ширины вместо этого включена в строку 8 JIS X 0208 (сталкивается с рамкой - рисунок символов добавлен к стандарту в 1983 году). Строки с 9 по 12 JIS X 0208 используются для определяемых пользователем символов. [20] [21]

Адаптация EUC-JP для EBCDIC [ править ]

Кейс (кандзи-обработки расширенный информационная система) является EBCDIC кодированием , используемого Hitachi , [21] с двухбайтовыми символами (а-DBCS Хост кодирование) включало использование сдвигающих последовательностей, что делает его состояние кодирования. В частности, последовательность 0x0A 0x41переключается в однобайтовый режим, а последовательность 0x0A 0x42переключается в двухбайтовый режим. [b] Однако символы JIS X 0208 кодируются с использованием тех же байтовых последовательностей, которые использовались для их кодирования в EUC-JP. Это приводит к дублированию кодировок идеографического пространства.—0x4040 для структуры кода DBCS-Host и 0xA1A1, как в EUC-JP. Это отличается от кодировки IBM DBCS-Host для японского языка, структура которой основана на версиях, предшествующих JIS X 0208, в целом. Диапазон начальных байтов расширяется до 0x59, из которых ведущие байты 0x81 – A0 предназначены для определяемых пользователем символов [20], а оставшаяся часть используется для корпоративных символов, включая как кандзи, так и не кандзи. [21]

JEF (расширенная функция японской обработки) [21] - это кодировка EBCDIC, используемая на мэйнфреймах Fujitsu , в отличие от FMR (вариант Shift JIS), используемого на ПК Fujitsu. Как и KEIS, JEF - это кодирование с отслеживанием состояния, переключение в двухбайтовый режим DBCS-Host с использованием последовательностей сдвига (где 0x29переключается в однобайтовый режим и 0x28переключается в двухбайтовый режим). Также, как и в KEIS, коды JIS X 0208 представлены так же, как в EUC-JP. [20] Диапазон старших байтов расширяется до 0x41, причем 0x80 – A0 предназначены для определения пользователя; Ведущим байтам 0x41–7F присвоены номера строк от 101 до 163 для целей kuten , хотя строка 162 (ведущий байт 0x7E) не используется. [20] [21]Строки с 101 по 148 используются для расширенных кандзи, а строки с 149 по 163 - для расширенных без кандзи. [21]

EUC-KR [ править ]

EUC-KR - это кодировка переменной ширины для представления корейского текста с использованием двух наборов кодированных символов: KS X 1001 (ранее KS C 5601) [22] [23] и либо ISO 646 : KR ( KS X 1003 , ранее KS C 5636 ). или US-ASCII , в зависимости от варианта. KS X 2901 (ранее KS C 5861 ) определяет кодировку, а RFC  1557 назвал ее EUC-KR.

Символ, взятый из KS X 1001 (G1, кодовый набор 1), кодируется как два байта в GR (0xA1–0xFE), а символ из KS X 1003 или US-ASCII (G0, кодовый набор 0) занимает один байт в GL ( 0x21–0x7E).

При использовании с ASCII она называется кодовой страницей 970 от IBM. [24] [25] [26] Она известна как кодовая страница 51949 от Microsoft. [27] Это, как правило , называют Wansung ( корейский : 완성 , латинизируется :  Wanseong , лит  'precomposed [28] ') в Республике Корея .

По состоянию на февраль 2021 года 0,1% всех веб-страниц во всем мире используют EUC-KR [9], что вводит в заблуждение, поскольку используется 13,2% веб-страниц в Южной Корее (только страна, для которой предназначена кодировка) [29], что делает его самым популярным. кодировка не- UTF-8 / Unicode для языка / веб-домена, в то время как только 6,0% веб-страниц используют корейский язык (что делает UTF-8 менее популярным в Южной Корее, чем (по-видимому) во всех странах мира). [30] Включая расширения, это наиболее широко используемая устаревшая кодировка символов в Корее на всех трех основных платформах ( macOS , другие Unix-подобные ОС и Windows), но ее использование очень медленно перемещается на UTF-8, поскольку она становится все более популярной. популярность, особенно в Linux и macOS.

Как и большинство других кодировок, UTF-8 теперь предпочтительнее для нового использования, решая проблемы с согласованностью между платформами и поставщиками.

Связанные корейские системы кодирования [ править ]

Единый код хангыля [ править ]

Распространенным расширением EUC-KR является Unified Hangul Code ( 한글 코드 , Tonghabhyeong Hangeul Kodeu , [31] или 통합 완성형 , Tonghab Wansunghyung ), который является корейской кодовой страницей по умолчанию в Microsoft Windows. Ему присвоен номер кодовой страницы 949 от Microsoft и 1261 [32] или 1363 [33] от IBM. Кодовая страница IBM 949 - это другое, не связанное с этим расширение EUC-KR.

Унифицированный код хангыль расширяет EUC-KR за счет использования кодов, которые не соответствуют структуре EUC, для включения дополнительных блоков слогов, завершая охват составных блоков слогов, доступных в Johab и Unicode. W3C / WHATWG Encoding Standard используется HTML5 включает в себя унифицированные расширения хангыль кода в своем определении EUC-KR. [34]

Mac OS Korean (HangulTalk) [ править ]

Другие кодировки, включающие EUC-KR в качестве подмножества, включают корейский сценарий Mac OS (известный как кодовая страница 10003 или x-mac-korean) [6], который использовался HangulTalk (MacOS-KH), корейской локализацией классической Mac OS . Он был разработан компанией Elex Computer ( 일 렉스 ), которая в то время была авторизованным дистрибьютором компьютеров Apple Macintosh в Южной Корее. [35] [21]

HangulTalk добавляет символы расширения с ведущими байтами между 0xA1 и 0xAD, как в неиспользуемом пространстве внутри плоскости GR EUC-KR (байты следа 0xA1–0xFE), так и с использованием кодов, отличных от EUC, вне его (байты следа 0x41–0xA0). Некоторые из этих символов представляют собой стилизованные дингбаты, не зависящие от шрифта . [21] Многие из этих символов не имеют точных сопоставлений Unicode, и программное обеспечение Apple по-разному отображает эти случаи для комбинирования последовательностей , для приблизительного сопоставления с добавленным символом частного использования в качестве модификатора для целей двустороннего использования или с символами частного использования . [36]

Apple также использует определенные однобайтовые коды за пределами плоскости EUC-KR для дополнительных символов: 0x80 для необходимого пробела , 0x81 для знака победы (₩), 0x82 для короткого тире (-), 0x83 для знака авторского права (© ), 0x84 для широкого подчеркивания (_) и 0xFF для многоточия (…). [36] Хотя ни один из этих дополнительных однобайтовых кодов не находится в пределах диапазона старших байтов простого EUC-KR (в отличие от расширений Apple для EUC-CN, см. Выше ), некоторые из них находятся в пределах диапазона старших байтов унифицированного кода хангыль (в частности, 0x81, 0x82, 0x83 и 0x84).

EUC-TW [ править ]

EUC-TW - это кодировка переменной ширины, которая поддерживает US-ASCII и 16 плоскостей CNS 11643 , каждая из которых имеет размер 94x94. Это редко используемая кодировка для традиционных китайских иероглифов, используемых на Тайване . Варианты Big5 гораздо чаще , чем EUC-TW, хотя Big5 только кодирует первые две плоскости ЦНС 11643 Hanzi , в то время как UTF-8 , становится все более распространенным.

  • В кодировке EUC / ISO 2022 управляющие символы C0 , пробел ASCII и DEL кодируются так же, как в ASCII.
  • Графический символ из US-ASCII (G0, кодовый набор 0) кодируется в GL как его обычное однобайтовое представление (0x21–0x7E).
  • Символ из плоскости 1 CNS 11643 (кодовый набор 1) кодируется как два байта в GR (0xA1–0xFE).
  • Символ в плоскости с 1 по 16 CNS 11643 (кодовый набор 2) кодируется четырьмя байтами:
    • Первый байт всегда 0x8E (одиночный сдвиг 2).
    • Второй байт (0xA1–0xB0) указывает плоскость, номер которой получается вычитанием 0xA0 из этого байта.
    • Третий и четвертый байты находятся в GR (0xA1–0xFE).

Обратите внимание, что плоскость 1 CNS 11643 кодируется дважды как кодовый набор 1 и часть кодового набора 2.

См. Также [ править ]

  • CJK
  • Японский язык и компьютеры
  • Корейский язык и компьютеры
  • Кодировка китайских символов

Примечания [ править ]

  1. ^ 7-битные версии кода ISO 2022, поддерживающие GB 2312, включают ISO-2022-CN (с кодами сдвига) и ISO-2022-JP-2 (без кодов сдвига), оба из которых также поддерживают другие наборы, отличные от ASCII.
  2. ^ Эти последовательности, как показано, преобразованы из их десятичных форм (10 65и10 66), перечисленных Лунде. [20] Лунде перечисляет шестнадцатеричные формы для обоих как0xA0 0x42, по-видимому, ошибочно.

Ссылки [ править ]

  1. ^ а б в г IBM . «Архитектура представления символьных данных (CDRA)» . С. 157–162.
  2. ^ a b c Лунде, Кен (2008). Обработка информации CJKV: компьютерные технологии Китая, Японии, Кореи и Вьетнама . О'Рейли. С. 242–244. ISBN 9780596800925.
  3. ^ «Наборы символов» . IANA.
  4. ^ «4.2. Имена и метки» . Стандарт кодирования . WHATWG.
  5. ^ a b c d «Сопоставление (внешняя версия) от китайской упрощенной кодировки Mac OS до Unicode 3.0 и более поздних версий» . Яблоко, Inc .
  6. ^ a b «Свойство Encoding.WindowsCodePage - .NET Framework (текущая версия)» . MSDN . Microsoft.
  7. ^ Лунде, Кен (1998). Приложение F: GB / T 12345 (PDF) . CJKV Обработка информации . O'Reilly Media . ISBN  9781565922242.
  8. ^ Управление по стандартизации Китая (SAC) (2005-11-18). GB 18030-2005: Информационные технологии - набор символов китайского кодирования .
  9. ^ a b «Исторические тенденции использования кодировок символов для веб-сайтов» . W3Techs.
  10. ^ "Информационный документ CCSID 954" . Архивировано из оригинала на 2016-03-27.
  11. ^ Международные компоненты для Unicode (ICU), ibm-954_P101-2007.ucm , 2002-12-03
  12. ^ a b c d «Таблицы сопоставления кодов JIS X 0213» . x0213.org.
  13. ^ «Неоднозначности при преобразовании японского EUC в Unicode (ненормативный)» . Японский профиль XML . W3C.
  14. ^ "Декодер EUC-JP" . Стандарт кодирования . WHATWG. «Если байт является байтом ASCII, вернуть кодовую точку, значение которой - байт».
  15. ^ «3.1.1 Детали проблем» . Проблемы и решения для Unicode и символов, определенных пользователем / поставщиком . Открытая группа в Японии. Архивировано из оригинала на 1999-02-03 . Проверено 14 августа 2019 .
  16. Каплан, Майкл С. (17 сентября 2005 г.). "Когда обратная косая черта не является обратной?" .
  17. ^ a b «4.2 Обзор правил преобразования кодового набора между eucJP-open и UCS» . Проблемы и решения для Unicode и символов, определенных пользователем / поставщиком . Открытая группа в Японии. Архивировано из оригинала на 1999-02-03 . Проверено 14 августа 2019 .
  18. ^ a b Лунде, Кен (13 января 2009 г.). «Приложение J: Наборы японских символов» (PDF) . CJKV Обработка информации (2-е изд.). ISBN  978-0-596-51447-1.
  19. ^ а б Чанг, Хешик. «Readme для CJKCodecs» . cPython . Фонд программного обеспечения Python.
  20. ^ a b c d e f g h i Лунде, Кен (13 января 2009 г.). «Приложение F: методы кодирования поставщика» (PDF) . CJKV Обработка информации (2-е изд.). ISBN  978-0-596-51447-1.
  21. ^ Б с д е е г ч я J Лунде, Кен (2009). «Приложение E: Стандарты набора символов поставщика» (PDF) . Обработка информации CJKV: китайские, японские, корейские и вьетнамские вычисления (2-е изд.). Севастополь, Калифорния : О'Рейли . ISBN  978-0-596-51447-1.
  22. ^ "KS X 1001: 1992" (PDF) .
  23. ^ "KS C 5601: 1987" (PDF) . 1988-10-01.
  24. ^ "CCSID 970" . IBM Globalization . IBM. Архивировано из оригинала на 2014-12-01.
  25. ^ "ibm-970_P110_P110-2006_U2 (псевдоним euc-kr)" . Converter Explorer - Демонстрация ICU . Международные компоненты для Unicode.
  26. ^ Международные компоненты для Unicode (ICU), ibm-970_P110_P110-2006_U2.ucm , 2002-12-03
  27. ^ «Идентификаторы кодовой страницы» . Центр разработки для Windows . Microsoft.
  28. ^ Лунде, Кен (2009). «Глава 3: Стандарты набора символов» . CJKV Обработка информации . п. 146. ISBN. 978-0596514471.
  29. ^ «Распределение кодировок символов среди веб-сайтов, использующих .kr» . w3techs.com . Проверено 11 февраля 2021 .
  30. ^ «Распределение кодировок символов среди веб-сайтов, использующих корейский язык» . w3techs.com . Проверено 3 июля 2020 .
  31. ^ "한글 코드 에 대하여" (на корейском языке). W3C. Архивировано из оригинала на 2013-05-24 . Проверено 7 января 2019 .
  32. ^ В ucnv_lmb.cpp , файле, исходящем от IBM и включенном вдерево исходных текстов International Components for Unicode , главный байт 0x11 комментируется как относящийся к "Korean: ibm-1261" после определенияULMBCS_GRP_KOи сопоставляется с"windows-949"кодеком ICU вOptGroupByteToCPNameмассиве позже в файле.
  33. ^ «Кодированные идентификаторы набора символов - CCSID 1363» , IBM Globalization , IBM, заархивировано из оригинала 29 ноября 2014 г.
  34. ^ «5. Индексы (§ индекс EUC-KR)» , Стандарт кодирования , WHATWG
  35. ^ Гил, Ходжин. «HangulTalk: де-факто стандартная среда Hangul для Mac» . Руководство по использованию хангыля на Macintosh .
  36. ^ а б Apple (2005-04-05). «Карта (внешняя версия) из корейской кодировки Mac OS в Unicode 3.2 и новее» . Консорциум Unicode .

Внешние ссылки [ править ]

  • Таблица кодов EUC-JP (без ASCII и половинной ширины)
  • Идентификаторы кодовой страницы
  • GB18030-2000 - Новый китайский национальный стандарт
  • Новое поколение программного обеспечения допечатной подготовки в Китае  - упоминает код 748
  • Описание кода EUC-TW (на китайском языке)
  • Страница руководства EUC-JISX0213 в модуле Perl Encode
  • Международный регистр наборов кодированных символов для использования с escape-последовательностью  - раздел 2.4 (стр. 14f.) С наборами кодированных символов Китая, Японии, Южной Кореи, Северной Кореи и Тайваня (ISO / IEC)
  • Стандарты набора символов китайского, японского и корейского языков и системы кодирования