CCITT китайский Primary Set [2] является многобайтный графический набор символов для китайских связей , созданных для Консультативного комитета по международной телефонной и телеграфной (МККТТ) в 1992 году [3] Он определен в МСЭ T.101 , приложение C, который кодирует Data Syntax 2 Videotex . [2] Он зарегистрирован в реестре ISO-IR для использования с ISO / IEC 2022 как ISO-IR-165 , [4] и может кодироваться в версии кода ISO-2022-CN-EXT . [1]
MIME / IANA | iso-ir-165 |
---|---|
Псевдоним (а) | CN-GB-ISOIR165 ( Форма EUC ) [1] |
Язык (и) | Упрощенный китайский , английский , русский Частичная поддержка: греческий , японский |
Стандарт | ITU T.101 , приложение C |
Определения | ISO-IR 165 |
Расширяется | ГБ 2312 |
Форматы кодирования | ISO-2022-CN-EXT , Синтаксис данных Videotex 2 |
Преемник | ГБ 18030 |
Это расширенная модификация GB 2312-80 , соответствующая объединению стандартов GB континентального Китая GB 6345.1 -86 и GB 8565.2 -88, с некоторыми дальнейшими модификациями и расширениями. Подмножество расширений GB 6345.1 включено в GB 18030 , в то время как GB 8565.2 служит исходной ссылкой материкового Китая для некоторых унифицированных иероглифов CJK .
ГБ 6345.1
GB 6345.1-86 ( Набор матричных шрифтов 32 × 32 китайских иероглифов для обмена информацией ) включает исправление и расширение для GB 2312. Исправление изменяет следующие два символа: [3]
Строка-ячейка | EUC | Без поправок | ГБ 6341.1 | Заметки |
---|---|---|---|---|
03-71 | 0xA3E7 | ɡ | [а] | |
79-81 | 0xEFF1 | 鍾 | 锺 | [b] |
- ^ СоответствуетU + FF47 g в Юникоде; однако неизмененный ссылочный глиф также может соответствоватьU + 0261 ɡ . См. Ниже, как U + 0261 отображается в / из GB 6341.1, в отличие от того, как он отображается в / из ISO-IR-165.
- ^ Неизмененный ссылочный глиф - это традиционный китайский иероглиф, соответствующий U + 937E . Рассматриваемый символ обычно заменяется на钟( U + 949F , также упрощенное鐘) на упрощенном китайском языке, за исключением имен лиц; измененный глиф представляет собой альтернативную упрощенную форму, соответствующую U + 953A .
Развернутые реализации, включающие GB 2312, такие как кодовая страница Windows 936 , обычно следуют этим исправлениям при выборе своих сопоставлений Unicode. [5]
Расширение добавляет символы ISO 646-CN половинной ширины в строке 10 (в дополнение к существующим символам полной ширины в строке 3), расширяет набор из 26 символов пиньинь не-ASCII в строке 8 шестью дополнительными такими символами и добавляет полуширины этих 32 символов пиньинь в строке 11. [3] Эти расширения GB 6345.1 также включены в GB / T 12345 , традиционный китайский аналог GB 2312, в дополнение к 29 формам вертикального представления в строке 6. [3] ] [6]
Шесть дополнительных символов пиньинь из GB 6345.1 и формы вертикального представления из GB 12345, но не формы половинной ширины, включены в классическую кодировку Mac OS для упрощенного китайского языка (модификация EUC-CN ) [7], а также как двухбайтовые коды в GB 18030 . [8] Дополнительные символы пиньинь следующие: [7]
Строка-ячейка | EUC | Персонаж [7] [8] | Заметки |
---|---|---|---|
08-27 | 0xA8BB | U + 0251 ɑ | |
08-28 | 0xA8BC | U + 1E3F ḿ | [а] |
08-29 | 0xA8BD | U + 0144 ń | |
08-30 | 0xA8BE | U + 0148 ň | |
08-31 | 0xA8BF | U + 01F9 ǹ | [b] |
08-32 | 0xA8C0 | U + 0261 ɡ | [c] |
- ^ Сопоставлено с областью частного использованияU + E7C7 первой (2000 г.) редакцией GB 18030 ; это было исправлено изданием 2005 года. [8]
- ^ Этот составной символ был добавлен в Unicode 3.0. До этого этот символ был сопоставлен с его композиционной последовательностью (т. Е. U + 006E + 0300 ) от Apple. [7] Это изменение предшествует стабилизации форм нормализации Unicode , которая была введена в Unicode 3.1. [9]
- ^ Соответствует неизмененному ссылочному глифу для 03-71 (см. Выше). ISO-IR-165 здесь отличается (см. Ниже).
ГБ 8565.2
GB 8565.2-88 ( Обработка информации - Наборы кодированных символов для текстовой коммуникации - Часть 2: Графические символы ) определяет расширение для GB 2312, добавляя 705 символов между строками 13–15 и 90–94, из которых 69 (все в строке 15) не ханзи. Он включает исправления GB 2312 из GB 6345.1, но не его расширения. [3]
База данных Unihan ссылается на GB 8565.2 как на источник материкового Китая нескольких ханьцзы, включенных в Unicode . Сокращенное наименование источника Unihan - G8
. [2]
CCITT изменения
ISO-IR-165 включает расширения GB 2312 как из GB 6345.1-86, так и из GB 8565.2-88. [3] Кроме того, он добавляет еще 161 символ (включая 139 символов ханзи, обозначенных как «общие китайские символы и варианты»). [3] [4] Эти расширения CCITT hanzi иногда ошибочно принимались за стандартные символы GB 8565.2, в том числе в предыдущих версиях базы данных Unihan . [2] Всего набор содержит 8446 знаков.
Ряд шаблонных полуграфических символов включен в строку 6. [4] Это противоречит формам вертикального представления, включенным в другие расширения, такие как Mac OS Simplified Chinese [7] и GB 18030. [8]
Поправки GB 6345.1 к GB 2312 применяются только частично, в результате чего два отображения Unicode меняются местами по сравнению с другими кодировками, которые включают GB 2312 с расширениями GB 6345.1:
Строка-ячейка | EUC | GB 2312 (без поправок) | ГБ 6341.1 | Сопоставление GB 6341.1 [7] [8] | ISO-IR-165 [4] | Отображение ISO-IR-165 [10] |
---|---|---|---|---|---|---|
03-71 | 0xA3E7 | ɡ | U + FF47 | ɡ | U + 0261 | |
08-32 | 0xA8C0 | (отсутствующий) | ɡ | U + 0261 | U + FF47 | |
79-81 | 0xEFF1 | 鍾 | 锺 | U + 953A | 锺 | U + 953A |
Рекомендации
- ^ а б Чжу, ВЧ .; Hu, DY .; Wang, ZG .; Kao, TC .; Чанг, WCH .; Криспин, М. (1996). «Кодировка китайских символов для Интернет-сообщений» . Запросы на комментарии . IETF . DOI : 10.17487 / rfc1922 . RFC 1922.
- ^ а б в г Чунг, Джэмин (2018-01-24). «Персонажи псевдо-G8» (PDF) . ISO / IEC JTC 1 / SC 2 / WG 2 / IRG N2276.
- ^ Б с д е е г ч Лунде, Кен (2009). Обработка информации CJKV: вычисления на китайском, японском, корейском и вьетнамском языках (2-е изд.). Севастополь, Калифорния : О'Рейли . С. 94–111. ISBN 978-0-596-51447-1. CS1 maint: обескураженный параметр ( ссылка )
- ^ а б в г CCITT (13 июля 1992 г.). Коды китайского графического набора символов для связи (PDF) . ITSCJ / IPSJ . ISO-IR -165.
- ^ Стил, Шон (2000). «cp936 в таблицу Unicode» . Microsoft , Консорциум Unicode .
- ^ Лунде, Кен (1998). «Приложение F: GB / T 12345» (PDF) . CJKV Обработка информации . O'Reilly Media . ISBN 9781565922242.
- ^ а б в г д е «Преобразование (внешняя версия) из упрощенной китайской кодировки Mac OS в Unicode 3.0 и выше» . Яблоко, Inc .
- ^ а б в г д Администрация по стандартизации Китая (SAC) (18 ноября 2005 г.). GB 18030-2005: Информационные технологии - набор символов китайского кодирования .
- ^ «Политика стабильности кодировки символов Unicode» . Консорциум Unicode. 2017-06-23.
- ^ Вишванадха, Рагурам (30 августа 2000 г.). «Таблица Unicode в ISO-IR-165» . Международные компоненты для Unicode . IBM . (Примечание: коды перечислены в источнике в 7-битной форме: добавьте 0x80 к каждому байту для формы EUC или вычтите 0x20 для формы kuten)
Внешние ссылки
- ISO-IR-165: Код набора китайских графических символов для коммуникации (зарегистрирован в 1992 г., с поправками в 1994 г.)
- Отображения Unicode для ISO-IR-165