Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

CNS 11643 набор символов (китайский национальный стандарт 11643), официально известный как китайский Standard Interchange Кодекс или CSIC [1] ( китайский язык :中文標準交換碼), официально стандартный набор символов из Китайской Республики . На практике варианты соответствующего набора символов Big5 являются стандартными де-факто .

CNS 11643 разработан в соответствии с ISO 2022 . Он содержит 16 плоскостей, поэтому максимально возможное количество кодируемых символов составляет 16 × 94 × 94 = 141376. Плоскости с 1 по 7 определены стандартом; с 2007 года стандартом также определены самолеты с 10 по 15. [2] : 115–122 До этого плоскости с 12 по 15 (35344 кодовых точки) были специально предназначены для определяемых пользователем символов. [ необходима цитата ] В отличие от CCCII , кодирование вариантных символов в CNS 11643 не связано.

EUC-TW - это закодированное представление CNS 11643 и ASCII в форме расширенного кода Unix (EUC). Другие кодировки, способные представлять определенные плоскости CSIC, включают ISO-2022-CN (плоскости 1 и 2) и ISO-2022-CN-EXT (плоскости с 1 по 7).

История [ править ]

Первое издание стандарта было опубликовано в 1986 году и включало плоскости 1 и 2, происходящие от уровней 1 и 2 Big5 , с некоторым изменением порядка из-за исправленного количества штрихов, исключения двух повторяющихся символов и добавления 213 классических символов. радикалы . Расширения стандарта были впоследствии опубликованы в 1988 г. (6319 знаков на плоскости 14) и 1990 г. (7169 знаков на плоскости 15). [2] : 115–122

Unicode 1.0.0, хотя он еще не включал hanzi , включал символы для совместимости с CNS 11643: блок форм совместимости CJK был озаглавлен «Совместимость с CNS 11643» в Unicode 1.0.0. [3] Когда набор унифицированных иероглифов Unicode CJK компилировался для Unicode 1.0.1, национальные органы представили наборы символов Объединенной исследовательской группе CJK для включения. Представленная версия CNS 11643 включала расширение плоскости 14 в дополнение к дополнительным желаемым символам, добавленным к плоскости 14 (после 68-21, последняя использованная кодовая точка в стандартной версии расширения). [2] : 179–180

Во втором издании стандарта, опубликованном в 1992 году, гораздо больший набор ханзи был определен в семи плоскостях. Подмножество расширения плоскости 14 1988 года, включая 6148 кодовых точек с 01-01 по 66-38, стало плоскостью 3 (с оставшимися 171 символом, кодовые точки с 66-39 по 68-21, вместо этого распределенными по плоскости 4). Расширение самолета 15 не было включено, хотя 338 его персонажей были включены в число самолетов с 4 по 7. [2] : 115–122

Третье издание стандарта, опубликованное в 2007 году, добавило знак евро , идеографический ноль, кана и расширения к существующей поддержке бопомофо и латинского алфавита для плоскости 1. В нем были введены плоскости с 10 по 14, содержащие дополнительные ханзи, и была включена существующая плоскость. 15 в сам стандарт (с оставленными пробелами там, где символы уже существовали в плоскостях с 4 по 7). Он также добавил еще 128 ханзи к плоскости 3, начиная с кодовой точки 68-40. [2] : 115–122

По состоянию на 2017 год имеется несколько тысяч символов CNS 11643 без соответствующего символа Unicode, в основном в самолетах с 10 по 14; они сопоставлены с областью дополнительного частного использования Unicode . [4]

Отношение к Big5 [ править ]

Уровни 1 и 2 кодирования Big5 в основном соответствуют плоскостям 1 и 2 CNS 11643, соответственно, со случайными различиями в порядке и с удалением двух повторяющихся ханзи. Их можно сопоставить с помощью списка диапазонов. [5] [6] В репертуаре ханзи Big5 только один символ отображается в Unicode, а не соответствующий символ из первых двух плоскостей CNS 11643: в U + 5F5D (彝), тогда как его аналог в плоскости CNS 1 отображается в родственный вариант в U + 5F5E (彞). [7]

Вариант Big5-2003 для Big5 определяется как частичное кодирование CNS 11643.

Ссылки [ править ]

  • Эта страница основана на информации с официального веб-сайта CNS .
  1. ^ ECMA (1993-01-21). Китайский стандартный код обмена (CSIC) - набор 1 (PDF) . ITSCJ / IPSJ . ISO-IR -171.
  2. ^ а б в г д Лунде, Кен (2008). «3. Стандарты набора символов». CJKV Обработка информации (2-е изд.). O'Reilly Media . ISBN 9780596514471.
  3. ^ «3.8: Блок-за-блок-схемы» (PDF) . Стандарт Юникода . версия 1.0. Консорциум Unicode .
  4. ^ "CNS 11643 в зоне дополнительного частного использования Unicode" . [китайский Mac] . Совет по восточноазиатским исследованиям Йельского университета.
  5. ^ Лунде, Кен (1995-12-18). «4.3: Проблемы совместимости набора символов CJK - китайский (Тайвань)». CJK.INF Версия 1.9 .
  6. ^ Чжу, HF .; Hu, DY .; Wang, ZG .; Kao, TC .; Чанг, WCH .; Криспин, М. (1996). «RFC 1922: Кодировка китайских символов для Интернет-сообщений» . Запросы на комментарии . IETF .
  7. ^ Лунде, Кен (2018-02-15). «Изучение IICore - Часть 4» . Блог типа CJK . Adobe Inc .

Внешние ссылки [ править ]

  • Официальный сайт CNS 11643
  • Текущие открытые данные CNS 11643 , включая картографические данные
  • Сопоставления Unicode для других версий / выпусков / расширений CNS 11643:
    • Отображения консорциума Unicode для CNS 11643-1986 : плоскости 1 и 2, а также плоскость 14 1988 года с расширениями. Для обозначения плоскости используется одна шестнадцатеричная цифра с префиксом.
    • CNS-11643-1992 в международных компонентах Unicode (ICU); использует префикс от 0x81 до 0x8F для обозначения плоскости:
      • Старая версия : плоскости с 1 по 7 плюс продолжение плоскости 15 как плоскость 9.
      • Промежуточная версия : плоскости с 1 по 7, для внутреннего использования кодеком ISO-2022-CN-EXT.
      • Текущая версия : включает только плоскости 1 и 2 для внутреннего использования кодеком ISO-2022-CN.
    • EUC-TW-2014 в отделении интенсивной терапии : стандартные задания для самолетов с 1 по 7 и 15, а также корпоративные задания IBM в самолетах 12 и 13
  • ISO-IR зарегистрированные таблицы кодов CNS-11643:
    • ISO-IR-171 (самолет 1)
    • ISO-IR-172 (самолет 2)
    • ISO-IR-183 (самолет 3)
    • ISO-IR-184 (самолет 4)
    • ISO-IR-185 (самолет 5)
    • ISO-IR-186 (самолет 6)
    • ISO-IR-187 (самолет 7)