Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Код китайских иероглифов для обмена информацией ( китайский :中文 資訊 交換 碼) или CCCII - это набор символов, разработанный Группой анализа китайских иероглифов на Тайване . Впервые он был опубликован в 1980 году и значительно расширился в 1982 и 1987 годах [1].

Используется в основном библиотечными системами . [2] [3] Это одна из первых установленных и наиболее сложных кодировок для традиционного китайского языка (до создания Big5 в 1984 году и CNS 11643 в 1986 году). [2] Он отличается уникальной системой кодирования упрощенных версий и других вариантов основного набора символов ханзи . [1]

Вариант более ранней версии CCCII используется Библиотекой Конгресса как часть MARC-8 под названием Код символов Восточной Азии ( EACC , ANSI / NISO Z39.64) [4], где он является частью MARC 21 «S JACKPHY поддержки. Однако EACC содержит меньше символов, чем самые последние версии CCCII. [5] [1]

Дизайн [ править ]

Девять символов из реализаций CCCII или EACC, которые закодированы как варианты劍( обоюдоострый меч ). Девятая из них, 釖, обычно является вариантом刀. [6]

Байтовые диапазоны [ править ]

CCCII разработан как набор 94 n , как определено в ISO / IEC 2022 . [1] Каждый китайский символ представлен 3-байтовым кодом, в котором каждый байт является 7-битным, от 0x 21 до 0x7E включительно. Таким образом, максимальное количество китайских символов, представляемых в CCCII, составляет 94 × 94 × 94 = 830584. На практике количество символов, кодируемых CCCII, будет меньше этого числа, потому что вариантные символы кодируются в связанных плоскостях ISO 2022 в CCCII, поэтому большая часть кодовых точек должна быть зарезервирована для вариантов.

Однако на практике иногда используются байты за пределами этих диапазонов. Код 0x212320 используется некоторыми реализациями как идеографическое пространство . [7] Спецификация CCCII, используемая библиотеками в Гонконге, использует коды, начинающиеся с 0x2120, для знаков препинания и символов. [8] Первый байт 0x7F используется некоторыми вариантами для кодирования кодов для некоторых иначе недоступных Unified Repertoire and Ordering или CJK Unified Ideographs Extension A hanzi (например, 0x7F3449 для U + 3449 или 0x7F796E для U + 796E; [8] обратите внимание, как байты продолжения соответствуют коду UCS-2BE ), и он может включать байты вне диапазона 0x21–0x7E или даже 0x20–0x7F, например 0x7F551C для U + 551C, [9]0x7F5AA4 для U + 5AA4 [9] или 0x7F8EDA для U + 8EDA. [8]

Взаимодействие с ISO 2022 [ править ]

CCCII / EACC не зарегистрирован в Международном регистре кодированных наборов символов , которые будут использоваться с управляющими последовательностями , [10] и , как таковые, не имеет стандартный побег обозначения для использования с ISO 2022. МАРКА-8 правопреемников EACC частнотоварного использования F -byte 0x31 ( 1) в его реализации ANSI X3.41 (ISO 2022). [11]

Слои и варианты символов [ править ]

Плоскости 94 ISO 2022 сгруппированы в 16 слоев по 6 плоскостей в каждом (за исключением слоя 16, который содержит четыре плоскости 91–94). [1] Слой 1 содержит персонажей не-ханзи и ханзи , причем не-ханзи и наиболее часто используемый ханзи помещены в плоскость 1, а остальные пять плоскостей состоят из менее распространенных ханзи. [1] Слой 2 содержит символы упрощенного китайского языка , номера строк и ячеек которых совпадают с их эквивалентами в традиционном китайском языке в слое 1. Слои с 3 по 12 содержат дополнительные варианты форм с номерами строк и ячеек, гомологичными первым двум уровням. [12]

Последние четыре слоя используются для других целей. В частности, уровень 13 содержит дополнительные символы для поддержки японского языка ( кана и японский кокудзи ), а уровень 14 содержит дополнительные символы для поддержки корейского языка ( хангыль ). [12] Слой 15 не используется (зарезервирован), а уровень 16 используется для других символов. [1]

Этот отличительный дизайн подвергся критике со стороны Кристиана Виттерна из Международного исследовательского института дзен-буддизма в университете Ханадзоно , который утверждает, что взаимосвязь вариантов символов «очень сложна и не может быть выражена в фиксированной, одномерной, жестко привязанной кодовой таблице. ". [3] Кен Лунде описывает его как «один из самых хорошо продуманных стандартов набора символов из Тайваня», описывая его структуру как «вызывающую искреннее восхищение», но заключает, что замена вариантов формы OpenType может обеспечить такой же уровень функциональности. [1]

CCCII определяет примерно 53940 кодовых точек в своей редакции 1987 года, хотя более поздний проект 1989 года расширяет это до 75684 кодовых точек (включая 44167 уникальных символов и 31517 вариантов). EACC, вариант, используемый Библиотекой Конгресса, включает только меньший набор из 15686 символов. [1]

Принятие [ править ]

С 1995 года CCCII или EACC использовались в основном в библиотеках США , Гонконга и Тайваня . Хотя CCCII обещал охват пан- CJK , его поддержка ограничивалась специализированным оборудованием; сложность определения того, когда следует использовать корневой или вариантный символ, усугубленная отсутствием прочно установленных ссылочных глифов, еще больше ограничила его принятие, в результате чего Big5 стал более широко использоваться для китайского языка на этих территориях за пределами использования библиотеки (поскольку Unicode еще не стал широко распространенное в то время). [3]

По состоянию на 2009 год EACC все еще широко используется в специализированных библиографических целях. [1] Это также был важный предшественник Unicode. [1] Символы Unicode hanzi связаны с соответствующими кодами CCCII и EACC в базе данных Unihan , в ключах kCCCIIи kEACC. [4] Таблицы сопоставления ханзи, хангыль , кана и знаков препинания между EACC и Unicode доступны в Библиотеке Конгресса. [13]

Таблицы пунктуации, символов, кана и джамо [ править ]

Ниже приведены таблицы для знаков препинания, символов, каны и хангыль- джамо , в которых показаны символы и даны возможные сопоставления Unicode. По возможности, они сравниваются с опубликованными картографическими данными.

Отображения в Юникоде для слогов хангыля опущены для краткости, но их также можно получить из Библиотеки Конгресса. [14] Число CCCII hanzi в десятках тысяч [1] [3] и не показано ниже (кроме случаев, когда они также включены в диапазон non-hanzi в виде радикалов или цифр), но сопоставления с Unicode доступны из База данных Unihan [4] и из других источников. [9] [8]

Набор символов 0x2120 (плоскость 1, строка 0: гонконгская пунктуация) [ править ]

Хотя CCCII обычно представляет собой набор 94 n , [1] и поэтому обычно не использует коды, начинающиеся с 0x2120, [9] следующая компоновка используется в варианте, используемом библиотеками в Гонконге: [8]

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x2121 (плоскость 1, строка 1: зарезервировано для элементов управления) [ править ]

Никакие символы не назначаются в плоскости 1, строке 1, которая зарезервирована для управляющих кодов . [1]

Набор символов 0x2122 (плоскость 1, строка 2: математические операторы) [ править ]

Эта строка содержит математические операторы. EACC оставляет эту строку пустой. [13] В следующей таблице приведены ссылки на источники из Тайваня. [2] [9]

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Приведенная ниже таблица сопоставляется с данными CCCII, предоставленными Гонконгской инновационной группой пользователей, группой библиотек в Гонконге и размещенной в Гонконгском университете . [16] [8] В этой строке используется совершенно другой макет:

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x2123 (плоскость 1, строка 3: римские символы и знаки препинания) [ править ]

Эта строка включает знаки препинания, западные арабские цифры и латинские буквы. [9] Сравните строку 3 кода Wansung и GB 2312 .

Различные варианты по-разному кодируют идеографическое пространство (U + 3000) по адресу 0x212320 (что подтверждается спецификацией MARC), [7] [8] 0x212321 (который указан в стандарте ANSI, а также признан MARC), [7] [ 8] или 0x21635F. [9] EACC включает в этот набор только дефис-минус , круглые скобки и идеографическое пространство. [7]

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный  Включен в EACC.

Набор символов 0x212A (плоскость 1, строка 10: внутренние символы IME и метка geta) [ править ]

В EACC эта строка включает несколько символов, отображаемых в области частного использования, которые используются внутри для представления компонентов символов с помощью метода ввода RLIN [17], который используется Библиотекой Конгресса для нелатинской каталогизации. [18] Эти составляющие символы должны использоваться IME только внутри, и, если они встречаются где-то еще, могут быть заменены меткой geta (U + 3013), [17] которую эта строка также включает в 0x212A46. Эта строка не назначена в CCCII, [1], но метка geta также указана в этом месте в некоторых сопоставлениях для CCCII. [9]

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x212B (плоскость 1, строка 11: пунктуация) [ править ]

Эта строка содержит различные знаки препинания, используемые в китайском языке, [1] [7] в дополнение к другим символам. CCCII включает в себя набор из 35 знаков препинания в этой строке. [1] EACC включает только 13 символов в этой строке (показано ниже в рамке). [7]

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный  Включен в EACC.

Наборы символов 0x212C – 0x212E (плоскость 1, строки 12–14: радикалы и порядковые номера) [ править ]

Эти строки содержат китайские радикалы , [1] римские цифры , [9] небесные стволы и земные ветви . [15]

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x212F (плоскость 1, строка 15: китайские цифры и бопомофо) [ править ]

Этот ряд включает китайские цифры и символы бопомофо . [1] EACC включает только идеографический ноль (〇). [7]

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный  Включен в EACC.

Набор символов 0x272B (плоскость 7, строка 11: контрольная метка) [ править ]

Эта строка содержит контрольную отметку ( комэ дзируши ). [9]

Набор символов 0x272E – 0x272F (плоскость 7, строки 14–15: альтернативный бопомофо) [ править ]

Вариант, используемый библиотеками в Гонконге, не включает символы бопомофо в плоскости 1, ряд 15, но включает их в другую компоновку в плоскости 7. [8]

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x6921 (плоскость 73, строка 1: японская пунктуация) [ править ]

Этот ряд находится в плоскости 73, первой плоскости слоя 13, который содержит символы, включенные для поддержки японского языка . [12] Он содержит знаки препинания. [7] Сравните строку 1 JIS X 0208 , которая, как правило, соответствует расположению символов в этой строке.

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x6924 (плоскость 73, строка 4: хирагана) [ править ]

Этот ряд содержит хирагану . Сравните строку 4 JIS X 0208 .

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x6925 (плоскость 73, строка 5: катакана) [ править ]

Этот ряд содержит катакану . Сравните строку 5 JIS X 0208 , которой соответствует эта строка, помимо добавления отдельных дакутэн и хандакутэн .

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x6F24–0x6F25 (плоскость 79, строки 4–5: джамо) [ править ]

Эти строки содержат корейское джамо .

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x6F76 (плоскость 79, строка 86: архаический хангыль) [ править ]

Этот ряд содержит несколько исторических иероглифов хангыля, которые больше не используются регулярно. Некоторые из них привязаны к Зоне частного использования . [17]

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x7B25 (плоскость 91, строка 5: дополнительная катакана) [ править ]

Эта строка содержит дополнительную катакану, используемую для записи иностранных фонем. [9]

Сноски [ править ]

  1. ^ Вне диапазона байтов следа набора ISO 2022 94 n , но отмечен как используемый некоторыми реализациями. [7]
  2. ^ Кодирование идеографического пространства, указанного в стандарте ANSI для EACC. [7] Он используется как восклицательный знак в CCCII, [9] в дополнение к восклицательному знаку в 0x212B3D. [15] Гонконгский вариант CCCII HKIUG следует здесь за EACC. [8]
  3. ^ В сопоставлениях Encode :: HanExtra для этого символа используется U + FE52. [9] Однако он появляется здесь после, ˇ и ˋ, [15], которые другие три тона обозначают бопомофо . Отображение U + 02D9 чаще используется для этой тональной метки в диапазонах кодировок bopomofo, например Big5 . [19]

Ссылки [ править ]

  1. ^ a b c d e f g h i j k l m n o p q r s Лунде, Кен (2009). Обработка информации CJKV: вычисления на китайском, японском, корейском и вьетнамском языках (2-е изд.). Севастополь, Калифорния : О'Рейли . С. 122–124. ISBN 978-0-596-51447-1.
  2. ^ a b c Тан, Одри (2007-11-10). «Encode :: HanExtra - Дополнительные наборы китайских кодировок» . CCCII: Самая ранняя (и самая сложная) кодировка традиционного китайского языка ... используемая в основном в библиотечных системах .... Карта для "CCCII" предоставлена тайваньским проектом Koha .
  3. ^ a b c d Виттерн, Кристиан (1995-05-01). «Коды китайских иероглифов: обновление» . Международный научно-исследовательский институт дзен-буддизма / Университет Ханадзоно . Архивировано из оригинала на 2004-10-12.
  4. ^ a b c Дженкинс, Джон Х .; Кук, Ричард; Лунде, Кен (2020-03-05). «База данных Unicode Han (Unihan)» . Приложение № 38 к стандарту Unicode.
  5. ^ "Архивная копия" . Архивировано из оригинала на 2016-06-15 . Проверено 15 июня 2016 .CS1 maint: archived copy as title (link)
  6. ^ Словарь Kangxi , стр. 1296, char. 1
  7. ^ Б с д е е г ч я J Библиотека Конгресса (2007-12-05). «Кодовая таблица восточноазиатских знаков препинания» . Спецификации MARC 21 для структуры записи, наборов символов и средств обмена .
  8. ^ a b c d e f g h i j k l m n o p q Целевая группа по Unicode Гонконгской инновационной группы пользователей. «Таблица кодов HKIUG для символов CJK: отображение в Unicode» . Библиотеки Гонконгского университета .
  9. ^ Б с д е е г ч я J к л м п о р д т ы т у V ш Тан, Одри; Коха Тайвань. «Карта для CCCII» . Кодировать :: HanExtra . CPAN .
  10. ^ «2.4: Многобайтовые наборы графических символов». Международный регистр наборов кодированных символов для использования с escape-последовательностями (ISO-IR) (PDF) . ITSCJ / IPSJ . п. 14.
  11. ^ Библиотека Конгресса (2007-12-05). «Метод 2: Использование стандартных наборов альтернативных графических символов» . Спецификации MARC 21 для структуры записи, наборов символов и средств обмена .
  12. ^ a b c Лунде, Кен (1995-12-18). «2.5.2: CCCII». CJK.INF Версия 1.9 .
  13. ^ Б с д е е г ч я J K L Библиотека Конгресса (2007-12-05). «Таблицы кодов стран Восточной Азии» . Спецификации MARC 21 для структуры записи, наборов символов и средств обмена .
  14. ^ Библиотека Конгресса (2007-12-05). «Кодовая таблица корейского хангыля» . Спецификации MARC 21 для структуры записи, наборов символов и средств обмена .
  15. ^ a b c d e f g h i j Показанные символы частично связаны с типичным шрифтом BDF для CCCII, распространяемым Коичи Ясуока из Киотского университета.
  16. ^ Гонконгская группа инновационных пользователей (2013-01-07). «Введение в Гонконгскую инновационную группу пользователей» . Библиотеки Гонконгского университета .
  17. ^ a b c Библиотека Конгресса (2004-09-02). «Сводный список символов MARC 21, назначенных для зоны частного использования (PUA)» . Спецификации MARC 21 для структуры записи, наборов символов и средств обмена .
  18. ^ Моррис, Сьюзен (2007). «В поисках ДЖЕКФИ: онлайн-каталогизация, включающая арабский, иврит и другие алфавиты» . Информационный бюллетень Библиотеки Конгресса . 66 (12).
  19. ^ ван Кестерен, Энн. "big5" . Стандарт кодирования . WHATWG .
  • Некоторая информация на этой странице основана на информации с официального сайта CNS .

Внешние ссылки [ править ]

  • Официальный веб-сайт CNS 11643 (доступна английская версия страниц) содержит информацию о наборе символов CCCII в разделе «Китайский информационный код».
  • Полное отображение EACC в Unicode, из Библиотеки Конгресса.