В интернационализации , КИЕ символы это собирательный термин для китайцев , японцев и корейских языков, все из которых включают в себя китайские иероглифы и их производные в их системах письма, иногда в сочетании с другими сценариями. В совокупности символы CJK часто включают ханзи в китайском , кандзи , кана в японском , ханджа и хангыль в корейском . Изредка включается вьетнамский язык, поэтому сокращение CJKV, поскольку вьетнамцы исторически использовали и китайские иероглифы; подробнее о китайско-вьетнамских персонажах см. статью Chữ Nôm .
Репертуар персонажей
Стандартный мандаринский диалект китайского языка и стандартный кантонский диалект написаны почти исключительно китайскими иероглифами. Для общей грамотности требуется более 3000 знаков , а для достаточно полного охвата - до 40 000 знаков. В японском языке используется меньше символов - общая грамотность японского языка составляет 2136 символов. Использование китайских иероглифов в Корее становится все более редким, хотя идиосинкразическое использование китайских иероглифов в собственных именах требует знания (и, следовательно, наличия) гораздо большего числа символов. Однако даже сегодня студентов в Южной Корее учат 1800 иероглифам.
Другие скрипты, используемые для этих языков, такие как бопомофо и пиньинь на основе латыни для китайского, хирагана и катакана для японского и хангыль для корейского, не являются строго «символами CJK», хотя наборы символов CJK почти всегда включают их по мере необходимости для полной охват изучаемых языков.
До начала 20 века классический китайский язык был письменным языком правительства и ученых во Вьетнаме. Популярная литература на вьетнамском языке была написана письмом чо-ном , состоящим из заимствованных китайских иероглифов вместе со многими иероглифами, созданными на местном уровне. Начиная с 1920-х годов для записи литературы использовался латинский вьетнамский алфавит . [1] [2]
Китаевед Карл Лебан (1971) произвел раннее обследование систем кодирования CJK.
Кодирование
Количество символов, необходимое для полного покрытия потребностей всех этих языков, не может уместиться в 256-символьном кодовом пространстве 8-битных кодировок символов , требующих как минимум 16-битного кодирования с фиксированной шириной или многобайтовых кодировок с переменной длиной. 16-битные кодировки с фиксированной шириной, такие как от Unicode до версии 2.0 включительно, теперь не рекомендуются из-за требования кодировать больше символов, чем может вместить 16-битная кодировка - Unicode 5.0 содержит около 70 000 символов Han, а требование китайского правительства, чтобы программное обеспечение в Китае поддерживало набор символов GB 18030 .
Хотя кодировки CJK имеют общие наборы символов, часто используемые для их представления кодировки были разработаны отдельно правительствами разных стран Восточной Азии и компаниями-разработчиками программного обеспечения и несовместимы друг с другом. Unicode попытался, но с некоторыми противоречиями, унифицировать наборы символов в процессе, известном как объединение Хань .
Кодировки символов CJK должны состоять как минимум из символов хань плюс фонетические сценарии для конкретного языка, такие как пиньинь , бопомофо , хирагана, катакана и хангыль.
Кодировки символов CJK включают:
- Big5 (наиболее распространенная кодировка до внедрения Unicode)
- CCCII
- CNS 11643 (официальный стандарт Китайской Республики )
- EUC-JP
- EUC-KR
- GB2312 (подмножество и предшественник GB18030)
- GB18030 (обязательный стандарт в Китайской Народной Республике )
- Набор символов Giga (GCS)
- ISO 2022-JP
- KS C 5861
- Shift-JIS
- TRON
- Юникод
Наборы символов CJK занимают большую часть назначенного кодового пространства Unicode . Среди японских экспертов по китайским иероглифам существует много разногласий по поводу желательности и технических достоинств процесса унификации хань, используемого для сопоставления нескольких наборов китайских и японских символов в один набор унифицированных символов. [ необходима цитата ]
Все три языка могут быть написаны как слева направо, так и сверху вниз (справа налево и сверху вниз в древних документах), но обычно рассматриваются как сценарии с написанием слева направо при обсуждении вопросов кодирования.
Правовой статус
В начале 1980-х библиотеки сотрудничали в разработке стандартов кодирования для символов JACKPHY . По словам Кена Лунде , аббревиатура «Дальневосточные» был зарегистрирован товарный знак из исследовательских библиотек [3] (которая объединилась с OCLC в 2006 году). Срок действия товарного знака, принадлежавшего OCLC с 1987 по 2009 год, истек. [4]
Смотрите также
- Языки описания китайских иероглифов
- Кодировка китайских символов
- Китайские методы ввода для компьютеров
- Идеографы совместимости CJK
- CJK инсульты
- Единые иероглифы CJK
- Языки со сложной компоновкой текста (CTL)
- Редактор метода ввода
- Японский язык и компьютеры
- Корейский язык и компьютеры
- Список шрифтов CJK
- Синоксеник
- Кодирование переменной ширины
Рекомендации
- ^ Coulmas (1991) , стр. 113-115.
- ^ DeFrancis (1997) .
- ^ Кен Лунде, 1996
- ^ Список Justia
Эта статья основана на материалах, взятых из Free On-line Dictionary of Computing до 1 ноября 2008 г. и включенных в соответствии с условиями «перелицензирования» GFDL версии 1.3 или новее.
- ДеФрансис, Джон . Китайский язык: факты и фантазии . Гонолулу: Гавайский университет Press, 1990. ISBN 0-8248-1068-6 .
- Ханнас, Орфографическая дилемма Уильяма К. Асии . Гонолулу: Гавайский университет Press, 1997. ISBN 0-8248-1892-X (мягкая обложка); ISBN 0-8248-1842-3 (твердый переплет).
- Лемберг, Вернер: Пакет CJK для LATEX2ε - многоязычная поддержка за пределами babel. TUGboat, Том 18 (1997), № 3 - Материалы годового собрания 1997 года.
- Ливан, Карл. Автоматизированные орфографические системы для языков Восточной Азии (китайский, японский, корейский) , Отчет о состоянии дел, подготовленный для Совета директоров, Ассоциация азиатских исследований. 1971 г.
- Лунде, Кен . CJKV Обработка информации . Севастополь, Калифорния: O'Reilly & Associates, 1998. ISBN 1-56592-224-7 .
Внешние ссылки
- CJKV: краткое введение
- Lemberg CJK статья сверху, TUGboat18-3
- На «Объединенном идеографе CJK» с сайта Wenlin.com
- FGA: рационализация набора символов Unicode CJKV