Из Википедии, бесплатной энциклопедии
  (Перенаправлено из унифицированных идеографов CJK )
Перейти к навигации Перейти к поиску
Иероглиф CJKVна традиционном и упрощенном китайском, корейском, вьетнамском и японском языках

Китайские, японские и корейские ( CJK ) сценарии имеют общий фон, вместе известный как символы CJK . В процессе, называемом объединением Хань , общие (общие) персонажи были идентифицированы и названы объединенными идеограммами CJK . Начиная с Unicode 13.0, Unicode определяет в общей сложности 92 856 унифицированных иероглифов CJK. [1]

Термины « идеограммы» или « идеограммы» могут вводить в заблуждение, поскольку китайская письменность не является строго пиктографической или идеографической системой.

Исторически Вьетнам также использовал китайские иероглифы, поэтому иногда используется аббревиатура «CJKV». Эта система была заменена латинским вьетнамским алфавитом в 1920-х годах.

Блоки CJK Unified Ideographs [ править ]

Унифицированные иероглифы CJK [ править ]

Базовый блок под названием CJK Unified Ideographs (4E00–9FFF) содержит 20 989 основных китайских символов в диапазоне от U + 4E00 до U + 9FFC. Блок включает не только символы, используемые в китайской системе письма, но также иероглифы, используемые в японской системе письма, и ханджа , использование которых в Корее сокращается . Многие символы в этом блоке используются во всех трех системах письма , а другие - только в одной или двух из трех. Китайские иероглифы также используются во вьетнамском письме Nôm (ныне устаревшем). Первые 20 902 символа в блоке расположены в соответствии со словарём Kangxi.упорядочивание радикалов . В этой системе символы, написанные наименьшим количеством штрихов, указываются первыми. Остальные символы были добавлены позже, поэтому не в радикальном порядке.

Блок является результатом объединения Хань , [2] , который был несколько противоречивым в Восточной Азии. [3] Поскольку китайские, японские и корейские символы были закодированы в одном месте, внешний вид выбранного глифа может зависеть от конкретного используемого шрифта. Однако правило разделения источников гласит, что символы, закодированные отдельно в более раннем наборе символов, останутся отдельными в новой кодировке Unicode. [4]

Используя селекторы вариантов , можно указать определенные вариантные идеограммы CJK в Юникоде. Набор символов Adobe-Japan1 , который содержит 14 683 идеографических последовательностей вариантов [5], является ярким примером использования селекторов вариантов. [6]

Графики [ править ]

4E00-62FF , 6300-77FF , 7800-8CFF , 8D00-9FFF .

Источники [ править ]

Примечание. Большинство символов появляется в нескольких источниках, поэтому сумма количества отдельных символов (102 437) намного больше, чем количество закодированных символов (20 989). [7]

В Unicode 4.1 14 символов HKSCS-2004 и 8 ГБ 18030 символов были назначены между кодовыми точками U + 9FA6 и U + 9FBB. С тех пор в этот блок по разным причинам были добавлены и другие дополнения, все они описаны в разделе истории версий ниже.

Расширение A унифицированных иероглифов CJK [ править ]

Блок с именем CJK Unified Ideographs Extension A (3400–4DBF) содержит 6 592 дополнительных символа в диапазоне от U + 3400 до U + 4DBF.

Графики [ править ]

3400-4DBF .

Источники [ править ]

Примечание. Большинство символов встречается более чем в одном источнике, поэтому сумма количества отдельных символов (18 804) намного больше, чем количество закодированных символов (6 592). [7]

Расширение B унифицированных иероглифов CJK [ править ]

Блок с именем CJK Unified Ideographs Extension B (20000–2A6DF) содержит 42 718 символов в диапазоне от U + 20000 до U + 2A6DD. К ним относятся большинство символов, используемых в словаре Kangxi , которых нет в базовом блоке CJK Unified Ideographs, а также многие символы Nôm , которые ранее использовались для написания вьетнамского языка.

Графики [ править ]

20000-215FF , 21600-230FF , 23100-245FF , 24600-260FF , 26100-275FF , 27600-290FF , 29100-2A6DF .

Источники [ править ]

Примечание. Многие символы появляются более чем в одном источнике, поэтому сумма количества отдельных символов (74037) намного больше, чем количество закодированных символов (42 718). [7]

Расширение C унифицированных иероглифов CJK [ править ]

Блок с именем CJK Unified Ideographs Extension C (2A700–2B73F) содержит 4 149 символов в диапазоне от U + 2A700 до U + 2B734, которые были добавлены в Unicode 5.2 (2009).

Графики [ править ]

2А700-2Б73Ф .

Источники [ править ]

Примечание. Некоторые символы появляются более чем в одном источнике, в результате чего сумма количества отдельных символов (4548) больше, чем количество закодированных символов (4149). [7]

Расширение D унифицированных иероглифов CJK [ править ]

Блок с именем CJK Unified Ideographs Extension D (2B740–2B81F) содержит 222 символа в диапазоне от U + 2B740 до U + 2B81D, которые были добавлены в Unicode 6.0 (2010).

Графики [ править ]

2B740–2B81F .

Источники [ править ]

Примечание. Некоторые символы появляются более чем в одном источнике, поэтому сумма количества отдельных символов (227) больше, чем количество закодированных символов (222). [7]

Расширение Е унифицированных иероглифов CJK [ править ]

Блок с именем CJK Unified Ideographs Extension E (2B820–2CEAF) содержит 5762 символа в диапазоне от U + 2B820 до U + 2CEA1, которые были добавлены в Unicode 8.0 (2015).

Графики [ править ]

2B820–2CEAF .

Источники [ править ]

Примечание. Некоторые символы появляются более чем в одном источнике, в результате чего сумма количества отдельных символов (5 812) больше, чем количество закодированных символов (5 762). [7]

Расширение унифицированных иероглифов CJK F [ править ]

Блок с именем CJK Unified Ideographs Extension F (2CEB0–2EBEF) содержит 7 473 символа в диапазоне от U + 2CEB0 до 2EBE0, которые были добавлены в Unicode 10.0 (2017). Он включает более 1000 символов Sawndip для Zhuang .

Графики [ править ]

2CEB0–2EBEF .

Источники [ править ]

Примечание. Некоторые символы появляются более чем в одном источнике, в результате чего сумма количества отдельных символов (7 733) больше, чем количество закодированных символов (7 473). [7]

Расширение G унифицированных иероглифов CJK [ править ]

Блок с именем CJK Unified Ideographs Extension G был добавлен как часть Unicode 13.0 в третичную идеографическую плоскость в диапазоне от U + 30000 до U + 3134F, содержащий 4939 символов. [9]

Графики [ править ]

30000–3134F .

Источники [ править ]

Примечание. Некоторые символы появляются более чем в одном источнике, в результате чего сумма количества отдельных символов (4 997) больше, чем количество закодированных символов (4 939). [7]

Идеографы совместимости CJK [ править ]

Блок под названием CJK Compatibility Ideographs (F900 – FAFF) был создан для сохранения двусторонней совместимости с другими стандартами. Только двенадцать его персонажей обладают свойством «Единая идеограмма»: U + FA0E, FA0F, FA11, FA13, FA14, FA1F, FA21, FA23, FA24, FA27, FA28 и FA29. [1] Ни один из других символов в этом и других блоках «Совместимости» не имеет отношения к CJK Unification.

Графики [ править ]

F900 – FAFF .

Источники [ править ]

Примечание. Некоторые символы появляются более чем в одном источнике, поэтому сумма количества отдельных символов (22) больше, чем количество закодированных символов Unified (12). [7]

Источники UTC
[ править ]

Группа идеографических исследований (IRG) несет формальную ответственность за разработку расширений зашифрованного репертуара унифицированных идеографов CJK. Консорциум Unicode участвует в этой группе как представитель ISO. Символы, представленные Техническим комитетом Unicode, имеют префикс «UTC». Все унифицированные иероглифы CJK в ISO / IEC10646 должны иметь хотя бы один идентификатор источника. Однако изменения в информации об источнике IRG могут оставить данную идеограмму без каких-либо таких источников. В таких случаях идеограмма включается в базу данных U-источника, чтобы гарантировать наличие хотя бы одного источника. Такие идеограммы обозначаются префиксом источника «UCI» вместо «UTC». [10]

Источники UTC состоят из следующего:

  • Китайско-английский словарь ABC от Джона ДеФрансиса
  • Коллекция глифов Adobe-CNS1
  • Коллекция глифов Adobe-Japan1
  • Полный список видов и подвидов китайских птиц (中国 鸟类 系统 检索)
  • Словарь Великого Нома (Đại Tự Điển Ch Nôm)
  • Аннотации к Shuowen Jiezi (аннотировано Дуань Юцай )
  • ГБ18030-2000
  • Обязательный список персонажей, предоставленный Церковью Иисуса Христа Святых последних дней (Гонконг)
  • Новый коммерческий словарь (中务 新 词典), Гонконг
  • Отчеты о дефектах, поданные против стандарта Unicode, или иное прямое обращение в редакционный комитет Unicode
  • Документы Технического комитета Unicode (UTC)
  • Словарь современного китайского языка (现代 汉语,), Китайская академия социальных наук , Институт лингвистических исследований, редакция словаря
  • Документы Рабочей группы (WG2)
  • Венлинь (文林) http://www.wenlin.com/

Известные проблемы [ править ]

Разъединение [ править ]

U + 4039 [ править ]

Символ U + 4039 (䀹) был объединением двух разных символов (один с jiā 夾 фонетическим, а другой с shǎn 㚒 фонетическим) до Unicode 5.0. Однако это были лексически разные символы, которые не следовало объединять; у них разное произношение и разное значение.

Предложение о разъединении U + 4039 [11] было принято, и новый символ закодирован в U + 9FC3 (鿃) в Unicode 5.1. [ требуется разъяснение ]

Остальные 3 символа в Расширении B [ править ]

В расширении B унифицированных иероглифов CJK некоторые символы неправильно объединены с другими. Эти символы включают U + 2017B (𠅻), U + 204AF (𠒯) ​​и U + 24CB2 (𤲲). Первые два символа содержат неправильное объединение материкового Китая и вьетнамского источника их символа, в то время как последний объединяет материковый Китай и Тайвань. [12]

Универсальные варианты и точные дубликаты в Расширении B [ править ]

Также в CJK Unified Ideographs Extension B были закодированы сотни вариантов глифов. [13] В дополнение к преднамеренному кодированию близких вариантов глифов, шесть точных дубликатов (где один и тот же символ был случайно закодирован дважды) и два полудупликата (где символ CJK-B представляет собой де-факто разъединение двух унифицированных форм глифов. в соответствующем символе BMP) были ошибочно закодированы: [14]

  • U + 34A8 㒨 = U + 20457 𠑗: U + 20457 - то же самое, что и глиф китайского источника для U + 34A8, но он значительно отличается от глифа тайваньского источника для U + 34A8
  • U + 3DB7 㶷 = U + 2420E 𤈎: одинаковые формы глифов
  • U + 8641 虁 = U + 27144 𧅄: U + 27144 - это то же самое, что и глиф корейского источника для U + 8641, но он значительно отличается от глифов материкового Китая, Тайваня и Японии для U + 8641.
  • U + 204F2 𠓲 = U + 23515 𣔕: те же формы глифов, но упорядочены под разными радикалами
  • U + 249BC 𤦼 = U + 249E9 𤧩: одинаковые формы глифов
  • U + 24BD2 𤯒 = U + 2A415 𪐕: те же формы глифов, но упорядоченные под разными радикалами
  • U + 26842 𦡂 = U + 26866 𦡦: одинаковые формы глифов
  • U + FA23 﨣 = U + 27EAF 𧺯: одинаковые формы глифов (U + FA23 﨣 - это единый идеограф CJK, несмотря на его название «CJK COMPATIBILITY IDEOGRAPH-FA23.»)

Другие идеограммы CJK в Unicode, а не в Unified [ править ]

Помимо восьми блоков «Унифицированных идеографов», в Unicode есть еще около дюжины блоков с неунифицированными CJK-символами. В основном это радикалы CJK, штрихи, знаки препинания, знаки, символы и совместимые символы. Хотя некоторые символы имеют свои (разлагаемые) аналоги в других блоках, их использование может быть другим.

Четыре блока символов совместимости включены для совместимости с устаревшими системами обработки текста и более старыми наборами символов:

  • Совместимость с CJK (3300–33FF)
  • Формы совместимости CJK (FE30 – FE4F)
  • Идеографы совместимости CJK (F900 – FAFF)
  • Приложение к иероглифам о совместимости с CJK (2F800–2FA1F)

Они включают формы символов для вертикального расположения текста и символы форматированного текста, которые Unicode рекомендует обрабатывать другими способами. Поэтому их использование не рекомендуется.

Обычно символы совместимости - это символы, которые не были бы закодированы, за исключением совместимости и возможности двустороннего преобразования с другими стандартами. Однако количество идеографов CJK в любом стандарте, отличном от Unicode, слишком велико, чтобы поместиться в блоки Unicode CJK Compatibility Ideographs. Вместо этого кодовые точки назначаются, когда затронутые символы одобрены Консорциумом Unicode, но еще не назначены какие-либо кодовые точки в блоках CJK Unified Ideographs.

Поддержка шрифтов [ править ]

Блоки CJK Unified Ideographs и CJK Unified Ideographs Extension A, являющиеся частями базовой многоязычной плоскости , поддерживаются большинством шрифтов CJK . Однако японские и корейские шрифты обычно содержат меньше символов (около 13 000 и 8 000 соответственно), чем китайские. Расширения B, C, D поддерживаются дополнительными шрифтами MingLiU-ExtB, MingLiU_HKSCS-ExtB, PMingLiU-ExtB, SimSun-ExtB, включенными в Microsoft Windows с Vista. [15]

История версий Unicode [ править ]

См. Также [ править ]

  • Хань Объединение
  • Список символов Юникода
  • Список шрифтов CJK
  • Группа идеографических исследований

Заметки [ править ]

  1. ^ a b «Unicode 13.0 UCD: PropList.txt» . 2019-11-27 . Проверено 15 марта 2020 .
  2. ^ Стандарт Unicode 4.0, Приложение A - История объединения Хань
  3. ^ Сюзанна Топпинг, " Тайная жизнь Юникода "
  4. ^ « Глава 11 - Восточноазиатские сценарии », Стандарт Unicode, 4.0 .
  5. ^ «База данных идеографических вариаций» . 2020-11-06 . Проверено 6 ноября 2020 .
  6. ^ PRI 108: Объединенная регистрация коллекции Adobe Japan1 и последовательностей в этой коллекции
  7. ^ a b c d e f g h i "Unihan_IRGSources.txt (из Unihan.zip)" . 2018-11-09 . Проверено 18 февраля 2020 .
  8. ^ a b c d e f g h i "UAX # 38: База данных Unicode Han (Unihan)" . Консорциум Unicode. 2020-03-05.
  9. ^ «Юникод 13.0.0» . 10 марта 2020 . Проверено 10 марта 2020 .
  10. ^ Дженкинс, Джон Х. (2020-02-13). "UAX # 45: Идеографы U-источника" . Консорциум Unicode.
  11. ^ Эндрю Уэст и Джон Дженкинс, предложение disunification от U + 4039
  12. ^ Eiso Chan (陈永聪), Комментарии к четырем символам ошибок на унифицированных иероглифах CJK, Ext B и E. [1]
  13. ^ унифицируемые варианты глифов
  14. ^ Кук, Ричард (6 октября 2003 г.). «Отчет о дефектах дубликатов закодированных форм CJK» (PDF) . ИСО / МЭК JTC1 / SC2 / WG2 . Проверено 28 марта 2012 .
  15. ^ Лунде, Кен (2009). CJKV Обработка информации . О'Рейли. С. 633–634. ISBN 978-0-596-51447-1.

Внешние ссылки [ править ]

  • Идеографы из Великобритании (документы IRG N2107R2 и IRG N2232R)