Китайские, японские и корейские ( CJK ) сценарии имеют общий фон, вместе известный как символы CJK . В процессе, называемом объединением Хань , общие (общие) персонажи были идентифицированы и названы объединенными идеограммами CJK . Начиная с Unicode 13.0, Unicode определяет в общей сложности 92 856 унифицированных иероглифов CJK. [1]
Термины « идеограммы» или « идеограммы» могут вводить в заблуждение, поскольку китайская письменность не является строго пиктографической или идеографической системой.
Исторически Вьетнам также использовал китайские иероглифы, поэтому иногда используется аббревиатура «CJKV». Эта система была заменена латинским вьетнамским алфавитом в 1920-х годах.
Блоки CJK Unified Ideographs [ править ]
Унифицированные иероглифы CJK [ править ]
Базовый блок под названием CJK Unified Ideographs (4E00–9FFF) содержит 20 989 основных китайских символов в диапазоне от U + 4E00 до U + 9FFC. Блок включает не только символы, используемые в китайской системе письма, но также иероглифы, используемые в японской системе письма, и ханджа , использование которых в Корее сокращается . Многие символы в этом блоке используются во всех трех системах письма , а другие - только в одной или двух из трех. Китайские иероглифы также используются во вьетнамском письме Nôm (ныне устаревшем). Первые 20 902 символа в блоке расположены в соответствии со словарём Kangxi.упорядочивание радикалов . В этой системе символы, написанные наименьшим количеством штрихов, указываются первыми. Остальные символы были добавлены позже, поэтому не в радикальном порядке.
Блок является результатом объединения Хань , [2] , который был несколько противоречивым в Восточной Азии. [3] Поскольку китайские, японские и корейские символы были закодированы в одном месте, внешний вид выбранного глифа может зависеть от конкретного используемого шрифта. Однако правило разделения источников гласит, что символы, закодированные отдельно в более раннем наборе символов, останутся отдельными в новой кодировке Unicode. [4]
Используя селекторы вариантов , можно указать определенные вариантные идеограммы CJK в Юникоде. Набор символов Adobe-Japan1 , который содержит 14 683 идеографических последовательностей вариантов [5], является ярким примером использования селекторов вариантов. [6]
Графики [ править ]
4E00-62FF , 6300-77FF , 7800-8CFF , 8D00-9FFF .
Источники [ править ]
Примечание. Большинство символов появляется в нескольких источниках, поэтому сумма количества отдельных символов (102 437) намного больше, чем количество закодированных символов (20 989). [7]
Страна или Регион | Код | Источник [8] | Количество символов | Общее |
---|---|---|---|---|
Китай | G0 | ГБ 2312-80 | 6 763 | 20 839 |
G1 | ГБ 12345-90 | 2 202 | ||
G3 | GB 7589-87 традиционная форма | 4 834 | ||
G5 | GB 7590-87 традиционная форма | 2 841 | ||
G7 | Таблица общих иероглифов современного китайского языка ( упрощенный китайский : 现代 汉语 通用 字 表) | 42 | ||
G8 | GB8565-88 | 199 | ||
GCE | Национальная академия образовательных исследований | 4 | ||
GE | GB16500-95 | 3775 | ||
GFC | Современный китайский стандартный словарь (现代 汉语 规范 词典) | 2 | ||
GGFZ | Общий китайский стандартный словарь (通用 规范 汉字 字典) | 1 | ||
GH | ГБ / т 15564-1995 | 59 | ||
GHZ | Ханью Да Зидиан | 1 | ||
GHZR | 汉语大字典 (第二)) | 1 | ||
GK | ГБ 12052-89 | 89 | ||
GKJ | Термины в науке и технологиях (科技 用 字), утвержденные Китайским национальным комитетом терминов в науке и технологиях (CNCTST) | 13 | ||
GKX | Kangxi Dictionary | 3 | ||
GLK | 龍 龕 手 鑑 | 1 | ||
GT | Стандартная телеграфная кодовая книга (пересмотренная), 1983 г. | 8 | ||
GZFY | Словарь китайских диалектов (汉语 方言 大 辞典) | 1 | ||
Гонконг | ЧАС | Дополнительный набор символов Гонконг , 2008 г. | 2,292 | 15 376 |
HB0 | Таблица сопоставления компьютерных китайских символов и символов, технический отчет C-26 (電腦 用 中文 字型 與 字 碼 對照 表, 技術 通報 C-26) | 9 | ||
HB1 | Большая-5 , уровень 1 | 5 401 | ||
HB2 | Большая-5, уровень 2 | 7650 | ||
HD | Дополнительный набор символов Гонконг, 2016 г. | 24 | ||
Япония | J0 | JIS X 0208-1990 | 6 356 | 12 565 |
J1 | JIS X 0212-1990 | 3058 | ||
J13 | JIS X 0213: 2004 символы 3-го уровня, заменяющие символы J1 | 1,037 | ||
J13A | JIS X 0213: 2004, добавление персонажа 3-го уровня из JIS X 0213: 2000 3-го уровня, заменяющее персонажа J1 | 2 | ||
J14 | JIS X 0213: 2004 персонажи четвертого уровня, заменяющие символы J1 | 1,704 | ||
J3 | JIS X 0213: 2004 Уровень 3 | 95 | ||
J3A | Дополнение к уровню 3 JIS X 0213: 2004 | 7 | ||
J4 | JIS X 0213: 2004 Уровень 4 | 301 | ||
ДЖАРИБ | ARIB STD-B24 | 3 | ||
JMJ | Проект разработки и сопровождения информации о персонажах для электронного правительства «Проект MojiJoho-Kiban» (文字 情報 基 盤整 備 事業) | 2 | ||
Северная Корея | KP0 | КПС 9566-97 | 4 652 | 15 011 |
КП1 | КПС 10721-2000 | 10 359 | ||
Южная Корея | K0 | KS C 5601-87 (ныне KS X 1001: 2004 ) | 4 620 | 15 434 |
K1 | KS C 5657-91 (ныне KS X 1002: 2001 ) | 2,855 | ||
K2 | ПКС C 5700-1: 1994 | 7 911 | ||
K3 | ПКС C 5700-2: 1994 | 1 | ||
K4 | ПКС 5700-3: 1998 | 4 | ||
K6 | KS X 1027-5: 2014 | 43 год | ||
Тайвань | Т1 | ЦНС 11643-1992 самолет 1 | 5 413 | 18 383 |
Т2 | ЦНС 11643-1992 самолет 2 | 7650 | ||
Т3 | ЦНС 11643-1992 самолет 3 | 4 144 | ||
Т4 | ЦНС 11643-1992 самолет 4 | 894 | ||
T5 | ЦНС 11643-1992 самолет 5 | 64 | ||
T6 | ЦНС 11643-1992 самолет 6 | 31 год | ||
T7 | ЦНС 11643-1992 самолет 7 | 16 | ||
Туберкулез | ЦНС 11643-1992 самолет 11 | 2 | ||
TC | ЦНС 11643-1992 самолет 12 | 2 | ||
TE | ЦНС 11643-1992 самолет 14 | 9 | ||
TF | ЦНС 11643-1992 самолет 15 | 158 | ||
Вьетнам | V0 | TCVN 5773-1993 | 593 | 4 762 |
V1 | TCVN 6056: 1995 | 3 310 | ||
V2 | ВХН 01-1998 | 763 | ||
V3 | ВХН 02-1998 | 91 | ||
V4 | Словарь по ному (Từ điển chữ Nôm) Словарь по ному этнического Tay (Từ điển chữ Nôm Tày) Таблица поиска по ному на юге (Bảng tra chữ Nôm miền Nam) | 1 | ||
VU | Вьетнамские горизонтальные пристройки | 4 | ||
н / д | универсальное глобальное время | Источники UTC | 67 | 67 |
В Unicode 4.1 14 символов HKSCS-2004 и 8 ГБ 18030 символов были назначены между кодовыми точками U + 9FA6 и U + 9FBB. С тех пор в этот блок по разным причинам были добавлены и другие дополнения, все они описаны в разделе истории версий ниже.
Расширение A унифицированных иероглифов CJK [ править ]
Блок с именем CJK Unified Ideographs Extension A (3400–4DBF) содержит 6 592 дополнительных символа в диапазоне от U + 3400 до U + 4DBF.
Графики [ править ]
3400-4DBF .
Источники [ править ]
Примечание. Большинство символов встречается более чем в одном источнике, поэтому сумма количества отдельных символов (18 804) намного больше, чем количество закодированных символов (6 592). [7]
Страна или Регион | Код | Источник [8] | Количество символов | Общее |
---|---|---|---|---|
Китай | G3 | GB 7589-87 традиционная форма | 2391 | 6 196 |
G5 | GB 7590-87 традиционная форма | 1,226 | ||
G7 | Таблица общих иероглифов современного китайского языка | 120 | ||
GGFZ | Общий китайский стандартный словарь (通用 规范 汉字 字典) | 2 | ||
GHZ | Ханью Да Зидиан | 340 | ||
GKJ | Термины в науке и технологиях (科技 用 字), утвержденные Китайским национальным комитетом терминов в науке и технологиях (CNCTST) | 2 | ||
GKX | Kangxi Dictionary | 1889 | ||
GS | Сингапурские китайские иероглифы | 226 | ||
Гонконг | ЧАС | Дополнительный набор символов Гонконг , 2008 г. | 572 | 572 |
Япония | J3 | JIS X 0213: 2004 Уровень 3 | 2 | 738 |
J4 | JIS X 0213: 2004 Уровень 4 | 78 | ||
JA | Современные иероглифы японских ИТ-вендоров, 1993 г. | 574 | ||
JA3 | JIS X 0213: 2004 персонажи 3-го уровня, заменяющие персонажей JA | 17 | ||
JA4 | JIS X 0213: 2004 персонажи 4-го уровня, заменяющие персонажей JA | 67 | ||
Северная Корея | KP0 | КПС 9566-97 | 1 | 3 189 |
КП1 | КПС 10721-2000 | 3 188 | ||
Южная Корея | K3 | ПКС C 5700-2: 1994 | 1833 | 1863 |
K4 | ПКС 5700-3: 1998 | 2 | ||
K6 | KS X 1027-5: 2014 | 28 год | ||
Тайвань | Т3 | ЦНС 11643-1992 самолет 3 | 2 179 | 5 916 |
Т4 | ЦНС 11643-1992 самолет 4 | 2 919 | ||
T5 | ЦНС 11643-1992 самолет 5 | 399 | ||
T6 | ЦНС 11643-1992 самолет 6 | 200 | ||
T7 | ЦНС 11643-1992 самолет 7 | 133 | ||
TE | ЦНС 11643-1992 самолет 14 | 1 | ||
TF | ЦНС 11643-1992 самолет 15 | 85 | ||
Великобритания | Соединенное Королевство | IRG N2107R2 | 2 | 2 |
Вьетнам | V0 | TCVN 5773-1993 | 138 | 309 |
V2 | ВХН 01-1998 | 151 | ||
V3 | ВХН 02-1998 | 19 | ||
VU | Вьетнамские горизонтальные пристройки | 1 | ||
н / д | универсальное глобальное время | Источники UTC | 19 | 19 |
Расширение B унифицированных иероглифов CJK [ править ]
Блок с именем CJK Unified Ideographs Extension B (20000–2A6DF) содержит 42 718 символов в диапазоне от U + 20000 до U + 2A6DD. К ним относятся большинство символов, используемых в словаре Kangxi , которых нет в базовом блоке CJK Unified Ideographs, а также многие символы Nôm , которые ранее использовались для написания вьетнамского языка.
Графики [ править ]
20000-215FF , 21600-230FF , 23100-245FF , 24600-260FF , 26100-275FF , 27600-290FF , 29100-2A6DF .
Источники [ править ]
Примечание. Многие символы появляются более чем в одном источнике, поэтому сумма количества отдельных символов (74037) намного больше, чем количество закодированных символов (42 718). [7]
Страна или Регион | Код | Источник [8] | Количество символов | Общее |
---|---|---|---|---|
Китай | G3 | GB 7589-87 традиционная форма | 1 | 30 488 |
G4K | Сику Цюаньшу | 477 | ||
ГБК | Энциклопедия Китая | 86 | ||
GCH | Cihai | 247 | ||
GCY | Циюань | 66 | ||
GFZ | Основатель Press System | 65 | ||
GGFZ | Общий китайский стандартный словарь (通用 规范 汉字 字典) | 5 | ||
GHC | Ханью Да Сидиан | 553 | ||
GHF | 漢文 佛典 疑難 俗字 彙 釋 與 研究 | 1 | ||
GHZ | Ханью Да Зидиан | 10 508 | ||
GHZR | 汉语大字典 (第二)) | 1 | ||
GKJ | Термины в науке и технологиях (科技 用 字), утвержденные Китайским национальным комитетом терминов в науке и технологиях (CNCTST) | 7 | ||
GKX | Kangxi Dictionary | 18 471 | ||
Гонконг | ЧАС | Дополнительный набор символов Гонконг , 2008 г. | 1,703 | 1,703 |
Япония | J3 | JIS X 0213: 2004 Уровень 3 | 25 | 303 |
J3A | Дополнение к уровню 3 JIS X 0213: 2004 | 1 | ||
J4 | JIS X 0213: 2004 Уровень 4 | 277 | ||
Макао | MAC | Набор символов информационной системы Макао (澳門 資訊 系統 字 集) | 1 | 1 |
Северная Корея | КП1 | КПС 10721-2000 | 5766 | 5766 |
Южная Корея | K1 | KS C 5657-91 (ныне KS X 1002: 2001 ) | 1 | 247 |
K4 | ПКС 5700-3: 1998 | 166 | ||
K6 | KS X 1027-5: 2014 | 80 | ||
Тайвань | Т3 | ЦНС 11643-1992 самолет 3 | 25 | 30 190 |
Т4 | ЦНС 11643-1992 самолет 4 | 3 408 | ||
T5 | ЦНС 11643-1992 самолет 5 | 8,111 | ||
T6 | ЦНС 11643-1992 самолет 6 | 5 934 | ||
T7 | ЦНС 11643-1992 самолет 7 | 6299 | ||
TA | 化學 命名 原則 (第四 Version) (Химическая номенклатура: 4-е издание) | 6 | ||
Туберкулез | ЦНС 11643-1992 самолет 11 | 6 | ||
TF | ЦНС 11643-1992 самолет 15 | 6 401 | ||
Великобритания | Соединенное Королевство | IRG N2107R2 | 12 | 12 |
Вьетнам | V0 | TCVN 5773-1993 | 1,515 | 5 260 |
V2 | ВХН 01-1998 | 2,290 | ||
V3 | ВХН 02-1998 | 425 | ||
V4 | Словарь по ному (Từ điển chữ Nôm) Словарь по ному этнического Tay (Từ điển chữ Nôm Tày) Таблица поиска по ному на юге (Bảng tra chữ Nôm miền Nam) | 1 | ||
VU | Вьетнамские горизонтальные пристройки | 1,029 | ||
н / д | СИДЕЛ | Текстовая база данных SAT Daizōkyō | 1 | 67 |
универсальное глобальное время | Источники UTC | 66 |
Расширение C унифицированных иероглифов CJK [ править ]
Блок с именем CJK Unified Ideographs Extension C (2A700–2B73F) содержит 4 149 символов в диапазоне от U + 2A700 до U + 2B734, которые были добавлены в Unicode 5.2 (2009).
Графики [ править ]
2А700-2Б73Ф .
Источники [ править ]
Примечание. Некоторые символы появляются более чем в одном источнике, в результате чего сумма количества отдельных символов (4548) больше, чем количество закодированных символов (4149). [7]
Страна или Регион | Код | Источник [8] | Количество символов | Общее |
---|---|---|---|---|
Китай | ГБК | Энциклопедия Китая | 74 | 1,126 |
GCH | Cihai | 264 | ||
GCY | Циюань | 1 | ||
GCYY | Идеографы Китайской академии геодезии и картографии | 55 | ||
GFZ | Основатель Press System | 1 | ||
GGFZ | Общий китайский стандартный словарь (通用 规范 汉字 字典) | 2 | ||
GGH | Старый китайский словарь (古代 汉语 词典) | 51 | ||
GHC | Ханью Да Сидиан | 14 | ||
GHZ | Ханью Да Зидиан | 1 | ||
GJZ | Идеографы коммерческой прессы | 61 | ||
GKJ | Термины в науке и технологиях (科技 用 字), утвержденные Китайским национальным комитетом терминов в науке и технологиях (CNCTST) | 4 | ||
GKX | Kangxi Dictionary | 6 | ||
GXC | Сяндай Ханью Сидиан | 25 | ||
GZFY | Словарь китайских диалектов (汉语 方言 大 辞典) | 202 | ||
GZJW | Коллекции бронзовых Надписей из Инь и Чжоу династий (殷周金文集成引得) | 365 | ||
Гонконг | ЧАС | Дополнительный набор символов Гонконг , 2008 г. | 1 | 1 |
Япония | JK | Японская коллекция кокудзи | 367 | 367 |
Макао | MAC | Набор символов информационной системы Макао (澳門 資訊 系統 字 集) | 16 | 16 |
Северная Корея | КП1 | КПС 10721-2000 | 8 | 8 |
Южная Корея | K5 | Набор символов корейской ханджи IRG | 404 | 405 |
K6 | KS X 1027-5: 2014 | 1 | ||
Тайвань | TC | ЦНС 11643-1992 самолет 12 | 634 | 1,750 |
TD | ЦНС 11643-1992 самолет 13 | 766 | ||
TE | ЦНС 11643-1992 самолет 14 | 350 | ||
Великобритания | Соединенное Королевство | IRG N2107R2 | 1 | 1 |
Вьетнам | V1 | TCVN 6056: 1995 | 1 | 787 |
V4 | Словарь по ному (Từ điển chữ Nôm) Словарь по ному этнического Tay (Từ điển chữ Nôm Tày) Таблица поиска по ному на юге (Bảng tra chữ Nôm miền Nam) | 784 | ||
VU | Вьетнамские горизонтальные пристройки | 2 | ||
н / д | универсальное глобальное время | Источники UTC | 87 | 87 |
Расширение D унифицированных иероглифов CJK [ править ]
Блок с именем CJK Unified Ideographs Extension D (2B740–2B81F) содержит 222 символа в диапазоне от U + 2B740 до U + 2B81D, которые были добавлены в Unicode 6.0 (2010).
Графики [ править ]
2B740–2B81F .
Источники [ править ]
Примечание. Некоторые символы появляются более чем в одном источнике, поэтому сумма количества отдельных символов (227) больше, чем количество закодированных символов (222). [7]
Страна или Регион | Код | Источник [8] | Количество символов | Общее |
---|---|---|---|---|
Китай | GCH | Cihai | 1 | 76 |
GIDC | Система удостоверений личности Министерства общественной безопасности Китая | 32 | ||
GXC | Сяндай Ханью Сидиан | 4 | ||
ГЖ | Чжунхуа Цзихай | 39 | ||
Япония | JH | Программа ханьо-дэнси (汎 用 電子 情報 交換 環境 整 備 プ ロ ム) | 107 | 107 |
Тайвань | Туберкулез | ЦНС 11643-1992 самолет 11 | 24 | 24 |
н / д | универсальное глобальное время | Источники UTC | 20 | 20 |
Расширение Е унифицированных иероглифов CJK [ править ]
Блок с именем CJK Unified Ideographs Extension E (2B820–2CEAF) содержит 5762 символа в диапазоне от U + 2B820 до U + 2CEA1, которые были добавлены в Unicode 8.0 (2015).
Графики [ править ]
2B820–2CEAF .
Источники [ править ]
Примечание. Некоторые символы появляются более чем в одном источнике, в результате чего сумма количества отдельных символов (5 812) больше, чем количество закодированных символов (5 762). [7]
Страна или Регион | Код | Источник [8] | Количество символов | Общее |
---|---|---|---|---|
Китай | ГБК | Энциклопедия Китая | 15 | 2 820 |
GCH | Cihai | 112 | ||
GCY | Циюань | 3 | ||
GCYY | Идеографы Китайской академии геодезии и картографии | 98 | ||
ГДЗ | Идеографы Geology Press | 1 | ||
GGFZ | Общий китайский стандартный словарь (通用 规范 汉字 字典) | 4 | ||
GGH | Старый китайский словарь (古代 汉语 词典) | 175 | ||
GHC | Ханью Да Сидиан | 7 | ||
GIDC | Система удостоверений личности Министерства общественной безопасности Китая | 36 | ||
GJZ | Идеографы коммерческой прессы | 147 | ||
GKJ | Термины в науке и технологиях (科技 用 字), утвержденные Китайским национальным комитетом терминов в науке и технологиях (CNCTST) | 2 | ||
GKX | Kangxi Dictionary | 22 | ||
ГРМ | Идеографы People's Daily | 3 | ||
GWZ | Идеографы Hanyu Da Cidian Press | 12 | ||
GXC | Сяндай Ханью Сидиан | 57 | ||
GXH | Синьхуа Зидянь | 4 | ||
GZFY | Ханью Фанъянь Дасидян (汉语 大 大 Dictionary, Словарь китайских диалектов) | 712 | ||
GZJW | Коллекции бронзовых Надписей из Инь и Чжоу династий (殷周金文集成引得) | 1,410 | ||
Япония | JK | Японская коллекция кокудзи | 415 | 415 |
Макао | MAC | Набор символов информационной системы Макао (澳門 資訊 系統 字 集) | 48 | 48 |
Тайвань | Т3 | ЦНС 11643-1992 самолет 3 | 2 | 1,260 |
Туберкулез | ЦНС 11643-1992 самолет 11 | 1 | ||
TC | ЦНС 11643-1992 самолет 12 | 323 | ||
TD | ЦНС 11643-1992 самолет 13 | 595 | ||
TE | ЦНС 11643-1992 самолет 14 | 339 | ||
Великобритания | Соединенное Королевство | IRG N2107R2 | 2 | 2 |
Вьетнам | V4 | Словарь по ному (Từ điển chữ Nôm) Словарь по ному этнического Tay (Từ điển chữ Nôm Tày) Таблица поиска по ному на юге (Bảng tra chữ Nôm miền Nam) | 1,027 | 1,031 |
VU | Вьетнамские горизонтальные пристройки | 4 | ||
н / д | UCI | Источники UTC | 236 | 236 |
Расширение унифицированных иероглифов CJK F [ править ]
Блок с именем CJK Unified Ideographs Extension F (2CEB0–2EBEF) содержит 7 473 символа в диапазоне от U + 2CEB0 до 2EBE0, которые были добавлены в Unicode 10.0 (2017). Он включает более 1000 символов Sawndip для Zhuang .
Графики [ править ]
2CEB0–2EBEF .
Источники [ править ]
Примечание. Некоторые символы появляются более чем в одном источнике, в результате чего сумма количества отдельных символов (7 733) больше, чем количество закодированных символов (7 473). [7]
Страна или Регион | Код | Источник [8] | Количество символов | Общее |
---|---|---|---|---|
Китай | GCY | Циюань | 122 | 1,304 |
GFC | Современный китайский стандартный словарь (现代 汉语 规范 词典) | 27 | ||
GIDC | Система удостоверений личности Министерства общественной безопасности Китая | 1 | ||
GLGYJ | Исследование песен Чжуан Ляо (壮族 嘹 歌 研究) | 1 | ||
GOCD | Оксфордский англо-китайский китайско-английский словарь (牛津 英汉 汉英 词典) | 2 | ||
GPGLG | Серия о культуре народной песни Чжуан - Песни Ляо округа Пинго (壮族 民歌 文化 丛书 ・ 平 果 嘹 歌) | 70 | ||
GXHZ | Большой словарь Синьхуа (新华 大 字典) | 51 | ||
GZ | Словарь древних персонажей Чжуан (古 壮 字 字典) | 995 | ||
GZJW | Коллекции бронзовых Надписей из Инь и Чжоу династий (殷周金文集成引得) | 33 | ||
GZYS | Исследование древних этнических персонажей Китая (中国 民族 古 文字 研究) | 2 | ||
Япония | JMJ | Проект разработки и сопровождения информации о персонажах для электронного правительства «Проект MojiJoho-Kiban» (文字 情報 基 盤整 備 事業) | 1,645 | 1,645 |
Южная Корея | KC | История Кореи в Интернете (한국 역사 정보 통합 시스템) | 1,793 | 1,793 |
Макао | MAC | Набор символов информационной системы Макао (澳門 資訊 系統 字 集) | 22 | 22 |
Тайвань | Т3 | ЦНС 11643-1992 самолет 3 | 1 | 3 |
T6 | ЦНС 11643-1992 самолет 6 | 1 | ||
TC | ЦНС 11643-1992 самолет 12 | 1 | ||
Великобритания | Соединенное Королевство | IRG N2107R2 | 2 | 2 |
Вьетнам | VU | Вьетнамские горизонтальные пристройки | 1 | 1 |
н / д | СИДЕЛ | Текстовая база данных SAT Daizōkyō | 2,884 | 2 963 |
универсальное глобальное время | Источники UTC | 79 |
Расширение G унифицированных иероглифов CJK [ править ]
Блок с именем CJK Unified Ideographs Extension G был добавлен как часть Unicode 13.0 в третичную идеографическую плоскость в диапазоне от U + 30000 до U + 3134F, содержащий 4939 символов. [9]
Графики [ править ]
30000–3134F .
Источники [ править ]
Примечание. Некоторые символы появляются более чем в одном источнике, в результате чего сумма количества отдельных символов (4 997) больше, чем количество закодированных символов (4 939). [7]
Страна или Регион | Код | Источник [8] | Количество символов | Общее |
---|---|---|---|---|
Китай | GHZR | 汉语大字典 (第二)) | 878 | 2,082 |
GPGLG | Серия о культуре народной песни Чжуан - Песни Ляо округа Пинго (壮族 民歌 文化 丛书 ・ 平 果 嘹 歌) | 13 | ||
GZ | Словарь древних персонажей Чжуан (古 壮 字 字典) | 1,191 | ||
Южная Корея | KC | История Кореи в Интернете (한국 역사 정보 통합 시스템) | 428 | 428 |
Тайвань | T13 | TCA-CNS 11643 19-й самолет (ожидается новая версия) | 347 | 353 |
Туберкулез | ЦНС 11643-1992 самолет 11 | 3 | ||
TC | ЦНС 11643-1992 самолет 12 | 2 | ||
TD | ЦНС 11643-1992 самолет 13 | 1 | ||
Великобритания | Соединенное Королевство | IRG N2107R2 | 1,566 | 1,566 |
н / д | СИДЕЛ | Текстовая база данных SAT Daizōkyō | 329 | 568 |
универсальное глобальное время | Источники UTC | 239 |
Идеографы совместимости CJK [ править ]
Блок под названием CJK Compatibility Ideographs (F900 – FAFF) был создан для сохранения двусторонней совместимости с другими стандартами. Только двенадцать его персонажей обладают свойством «Единая идеограмма»: U + FA0E, FA0F, FA11, FA13, FA14, FA1F, FA21, FA23, FA24, FA27, FA28 и FA29. [1] Ни один из других символов в этом и других блоках «Совместимости» не имеет отношения к CJK Unification.
Графики [ править ]
F900 – FAFF .
Источники [ править ]
Примечание. Некоторые символы появляются более чем в одном источнике, поэтому сумма количества отдельных символов (22) больше, чем количество закодированных символов Unified (12). [7]
Страна или Регион | Код | Источник [8] | Количество символов | Общее |
---|---|---|---|---|
Япония | J3 | JIS X 0213: 2004 Уровень 3 | 3 | 8 |
J4 | JIS X 0213: 2004 Уровень 4 | 3 | ||
JA | Современные иероглифы японских ИТ-вендоров, 1993 г. | 1 | ||
JA3 | JIS X 0213: 2004 персонажи 3-го уровня, заменяющие персонажей JA | 1 | ||
Тайвань | TF | ЦНС 11643-1992 самолет 15 | 1 | 1 |
Вьетнам | V2 | ВХН 01-1998 | 1 | 1 |
н / д | универсальное глобальное время | Источники UTC | 12 | 12 |
Источники UTC [ править ]
Группа идеографических исследований (IRG) несет формальную ответственность за разработку расширений зашифрованного репертуара унифицированных идеографов CJK. Консорциум Unicode участвует в этой группе как представитель ISO. Символы, представленные Техническим комитетом Unicode, имеют префикс «UTC». Все унифицированные иероглифы CJK в ISO / IEC10646 должны иметь хотя бы один идентификатор источника. Однако изменения в информации об источнике IRG могут оставить данную идеограмму без каких-либо таких источников. В таких случаях идеограмма включается в базу данных U-источника, чтобы гарантировать наличие хотя бы одного источника. Такие идеограммы обозначаются префиксом источника «UCI» вместо «UTC». [10]
Источники UTC состоят из следующего:
- Китайско-английский словарь ABC от Джона ДеФрансиса
- Коллекция глифов Adobe-CNS1
- Коллекция глифов Adobe-Japan1
- Полный список видов и подвидов китайских птиц (中国 鸟类 系统 检索)
- Словарь Великого Нома (Đại Tự Điển Ch Nôm)
- Аннотации к Shuowen Jiezi (аннотировано Дуань Юцай )
- ГБ18030-2000
- Обязательный список персонажей, предоставленный Церковью Иисуса Христа Святых последних дней (Гонконг)
- Новый коммерческий словарь (中务 新 词典), Гонконг
- Отчеты о дефектах, поданные против стандарта Unicode, или иное прямое обращение в редакционный комитет Unicode
- Документы Технического комитета Unicode (UTC)
- Словарь современного китайского языка (现代 汉语,), Китайская академия социальных наук , Институт лингвистических исследований, редакция словаря
- Документы Рабочей группы (WG2)
- Венлинь (文林) http://www.wenlin.com/
Известные проблемы [ править ]
Разъединение [ править ]
U + 4039 [ править ]
Символ U + 4039 (䀹) был объединением двух разных символов (один с jiā 夾 фонетическим, а другой с shǎn 㚒 фонетическим) до Unicode 5.0. Однако это были лексически разные символы, которые не следовало объединять; у них разное произношение и разное значение.
Предложение о разъединении U + 4039 [11] было принято, и новый символ закодирован в U + 9FC3 (鿃) в Unicode 5.1. [ требуется разъяснение ]
Остальные 3 символа в Расширении B [ править ]
В расширении B унифицированных иероглифов CJK некоторые символы неправильно объединены с другими. Эти символы включают U + 2017B (𠅻), U + 204AF (𠒯) и U + 24CB2 (𤲲). Первые два символа содержат неправильное объединение материкового Китая и вьетнамского источника их символа, в то время как последний объединяет материковый Китай и Тайвань. [12]
Универсальные варианты и точные дубликаты в Расширении B [ править ]
Также в CJK Unified Ideographs Extension B были закодированы сотни вариантов глифов. [13] В дополнение к преднамеренному кодированию близких вариантов глифов, шесть точных дубликатов (где один и тот же символ был случайно закодирован дважды) и два полудупликата (где символ CJK-B представляет собой де-факто разъединение двух унифицированных форм глифов. в соответствующем символе BMP) были ошибочно закодированы: [14]
- U + 34A8 㒨 = U + 20457 𠑗: U + 20457 - то же самое, что и глиф китайского источника для U + 34A8, но он значительно отличается от глифа тайваньского источника для U + 34A8
- U + 3DB7 㶷 = U + 2420E 𤈎: одинаковые формы глифов
- U + 8641 虁 = U + 27144 𧅄: U + 27144 - это то же самое, что и глиф корейского источника для U + 8641, но он значительно отличается от глифов материкового Китая, Тайваня и Японии для U + 8641.
- U + 204F2 𠓲 = U + 23515 𣔕: те же формы глифов, но упорядочены под разными радикалами
- U + 249BC 𤦼 = U + 249E9 𤧩: одинаковые формы глифов
- U + 24BD2 𤯒 = U + 2A415 𪐕: те же формы глифов, но упорядоченные под разными радикалами
- U + 26842 𦡂 = U + 26866 𦡦: одинаковые формы глифов
- U + FA23 﨣 = U + 27EAF 𧺯: одинаковые формы глифов (U + FA23 﨣 - это единый идеограф CJK, несмотря на его название «CJK COMPATIBILITY IDEOGRAPH-FA23.»)
Другие идеограммы CJK в Unicode, а не в Unified [ править ]
Помимо восьми блоков «Унифицированных идеографов», в Unicode есть еще около дюжины блоков с неунифицированными CJK-символами. В основном это радикалы CJK, штрихи, знаки препинания, знаки, символы и совместимые символы. Хотя некоторые символы имеют свои (разлагаемые) аналоги в других блоках, их использование может быть другим.
Четыре блока символов совместимости включены для совместимости с устаревшими системами обработки текста и более старыми наборами символов:
- Совместимость с CJK (3300–33FF)
- Формы совместимости CJK (FE30 – FE4F)
- Идеографы совместимости CJK (F900 – FAFF)
- Приложение к иероглифам о совместимости с CJK (2F800–2FA1F)
Они включают формы символов для вертикального расположения текста и символы форматированного текста, которые Unicode рекомендует обрабатывать другими способами. Поэтому их использование не рекомендуется.
Обычно символы совместимости - это символы, которые не были бы закодированы, за исключением совместимости и возможности двустороннего преобразования с другими стандартами. Однако количество идеографов CJK в любом стандарте, отличном от Unicode, слишком велико, чтобы поместиться в блоки Unicode CJK Compatibility Ideographs. Вместо этого кодовые точки назначаются, когда затронутые символы одобрены Консорциумом Unicode, но еще не назначены какие-либо кодовые точки в блоках CJK Unified Ideographs.
Поддержка шрифтов [ править ]
Блоки CJK Unified Ideographs и CJK Unified Ideographs Extension A, являющиеся частями базовой многоязычной плоскости , поддерживаются большинством шрифтов CJK . Однако японские и корейские шрифты обычно содержат меньше символов (около 13 000 и 8 000 соответственно), чем китайские. Расширения B, C, D поддерживаются дополнительными шрифтами MingLiU-ExtB, MingLiU_HKSCS-ExtB, PMingLiU-ExtB, SimSun-ExtB, включенными в Microsoft Windows с Vista. [15]
История версий Unicode [ править ]
Версия Unicode | Добавление | Самолет | Персонажи добавлены | Всего персонажей |
---|---|---|---|---|
1.0 (1991) | Единые иероглифы CJK | Базовая многоязычная плоскость (BMP) | 20 902 | 20 914 |
Идеографы совместимости CJK | BMP | 12 | ||
3,0 (1999) | Расширение унифицированных иероглифов CJK A | BMP | 6 582 | 27 496 |
3,1 (2001) | Расширение B унифицированных иероглифов CJK | Дополнительная идеографическая плоскость (SIP) | 42 711 | 70 207 |
4,1 (2005) | Унифицированные идеограммы CJK: идеограммы из HKSCS-2004 и GB 18030-2000 не в ISO 10646 | BMP | 22 | 70 229 |
5.1 (2008) | Унифицированные идеограммы CJK: идеограммы от Adobe Japan и разъединение U + 4039 | BMP | 8 | 70 237 |
5.2 (2009) | Расширение унифицированных иероглифов CJK C | ГЛОТОК | 4 149 | 74 394 |
8 других персонажей из ARIB # 47, # 95, # 93 и HKSCS | BMP | 8 | ||
6.0 (2010) | Расширение унифицированных иероглифов CJK D | ГЛОТОК | 222 | 74 616 |
6.1 (2012) | 1 символ, соответствующий Adobe-Japan 1-6 CID + 20156 | BMP | 1 | 74 617 |
8.0 (2015) | Расширение унифицированных иероглифов CJK E | ГЛОТОК | 5762 | 80 388 |
9 других персонажей | BMP | 9 | ||
10.0 (2017) | Расширение унифицированных иероглифов CJK F | ГЛОТОК | 7 473 | 87 882 |
21 другой персонаж | BMP | 21 год | ||
11.0 (2018) | Единые иероглифы CJK | BMP | 5 | 87 887 |
13.0 (2020) | Единые иероглифы CJK | BMP | 13 | 92 856 |
Расширение унифицированных иероглифов CJK A | BMP | 10 | ||
Расширение B унифицированных иероглифов CJK | ГЛОТОК | 7 | ||
Расширение унифицированных иероглифов CJK G | Третичная идеографическая плоскость (TIP) | 4939 |
См. Также [ править ]
- Хань Объединение
- Список символов Юникода
- Список шрифтов CJK
- Группа идеографических исследований
Заметки [ править ]
- ^ a b «Unicode 13.0 UCD: PropList.txt» . 2019-11-27 . Проверено 15 марта 2020 .
- ^ Стандарт Unicode 4.0, Приложение A - История объединения Хань
- ^ Сюзанна Топпинг, " Тайная жизнь Юникода "
- ^ « Глава 11 - Восточноазиатские сценарии », Стандарт Unicode, 4.0 .
- ^ «База данных идеографических вариаций» . 2020-11-06 . Проверено 6 ноября 2020 .
- ^ PRI 108: Объединенная регистрация коллекции Adobe Japan1 и последовательностей в этой коллекции
- ^ a b c d e f g h i "Unihan_IRGSources.txt (из Unihan.zip)" . 2018-11-09 . Проверено 18 февраля 2020 .
- ^ a b c d e f g h i "UAX # 38: База данных Unicode Han (Unihan)" . Консорциум Unicode. 2020-03-05.
- ^ «Юникод 13.0.0» . 10 марта 2020 . Проверено 10 марта 2020 .
- ^ Дженкинс, Джон Х. (2020-02-13). "UAX # 45: Идеографы U-источника" . Консорциум Unicode.
- ^ Эндрю Уэст и Джон Дженкинс, предложение disunification от U + 4039
- ^ Eiso Chan (陈永聪), Комментарии к четырем символам ошибок на унифицированных иероглифах CJK, Ext B и E. [1]
- ^ унифицируемые варианты глифов
- ^ Кук, Ричард (6 октября 2003 г.). «Отчет о дефектах дубликатов закодированных форм CJK» (PDF) . ИСО / МЭК JTC1 / SC2 / WG2 . Проверено 28 марта 2012 .
- ^ Лунде, Кен (2009). CJKV Обработка информации . О'Рейли. С. 633–634. ISBN 978-0-596-51447-1.
Внешние ссылки [ править ]
- Идеографы из Великобритании (документы IRG N2107R2 и IRG N2232R)