Эта статья может быть дополнена текстом, переведенным из соответствующей статьи на китайский язык . (Сентябрь 2016 г.) Щелкните [показать], чтобы просмотреть важные инструкции по переводу.
|
MIME / IANA | GB_2312-80 ( GB2312 для обычной формы EUC) |
---|---|
Псевдоним (а) | iso-ir-58, китайский, csISO58GB231280 |
Язык (и) | Упрощенный китайский , английский Частичная поддержка: русский , греческий , японский |
Стандарт | ГБ / т 2312-1980 |
Классификация | ISO-2022- совместимый DBCS , кодирование CJK |
Расширения | ISO-IR-165 |
Форматы кодирования | EUC-CN ( GB2312 ), HZ-GB-2312 |
Предшествует | Китайский телеграфный код |
Преемник | ГБК , ГБ 18030 |
Другая связанная кодировка (и) | JIS X 0208 , KS X 1001 |
GB / T 2312-1980 является ключевым официальным набором символов из Народной Республики Китая , используется для персонажей упрощенного китайских . GB2312 - это зарегистрированное Интернет-имя для EUC-CN , которое является его обычной закодированной формой. GB относится к стандартам Гоих (国家标准),то время как Т - суффикс (推荐; tuījiàn ; «рекомендация») обозначает необязательный стандарт. [1]
GB / T 2312-1980 изначально был обязательным национальным стандартом, обозначенным как GB 2312-1980 . Однако в соответствии с Национальным стандартным бюллетенем Китайской Народной Республики в 2017 году GB 2312 больше не является обязательным, а его стандартный код изменен на GB / T 2312-1980 . [2] GB / T 2312-1980 был заменен на GBK и GB18030 , которые включают дополнительные символы, но GB / T 2312 по- прежнему широко используется в качестве подмножества этих кодировок.
По состоянию на март 2021 [Обновить]года GB2312 является самой популярной заявленной кодировкой для китайского языка в Интернете, при этом 9,9% веб-страниц обслуживаются из Китая и территорий, заявивших об этом, [3] или 0,2% всех веб-страниц в мире, что ниже 3,5%. в январе 2010 года. [4] Однако обратите внимание, что все основные веб-браузеры декодируют документы, помеченные, например, как «GB2312» или « GB 2312 » (хотя не все для «GB_2312»), как если бы они были помечены как « gbk », [5] что является расширенным кодированием, и на долю GB 2312 и GBK в совокупности приходится 10,6% (или 0,3% в мире).
Существует аналогичный набор символов, известный как GB / T 12345 , тесно связанный с GB / T 2312, но с традиционными формами символов, заменяющими упрощенные формы, и некоторыми дополнительными 62 дополнительными символами. [6] [7] Шрифты с кодировкой GB часто идут парами: один с набором символов GB / T 2312 (упрощенный), а другой с набором символов GB / T 12345 (традиционный).
Персонажи [ править ]
В то время как GB / T 2312 охватывает более 99,99% использования современных китайских текстов [8], исторические тексты и многие имена остаются за рамками. Старый GB 2312 стандарт включает в себя 6,763 китайских иероглифов (на два уровнях: первый устраиваются чтение, второго по радикальному тому числу ходов), наряду с символами и знаками препинания, японская кана , то греческие и алфавиты кириллицы , Zhuyin и двойное -байтный набор букв пиньинь с тоновыми отметками. В более поздней версии GB / T 2312-1980 есть 7445 букв.
Символы в GB / T 2312 расположены в сетке 94x94 (как в ISO 2022 ), а двухбайтовая кодовая точка каждого символа выражена в форме kuten (или quwei), которая определяет строку (ku или qu) и положение символа в строке (ячейка, десятка или вэй).
Строки (пронумерованные от 1 до 94) содержат следующие символы:
- 01–09, включая знаки препинания и другие специальные символы; также хирагана , катакана , греческий , кириллица , пиньинь , бопомофо
- 16–55, первый уровень китайских иероглифов , расположенный в соответствии с пиньинь . (3755 знаков).
- 56–87, второй уровень китайских иероглифов, расположенных по корню и штрихам. (3008 знаков).
- 88–89, далее китайские иероглифы. (103 символа). Определено только для GB / T 12345, но не для GB / T 2312.
Строки 10–15 и 90–94 не назначены.
Для GB / T 2312-1980 он содержит 682 знака и 6763 китайских иероглифа.
Кодировки GB / T 2312 [ править ]
EUC-CN [ править ]
EUC-CN часто используется в качестве кодировки символов (например, для внешнего хранилища) в программах, работающих с GB / T 2312, таким образом поддерживая совместимость с ASCII . Два байта используются для представления каждого символа, не найденного в ASCII . Значение первого байта - от 0xA1–0xF7 (161–247), а значение второго байта - от 0xA1–0xFE (161–254). Поскольку все эти диапазоны выходят за рамки ASCII, например UTF-8, можно проверить, является ли байт частью многобайтовой конструкции при использовании EUC-CN, но не является ли байт первым или последним.
По сравнению с UTF-8 , GB2312 (встроенный или закодированный в EUC-CN) более эффективен при хранении: в то время как UTF-8 использует три байта [a] на идеограмму CJK , GB2312 использует только два. Однако GB2312 не охватывает столько идеограмм, сколько Unicode.
Чтобы сопоставить точки кода kuten с байтами, добавьте 160 (0xA0) к номеру строки (ku, разряды 1000 и 100) кодовой точки, чтобы сформировать старший байт, и добавьте 160 к номеру столбца (десять, 10 и 1-е место) кодовой точки для формирования младшего байта.
Например, если у вас есть кодовая точка 4566 GB / T 2312 («外», [9], что означает чужой), старший байт будет использовать номер строки 45: 45 + 160 = 205 = 0xCD, а младший байт будет из столбца 66: 66 + 160 = 212 = 0xE2. Итак, полная кодировка - 0xCDE2. [10]
HZ [ править ]
HZ - это еще одна кодировка GB 2312, которая используется в основном для сообщений Usenet .
Таблицы кодов [ править ]
В таблицах ниже, где пара шестнадцатеричных чисел дана для байта префикса или байта кодирования, меньший (с неустановленным или недоступным восьмым битом) используется при кодировании по GL ( 0x 21-0x7E), как в ISO- 2022-CN или HZ-GB-2312 , а больший (с восьмым набором битов) используется в более типичном случае кодирования через GR (0xA1-0xFE), как в EUC-CN , GBK или GB 18030 . Числа Qūwèi даны в десятичном формате .
Когда GB / T 2312 кодируется через GR, оба байта имеют восьмой бит (т. Е. Больше 0x7F). GBK и GB 18030 также используют двухбайтовые коды, в которых только первый байт имеет восьмой бит, установленный для целей расширения: такие коды находятся вне плоскости GB / T 2312 и не приводятся здесь в таблице.
Ведущий байт [ править ]
На этой диаграмме подробно описана общая компоновка основной плоскости набора символов GB / T 2312 по старшим байтам. Для ведущих байтов, используемых для символов, отличных от hanzi , предоставляются ссылки на диаграммы на этой странице, в которых перечислены символы, закодированные под этим ведущим байтом. Для ведущих байтов, используемых для hanzi, предоставляются ссылки на соответствующий раздел индекса hanzi Викисловаря .
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ / A_ | SP [b] 0020 | Пунктир. ВЕДУЩИЙ 1-_ | Список LEAD 2-_ | Alnum. ВЕДУЩИЙ 3-_ | Хирагана ВЕДУЩИЙ 4-_ | Катакана ЛИД 5-_ | Греческий LEAD 6-_ | Кириллица LEAD 7-_ | Phonet. ВЕДУ 8-_ | Ящик ЛИД 9-_ | 10-_ | 11-_ | 12-_ | 13-_ | 14-_ | 15-_ |
3_ / B_ | Hanzi L1 LEAD 16-_ | Hanzi L1 LEAD 17-_ | Hanzi L1 LEAD 18-_ | Hanzi L1 LEAD 19-_ | Hanzi L1 LEAD 20-_ | Hanzi L1 LEAD 21-_ | Hanzi L1 СВОД 22-_ | Hanzi L1 LEAD 23-_ | Hanzi L1 LEAD 24-_ | Hanzi L1 LEAD 25-_ | Hanzi L1 LEAD 26-_ | Hanzi L1 LEAD 27-_ | Hanzi L1 СВОД 28-_ | Hanzi L1 СВОД 29-_ | Hanzi L1 СВОД 30-_ | Hanzi L1 LEAD 31-_ |
4_ / C_ | Hanzi L1 LEAD 32-_ | Hanzi L1 LEAD 33-_ | Hanzi L1 СВОД 34-_ | Hanzi L1 LEAD 35-_ | Hanzi L1 LEAD 36-_ | Hanzi L1 LEAD 37-_ | Hanzi L1 LEAD 38-_ | Hanzi L1 LEAD 39-_ | Hanzi L1 LEAD 40-_ | Hanzi L1 LEAD 41-_ | Hanzi L1 LEAD 42-_ | Hanzi L1 СВОД 43-_ | Hanzi L1 LEAD 44-_ | Hanzi L1 LEAD 45-_ | Hanzi L1 LEAD 46-_ | Hanzi L1 LEAD 47-_ |
5_ / D_ | Hanzi L1 LEAD 48-_ | Hanzi L1 LEAD 49-_ | Hanzi L1 LEAD 50-_ | Hanzi L1 LEAD 51-_ | Hanzi L1 LEAD 52-_ | Hanzi L1 СВОД 53-_ | Hanzi L1 СВОД 54-_ | Hanzi L1 LEAD 55-_ | Hanzi L2 СВОД 56-_ | Hanzi L2 СВОД 57-_ | Hanzi L2 LEAD 58-_ | Hanzi L2 СВОД 59-_ | Hanzi L2 LEAD 60-_ | Hanzi L2 LEAD 61-_ | Hanzi L2 LEAD 62-_ | Hanzi L2 LEAD 63-_ |
6_ / E_ | Hanzi L2 LEAD 64-_ | Hanzi L2 LEAD 65-_ | Hanzi L2 LEAD 66-_ | Hanzi L2 LEAD 67-_ | Hanzi L2 LEAD 68-_ | Hanzi L2 LEAD 69-_ | Hanzi L2 LEAD 70-_ | Hanzi L2 СВОД 71-_ | Hanzi L2 СВОД 72-_ | Hanzi L2 СВОД 73-_ | Hanzi L2 LEAD 74-_ | Hanzi L2 LEAD 75-_ | Hanzi L2 LEAD 76-_ | Hanzi L2 LEAD 77-_ | Hanzi L2 LEAD 78-_ | Hanzi L2 СВОД 79-_ |
7_ / F_ | Hanzi L2 LEAD 80-_ | Hanzi L2 LEAD 81-_ | Hanzi L2 LEAD 82-_ | Hanzi L2 LEAD 83-_ | Hanzi L2 LEAD 84-_ | Hanzi L2 LEAD 85-_ | Hanzi L2 LEAD 86-_ | Hanzi L2 СВОД 87-_ | 88-_ | 89-_ | 90-_ | 91-_ | 92-_ | 93-_ | 94-_ | DEL [b] 007F |
Письмо Число Пунктуация Символ Другой Неопределенный
Строки, не относящиеся к Ханзи [ править ]
В следующих картирует не- Ханзи символы доступны в GB / T 2312, в GB / T 12345, а также в двухбайтовой области 1 GB 18030 (что примерно соответствует не-Ханзи области GB / T 2312). Сделаны примечания, где они отличаются, и где GB 6345.1 и ISO-IR-165 отличаются от них. Для сравнения сделаны перекрестные ссылки на статьи о других наборах национальных символов CJK.
Две реализации GB2312 [ править ]
EUC-CN | Подмножество GBK / GB18030 | GB2312.TXT | Имя персонажа [11] : 3 |
---|---|---|---|
A1A4 | U + 00B7 · СРЕДНЯЯ ТОЧКА | U + 30FB ・ КАТАКАНА СРЕДНЯЯ ТОЧКА | 间隔 点; ' разделительная точка ' |
A1AA | U + 2014 - EM DASH | U + 2015 - ГОРИЗОНТАЛЬНАЯ БАР | 破折号; ' em dash ' |
Отображение Unicode интерпункта ( китайский :间隔 点; букв. «Разделительная точка») и длинного тире ( китайский :破折号) в подмножестве GBK и GB 18030, соответствующих GB / T 2312 ( U + 00B7 · MIDDLE DOT и U + 2014 - EM DASH ) отличаются от файлов, перечисленных в GB2312.TXT ( U + 30FB・KATAKANA MIDDLE DOT и U + 2015 - HORIZONTAL BAR ), который представляет собой файл данных, который ранее был предоставлен Консорциумом Unicode. , [12], хотя он был признан устаревшим с августа 2011 года [13] и больше не размещается с сентября 2016 года.
По состоянию на 2015 год Microsoft .Net Framework следует сопоставлениям GB 18030 при сопоставлении этих двух символов в данных, помеченных gb2312
, тогда как ICU , [14] iconv-1.14, [15] php-5.6, ActivePerl-5.20, Java 1.7 и Python 3.4 [16] следуйте GB2312.TXT в ответ на gb2312
этикетку. Ruby 2.2 совместим с обеими реализациями; он внутренне преобразует конфликтующие символы в подмножество GB 18030. Консорциума W3C / WHATWG техническая рекомендация для использования с HTML5 , Специфицирует GBK кодирования , чтобы сделать вывод для потоков меченых gb2312
, которые , в свою очередь , использует декодер GB18030. [17]
Другие различные сопоставления были определены и использовались отдельными поставщиками [12], в том числе от Apple . [18]
Набор символов 0x21 / 0xA1 (строка 1: знаки препинания и символы) [ править ]
Эта строка содержит знаки препинания, математические операторы и другие символы. В следующей таблице сначала показаны сопоставления GB 18030 [19] для этих символов GB / T 2312, а затем любые другие задокументированные сопоставления.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ / A_ | IDSP 3000 1-1 | 、 3001 1-2 | 。 3002 1-3 | · /・ 00B7 / 30FB 1-4 | ˉ 02C9 1-5 | 02C7 1-6 | ¨ 00A8 1-7 | 〃 3003 1–8 | 々 3005 1–9 | - / - 2014/2015 1-10 | ~ / 〜 FF5E / 301C 1-11 | ‖ / ∥ 2016/2225 1–12 | … / ⋯ 2026 / 22EF 1-13 | ' 2018 1-14 | ' 2019 1-15 | |
3_ / B_ | « 201C 1-16 | ” 201D 1-17 | 〔 3014 1–18 | 〕 3015 1–19 | 〈 3008 1-20 | 〉 3009 1-21 | 《 300A 1-22 | 》 300Б 1-23 | 「 300C 1-24 | 」 300D 1-25 | 『 300E 1-26 | 』 300F 1-27 | 〖 3016 1-28 | 〗 3017 1-29 | 【 3010 1–30 | 】 3011 1-31 |
4_ / C_ | ± 00B1 1-32 | × 00D7 1-33 | ÷ 00F7 1-34 | ∶ 2236 1-35 | ∧ 2227 1-36 | ∨ 2228 1-37 | ∑ 2211 1-38 | ∏ 220F 1-39 | ∪ 222A 1-40 | ∩ 2229 1-41 | ∈ 2208 1-42 | ∷ 2237 1-43 | √ 221А 1-44 | ⊥ 22A5 1-45 | ∥ 2225 1-46 | ∠ 2220 1-47 |
5_ / D_ | ⌒ 2312 1-48 | ⊙ 2299 1–49 | ∫ 222B 1-50 | ∮ 222E 1-51 | ≡ 2261 1-52 | ≌ 224C 1-53 | ≈ 2248 1-54 | ∽ 223Д 1-55 | ∝ 221D 1-56 | ≠ 2260 1–57 | ≮ 226E 1-58 | ≯ 226F 1-59 | ≤ 2264 1-60 | ≥ 2265 1–61 | ∞ 221E 1-62 | ∵ 2235 1-63 |
6_ / E_ | ∴ 2234 1-64 | ♂ 2642 1-65 | ♀ 2640 1-66 | ° 00B0 1-67 | ′ 2032 1-68 | ″ 2033 1-69 | ℃ 2103 1-70 | $ FF04 1-71 | ¤ 00A4 1-72 | ¢ / ¢ FFE0 / 00A2 1-73 | £ / £ FFE1 / 00A3 1-74 | ‰ 2030 1–75 | § 00A7 1-76 | № 2116 1-77 | ☆ 2606 1-78 | ★ 2605 1-79 |
7_ / F_ | ○ 25CB 1-80 | ● 25CF 1-81 | ◎ 25CE 1-82 | ◇ 25C7 1-83 | ◆ 25C6 1-84 | □ 25A1 1-85 | ■ 25A0 1-86 | △ 25Б3 1-87 | ▲ 25B2 1-88 | ※ 203Б 1-89 | → 2192 1-90 | ← 2190 1-91 | ↑ 2191 1-92 | ↓ 2193 1-93 | 〓 3013 1-94 |
Письмо Число Пунктуация Символ Другой Неопределенный
Набор символов 0x22 / 0xA2 (строка 2: маркеры списка) [ править ]
Эта строка содержит различные типы маркеров списка. Строчные формы римских цифр не были включены ни в исходный GB / T 2312 [20], ни в GB / T 12345, [6], но включены как в кодовую страницу Windows 936 [21], так и в GB 18030 . [19] Знак евро был также добавлен GB 18030. [19]
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ / A_ | Ⅰ 2170 2-1 | Ⅱ 2171 2-2 | Ⅲ 2172 2–3 | Ⅳ 2173 2–4 | Ⅴ 2174 2–5 | Ⅵ 2175 2–6 | Ⅶ 2176 2–7 | Ⅷ 2177 2–8 | Ⅸ 2178 2–9 | Ⅹ 2179 2–10 | 2-11 | 2–12 | 2-13 | 2–14 | 2-15 | |
3_ / B_ | 2–16 | ⒈ 2488 2–17 | ⒉ 2489 2–18 | ⒊ 248A 2-19 | ⒋ 248B 2-20 | ⒌ 248С 2-21 | ⒍ 248D 2-22 | ⒎ 248E 2-23 | ⒏ 248F 2-24 | ⒐ 2490 2-25 | ⒑ 2491 2–26 | ⒒ 2492 2–27 | ⒓ 2493 2–28 | ⒔ 2494 2–29 | ⒕ 2495 2–30 | ⒖ 2496 2–31 |
4_ / C_ | ⒗ 2497 2-32 | ⒘ 2498 2-33 | ⒙ 2499 2-34 | ⒚ 249А 2-35 | ⒛ 249Б 2-36 | ⑴ 2474 2–37 | ⑵ 2475 2–38 | ⑶ 2476 2-39 | ⑷ 2477 2-40 | ⑸ 2478 2-41 | ⑹ 2479 2-42 | ⑺ 247А 2-43 | ⑻ 247Б 2-44 | ⑼ 247C 2-45 | ⑽ 247Д 2-46 | ⑾ 247Е 2-47 |
5_ / D_ | ⑿ 247F 2-48 | ⒀ 2480 2-49 | ⒁ 2481 2–50 | ⒂ 2482 2–51 | ⒃ 2483 2-52 | ⒄ 2484 2–53 | ⒅ 2485 2–54 | ⒆ 2486 2-55 | ⒇ 2487 2-56 | ① 2460 2–57 | ② 2461 2-58 | ③ 2462 2–59 | ④ 2463 2-60 | ⑤ 2464 2-61 | ⑥ 2465 2-62 | ⑦ 2466 2-63 |
6_ / E_ | ⑧ 2467 2-64 | ⑨ 2468 2-65 | ⑩ 2469 2-66 | € 20AC 2-67 | 2-68 | ㈠ 3220 2-69 | ㈡ 3221 2-70 | ㈢ 3222 2-71 | ㈣ 3223 2-72 | ㈤ 3224 2-73 | ㈥ 3225 2-74 | ㈦ 3226 2-75 | ㈧ 3227 2-76 | ㈨ 3228 2-77 | ㈩ 3229 2-78 | 2-79 |
7_ / F_ | 2-80 | Ⅰ 2160 2-81 | Ⅱ 2161 2-82 | Ⅲ 2162 2-83 | Ⅳ 2163 2-84 | Ⅴ 2164 2-85 | Ⅵ 2165 2-86 | Ⅶ 2166 2-87 | Ⅷ 2167 2-88 | Ⅸ 2168 2-89 | Ⅹ 2169 2-90 | Ⅺ 216A 2-91 | Ⅻ 216Б 2-92 | 2-93 | 2-94 |
Письмо Число Пунктуация Символ Другой Неопределенный
Набор символов 0x23 / 0xA3 (строка 3: ISO 646-CN) [ править ]
Эта строка содержит ISO 646-CN (GB / T 1988-80), национальный аналог ASCII . Сравните строку 3 KS X 1001 , которая делает то же самое с версией ISO 646 в Южной Корее , и строку 3 JIS X 0208 и KPS 9566 , которые включают только буквенно-цифровое подмножество, но в том же макете. В следующей таблице приведен ISO 646-CN.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ / A_ | | ! 0021 3-1 | " 0022 3-2 | # 0023 3-3 | ¥ 00A5 3–4 | % 0025 3-5 | & 0026 3-6 | ' 0027 3-7 | ( 0028 3-8 | ) 0029 3-9 | * 002A 3-10 | + 002B 3-11 | , 002C 3-12 | - 002D 3-13 | . 002E 3-14 | / 002F 3-15 |
3_ / B_ | 0 0030 3-16 | 1 0031 3-17 | 2 0032 3-18 | 3 0033 3-19 | 4 0034 3-20 | 5 0035 3-21 | 6 0036 3-22 | 7 0037 3-23 | 8 0038 3-24 | 9 0039 3-25 | : 003A 3-26 | ; 003B 3-27 | < 003C 3-28 | = 003D 3-29 | > 003E 3-30 | ? 003F 3-31 |
4_ / C_ | @ 0040 3-32 | А 0041 3-33 | В 0042 3-34 | С 0043 3-35 | D 0044 3-36 | E 0045 3-37 | Ф 0046 3-38 | G 0047 3-39 | Н 0048 3-40 | I 0049 3-41 | J 004A 3-42 | К 004Б 3-43 | L 004C 3-44 | М 004Д 3-45 | № 004Е 3-46 | О 004F 3-47 |
5_ / D_ | П 0050 3-48 | Q 0051 3-49 | Р 0052 3-50 | С 0053 3-51 | Т 0054 3-52 | U 0055 3-53 | V 0056 3-54 | W 0057 3-55 | 0058 Х 3-56 | Y 0059 3-57 | Z 005A 3-58 | [ 005B 3-59 | \ 005C 3-60 | ] 005D 3-61 | ^ 005E 3-62 | _ 005F 3-63 |
6_ / E_ | ` 0060 3-64 | а 0061 3-65 | б 0062 3-66 | c 0063 3-67 | д 0064 3-68 | е 0065 3-69 | ф 0066 3-70 | г 0067 3-71 | ч 0068 3-72 | я 0069 3-73 | j 006A 3-74 | к 006Б 3-75 | л 006C 3-76 | м 006Д 3-77 | n 006E 3-78 | o 006F 3-79 |
7_ / F_ | п 0070 3-80 | q 0071 3-81 | р 0072 3-82 | S 0073 3-83 | т 0074 3-84 | u 0075 3-85 | v 0076 3-86 | w 0077 3-87 | х 0078 3-88 | y 0079 3-89 | z 007A 3-90 | { 007B 3-91 | | 007C 3-92 | } 007D 3-93 | ~ 203E 3-94 | |
Письмо Число Пунктуация Символ Другой Неопределенный
При использовании в кодировке, допускающей комбинацию с ASCII, например EUC-CN (и его расширенным набором GB 18030 ), эти символы обычно реализуются как символы полной ширины , поэтому используются сопоставления с блоком Halfwidth и Fullwidth Forms , как показано ниже. GB 6345.1 также обрабатывает эту строку как полную ширину и добавляет формы половинной ширины (как указано выше) как строку 10. [1] Apple в основном сопоставляет эту строку с кодовыми точками полной ширины, как показано ниже, но использует сопоставления неполной ширины для надчеркивания и знака юаня как выше. [18]
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ / A_ | ! FF01 3-1 | " FF02 3-2 | # FF03 3-3 | ¥ FFE5 3-4 | % FF05 3-5 | & FF06 3-6 | ' FF07 3-7 | ( FF08 3-8 | ) FF09 3-9 | * FF0A 3-10 | + FF0B 3-11 | , FF0C 3-12 | - FF0D 3-13 | . FF0E 3-14 | / FF0F 3-15 | |
3_ / B_ | 0 FF10 3-16 | 1 FF11 3-17 | 2 FF12 3-18 | 3 FF13 3-19 | 4 FF14 3-20 | 5 FF15 3-21 | 6 FF16 3-22 | 7 FF17 3-23 | 8 FF18 3-24 | 9 FF19 3-25 | : FF1A 3-26 | ; FF1B 3-27 | < FF1C 3-28 | = FF1D 3-29 | > FF1E 3-30 | ? FF1F 3-31 |
4_ / C_ | @ FF20 3-32 | A FF21 3-33 | B FF22 3-34 | C FF23 3-35 | D FF24 3-36 | E FF25 3-37 | F FF26 3-38 | G FF27 3-39 | H FF28 3-40 | I FF29 3-41 | J FF2A 3-42 | K FF2B 3-43 | L FF2C 3-44 | M FF2D 3-45 | N FF2E 3-46 | O FF2F 3-47 |
5_ / D_ | P FF30 3-48 | Q FF31 3-49 | R FF32 3-50 | S FF33 3-51 | T FF34 3-52 | U FF35 3-53 | V FF36 3-54 | W FF37 3-55 | X FF38 3-56 | Y FF39 3-57 | Z FF3A 3-58 | [ FF3B 3-59 | \ FF3C 3-60 | ] FF3D 3-61 | ^ FF3E 3-62 | _ FF3F 3-63 |
6_ / E_ | ` FF40 3-64 | a FF41 3-65 | b FF42 3-66 | c FF43 3-67 | д FF44 3-68 | e FF45 3-69 | f FF46 3-70 | g / ɡ [c] FF47 / 0261 3-71 | h FF48 3-72 | i FF49 3-73 | j FF4A 3-74 | k FF4B 3-75 | л FF4C 3-76 | m FF4D 3-77 | n FF4E 3-78 | o FF4F 3-79 |
7_ / F_ | p FF50 3-80 | q FF51 3-81 | r FF52 3-82 | s FF53 3-83 | t FF54 3-84 | u FF55 3-85 | v FF56 3-86 | w FF57 3-87 | x FF58 3-88 | y FF59 3-89 | г FF5A 3-90 | { FF5B 3-91 | | FF5C 3-92 | } FF5D 3-93 | ¯ FFE3 3-94 |
Письмо Число Пунктуация Символ Другой Неопределенный
Набор символов 0x24 / 0xA4 (строка 4: хирагана) [ править ]
Этот набор содержит хирагану для написания японского языка .
Сравните со строкой 4 JIS X 0208 , которой соответствует эта строка, и строкой 10 KS X 1001 и KPS 9566 , которые используют ту же схему, но в другой строке.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ / A_ | ぁ 3041 4-1 | あ 3042 4-2 | ぃ 3043 4–3 | い 3044 4-4 | ぅ 3045 4–5 | う 3046 4-6 | ぇ 3047 4-7 | え 3048 4–8 | ぉ 3049 4–9 | お 304A 4-10 | か 304B 4-11 | が 304C 4-12 | き 304D 4-13 | ぎ 304E 4-14 | く 304F 4-15 | |
3_ / B_ | ぐ 3050 4–16 | け 3051 4-17 | げ 3052 4-18 | こ 3053 4-19 | ご 3054 4-20 | さ 3055 4-21 | ざ 3056 4-22 | し 3057 4-23 | じ 3058 4-24 | す 3059 4-25 | ず 305A 4-26 | せ 305B 4-27 | ぜ 305C 4-28 | そ 305D 4-29 | ぞ 305E 4-30 | た 305F 4-31 |
4_ / C_ | だ 3060 4-32 | ち 3061 4-33 | ぢ 3062 4-34 | っ 3063 4-35 | つ 3064 4–36 | づ 3065 4–37 | て 3066 4–38 | で 3067 4–39 | と 3068 4-40 | ど 3069 4-41 | な 306А 4-42 | に 306Б 4-43 | ぬ 306С 4-44 | ね 306Д 4-45 | の 306Е 4-46 | は 306Ф 4-47 |
5_ / D_ | ば 3070 4-48 | ぱ 3071 4-49 | ひ 3072 4–50 | び 3073 4-51 | ぴ 3074 4-52 | ふ 3075 4–53 | ぶ 3076 4–54 | ぷ 3077 4-55 | へ 3078 4–56 | べ 3079 4–57 | ぺ 307А 4-58 | ほ 307B 4-59 | ぼ 307C 4-60 | ぽ 307Д 4-61 | ま 307Е 4-62 | み 307Ф 4-63 |
6_ / E_ | む 3080 4–64 | め 3081 4-65 | も 3082 4-66 | ゃ 3083 4-67 | や 3084 4-68 | ゅ 3085 4-69 | ゆ 3086 4-70 | ょ 3087 4-71 | よ 3088 4-72 | ら 3089 4-73 | り 308А 4-74 | る 30 4-75 | れ 308С 4-76 | ろ 308Д 4-77 | ゎ 308Е 4-78 | わ 308Ф 4-79 |
7_ / F_ | ゐ 3090 4-80 | ゑ 3091 4-81 | を 3092 4-82 | ん 3093 4-83 | 4-84 | 4-85 | 4-86 | 4-87 | 4-88 | 4-89 | 4-90 | 4-91 | 4-92 | 4-93 | 4-94 |
Письмо Число Пунктуация Символ Другой Неопределенный
Набор символов 0x25 / 0xA5 (строка 5: Катакана) [ править ]
Этот набор содержит катакану для написания японского языка . Тем не менее, японский долгий гласный знак , который используется в тексте катакана и включен в строку 1 JIS X 0208 , не включен в GB / T 2312, хотя он добавлен в GBK и GB 18030 за пределами основного GB / T 2312. самолет, [23] в 0xA960. [19]
Сравните со строкой 5 JIS X 0208 , которой соответствует эта строка, и со строкой 11 KS X 1001 и KPS 9566 , которые используют тот же макет, но в другой строке.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ / A_ | ァ 30A1 5-1 | ア 30A2 5-2 | ィ 30A3 5-3 | イ 30A4 5-4 | ゥ 30A5 5-5 | ウ 30A6 5-6 | ェ 30A7 5-7 | エ 30A8 5-8 | ォ 30A9 5-9 | オ 30AA 5-10 | カ 30AB 5-11 | ガ 30AC 5-12 | キ 30AD 5-13 | ギ 30 AE 5-14 | ク 30AF 5-15 | |
3_ / B_ | グ 30B0 5-16 | ケ 30B1 5-17 | ゲ 30B2 5-18 | コ 30B3 5-19 | ゴ 30B4 5-20 | サ 30B5 5-21 | ザ 30B6 5-22 | シ 30B7 5-23 | ジ 30B8 5-24 | ス 30B9 5-25 | ズ 30BA 5-26 | セ 30BB 5-27 | ゼ 30BC 5-28 | ソ 30BD 5-29 | ゾ 30BE 5-30 | タ 30BF 5-31 |
4_ / C_ | ダ 30C0 5-32 | チ 30C1 5-33 | ヂ 30C2 5-34 | ッ 30C3 5-35 | ツ 30C4 5-36 | ヅ 30C5 5-37 | テ 30C6 5-38 | デ 30C7 5-39 | ト 30C8 5-40 | ド 30C9 5-41 | ナ 30СА 5-42 | ニ 30CB 5-43 | ヌ 30CC 5-44 | ネ 30CD 5-45 | ノ 30CE 5-46 | ハ 30CF 5-47 |
5_ / D_ | バ 30D0 5-48 | パ 30Д1 5-49 | ヒ 30D2 5-50 | ビ 30D3 5-51 | ピ 30D4 5-52 | フ 30D5 5-53 | ブ 30D6 5-54 | プ 30Д7 5-55 | ヘ 30D8 5-56 | ベ 30D9 5-57 | ペ 30DA 5-58 | ホ 30 дБ 5-59 | ボ 30DC 5-60 | ポ 30ДД 5-61 | マ 30ДЕ 5-62 | ミ 30ДФ 5-63 |
6_ / E_ | ム 30E0 5-64 | メ 30E1 5-65 | モ 30E2 5-66 | ャ 30E3 5-67 | ヤ 30E4 5-68 | ュ 30E5 5-69 | ユ 30E6 5-70 | ョ 30E7 5-71 | ヨ 30E8 5-72 | ラ 30E9 5-73 | リ 30EA 5-74 | ル 30EB 5-75 | レ 30EC 5-76 | ロ 30ЭД 5-77 | ヮ 30EE 5-78 | ワ 30EF 5-79 |
7_ / F_ | ヰ 30F0 5-80 | ヱ 30F1 5-81 | ヲ 30F2 5-82 | ン 30Ф3 5-83 | ヴ 30F4 5-84 | ヵ 30F5 5-85 | ヶ 30Ф6 5-86 | 5-87 | 5-88 | 5-89 | 5-90 | 5-91 | 5-92 | 5-93 | 5-94 |
Письмо Число Пунктуация Символ Другой Неопределенный
Набор символов 0x26 / 0xA6 (строка 6: греческие и вертикальные расширения) [ править ]
Эта строка содержит базовую поддержку современного греческого алфавита без диакритических знаков и последней сигмы .
Заключенные в рамку символы представляют собой формы представления знаков препинания для вертикального письма и не включены в собственно GB / T 2312, но включены в эту строку GB / T 12345, [1] [6] Mac OS Simplified Chinese, [18] и GB 18030. [19] Они рассматриваются как «стандартные расширения к GB 2312». [18] И наоборот, ISO-IR-165 включает в эту строку шаблонные семиграфические символы (в основном без точных аналогов в Unicode), что противоречит позициям кода, используемым для вертикальных расширений. [24]
Сравните со строкой 6 стандарта JIS X 0208 , которой эта строка соответствует, если вертикальные формы не включены, и строкой 6 стандарта KPS 9566 , которая включает те же греческие буквы в том же макете, но добавляет римские цифры, а не вертикальные формы. Контрастная строка 5 KS X 1001 , в которой греческие буквы смещены, чтобы сначала включить римские цифры.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ / A_ | Α 0391 6-1 | Β 0392 6-2 | Γ 0393 6-3 | Δ 0394 6-4 | Ε 0395 6-5 | Ζ 0396 6-6 | Η 0397 6-7 | Θ 0398 6-8 | Ι 0399 6-9 | Κ 039A 6-10 | Λ 039B 6-11 | Μ 039C 6-12 | Ν 039D 6-13 | Ξ 039E 6-14 | Ο 039F 6-15 | |
3_ / B_ | Π 03A0 6-16 | Ρ 03A1 6-17 | Σ 03A3 6-18 | Τ 03A4 6-19 | Υ 03A5 6-20 | Φ 03A6 6-21 | Χ 03A7 6-22 | Ψ 03A8 6-23 | Ом 03A9 6-24 | 6-25 | 6-26 | 6-27 | 6–28 | 6-29 | 6-30 | 6-31 |
4_ / C_ | 6-32 | α 03B1 6-33 | β 03B2 6-34 | γ 03B3 6-35 | δ 03B4 6-36 | ε 03B5 6-37 | ζ 03B6 6-38 | η 03B7 6-39 | θ 03B8 6-40 | ι 03B9 6-41 | κ 03BA 6-42 | λ 03BB 6-43 | μ 03BC 6-44 | ν 03БД 6-45 | ξ 03БЭ 6-46 | ο 03БФ 6-47 |
5_ / D_ | π 03C0 6-48 | ρ 03C1 6-49 | σ 03C3 6-50 | τ 03C4 6-51 | υ 03C5 6-52 | φ 03C6 6-53 | χ 03C7 6-54 | ψ 03C8 6-55 | ω 03C9 6-56 | ︐ [d] FE10 6-57 | ︒ [d] FE12 6-58 | ︑ [d] FE11 6-59 | ︓ [d] FE13 6-60 | ︔ [d] ФЭ14 6-61 | ︕ [d] FE15 6-62 | ︖ [d] ФЭ16 6-63 |
6_ / E_ | ︵ FE35 6-64 | ) FE36 6-65 | ︹ FE39 6-66 | ︺ FE3A 6-67 | ︿ FE3F 6-68 | ﹀ FE40 6-69 | ︽ FE3D 6-70 | ︾ FE3E 6-71 | ﹁ FE41 6-72 | ﹂ FE42 6-73 | ﹃ FE43 6-74 | ﹄ FE44 6-75 | ︗ [d] FE17 6-76 | ︘ [d] FE18 6-77 | ︻ ФЭ3Б 6-78 | ︼ FE3C 6-79 |
7_ / F_ | ︷ FE37 6-80 | ︸ FE38 6-81 | ︱ ФЭ31 6-82 | ︙ [d] ФЭ19 6-83 | ︳ ФЭ33 6-84 | ︴ FE34 6-85 | 6-86 | 6-87 | 6-88 | 6-89 | 6-90 | 6-91 | 6-92 | 6-93 | 6-94 |
Письмо Число Пунктуация Символ Другой Неопределенный
Набор символов 0x27 / 0xA7 (строка 7: кириллица) [ править ]
Этот набор включает оба регистра из 33 букв кириллицы , которых достаточно для написания современного русского алфавита и болгарского алфавита , хотя для других форм кириллицы требуются дополнительные буквы. [25]
Сравните со строкой 7 JIS X 0208 , которой соответствует эта строка, и со строкой 12 KS X 1001 и строкой 5 KPS 9566 , которые используют тот же макет, но в разных строках.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ / A_ | А 0410 7-1 | Б 0411 7-2 | В 0412 7-3 | Г 0413 7-4 | Д 0414 7-5 | Е 0415 7-6 | Ё 0401 7-7 | Ж 0416 7-8 | З 0417 7-9 | И 0418 7-10 | № 0419 7-11 | К 041A 7-12 | Л 041B 7-13 | М 041C 7-14 | Н 041D 7-15 | |
3_ / B_ | О 041E 7-16 | П 041F 7-17 | Р 0420 7-18 | С 0421 7-19 | Т 0422 7-20 | У 0423 7-21 | Ф 0424 7-22 | Х 0425 7-23 | Ц 0426 7-24 | Ч 0427 7-25 | Ш 0428 7-26 | Щ 0429 7-27 | Ъ 042А 7-28 | Ы 042B 7-29 | Ь 042C 7-30 | Э 042D 7-31 |
4_ / C_ | Ю 042E 7-32 | Я 042F 7-33 | 7-34 | 7-35 | 7-36 | 7-37 | 7-38 | 7-39 | 7-40 | 7-41 | 7-42 | 7-43 | 7-44 | 7-45 | 7-46 | 7-47 |
5_ / D_ | 7-48 | а 0430 7-49 | б 0431 7-50 | в 0432 7-51 | г 0433 7-52 | д 0434 7-53 | е 0435 7-54 | ё 0451 7-55 | ж 0436 7-56 | з 0437 7-57 | и 0438 7-58 | © 0439 7-59 | к 043A 7-60 | л 043Б 7-61 | м 043C 7-62 | н 043D 7-63 |
6_ / E_ | о 043E 7-64 | п 043F 7-65 | р 0440 7-66 | с 0441 7-67 | т 0442 7-68 | у 0443 7-69 | ф 0444 7-70 | х 0445 7-71 | ц 0446 7-72 | ч 0447 7-73 | ш 0448 7-74 | по 0449 7-75 | ъ 044А 7-76 | ы 044Б 7-77 | ь 044С 7-78 | э 044D 7-79 |
7_ / F_ | ю 044E 7-80 | я 044F 7-81 | 7-82 | 7-83 | 7-84 | 7-85 | 7-86 | 7-87 | 7-88 | 7-89 | 7-90 | 7-91 | 7-92 | 7-93 | 7-94 |
Письмо Число Пунктуация Символ Другой Неопределенный
Набор символов 0x28 / 0xA8 (строка 8: чжуинь и пиньинь, отличная от ASCII) [ править ]
Эта строка содержит символы bopomofo и pinyin , за исключением букв ASCII (которые находятся в строке 3). Символы в штучной упаковке не входят в базовый набор GB 2312, но добавлены в GB 6345.1 , [18], а также включены в GB / T 12345, [1] [6] Упрощенный китайский язык Mac OS [18] и GB 18030. [19] Они рассматриваются как «стандартные расширения к GB 2312». [18]
GB 6345.1 рассматривает пиньинь в этой строке как полную ширину и включает в себя аналоги половинной ширины как строку 11; [1] GB 18030 этого не делает.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ / A_ | ā 0101 8-1 | á 00E1 8-2 | ǎ 01CE 8-3 | à 00E0 8-4 | ē 0113 8-5 | é 00E9 8-6 | ě 011B 8-7 | è 00E8 8-8 | ī 012B 8-9 | í 00ED 8-10 | Й. 01D0 8-11 | ì 00EC 8-12 | ō 014D 8-13 | ó 00F3 8-14 | ǒ 01D2 8-15 | |
3_ / B_ | ò 00F2 8-16 | ū 016B 8-17 | ú 00FA 8-18 | ǔ 01D4 8-19 | ù 00F9 8-20 | ǖ 01D6 8-21 | ǘ 01D8 8-22 | ǚ 01DA 8-23 | ǜ 01ДЦ 8-24 | ü 00FC 8-25 | ê 00EA 8-26 | ɑ 0251 8-27 | ḿ [e] 1E3F 8-28 | № 0144 8-29 | ň 0148 8-30 | ǹ [f] 01F9 8-31 |
4_ / C_ | ɡ / g[г] 0261 / FF47 8-32 | 8-33 | 8-34 | 8-35 | 8-36 | ㄅ 3105 8-37 | ㄆ 3106 8-38 | ㄇ 3107 8-39 | ㄈ 3108 8-40 | ㄉ 3109 8-41 | ㄊ 310А 8-42 | ㄋ 310Б 8-43 | ㄌ 310C 8-44 | ㄍ 310Д 8-45 | ㄎ 310Е 8-46 | ㄏ 310F 8-47 |
5_ / D_ | ㄐ 3110 8-48 | ㄑ 3111 8-49 | ㄒ 3112 8-50 | ㄓ 3113 8-51 | ㄔ 3114 8-52 | ㄕ 3115 8-53 | ㄖ 3116 8-54 | ㄗ 3117 8-55 | ㄘ 3118 8-56 | ㄙ 3119 8–57 | ㄚ 311A 8-58 | ㄛ 311B 8-59 | ㄜ 311C 8-60 | ㄝ 311D 8-61 | ㄞ 311Е 8-62 | ㄟ 311F 8-63 |
6_ / E_ | ㄠ 3120 8-64 | ㄡ 3121 8-65 | ㄢ 3122 8-66 | ㄣ 3123 8-67 | ㄤ 3124 8-68 | ㄥ 3125 8-69 | ㄦ 3126 8-70 | ㄧ 3127 8-71 | ㄨ 3128 8-72 | ㄩ 3129 8-73 | 8-74 | 8-75 | 8-76 | 8-77 | 8-78 | 8-79 |
7_ / F_ | 8-80 | 8-81 | 8-82 | 8-83 | 8-84 | 8-85 | 8-86 | 8-87 | 8-88 | 8-89 | 8-90 | 8-91 | 8-92 | 8-93 | 8-94 |
Письмо Число Пунктуация Символ Другой Неопределенный
Набор символов 0x29 / 0xA9 (строка 9: рисунок рамки) [ править ]
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ / A_ | 9-1 | 9-2 | 9-3 | ─ 2500 9-4 | ━ 2501 9–5 | │ 2502 9-6 | ┃ 2503 9–7 | ┄ 2504 9–8 | ┅ 2505 9–9 | ┆ 2506 9–10 | ┇ 2507 9–11 | ┈ 2508 9–12 | ┉ 2509 9–13 | ┊ 250А 9-14 | ┋ 250B 9-15 | |
3_ / B_ | ┌ 250C 9-16 | ┍ 250D 9-17 | ┎ 250E 9-18 | ┏ 250F 9-19 | ┐ 2510 9-20 | ┑ 2511 9–21 | ┒ 2512 9–22 | ┓ 2513 9–23 | └ 2514 9–24 | ┕ 2515 9–25 | ┖ 2516 9–26 | ┗ 2517 9–27 | ┘ 2518 9–28 | ┙ 2519 9–29 | ┚ 251A 9-30 | ┛ 251Б 9-31 |
4_ / C_ | ├ 251C 9-32 | ┝ 251D 9-33 | ┞ 251Е 9-34 | ┟ 251F 9-35 | ┠ 2520 9–36 | ┡ 2521 9–37 | ┢ 2522 9–38 | ┣ 2523 9–39 | ┤ 2524 9-40 | ┥ 2525 9-41 | ┦ 2526 9-42 | ┧ 2527 9-43 | ┨ 2528 9–44 | ┩ 2529 9–45 | ┪ 252А 9-46 | ┫ 252Б 9-47 |
5_ / D_ | ┬ 252C 9-48 | ┭ 252Д 9-49 | ┮ 252E 9-50 | ┯ 252F 9-51 | ┰ 2530 9–52 | ┱ 2531 9–53 | ┲ 2532 9–54 | ┳ 2533 9-55 | ┴ 2534 9–56 | ┵ 2535 9–57 | ┶ 2536 9–58 | ┷ 2537 9–59 | ┸ 2538 9–60 | ┹ 2539 9-61 | ┺ 253А 9-62 | ┻ 253Б 9-63 |
6_ / E_ | ┼ 253C 9-64 | ┽ 253Д 9-65 | ┾ 253Е 9-66 | ┿ 253F 9-67 | ╀ 2540 9–68 | ╁ 2541 9-69 | ╂ 2542 9-70 | ╃ 2543 9-71 | ╄ 2544 9-72 | ╅ 2545 9-73 | ╆ 2546 9-74 | ╇ 2547 9-75 | ╈ 2548 9-76 | ╉ 2549 9-77 | ╊ 254А 9-78 | ╋ 254Б 9-79 |
7_ / F_ | 9-80 | 9-81 | 9-82 | 9-83 | 9-84 | 9-85 | 9-86 | 9-87 | 9-88 | 9-89 | 9-90 | 9-91 | 9-92 | 9-93 | 9-94 |
Письмо Число Пунктуация Символ Другой Неопределенный
Ряды Ханзи [ править ]
Включение нестандартных иероглифов упрощенного китайского и традиционного китайского [ править ]
GB / T 2312 включает 2 нестандартных символа упрощенного китайского языка :
- 渖(68-41): Упрощенный из «审[審] », но полный список упрощенных символов ( китайский язык :简化字总表; пиньинь : Jiǎnhuà Zi Zǒng Biǎo ) слил «瀋» с «沈». Старые версии Синьхуа Зидянь ( китайский :新华 字典; пиньинь : Xīnhuá Zìdiǎn ) включали это слово и отмечали как сок ( китайский :汁; пиньинь : zhì ), в новых версиях это отменяли и объединяли «渖» с «沈». [27]
- 镟(79-64): Упрощенный из «钅[釒] », но полный список упрощенных символов слил «鏇» с «旋».
GB / T 2312 также включает 3 традиционных китайских иероглифа :
- 鍾(79–81): в исходном документе использовался символ «鍾» с традиционной частью, но Полный список упрощенных символов объединял «鍾» с «鐘» и был упрощен до «钟», в более поздних шаблонах слово было изменено на «锺». [примечание 1]
- 後(65–65): символ, объединенный с «后» (26–83) в Полном списке упрощенных символов , и не имел никаких примечаний о нечетком использовании, но GB / T 2312 включил этот символ. [28]
- 麴(84-80): Исходный документ используется символ «麴» с традиционной части, но полный список упрощённый заявил , что «麥» должна быть упрощена до «麦»; соответствующий символ упрощенного китайского языка «麹» был передан в Unicode Японией как синдзитай «麹». Полный список упрощенных символов включает «麹» на 2013 г .: 7748.
Исправления [ править ]
GB 5007.1-85 24x24 Bitmap Font Набор китайских иероглифов для обмена информацией ( китайский :信息 交换 用 汉字 24x24 点阵 字模 集), который представляет собой шаблон шрифта, основанный на GB / T 2312, включает несколько исправлений, в том числе:
- изменение формы глифа латинского алфавита "g"
- добавление 6 символов Ханю Пиньинь : ɑ , ḿ , ń , ň , ǹ , ɡ [примечание 2]
- изменил «鍾» на «锺», заменил «麴» на «麹»
- включены 94 символа полуширины в строке 10 (форма полуширины строки 3, эквивалент GB 1988–80
- включены полуширины 32 знаков Ханью Пиньинь из строки 8 в строке 11.
GB / T 2312 не содержит исправлений, но эти исправления включены в шаблоны шрифтов, основанные на GB / T 2312, включая GB / T 12345; его расширенные наборы GBK и GB 18030 также включали эти исправления. GB / T 2312 также используется в ISO-IR-165 .
См. Также [ править ]
- Код Гуобяо
- CJK
- Кодировка китайских символов
- Юникод
- Big5 - стандарт, используемый в Тайване и Гонконге
- GB 18030 , который заменил GB / T 2312-1980
- GB / T 12345-1990, традиционный аналог GB / T 2312-1980, замененный GB18030
Ссылки [ править ]
- ^ Б с д е е Лунде, Кен (2009). Обработка информации CJKV: вычисления на китайском, японском, корейском и вьетнамском языках (2-е изд.). Севастополь, Калифорния : О'Рейли . С. 94–111. ISBN 978-0-596-51447-1.
- ^ «2017 年 第 7 号 中国 国家 标准 公告 (Бюллетень национальных стандартов Китая 2017 № 7)» . Управление стандартизации Китайской Народной Республики . Проверено 3 июля 2018 .
- ^ «Распределение кодировок символов среди веб-сайтов, использующих Китай и территории» . w3techs.com . Проверено 1 марта 2021 .
- ^ «Исторические тенденции использования кодировок символов, июнь 2020 г.» . w3techs.com . Проверено 1 июня 2020 .
- ^ «Кодирование: Обобщенные результаты испытаний» . www.w3.org . Проверено 15 ноября 2019 .
- ^ a b c d Лунде, Кен (1998). Приложение F: GB / T 12345 (PDF) . CJKV Обработка информации . O'Reilly Media . ISBN 9781565922242.
- ^ GB12345-80 в таблицу Unicode . Консорциум Unicode . 1993-12-06. Архивировано из оригинала на 2004-06-17.
- ^ Hannas, Уильям С. (1997). Орфографическая дилемма Азии . Гавайский университет Press. п. 264.
Набор обеспечивает более 99,99% всего использования.
Тем не менее, дизайнеры сочли необходимым добавить 14 276 символов «специального использования» для покрытия непредвиденных обстоятельств!
- ^ https://archive.org/details/GB2312-1980/page/n17
- ^ https://web.archive.org/web/20160303230643/http://cs.nyu.edu/~yusuke/tools/unicode_to_gb2312_or_gbk_table.html
- ^ «GB 2312-1980: Информационные технологии - набор символов китайской идеограммы для обмена информацией (базовый набор)» . Проверено 2 октября +2016 .
- ^ a b Хейбл, Бруно. «GB2312 (Таблицы преобразования)» . Проверено 29 сентября 2016 года .
- ^ "Readme - КАРТЫ / УСТАРЕВШИЕ / EASTASIA" . 9 августа 2001 . Проверено 29 сентября 2016 года .
- ^ "java-EUC_CN-1.3_P.ucm" . Проверено 29 сентября 2016 года .[ постоянная мертвая ссылка ]
- ^ "libiconv: lib / gb2312.h" . GNU Savannah . Проверено 29 сентября 2016 года .
- ^ "Проблема 24036" . Отслеживание ошибок Python .
- ^ «Кодировка § Имена и метки» . W3C . Проверено 29 сентября 2016 года .
- ^ a b c d e f g h i j "Карта (внешняя версия) из китайской упрощенной кодировки Mac OS в Unicode 3.0 и выше" . Яблоко, Inc .
- ^ a b c d e f g h i j Управление по стандартизации Китая (SAC) (2005-11-18). GB 18030-2005: Информационные технологии - набор символов китайского кодирования .
- ^ Китайская ассоциация по стандартизации . Набор китайских кодированных графических символов для обмена информацией (PDF) . ITSCJ / IPSJ . ISO-IR -68.
- ^ Microsoft . «CODEPAGE 936: PRC GBK (XGB) - ANSI, OEM» . Консорциум Unicode .
- ^ а б Вишванадха, Рагурам (2000-08-30). «Таблица Unicode в ISO-IR-165» . Международные компоненты для Unicode . IBM .
- ^ Лунде, Кен (2009). «Персонажи, которые кажутся пропавшими без вести». Обработка информации CJKV: вычисления на китайском, японском, корейском и вьетнамском языках (2-е изд.). Севастополь, Калифорния : О'Рейли . п. 180. ISBN 978-0-596-51447-1.
- ^ a b CCITT (13 июля 1992 г.). Коды китайского графического набора символов для связи (PDF) . ITSCJ / IPSJ . ISO-IR -165.
- ^ Czyborra, Роман (1998-11-30) [1998-05-25]. «Суп с кириллической кодировкой» . Архивировано 3 декабря 2016 года . Проверено 3 декабря 2016 .
- ^ «Политика стабильности кодировки символов Unicode» . Консорциум Unicode. 2017-06-23.
- ^ "「 瀋 」的 類推 簡化「 渖 」用於 場合? - 乎" . www.zhihu.com (на китайском языке) . Проверено 22 декабря 2020 .
- ^ "GB2312 字符 集 为何 有「 後 」字? - 知 乎" . www.zhihu.com (на китайском языке) . Проверено 22 декабря 2020 .
Заметки [ править ]
- ^ Только для идеограмм, охватываемых GB / T 2312, все они попадают в Unicode BMP
- ^ a b В качестве набора символов 94 n, совместимого с ISO 2022 , простой пробел и символ удаления доступны как однобайтовые коды в 0x20 и 0x7F (не 0xA0 и 0xFF) соответственно.
- ^ Используется для U + FF47 в GB 6345.1 и GB 18030 (которые используют 8-32 для U + 0261), [19], но для U + 0261 в ISO-IR-165 . [22] Первоначальный эталонный глиф GB 2312-80 напоминал U + 0261, но он был изменен GB 6345.1. [1]
- ^ a b c d e f g h i j Эти символы взяты из блока Vertical Forms . Некоторые используемые сопоставления были разработаны, когда единственными формами вертикального представления, существовавшими в Unicode, были формы в блоке CJK Compatibility Forms . В частности, GB 18030 сопоставляет их с областью частного использования , но с определенным глифом [19], а Apple - с обычным полноширинным символом с добавленным символом частного использования U + F87E в качестве маркера вариации. [18]
- ^ Подключенный к частному использованию зоны U + E7C7 первого (2000) издания GB 18030 ; это было исправлено изданием 2005 года. [19]
- ^ Этот составной символ был добавлен в Unicode 3.0. До этого этот символ был сопоставлен с его составной последовательностью (например, U + 006E + 0300 ) Apple. [18] Это изменение предшествует стабилизацииформ нормализации Unicode , которая была введена в Unicode 3.1. [26]
- ^ Используется для U + 0261 в GB 6345.1 [18] и GB 18030 [19] (которые используют 3-71 для U + FF47), но для U + FF47 в ISO-IR-165. [22] [24]
- ^ Список форм символов общеупотребительных китайских иероглифов для публикации ( китайский :印刷 通用 汉字 字形 表; пиньинь : Yìnshuà Tōngyòng Hànzì Zìxíngbiǎo ) в 1964 году отметил, что锺может использоваться в именах и цитировании классических китайских текстов, Таблица общих стандартных китайских иероглифов ( Китайский :通用 規範 漢字 表; пиньинь : Tōngyòng Guīfàn Hànzì Biǎo ) в 2013 году принял锺(2013: 7679) для использования в именах.
- ^ ɑ (U + 0251)
ḿ (U + 1E3F ; Отправлено в Unicode 3.0, поэтому CP936 не включает этот символ [1] [ постоянная мертвая ссылка ] )
ń (U + 0144)
ň (U + 0148)
ǹ (U + 01F9 ; Отправлено в Unicode 3.0, поэтому CP936 не включает этот символ [2] [ постоянная мертвая ссылка ] )
ɡ (U + 0261)
Дальнейшее чтение [ править ]
- Лунде, Кен (2009). «Стандарты набора символов китайского языка - Китай» . CJKV Обработка информации (2-е изд.). О'Рейли. ISBN 978-0-596-51447-1.
Внешние ссылки [ править ]
- Графический вид GB2312 в проводнике конвертеров ICU
- Unicode в таблицу GB2312 или GBK
- Коды китайских иероглифов
- Эволюция GBK и GB2312 в GB18030
- GB2312 Набор символов для китайских иероглифов
- Кодированный набор китайских графических символов для обмена информацией ISO-IR 58
- Код C генерирует 6763 базовых символа с выводом
- Стандарт GB2312-80 на China-Language.gov.cn