Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

GB / T 2312-1980 является ключевым официальным набором символов из Народной Республики Китая , используется для персонажей упрощенного китайских . GB2312 - это зарегистрированное Интернет-имя для EUC-CN , которое является его обычной закодированной формой. GB относится к стандартам Гоих (国家标准),то время как Т - суффикс (推荐; tuījiàn ; «рекомендация») обозначает необязательный стандарт. [1]

GB / T 2312-1980 изначально был обязательным национальным стандартом, обозначенным как GB 2312-1980 . Однако в соответствии с Национальным стандартным бюллетенем Китайской Народной Республики в 2017 году GB 2312 больше не является обязательным, а его стандартный код изменен на GB / T 2312-1980 . [2] GB / T 2312-1980 был заменен на GBK и GB18030 , которые включают дополнительные символы, но GB / T 2312 по- прежнему широко используется в качестве подмножества этих кодировок.

По состоянию на март 2021 года GB2312 является самой популярной заявленной кодировкой для китайского языка в Интернете, при этом 9,9% веб-страниц обслуживаются из Китая и территорий, заявивших об этом, [3] или 0,2% всех веб-страниц в мире, что ниже 3,5%. в январе 2010 года. [4] Однако обратите внимание, что все основные веб-браузеры декодируют документы, помеченные, например, как «GB2312» или « GB 2312 » (хотя не все для «GB_2312»), как если бы они были помечены как « gbk », [5] что является расширенным кодированием, и на долю GB 2312 и GBK в совокупности приходится 10,6% (или 0,3% в мире).

Существует аналогичный набор символов, известный как GB / T 12345 , тесно связанный с GB / T 2312, но с традиционными формами символов, заменяющими упрощенные формы, и некоторыми дополнительными 62 дополнительными символами. [6] [7] Шрифты с кодировкой GB часто идут парами: один с набором символов GB / T 2312 (упрощенный), а другой с набором символов GB / T 12345 (традиционный).

Персонажи [ править ]

В то время как GB / T 2312 охватывает более 99,99% использования современных китайских текстов [8], исторические тексты и многие имена остаются за рамками. Старый GB 2312 стандарт включает в себя 6,763 китайских иероглифов (на два уровнях: первый устраиваются чтение, второго по радикальному тому числу ходов), наряду с символами и знаками препинания, японская кана , то греческие и алфавиты кириллицы , Zhuyin и двойное -байтный набор букв пиньинь с тоновыми отметками. В более поздней версии GB / T 2312-1980 есть 7445 букв.

Символы в GB / T 2312 расположены в сетке 94x94 (как в ISO 2022 ), а двухбайтовая кодовая точка каждого символа выражена в форме kuten (или quwei), которая определяет строку (ku или qu) и положение символа в строке (ячейка, десятка или вэй).

Строки (пронумерованные от 1 до 94) содержат следующие символы:

  • 01–09, включая знаки препинания и другие специальные символы; также хирагана , катакана , греческий , кириллица , пиньинь , бопомофо
  • 16–55, первый уровень китайских иероглифов , расположенный в соответствии с пиньинь . (3755 знаков).
  • 56–87, второй уровень китайских иероглифов, расположенных по корню и штрихам. (3008 знаков).
  • 88–89, далее китайские иероглифы. (103 символа). Определено только для GB / T 12345, но не для GB / T 2312.

Строки 10–15 и 90–94 не назначены.

Для GB / T 2312-1980 он содержит 682 знака и 6763 китайских иероглифа.

Кодировки GB / T 2312 [ править ]

EUC-CN [ править ]

EUC-CN часто используется в качестве кодировки символов (например, для внешнего хранилища) в программах, работающих с GB / T 2312, таким образом поддерживая совместимость с ASCII . Два байта используются для представления каждого символа, не найденного в ASCII . Значение первого байта - от 0xA1–0xF7 (161–247), а значение второго байта - от 0xA1–0xFE (161–254). Поскольку все эти диапазоны выходят за рамки ASCII, например UTF-8, можно проверить, является ли байт частью многобайтовой конструкции при использовании EUC-CN, но не является ли байт первым или последним.

По сравнению с UTF-8 , GB2312 (встроенный или закодированный в EUC-CN) более эффективен при хранении: в то время как UTF-8 использует три байта [a] на идеограмму CJK , GB2312 использует только два. Однако GB2312 не охватывает столько идеограмм, сколько Unicode.

Чтобы сопоставить точки кода kuten с байтами, добавьте 160 (0xA0) к номеру строки (ku, разряды 1000 и 100) кодовой точки, чтобы сформировать старший байт, и добавьте 160 к номеру столбца (десять, 10 и 1-е место) кодовой точки для формирования младшего байта.

Например, если у вас есть кодовая точка 4566 GB / T 2312 («外», [9], что означает чужой), старший байт будет использовать номер строки 45: 45 + 160 = 205 = 0xCD, а младший байт будет из столбца 66: 66 + 160 = 212 = 0xE2. Итак, полная кодировка - 0xCDE2. [10]

HZ [ править ]

HZ - это еще одна кодировка GB 2312, которая используется в основном для сообщений Usenet .

Таблицы кодов [ править ]

В таблицах ниже, где пара шестнадцатеричных чисел дана для байта префикса или байта кодирования, меньший (с неустановленным или недоступным восьмым битом) используется при кодировании по GL ( 0x 21-0x7E), как в ISO- 2022-CN или HZ-GB-2312 , а больший (с восьмым набором битов) используется в более типичном случае кодирования через GR (0xA1-0xFE), как в EUC-CN , GBK или GB 18030 . Числа Qūwèi даны в десятичном формате .

Когда GB / T 2312 кодируется через GR, оба байта имеют восьмой бит (т. Е. Больше 0x7F). GBK и GB 18030 также используют двухбайтовые коды, в которых только первый байт имеет восьмой бит, установленный для целей расширения: такие коды находятся вне плоскости GB / T 2312 и не приводятся здесь в таблице.

Ведущий байт [ править ]

На этой диаграмме подробно описана общая компоновка основной плоскости набора символов GB / T 2312 по старшим байтам. Для ведущих байтов, используемых для символов, отличных от hanzi , предоставляются ссылки на диаграммы на этой странице, в которых перечислены символы, закодированные под этим ведущим байтом. Для ведущих байтов, используемых для hanzi, предоставляются ссылки на соответствующий раздел индекса hanzi Викисловаря .

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Строки, не относящиеся к Ханзи [ править ]

В следующих картирует не- Ханзи символы доступны в GB / T 2312, в GB / T 12345, а также в двухбайтовой области 1 GB 18030 (что примерно соответствует не-Ханзи области GB / T 2312). Сделаны примечания, где они отличаются, и где GB 6345.1 и ISO-IR-165 отличаются от них. Для сравнения сделаны перекрестные ссылки на статьи о других наборах национальных символов CJK.

Две реализации GB2312 [ править ]

Отображение Unicode интерпункта ( китайский :间隔 点; букв. «Разделительная точка») и длинного тире ( китайский :破折号) в подмножестве GBK и GB 18030, соответствующих GB / T 2312 ( U + 00B7 · MIDDLE DOT и U + 2014 - EM DASH ) отличаются от файлов, перечисленных в GB2312.TXT ( U + 30FBKATAKANA MIDDLE DOT и U + 2015 - HORIZONTAL BAR ), который представляет собой файл данных, который ранее был предоставлен Консорциумом Unicode. , [12], хотя он был признан устаревшим с августа 2011 года [13] и больше не размещается с сентября 2016 года.

По состоянию на 2015 год Microsoft .Net Framework следует сопоставлениям GB 18030 при сопоставлении этих двух символов в данных, помеченных gb2312, тогда как ICU , [14] iconv-1.14, [15] php-5.6, ActivePerl-5.20, Java 1.7 и Python 3.4 [16] следуйте GB2312.TXT в ответ на gb2312этикетку. Ruby 2.2 совместим с обеими реализациями; он внутренне преобразует конфликтующие символы в подмножество GB 18030. Консорциума W3C / WHATWG техническая рекомендация для использования с HTML5 , Специфицирует GBK кодирования , чтобы сделать вывод для потоков меченых gb2312, которые , в свою очередь , использует декодер GB18030. [17]

Другие различные сопоставления были определены и использовались отдельными поставщиками [12], в том числе от Apple . [18]

Набор символов 0x21 / 0xA1 (строка 1: знаки препинания и символы) [ править ]

Эта строка содержит знаки препинания, математические операторы и другие символы. В следующей таблице сначала показаны сопоставления GB 18030 [19] для этих символов GB / T 2312, а затем любые другие задокументированные сопоставления.

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x22 / 0xA2 (строка 2: маркеры списка) [ править ]

Эта строка содержит различные типы маркеров списка. Строчные формы римских цифр не были включены ни в исходный GB / T 2312 [20], ни в GB / T 12345, [6], но включены как в кодовую страницу Windows 936 [21], так и в GB 18030 . [19] Знак евро был также добавлен GB 18030. [19]

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x23 / 0xA3 (строка 3: ISO 646-CN) [ править ]

Эта строка содержит ISO 646-CN (GB / T 1988-80), национальный аналог ASCII . Сравните строку 3 KS X 1001 , которая делает то же самое с версией ISO 646 в Южной Корее , и строку 3 JIS X 0208 и KPS 9566 , которые включают только буквенно-цифровое подмножество, но в том же макете. В следующей таблице приведен ISO 646-CN.

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

При использовании в кодировке, допускающей комбинацию с ASCII, например EUC-CN (и его расширенным набором GB 18030 ), эти символы обычно реализуются как символы полной ширины , поэтому используются сопоставления с блоком Halfwidth и Fullwidth Forms , как показано ниже. GB 6345.1 также обрабатывает эту строку как полную ширину и добавляет формы половинной ширины (как указано выше) как строку 10. [1] Apple в основном сопоставляет эту строку с кодовыми точками полной ширины, как показано ниже, но использует сопоставления неполной ширины для надчеркивания и знака юаня как выше. [18]

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x24 / 0xA4 (строка 4: хирагана) [ править ]

Этот набор содержит хирагану для написания японского языка .

Сравните со строкой 4 JIS X 0208 , которой соответствует эта строка, и строкой 10 KS X 1001 и KPS 9566 , которые используют ту же схему, но в другой строке.

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x25 / 0xA5 (строка 5: Катакана) [ править ]

Этот набор содержит катакану для написания японского языка . Тем не менее, японский долгий гласный знак , который используется в тексте катакана и включен в строку 1 JIS X 0208 , не включен в GB / T 2312, хотя он добавлен в GBK и GB 18030 за пределами основного GB / T 2312. самолет, [23] в 0xA960. [19]

Сравните со строкой 5 JIS X 0208 , которой соответствует эта строка, и со строкой 11 KS X 1001 и KPS 9566 , которые используют тот же макет, но в другой строке.

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x26 / 0xA6 (строка 6: греческие и вертикальные расширения) [ править ]

Эта строка содержит базовую поддержку современного греческого алфавита без диакритических знаков и последней сигмы .

Заключенные в рамку символы представляют собой формы представления знаков препинания для вертикального письма и не включены в собственно GB / T 2312, но включены в эту строку GB / T 12345, [1] [6] Mac OS Simplified Chinese, [18] и GB 18030. [19] Они рассматриваются как «стандартные расширения к GB 2312». [18] И наоборот, ISO-IR-165 включает в эту строку шаблонные семиграфические символы (в основном без точных аналогов в Unicode), что противоречит позициям кода, используемым для вертикальных расширений. [24]

Сравните со строкой 6 стандарта JIS X 0208 , которой эта строка соответствует, если вертикальные формы не включены, и строкой 6 стандарта KPS 9566 , которая включает те же греческие буквы в том же макете, но добавляет римские цифры, а не вертикальные формы. Контрастная строка 5 KS X 1001 , в которой греческие буквы смещены, чтобы сначала включить римские цифры.

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x27 / 0xA7 (строка 7: кириллица) [ править ]

Этот набор включает оба регистра из 33 букв кириллицы , которых достаточно для написания современного русского алфавита и болгарского алфавита , хотя для других форм кириллицы требуются дополнительные буквы. [25]

Сравните со строкой 7 JIS X 0208 , которой соответствует эта строка, и со строкой 12 KS X 1001 и строкой 5 KPS 9566 , которые используют тот же макет, но в разных строках.

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x28 / 0xA8 (строка 8: чжуинь и пиньинь, отличная от ASCII) [ править ]

Эта строка содержит символы bopomofo и pinyin , за исключением букв ASCII (которые находятся в строке 3). Символы в штучной упаковке не входят в базовый набор GB 2312, но добавлены в GB 6345.1 , [18], а также включены в GB / T 12345, [1] [6] Упрощенный китайский язык Mac OS [18] и GB 18030. [19] Они рассматриваются как «стандартные расширения к GB 2312». [18]

GB 6345.1 рассматривает пиньинь в этой строке как полную ширину и включает в себя аналоги половинной ширины как строку 11; [1] GB 18030 этого не делает.

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x29 / 0xA9 (строка 9: рисунок рамки) [ править ]

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Ряды Ханзи [ править ]

Включение нестандартных иероглифов упрощенного китайского и традиционного китайского [ править ]

GB / T 2312 включает 2 нестандартных символа упрощенного китайского языка :

  • (68-41): Упрощенный из «审[審] », но полный список упрощенных символов ( китайский язык :简化字总表; пиньинь : Jiǎnhuà Zi Zǒng Biǎo ) слил «» с «». Старые версии Синьхуа Зидянь ( китайский :新华 字典; пиньинь : Xīnhuá Zìdiǎn ) включали это слово и отмечали как сок ( китайский :; пиньинь : zhì ), в новых версиях это отменяли и объединяли «» с «». [27]
  • (79-64): Упрощенный из «钅[釒] », но полный список упрощенных символов слил «» с «».

GB / T 2312 также включает 3 традиционных китайских иероглифа :

  • (79–81): в исходном документе использовался символ «» с традиционной частью, но Полный список упрощенных символов объединял «» с «» и был упрощен до «», в более поздних шаблонах слово было изменено на «». [примечание 1]
  • (65–65): символ, объединенный с «» (26–83) в Полном списке упрощенных символов , и не имел никаких примечаний о нечетком использовании, но GB / T 2312 включил этот символ. [28]
  • (84-80): Исходный документ используется символ «» с традиционной части, но полный список упрощённый заявил , что «» должна быть упрощена до «»; соответствующий символ упрощенного китайского языка «» был передан в Unicode Японией как синдзитай «». Полный список упрощенных символов включает «» на 2013 г .: 7748.

Исправления [ править ]

GB 5007.1-85 24x24 Bitmap Font Набор китайских иероглифов для обмена информацией ( китайский :信息 交换 用 汉字 24x24 点阵 字模 集), который представляет собой шаблон шрифта, основанный на GB / T 2312, включает несколько исправлений, в том числе:

  • изменение формы глифа латинского алфавита "g"
  • добавление 6 символов Ханю Пиньинь : ɑ , ḿ , ń , ň , ǹ , ɡ [примечание 2]
  • изменил «» на «», заменил «» на «»
  • включены 94 символа полуширины в строке 10 (форма полуширины строки 3, эквивалент GB 1988–80
  • включены полуширины 32 знаков Ханью Пиньинь из строки 8 в строке 11.

GB / T 2312 не содержит исправлений, но эти исправления включены в шаблоны шрифтов, основанные на GB / T 2312, включая GB / T 12345; его расширенные наборы GBK и GB 18030 также включали эти исправления. GB / T 2312 также используется в ISO-IR-165 .

См. Также [ править ]

  • Код Гуобяо
  • CJK
  • Кодировка китайских символов
  • Юникод
  • Big5  - стандарт, используемый в Тайване и Гонконге
  • GB 18030 , который заменил GB / T 2312-1980
  • GB / T 12345-1990, традиционный аналог GB / T 2312-1980, замененный GB18030

Ссылки [ править ]

  1. ^ Б с д е е Лунде, Кен (2009). Обработка информации CJKV: вычисления на китайском, японском, корейском и вьетнамском языках (2-е изд.). Севастополь, Калифорния : О'Рейли . С. 94–111. ISBN 978-0-596-51447-1.
  2. ^ «2017 年 第 7 号 中国 国家 标准 公告 (Бюллетень национальных стандартов Китая 2017 № 7)» . Управление стандартизации Китайской Народной Республики . Проверено 3 июля 2018 .
  3. ^ «Распределение кодировок символов среди веб-сайтов, использующих Китай и территории» . w3techs.com . Проверено 1 марта 2021 .
  4. ^ «Исторические тенденции использования кодировок символов, июнь 2020 г.» . w3techs.com . Проверено 1 июня 2020 .
  5. ^ «Кодирование: Обобщенные результаты испытаний» . www.w3.org . Проверено 15 ноября 2019 .
  6. ^ a b c d Лунде, Кен (1998). Приложение F: GB / T 12345 (PDF) . CJKV Обработка информации . O'Reilly Media . ISBN  9781565922242.
  7. ^ GB12345-80 в таблицу Unicode . Консорциум Unicode . 1993-12-06. Архивировано из оригинала на 2004-06-17.
  8. ^ Hannas, Уильям С. (1997). Орфографическая дилемма Азии . Гавайский университет Press. п. 264. Набор обеспечивает более 99,99% всего использования. Тем не менее, дизайнеры сочли необходимым добавить 14 276 символов «специального использования» для покрытия непредвиденных обстоятельств!
  9. ^ https://archive.org/details/GB2312-1980/page/n17
  10. ^ https://web.archive.org/web/20160303230643/http://cs.nyu.edu/~yusuke/tools/unicode_to_gb2312_or_gbk_table.html
  11. ^ «GB 2312-1980: Информационные технологии - набор символов китайской идеограммы для обмена информацией (базовый набор)» . Проверено 2 октября +2016 .
  12. ^ a b Хейбл, Бруно. «GB2312 (Таблицы преобразования)» . Проверено 29 сентября 2016 года .
  13. ^ "Readme - КАРТЫ / УСТАРЕВШИЕ / EASTASIA" . 9 августа 2001 . Проверено 29 сентября 2016 года .
  14. ^ "java-EUC_CN-1.3_P.ucm" . Проверено 29 сентября 2016 года .[ постоянная мертвая ссылка ]
  15. ^ "libiconv: lib / gb2312.h" . GNU Savannah . Проверено 29 сентября 2016 года .
  16. ^ "Проблема 24036" . Отслеживание ошибок Python .
  17. ^ «Кодировка § Имена и метки» . W3C . Проверено 29 сентября 2016 года .
  18. ^ a b c d e f g h i j "Карта (внешняя версия) из китайской упрощенной кодировки Mac OS в Unicode 3.0 и выше" . Яблоко, Inc .
  19. ^ a b c d e f g h i j Управление по стандартизации Китая (SAC) (2005-11-18). GB 18030-2005: Информационные технологии - набор символов китайского кодирования .
  20. ^ Китайская ассоциация по стандартизации . Набор китайских кодированных графических символов для обмена информацией (PDF) . ITSCJ / IPSJ . ISO-IR -68.
  21. ^ Microsoft . «CODEPAGE 936: PRC GBK (XGB) - ANSI, OEM» . Консорциум Unicode .
  22. ^ а б Вишванадха, Рагурам (2000-08-30). «Таблица Unicode в ISO-IR-165» . Международные компоненты для Unicode . IBM .
  23. ^ Лунде, Кен (2009). «Персонажи, которые кажутся пропавшими без вести». Обработка информации CJKV: вычисления на китайском, японском, корейском и вьетнамском языках (2-е изд.). Севастополь, Калифорния : О'Рейли . п. 180. ISBN 978-0-596-51447-1.
  24. ^ a b CCITT (13 июля 1992 г.). Коды китайского графического набора символов для связи (PDF) . ITSCJ / IPSJ . ISO-IR -165.
  25. ^ Czyborra, Роман (1998-11-30) [1998-05-25]. «Суп с кириллической кодировкой» . Архивировано 3 декабря 2016 года . Проверено 3 декабря 2016 .
  26. ^ «Политика стабильности кодировки символов Unicode» . Консорциум Unicode. 2017-06-23.
  27. ^ "「 瀋 」的 類推 簡化「 渖 」用於 場合? - 乎" . www.zhihu.com (на китайском языке) . Проверено 22 декабря 2020 .
  28. ^ "GB2312 字符 集 为何 有「 後 」字? - 知 乎" . www.zhihu.com (на китайском языке) . Проверено 22 декабря 2020 .

Заметки [ править ]

  1. ^ Только для идеограмм, охватываемых GB / T 2312, все они попадают в Unicode BMP
  2. ^ a b В качестве набора символов 94 n, совместимого с ISO 2022 , простой пробел и символ удаления доступны как однобайтовые коды в 0x20 и 0x7F (не 0xA0 и 0xFF) соответственно.
  3. ^ Используется для U + FF47 в GB 6345.1 и GB 18030 (которые используют 8-32 для U + 0261), [19], но для U + 0261 в ISO-IR-165 . [22] Первоначальный эталонный глиф GB 2312-80 напоминал U + 0261, но он был изменен GB 6345.1. [1]
  4. ^ a b c d e f g h i j Эти символы взяты из блока Vertical Forms . Некоторые используемые сопоставления были разработаны, когда единственными формами вертикального представления, существовавшими в Unicode, были формы в блоке CJK Compatibility Forms . В частности, GB 18030 сопоставляет их с областью частного использования , но с определенным глифом [19], а Apple - с обычным полноширинным символом с добавленным символом частного использования U + F87E в качестве маркера вариации. [18]
  5. ^ Подключенный к частному использованию зоны U + E7C7 первого (2000) издания GB 18030 ; это было исправлено изданием 2005 года. [19]
  6. ^ Этот составной символ был добавлен в Unicode 3.0. До этого этот символ был сопоставлен с его составной последовательностью (например, U + 006E + 0300 ) Apple. [18] Это изменение предшествует стабилизацииформ нормализации Unicode , которая была введена в Unicode 3.1. [26]
  7. ^ Используется для U + 0261 в GB 6345.1 [18] и GB 18030 [19] (которые используют 3-71 для U + FF47), но для U + FF47 в ISO-IR-165. [22] [24]
  1. ^ Список форм символов общеупотребительных китайских иероглифов для публикации ( китайский :印刷 通用 汉字 字形 表; пиньинь : Yìnshuà Tōngyòng Hànzì Zìxíngbiǎo ) в 1964 году отметил, чтоможет использоваться в именах и цитировании классических китайских текстов, Таблица общих стандартных китайских иероглифов ( Китайский :通用 規範 漢字 表; пиньинь : Tōngyòng Guīfàn Hànzì Biǎo ) в 2013 году принял(2013: 7679) для использования в именах.
  2. ^ ɑ (U + 0251)
    ḿ (U + 1E3F ; Отправлено в Unicode 3.0, поэтому CP936 не включает этот символ [1] [ постоянная мертвая ссылка ] )
    ń (U + 0144)
    ň (U + 0148)
    ǹ (U + 01F9 ; Отправлено в Unicode 3.0, поэтому CP936 не включает этот символ [2] [ постоянная мертвая ссылка ] )
    ɡ (U + 0261)

Дальнейшее чтение [ править ]

  • Лунде, Кен (2009). «Стандарты набора символов китайского языка - Китай» . CJKV Обработка информации (2-е изд.). О'Рейли. ISBN 978-0-596-51447-1.

Внешние ссылки [ править ]

  • Графический вид GB2312 в проводнике конвертеров ICU
  • Unicode в таблицу GB2312 или GBK
  • Коды китайских иероглифов
  • Эволюция GBK и GB2312 в GB18030
  • GB2312 Набор символов для китайских иероглифов
  • Кодированный набор китайских графических символов для обмена информацией ISO-IR 58
  • Код C генерирует 6763 базовых символа с выводом
  • Стандарт GB2312-80 на China-Language.gov.cn