Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Кодовая страница 950 - это кодовая страница, используемая в Microsoft Windows для традиционного китайского языка . Это реализация Microsoft де-факто стандартной кодировки символов Big5 . Кодовая страница не зарегистрирована в IANA , [1] и, следовательно, она не является стандартом для передачи информации через Интернет, хотя обычно обозначается просто как big5, в том числе функциями библиотеки Microsoft. [2]

Терминология и варианты [ править ]

Основное различие между кодовой страницей Windows 950 и «обычным» (не зависящим от производителя) Big5 заключается во включении подмножества расширений ETEN в Big5 с адресами от 0x F9D6 до 0xF9FE (состоящих из семи китайских символов碁, 銹, 裏, 墻, 恒, 粧 и 嫺, за которыми следуют 34 символа рисования прямоугольника и элементы блока ). Диапазоны, используемые некоторыми другими расширенными символами ETEN, вместо этого определяются как символы, определяемые конечным пользователем (для частного использования) . [3]

Реализация CCSID 950, [4] IBM, немного отличается, включая некоторые расширения ETEN для ведущих байтов 0xA3, [5] 0xC6, [3] [6] 0xC7 [7] и 0xC8, [3] [8], при этом опуская те, у которых ведущий байт 0xF9 (который включает Microsoft), сопоставив их вместо этого с областью частного использования как определяемые пользователем символы. [3] [9]

Microsoft обновила свою версию кодовой страницы 950 в 2000 году, добавив знак евро (€) в двухбайтовый код 0xA3E1. IBM называет обновление знака евро CCSID 1370 (который включает как однобайтовые (0x80), так и двухбайтовые знаки евро) [10] или CCSID 1373 (который включает только двухбайтовый знак евро). [11] Кодовая страница 1373 соответствует поведению Microsoft, в которое включены расширения ETEN. [12] [13] [14] [15] [16]

CCSID 950 состоит из однобайтовой кодовой страницы 1114 (CCSID 1114) и двухбайтовой кодовой страницы 947 (CCSID 947), [4] [17] [18], тогда как расширенный CCSID 1370 для знака евро состоит из однобайтовой кодовой страницы 1114 (CCSID 5210) и двухбайтовая кодовая страница 947 (CCSID 21427). [10] [19] [20]

Однобайтовые коды [ править ]

Ниже приведены однобайтовые графические символы, включенные IBM. Коды от 0x00 до 0x1F и 0x7F могут использоваться вместо управляющих кодов C0 , в зависимости от контекста (сравните кодовую страницу 437 , кодовую страницу 897 ). Как отмечалось выше, однобайтовый знак евро в 0x80 не включен ни в IBM CCSID 950, ни в 1373, ни в Microsoft.

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Остальные - это части двухбайтовой последовательности.

Использование зоны частного использования [ править ]

Это сопоставление также используется в HKSCS, где данный глиф еще не найден в указанной версии Unicode. [25]

См. Также [ править ]

  • LMBCS-18
  • Кодовая страница 951 , взлом Microsoft для замены cp950 версией с поддержкой HKSCS в Windows XP

Ссылки [ править ]

  1. ^ «Наборы символов» . IANA - Реестры протоколов .
  2. ^ «Свойство Encoding.WindowsCodePage - .NET Framework (текущая версия)» . MSDN . Microsoft.
  3. ^ a b c d Zhu, HF .; Hu, DY .; Wang, ZG .; Kao, TC .; Чанг, WCH .; Криспин, М. (1996). «Кодировка китайских символов для Интернет-сообщений» . Запросы на комментарии . IETF . DOI : 10.17487 / rfc1922 . RFC 1922.
  4. ^ a b «Информационный документ CCSID 950» . Архивировано из оригинала на 2014-12-02.
  5. ^ "Ведущий байт A3: ibm-950_P110-1999" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
  6. ^ "Ведущий байт C6: ibm-950_P110-1999" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
  7. ^ "Ведущий байт C7: ibm-950_P110-1999" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
  8. ^ "Ведущий байт C8: ibm-950_P110-1999" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
  9. ^ "Ведущий байт F9: ibm-950_P110-1999" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
  10. ^ a b «Информационный документ CCSID 1370» . Архивировано из оригинала на 2016-03-27.
  11. ^ "ibm-1373_P100-2002" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
  12. ^ "Ведущий байт A3: ibm-1373_P100-2002" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
  13. ^ "Ведущий байт C6: ibm-1373_P100-2002" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
  14. ^ "Ведущий байт C7: ibm-1373_P100-2002" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
  15. ^ "Ведущий байт C8: ibm-1373_P100-2002" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
  16. ^ "Ведущий байт F9: ibm-1373_P100-2002" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
  17. ^ "Информационный документ CCSID 1114" . Архивировано из оригинала на 2016-03-27.
  18. ^ "Информационный документ CCSID 947" . Архивировано из оригинала на 2014-12-01.
  19. ^ "Информационный документ CCSID 5210" . Архивировано из оригинала на 2014-11-29.
  20. ^ "Информационный документ CCSID 21427" . Архивировано из оригинала на 2016-03-27.
  21. ^ Кодовая страница CPGID 01114 (pdf) (PDF) , IBM
  22. ^ Кодовая страница CPGID 01114 (txt) , IBM
  23. ^ «Таблица наилучшего соответствия Windows: CP950» . unicode.org . Проверено 13 сентября 2016 года .
  24. ^ "Big5" . База данных кандзи . Проверено 13 сентября 2016 года .
  25. ^ "Big5-HKSCS: 2008" . Архивировано из оригинала на 2016-09-13.

Внешние ссылки [ править ]

  • Справочник Microsoft по кодовой странице 950
  • Отображение кодовой страницы 950 в Unicode
  • Файлы сопоставления международных компонентов для Unicode (ICU): windows-950-2000.ucm , ibm-950_P110-1999.ucm , ibm-1373_P100-2002.ucm