Язык (и) | Традиционный китайский |
---|---|
Сделано | Microsoft |
Расширяется | Big5 |
На основе | Big5-ETen |
Кодовая страница 950 - это кодовая страница, используемая в Microsoft Windows для традиционного китайского языка . Это реализация Microsoft де-факто стандартной кодировки символов Big5 . Кодовая страница не зарегистрирована в IANA , [1] и, следовательно, она не является стандартом для передачи информации через Интернет, хотя обычно обозначается просто как big5
, в том числе функциями библиотеки Microsoft. [2]
Терминология и варианты [ править ]
Основное различие между кодовой страницей Windows 950 и «обычным» (не зависящим от производителя) Big5 заключается во включении подмножества расширений ETEN в Big5 с адресами от 0x F9D6 до 0xF9FE (состоящих из семи китайских символов碁, 銹, 裏, 墻, 恒, 粧 и 嫺, за которыми следуют 34 символа рисования прямоугольника и элементы блока ). Диапазоны, используемые некоторыми другими расширенными символами ETEN, вместо этого определяются как символы, определяемые конечным пользователем (для частного использования) . [3]
Реализация CCSID 950, [4] IBM, немного отличается, включая некоторые расширения ETEN для ведущих байтов 0xA3, [5] 0xC6, [3] [6] 0xC7 [7] и 0xC8, [3] [8], при этом опуская те, у которых ведущий байт 0xF9 (который включает Microsoft), сопоставив их вместо этого с областью частного использования как определяемые пользователем символы. [3] [9]
Microsoft обновила свою версию кодовой страницы 950 в 2000 году, добавив знак евро (€) в двухбайтовый код 0xA3E1. IBM называет обновление знака евро CCSID 1370 (который включает как однобайтовые (0x80), так и двухбайтовые знаки евро) [10] или CCSID 1373 (который включает только двухбайтовый знак евро). [11] Кодовая страница 1373 соответствует поведению Microsoft, в которое включены расширения ETEN. [12] [13] [14] [15] [16]
CCSID 950 состоит из однобайтовой кодовой страницы 1114 (CCSID 1114) и двухбайтовой кодовой страницы 947 (CCSID 947), [4] [17] [18], тогда как расширенный CCSID 1370 для знака евро состоит из однобайтовой кодовой страницы 1114 (CCSID 5210) и двухбайтовая кодовая страница 947 (CCSID 21427). [10] [19] [20]
Однобайтовые коды [ править ]
Ниже приведены однобайтовые графические символы, включенные IBM. Коды от 0x00 до 0x1F и 0x7F могут использоваться вместо управляющих кодов C0 , в зависимости от контекста (сравните кодовую страницу 437 , кодовую страницу 897 ). Как отмечалось выше, однобайтовый знак евро в 0x80 не включен ни в IBM CCSID 950, ни в 1373, ни в Microsoft.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_ | ☺ 263A | ☻ 263B | ♥ 2665 | ♦ 2666 | ♣ 2663 | ♠ 2660 | • 2022 г. | ◘ 25D8 | ○ 25CB | ◙ 25D9 | 2642 ♂ | 2640 ♀ | ♪ 266A | ♫ 266B | ☼ 263C | |
1_ | ► 25БА | ◄ 25C4 | ↕ 2195 | ‼ 203C | ¶ 00B6 | § 00A7 | ▬ 25AC | ↨ 21A8 | ↑ 2191 | ↓ 2193 | → 2192 | ← 2190 | ∟ 221F | ↔ 2194 | ▲ 25B2 | ▼ 25 г. до н.э. |
2_ | SP 0020 | ! 0021 | « 0022 | # 0023 | 0024 долл. США | % 0025 | & 0026 | ' 0027 | ( 0028 | ) 0029 | * 002A | + 002B | , 002C | - 002D | . 002E | / 002F |
3_ | 0 0030 | 1 0031 | 2 0032 | 3 0033 | 4 0034 | 5 0035 | 6 0036 | 7 0037 | 8 0038 | 9 0039 | : 003A | ; 003B | < 003C | = 003D | > 003E | ? 003F |
4_ | @ 0040 | A 0041 | B 0042 | C 0043 | D 0044 | E 0045 | F 0046 | G 0047 | H 0048 | I 0049 | J 004A | K 004B | L 004C | M 004D | № 004E | O 004F |
5_ | P 0050 | Q 0051 | R 0052 | S 0053 | Т 0054 | U 0055 | V 0056 | W 0057 | X 0058 | Y 0059 | Z 005A | [ 005B | \ 005C | ] 005D | ^ 005E | _ 005F |
6_ | ` 0060 | а 0061 | b 0062 | c 0063 | d 0064 | e 0065 | f 0066 | г 0067 | h 0068 | я 0069 | j 006A | k 006B | l 006C | м 006D | № 006E | o 006F |
7_ | p 0070 | q 0071 | r 0072 | s 0073 | t 0074 | u 0075 | v 0076 | w 0077 | х 0078 | y 0079 | z 007A | { 007B | | 007C | } 007D | ~ 007E | 2302 фунта стерлингов |
8_ | € 20AC |
Письмо Число Пунктуация Символ Другой Неопределенный
Остальные - это части двухбайтовой последовательности.
Использование зоны частного использования [ править ]
Диапазон Big5 | Диапазон Unicode | Формула [24] |
---|---|---|
81 40–8D FE | U + EEB8 – U + F6B0 | 0xeeb8 + (157 * (H-0x81)) + (L<0x80)?(L-0x40):(L-0x62) |
8E 40 – A0 FE | U + E311 – U + EEB7 | 0xe311 + (157 * (H-0x8e)) + (L<0x80)?(L-0x40):(L-0x62) |
C6 A1 – C8 FE | U + F6B1 – U + F848 | 0xf672 + (157 * (H-0xc6)) + (L<0x80)?(L-0x40):(L-0x62) |
FA 40 – FE FE | U + E000 – U + E310 | 0xe000 + (157 * (H-0xfa)) + (L<0x80)?(L-0x40):(L-0x62) |
Это сопоставление также используется в HKSCS, где данный глиф еще не найден в указанной версии Unicode. [25]
См. Также [ править ]
- LMBCS-18
- Кодовая страница 951 , взлом Microsoft для замены cp950 версией с поддержкой HKSCS в Windows XP
Ссылки [ править ]
- ^ «Наборы символов» . IANA - Реестры протоколов .
- ^ «Свойство Encoding.WindowsCodePage - .NET Framework (текущая версия)» . MSDN . Microsoft.
- ^ a b c d Zhu, HF .; Hu, DY .; Wang, ZG .; Kao, TC .; Чанг, WCH .; Криспин, М. (1996). «Кодировка китайских символов для Интернет-сообщений» . Запросы на комментарии . IETF . DOI : 10.17487 / rfc1922 . RFC 1922.
- ^ a b «Информационный документ CCSID 950» . Архивировано из оригинала на 2014-12-02.
- ^ "Ведущий байт A3: ibm-950_P110-1999" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
- ^ "Ведущий байт C6: ibm-950_P110-1999" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
- ^ "Ведущий байт C7: ibm-950_P110-1999" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
- ^ "Ведущий байт C8: ibm-950_P110-1999" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
- ^ "Ведущий байт F9: ibm-950_P110-1999" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
- ^ a b «Информационный документ CCSID 1370» . Архивировано из оригинала на 2016-03-27.
- ^ "ibm-1373_P100-2002" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
- ^ "Ведущий байт A3: ibm-1373_P100-2002" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
- ^ "Ведущий байт C6: ibm-1373_P100-2002" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
- ^ "Ведущий байт C7: ibm-1373_P100-2002" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
- ^ "Ведущий байт C8: ibm-1373_P100-2002" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
- ^ "Ведущий байт F9: ibm-1373_P100-2002" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
- ^ "Информационный документ CCSID 1114" . Архивировано из оригинала на 2016-03-27.
- ^ "Информационный документ CCSID 947" . Архивировано из оригинала на 2014-12-01.
- ^ "Информационный документ CCSID 5210" . Архивировано из оригинала на 2014-11-29.
- ^ "Информационный документ CCSID 21427" . Архивировано из оригинала на 2016-03-27.
- ^ Кодовая страница CPGID 01114 (pdf) (PDF) , IBM
- ^ Кодовая страница CPGID 01114 (txt) , IBM
- ^ «Таблица наилучшего соответствия Windows: CP950» . unicode.org . Проверено 13 сентября 2016 года .
- ^ "Big5" . База данных кандзи . Проверено 13 сентября 2016 года .
- ^ "Big5-HKSCS: 2008" . Архивировано из оригинала на 2016-09-13.
Внешние ссылки [ править ]
- Справочник Microsoft по кодовой странице 950
- Отображение кодовой страницы 950 в Unicode
- Файлы сопоставления международных компонентов для Unicode (ICU): windows-950-2000.ucm , ibm-950_P110-1999.ucm , ibm-1373_P100-2002.ucm