Кодовая страница Windows 936 (сокращенно MS936 , Windows-936 или (неоднозначно) CP936 ), [1] - это кодировка Microsoft для упрощенного китайского языка , одна из четырех DBCS для восточноазиатских языков . Первоначально Windows-936 покрывала GB 2312 (в форме EUC-CN ), но с выпуском Windows 95 она была расширена, чтобы покрыть большую часть GBK .
Кодовая страница IBM 936 [2] - это другая кодировка для упрощенного китайского, хотя International Components for Unicode не включает кодек IBM-936 и использует кодовую страницу Windows для метки «cp936». [1] Кодовая страница IBM для покрытия GBK - это кодовая страница 1386 ( CP1386 или IBM-1386 ), которая определяется как комбинация однобайтовой кодовой страницы 1114 и двухбайтовой кодовой страницы 1385 . [3]
Он был заменен кодовой страницей 54936 ( GB 18030 ), но по состоянию на 2014 год [Обновить]все еще использовался. В командной строке Windows CP936 используется в качестве кодовой страницы по умолчанию для упрощенной установки на китайском языке, хотя часть GB 18030 была сделана обязательной для всех программных продуктов, продаваемых в Китае. В 2002 году имя GBK IANA было зарегистрировано в сопоставлении Windows-936 [4] [5], что сделало его де-факто определением GBK в Интернете.
Понятия «Windows-936», «GBK», [a] «GB2312» и «EUC-CN» иногда путают в различных программных продуктах. Кодовые страницы MS936 и 1386 не идентичны GBK, потому что кодовая страница кодирует символы, тогда как только GBK [ необходима ссылка ] определяет кодовые точки. Кроме того, знак евро (€), кодируемый как 0x80 как в Windows-936, так и в IBM-1386, не определен в GBK. С другой стороны, 95 символов, определенных в GBK, изначально не были закодированы в Windows-936.
Это частично решено в более поздних версиях Windows, и, как и в Windows 7, все символы GBK, не входящие в область частного использования Unicode BMP, могут отображаться с использованием кодовой страницы 936, но кодирование 95 символов по-прежнему не поддерживалось по состоянию на 2014 год [Обновить]. Однако «CP936» и «GBK» часто используются как взаимозаменяемые из-за популярности продуктов Microsoft на китайском рынке, когда тогда был опубликован GBK.
Поскольку GBK давно заменил GB 2312, эти два термина также стали практически эквивалентными для многих пользователей, поэтому многие неправильно понимают «Windows-936», «GBK» и «GB 2312» как одно и то же, хотя на самом деле они значительно различаются. Вместо поддержки именно EUC-CN / GB 2312, большинство современных программных продуктов на базе Windows означают частичную поддержку GBK через Windows-936, когда они используют термин «GB 2312» в качестве варианта кодировки символов. Это можно наблюдать в таких продуктах, как Microsoft Internet Explorer и Notepad ++.
Заметки
- ^ GBK 1.0
Рекомендации
- ^ a b "windows-936-2000 (псевдоним cp936)" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode.
- ^ «Идентификаторы кодированного набора символов - CCSID 936» . IBM Globalization . IBM. Архивировано из оригинала на 2014-12-01.
- ^ «Идентификаторы кодированного набора символов - CCSID 1386» . IBM. Архивировано из оригинала на 2014-11-29.
- ^ «Наборы символов» . Проверено 3 октября +2016 .
- ^ Применение регистрации кодировки IANA для GBK
Внешние ссылки
Окна-936:
- Справочник Microsoft для Windows-936
- Файл кодовой страницы для Windows-936
- Преобразование Windows-936 в Unicode
- Демонстрация ICU Windows-936
- Международные компоненты для Unicode (ICU), windows-936-2000.ucm
IBM-1386: