Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Дополнительный Character Hong Kong Set ( китайский :香港增補字符集, обычно сокращенно HKSCS ) представляет собой набор китайских иероглифов - 4702 в общей сложности в первоначальном релизе используемые в кантонском , а также при написании названия некоторых мест в Гонконге Конг (будь то письменные кантонские или стандартные письменные китайские предложения). [1] Он произошел от предыдущего набора символов китайского правительства (政府 通用 字庫) или GCCS . GCCS - это набор дополнительных китайских иероглифов.закодированы в пользовательских областях набора символов Big5 . Первоначально он использовался правительством Гонконга, а затем использовался населением. Позже он превратился в Гонконгский дополнительный набор символов, когда символы из набора были переданы в ISO-10646 для кодирования.

История развития [ править ]

Из-за существенных различий между стандартным письменным китайским и письменным кантонским диалектом правительство Гонконга признало необходимость в стандартизированном наборе патентованных символов, который позволил бы упростить электронную коммуникацию; в то время схема кодирования китайского языка Big5 не содержала подавляющего большинства этих символов (некоторые были ошибочно включены в перекрестный список с похожими символами).

Китайское правительство Character Set (政府通用字庫) или GCCS , таким образом , разработанный правительством. Набор символов состоит из китайских иероглифов, обычно используемых в Гонконге. Некоторые символы относятся к кантонскому диалекту , а некоторые представляют собой альтернативные формы символов. Набор не очень хорошо организован, и персонажи не изучены внимательно.

Впоследствии был разработан HKSCS-1999 (спецификация HKSCS 1999). После его принятия новые версии были выпущены в 2001 году (добавлено 116 новых символов) и в 2004 году (добавлено 123 новых символа), всего 4941 символ. 106 символов GCCS были удалены из HKSCS-1999 в результате унификации, а их кодовые точки Big5 зарезервированы для совместимости. [2] [3] Пенсионеры "не поддающиеся проверке" GCCS символы встречаются в источниках UTC (UTC-00877-UTC-00898), [4] , где они получены из Adobe-CNS1-1, [5] с Adobe-CNS1 дополнения реализовано для поддержки GCCS. [6]

HKSCS кодируется в Big5 (Big5-HKSCS, [7] big5hk [8] ) и ISO 10646 ( Unicode ). Начиная с HKSCS-2004, все символы, ранее использовавшие раздел области частного использования Unicode [a] , переназначаются, при этом многие из них переназначаются в блок расширения B или блок совместимости с дополнительной идеографической плоскостью. [9] Однако для сохранения совместимости с программами, которые генерируют кодовые точки PUA, выделенные кодовые точки зарезервированы, и никакие новые символы не будут отображаться в PUA .

История версий [ править ]

HKSCS прошел несколько итераций. [10]

Последней версией HKSCS для кодирования всех своих символов в Big5 был HKSCS-2008, в то время как символы, добавленные в HKSCS-2016, отображаются только в Unicode (как горизонтальное расширение глифов CJK Unified Ideographs, где это необходимо). [11]

Дополнительный набор символов Макао [ править ]

Как и в случае с Гонконгом, существуют также символы, которые необходимы Макао, но не включены ни в Big5, ни в HKSCS, поэтому был разработан дополнительный набор символов Макао , основанный на HKSCS с дополнительными символами, отображенными в Unicode. Первая партия из 121 символа MSCS была представлена ​​для добавления или горизонтального расширения в Unicode (в зависимости от ситуации) в 2009 году [12], а первая окончательная версия MSCS была создана в 2020 году [11].

Совместимость [ править ]

Операционные системы [ править ]

Microsoft Windows [ править ]

В Microsoft Windows 98, NT 4.0, 2000, XP поддержку HKSCS можно включить с помощью патча Microsoft. В реализации Microsoft приложение, использующее кодовую страницу 950, автоматически использует скрытую таблицу кодовой страницы 951 для кодировки Big5 расширений HKSCS. Таблица поддерживает все кодовые точки в HKSCS-2001, за исключением кодовых точек совместимости, указанных в стандарте. [13] Кроме того, шрифт MingLiU изменен с помощью патча Microsoft. Известно, что этот патч создает конфликты в таких приложениях, как Microsoft Office , или в любом приложении, использующем шрифты, поддерживающие упрощенные китайские символы (например: Simsun). Если целевая среда содержит настраиваемый шрифт, сопоставленный кодовым точкам, затронутым патчем Microsoft, пользовательские шрифты могут отменить патч Microsoft. Кроме того, патч нарушает работу редактора EUDC, поставляемого с уязвимыми версиями Windows. [14]

Начиная с Windows Vista, символы HKSCS-2004 поддерживаются только как Unicode 4.1 или новее. [15] Всем символам присваиваются стандартные коды, отличные от PUA . Символы отображаются шрифтом MingLiU , и эти символы можно вводить с клавиатуры. Патч, обеспечивающий кодировку Big5 для HKSCS, не поддерживается в Windows Vista и более поздних версиях. Утилита, предоставляемая Microsoft, доступна для преобразования символов в кодировке HKSCS и Unicode PUA в версию Unicode 4.1. [16]

В 2010 году Microsoft опубликовала патч HKSCS-2004 для Windows XP и Windows Server 2003. [17] Он заменяет версию MingLiu, PMingLiu и MingLiu_HKSCS для Windows XP (если был применен патч HKSCS-2001) версией MingLiu, PMingLiu для Windows 7. и MingLiu_HKSCS. Кроме того, в целевую систему будут добавлены шрифты MingLiU-ExtB, MingLiU_HKSCS-ExtB и PMingLiU-ExtB. Однако IME не обновляется, как это было в случае патча HKSCS-2001, а шрифты взяты из предварительной версии Windows 7.

Для более ранних версий ОС поддержка HKSCS требует использования патча Microsoft или утилит Digital 21 правительства Гонконга.

IBM [ править ]

IBM присвоила форму Big5 HKSCS-2001 кодовую страницу 5471. [18] [19]

Linux [ править ]

Поддержка HKSCS была добавлена ​​в glibc в 2000 году, но с тех пор не обновлялась. Поддержка HKSCS-2004 обрабатывается как Unicode 4.1 и выше.

Для установки freedesktop.org шрифт AR PL ShanHeiSun Uni полностью поддерживает HKSCS-2004, начиная с версии 0.1-0.dot.1, с последней версией HKSCS-2004, поддерживаемой в версии 0.1.20060903-1.

Современные настольные дистрибутивы (например, Ubuntu) включают в себя HKSCS-совместимые шрифты Arphic Technology UKai и UMing «из коробки», когда во время установки выбрана поддержка традиционного китайского языка. Их также можно будет установить вручную позже.

Mac OS [ править ]

Mac OS X 10.0–10.2 поддерживает HKSCS-1999. 10.3–10.4 поддерживает HKSCS-2001. Некоторые буквы, добавленные в HKSCS-2004, поддерживаются через Unicode PUA в OS X 10.4. Начиная с OS X 10.5, все символы HKSCS-2004 поддерживаются с помощью стандартных кодовых точек Unicode 4.1.

Приложения и Интернет [ править ]

Mozilla 1.5 и выше поддерживает HKSCS, при этом поддержка HKSCS-2004 добавлена ​​в базу кода Gecko 1.8.1. [20] В отличие от вышеупомянутого патча, Mozilla использует собственную таблицу кодовых страниц. Однако исправление для ошибки 343129 не поддерживает символы, сопоставленные с кодовыми точками выше базовой многоязычной плоскости. [21]

Приложения на основе QT 3.x (например: KDE ) поддерживают только символы, сопоставленные с кодовыми точками FFFF или ниже. В QT4 символы вне BMP поддерживаются через суррогаты. Текстовый кодек Big5-HKSCS поддерживает HKSCS-1999 еще в Qt-2.3.x, но было слишком поздно в графике разработки Qt, чтобы быть официально включенным в серию Qt-2.3.x, поэтому он был официально поддержан в Qt-3.0.1 . Поддержка HKSCS-2001 была добавлена ​​в Qt-3.0.5. [22]

GNOME поддерживает символы HKSCS в диапазонах Unicode, кроме тех, которые отображаются в блоке совместимости Basic Multilingual Plane. Патчи для поддержки персонажей, отображаемых на вышеупомянутую Basic Multilingual Plane, были введены в Pango 1.1. [23]

WHATWG Кодирование Стандартный (используется HTML5 ) включает в себя HKSCS в своем определении Big5 (используется даже с обычной этикеткой Big5). Однако только его декодер использует все расширения HKSCS, а его кодировщик явно исключает те, у которых ведущие байты ниже 0xA1 (таким образом, исключая большинство расширений HKSCS, но включая, например, те, которые унаследованы от Big5 ETEN ). [24] Этому стандарту соответствуют новые браузеры, включая Firefox .

См. Также [ править ]

  • Кантонский
  • Письменный кантонский диалект

Примечания [ править ]

  1. ^ См. Кодовую страницу 950 § Использование зоны частного использования .

Ссылки [ править ]

  1. ^ Часто задаваемые вопросы об онлайн-сервисах GovHK - Другие технические вопросы и устранение неполадок
  2. ^ "Big5CMP.txt" . Архивировано из оригинального 13 сентября 2016 года.Найдено в таблице сопоставления - HKSCS-2008
  3. ^ "HKSCS-2004 Приложение IV. Точки совместимости для GCCS" (PDF) . Архивировано из оригинального (PDF) 30 сентября 2016 года . Проверено 29 сентября 2016 года .
  4. ^ "Группа: Big5-GCCS 外 字" . Проверено 30 сентября 2016 года .
  5. ^ "Символы U-источника" (PDF) . Проверено 30 сентября 2016 года .
  6. ^ "Коллекция персонажей Adobe-CNS1-6" (PDF) . Проверено 30 сентября 2016 года .
  7. ^ «Наборы символов» . IANA.
  8. ^ http://infocenter.sybase.com/help/topic/com.sybase.infocenter.dc34789.1550/html/ocsinunx/CIHEBHFB.htm
  9. ^ "Big5-HKSCS: 2004" .
  10. ^ OGCIO - Разработка HKSCS
  11. ^ a b Правительство Специального административного района Макао (11 июня 2020 г.). «Подача вертикального расширения Макао (символы UNC), горизонтального расширения и регистрации IVSes для MSCS» (PDF) . ISO / IEC JTC 1 / SC 2 / WG 2 IRGN 2430.
  12. ^ Рабочая группа по компьютерному кодированию китайских иероглифов (12 июня 2009 г.). «Представление символов из набора символов информационных систем Макао» (PDF) . ISO / IEC JTC 1 / SC 2 / WG 2 IRGN 1580. Архивировано из оригинала (PDF) 4 января 2015 года.
  13. ^ Стил, Шон. «CP 951 & HKSCS» . Я не клингон . Блог разработчиков MS . Проверено 13 сентября 2016 года .
  14. ^ 華 通 資訊 網: 小心! 有人 悄悄 換掉 了 你 的 Windows 系統 字型
  15. ^ Microsoft: Гонконгский дополнительный набор символов - Поддержка платформы Windows
  16. ^ Процедуры преобразования кода символов Microsoft для HKSCS-2004
  17. ^ Пакет шрифтов Windows XP для ISO 10646: 2003 + поправка 1 Поддержка традиционного китайского
  18. ^ «Идентификаторы кодированного набора символов - CCSID 5471» . IBM Globalization . IBM . Архивировано из оригинального 29 ноября 2014 года.
  19. ^ Международные компоненты для Unicode (ICU), ibm-5471_P100-2006.ucm , 9 мая 2007 г.
  20. ^ Mozilla.org: Ошибка 343129 - Big5-HKSCS 2004 <==> Обновление таблицы Unicode
  21. ^ Ошибка 162431 - добавление поддержки Unicode, отличного от BMP (суррогатный уровень 1 и выше), в кодировщик / декодер кодировки
  22. ^ "Qt 4.7: Текстовый кодек Big5-HKSCS" . Архивировано из оригинала 4 марта 2016 года . Проверено 10 ноября 2011 года .
  23. ^ Ошибка 101081 - символы не-BMP (от плоскости 1 до плоскости 16) не поддерживаются
  24. ^ ван Кестерен, Энн . «Стандарт кодирования» . WHATWG .

Внешние ссылки [ править ]

  • Сайт правительства Гонконга на HKSCS Загружаемые документы и шрифт HKSCS
  • Набор дополнительных символов Гонконга-2016 (HKSCS-2016)
  • Поддержка Microsoft HKSCS для платформы Windows
  • 香港 參考 宋體Страница загрузкишрифта HKSCSот Dynalab (華 康 科技 有限公司).
  • Графическое представление Big5-HKSCS в проводнике конвертеров ICU
  • Набор символов, который работает в Mac OS X
  • UMing / UKai - бесплатный шрифт с открытым исходным кодом, поддерживающий HKSCS.
  • Проект шрифтов с открытым исходным кодом для Гонконга