Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Big-5 или Big5 - это метод кодирования китайских символов, используемый в Тайване , Гонконге и Макао для традиционных китайских символов .

Китайская Народная Республика (КНР) , которая использует упрощенный китайские иероглифы , использует GB 18030 вместо набора символов.

Big5 получил свое название от консорциума из пяти тайваньских компаний, которые его разработали. [1]

Организация [ править ]

Исходный набор символов Big5 сортируется сначала по частоте использования, затем по количеству штрихов и, наконец, по радикалу Kangxi .

В исходном наборе символов Big5 не хватало многих часто используемых символов. Для решения этой проблемы каждый производитель разработал собственное расширение. Расширение ETen стало частью текущего стандарта Big5 благодаря своей популярности.

Структура Big5 не соответствует стандарту ISO 2022 , но имеет определенное сходство с кодировкой Shift JIS . Это двухбайтовый набор символов (DBCS) со следующей структурой:

(префикс 0x обозначает шестнадцатеричные числа).

Стандартные назначения (за исключением расширений, определяемых поставщиком или пользователем) не используют байты от 0x7F до 0xA0 или 0xFF как ведущие (первые) или конечные (вторые) байты. Байты с 0xA1 по 0xFE используются как для начальных, так и для конечных байтов для двухбайтовых (Big5) кодов. Байты с 0x40 по 0x7E используются как конечные байты, следующие за старшим байтом, или для однобайтовых кодов в противном случае. Если второй байт не входит ни в один из диапазонов, поведение не определено (т. Е. Изменяется от системы к системе). Кроме того, некоторые варианты набора символов Big5, например HKSCS , используют расширенный диапазон для ведущего байта, включая значения в диапазоне от 0x81 до 0xA0 (аналогично Shift JIS), в то время как другие используют сокращенные диапазоны ведущих байтов (например, вариант Apple Macintosh использует коды от 0xFD до 0xFF в качестве однобайтовых кодов, ограничивая диапазон ведущих байтов от 0xA1 до 0xFC). [2]

Численное значение отдельных кодов big5 часто дают как 4-значное шестнадцатеричное число, которое описывает два байта , которые содержат код Big5 как если два байта были большие байтами представления 16-битного числа. Например, код Big5 для полноразмерного пространства, которым являются байты 0xa1 0x40, обычно записывается как 0xa140 или просто A140.

Строго говоря, кодировка Big5 содержит только символы DBCS. Однако на практике коды Big5 всегда используются вместе с неуказанным, системно-зависимым однобайтовым набором символов ( ASCII или 8-битным набором символов, таким как кодовая страница 437 ), так что вы найдете смесь DBCS символы и однобайтовые символы в тексте с кодировкой Big5. Байты в диапазоне от 0x00 до 0x7f, которые не являются частью двухбайтового символа, считаются однобайтовыми символами. (Более подробное описание этой проблемы см. Ниже в разделе «Соответствие SBCS».)

Значение отдельных байтов, отличных от ASCII, за пределами разрешенных значений, которые не являются частью двухбайтового символа, варьируется от системы к системе. В старых системах на основе MSDOS они, вероятно, будут отображаться как 8-битные символы; в современных системах они могут дать непредсказуемые результаты или сгенерировать ошибку.

Более подробный взгляд на организацию [ править ]

В оригинальной Big5 кодировка разделена на разные зоны:

«Графические символы» фактически включают знаки препинания, частичные знаки препинания (например, половина тире, половина многоточия; см. Ниже), дингбаты , иностранные символы и другие специальные символы (например, презентационные «полноширинные» формы, цифры для чисел Сучжоу , чжуинь фухао и т. д.)

В большинстве расширений поставщиков расширенные символы помещаются в различные зоны, зарезервированные для определяемых пользователем символов, каждая из которых обычно считается связанной с предыдущей зоной. Например, ожидается, что дополнительные «графические символы» (например, знаки препинания) будут помещены в диапазон 0xa3c0–0xa3fe, а дополнительные логограммы будут размещены либо в диапазоне 0xc6a1–0xc8fe, либо в диапазоне 0xf9d6–0xfefe. Иногда это невозможно из-за добавления большого количества расширенных символов; например, кириллица и японская кана были помещены в зону, связанную с «часто используемыми символами».

Что на самом деле кодирует код Big5 [ править ]

Отдельный код Big5 не всегда представляет собой законченную семантическую единицу. Коды Big5 логограмм всегда являются логограммами, но коды в разделе «графические символы» не всегда являются полными «графическими символами». Big5 кодирует конкретные графические представления символов или части символов, которые помещаются в пространство, занимаемое двумя моноширинными символами ASCII. Это свойство наборов двухбайтовых символов, обычно используемых в вычислениях CJK (китайский, японский и корейский), и не является уникальной проблемой Big5.

(Вышеупомянутое может потребовать некоторого объяснения, представив его в исторической перспективе, поскольку это теоретически неверно: в те времена, когда персональные вычисления в текстовом режиме еще были нормой, символы обычно представлялись как отдельные байты, и каждый символ занимал одну позицию на экране. поэтому есть практическая причина настаивать на том, что двухбайтовые символы должны занимать две позиции на экране, а именно, что стандартное программное обеспечение американского производства можно было бы использовать без изменений в системе на основе DBCS. Если символ может принимать произвольное количество позиций на экране, программное обеспечение, которое предполагает, что один байттекста, занимающего одну позицию на экране, приведет к неправильному выводу. Конечно, если бы компьютеру никогда не приходилось иметь дело с текстовым экраном, производитель не вводил бы это искусственное ограничение; Apple Macintosh является примером. Тем не менее, сама кодировка должна быть спроектирована так, чтобы она корректно работала в системах с текстовым экраном.)

Чтобы проиллюстрировать это, рассмотрим код Big5 0xa14b (…). Для англоговорящих это выглядит как многоточие, и стандарт Unicode определяет его как таковой; однако в китайском языке многоточие состоит из шести точек, которые помещаются в пространство двух китайских иероглифов (……), поэтому на самом деле нет кода Big5 для китайского многоточия, а код Big5 0xa14b представляет собой лишь половину китайского многоточия . Он представляет собой только половину многоточия, поскольку весь многоточие должен занимать пространство двух китайских символов, а во многих системах DBCS один символ DBCS должен занимать ровно пространство одного китайского символа.

Символы, закодированные в Big5, не всегда представляют вещи, которые можно легко использовать в текстовых файлах; Примером может служить «знак цитирования» (0xa1ca, ﹋), который, если он используется, должен быть набран под названием литературного произведения. Другой пример - цифры Сучжоу , которые представляют собой форму научного обозначения, которая требует, чтобы число было представлено в двумерной форме, состоящей как минимум из двух строк.

Соответствие SBCS [ править ]

На практике Big5 не может использоваться без соответствующего набора однобайтовых символов (SBCS) ; в основном это связано с соображениями совместимости. Однако, как и в случае с другими наборами символов CJK DBCS, используемый SBCS никогда не указывался. Big5 всегда определялся как DBCS, хотя при использовании он должен сочетаться с подходящим, неопределенным SBCS и, следовательно, использоваться как то, что некоторые люди называют MBCS ; тем не менее, Big5, по определению, является строго DBCS.

Неопределенный SBCS для использования означает, что используемый SBCS теоретически может варьироваться от системы к системе. В настоящее время ASCII - единственный возможный SBCS, который можно использовать. Однако в старых системах на базе DOS кодовая страница 437 - с ее дополнительными специальными символами в области управляющего кода, включая позицию 127 - была гораздо более распространенной. Тем не менее, в системе Macintosh с комплектом китайского языка или в системе Unix, на которой запущен эмулятор терминала cxterm, SBCS в паре с Big5 не будет кодовой страницей 437.

За пределами допустимого диапазона Big5 старые системы на основе DOS будут обычно интерпретировать вещи в соответствии с SBCS, который связан с Big5 в этой системе. В таких системах, например, символы с 127 по 160, скорее всего, не избегались, потому что они приводили к недопустимому Big5, но использовались, потому что они были бы допустимыми символами в кодовой странице 437.

Современная характеристика Big5 как MBCS, состоящая из DBCS Big5 и SBCS из ASCII, поэтому исторически неверна и потенциально ошибочна, поскольку выбор соответствующей SBCS был и теоретически до сих пор остается совершенно независимым от используемого вкуса Big5. .

История [ править ]

Неспособность ASCII поддерживать большие наборы символов, такие как используемые для китайского, японского и корейского языков, побудила правительства и промышленность искать творческие решения, позволяющие воспроизводить их языки на компьютерах. Разнообразие специальных и обычно закрытых методов ввода привело к попыткам разработать стандартную систему. В результате кодирование Big5 было определено Тайваньским институтом информационной индустрии в 1984 году. Название «Big5» является признанием того, что стандарт появился в результате сотрудничества пяти крупнейших тайваньских ИТ-компаний: Acer (宏 碁); MiTAC (神通); JiaJia (佳佳), ZERO ONE Technology (零 壹 или 01tech ); и First International Computer (FIC) (大眾).

Big5 был быстро популяризирован на Тайване и во всем мире среди китайцев, которые использовали традиционный китайский набор символов, благодаря его внедрению в нескольких коммерческих программных пакетах, в частности, в китайской системе ввода DOS E-TEN ( ETen Chinese System ). Правительство Китайской Республики объявило Big5 своим стандартом в середине 1980-х, поскольку к тому времени это был стандарт де-факто для использования традиционного китайского языка на компьютерах.

Расширения [ править ]

Оригинальная Big-5 включает только логотипы CJK из двух списков: «"國 字 標準 字體 表; cháng yòng gúo zì bīao zhǔn zì tĭ bǐao »(4808 символов) и«次 常用 國 字 字體; cì cháng yòngao zì bīī zhǔn zì tĭ bǐao "(6343 символа), но не буквы из имен людей, географических названий, диалектов, химии , биологии , японской кана . В результате, многие программы поддержки Большой пятерки включают расширения для решения проблем.

Множество вариантов делают UTF-8 или UTF-16 более согласованной кодовой страницей для современного использования.

Расширения поставщика [ править ]

Расширения ETEN [ править ]

В китайской операционной системе ETEN (倚天) добавлены следующие кодовые точки, чтобы сделать ее совместимой с кодовой страницей IBM5550 :

  • A3C0 – A3E0: 33 управляющих символа.
  • C6A1-C875: круг 1-10, кронштейн 1-10, римские цифры 1-9 (I-IX), КИЕ радикальные глифы, японский хираган , японский катакан , кириллические символы
  • F9D6 – F9FE: «碁», «銹», «恒», «裏», «墻», «粧», «嫺» и 34 дополнительных символа.

В некоторых версиях Eten есть дополнительные графические символы и символы упрощенного китайского языка .

Кодовые страницы Microsoft [ править ]

Microsoft (微軟) создала собственную версию расширения Big5 как кодовую страницу 950 для использования с Microsoft Windows , которая поддерживает расширения ETEN, но только кодовые точки F9D6-F9FE. В ОС Windows ME , то евро символ валюты отображался на биг-5 кода точки A3E1, но не в более поздних версиях операционной системы.

После установки патча Microsoft HKSCS поверх традиционной китайской Windows (или любой версии Windows 2000 и выше с соответствующим языковым пакетом) приложения, использующие кодовую страницу 950, автоматически используют скрытую таблицу кодовых страниц 951. Таблица поддерживает все кодовые точки в HKSCS-2001, за исключением кодовых точек совместимости, указанных в стандарте. [3]

Кодовая страница 950, используемая в Windows 2000 и Windows XP, сопоставляет символы хираганы и катакана с блоком области частного использования Unicode при экспорте в Unicode, но с соответствующими блоками Unicode хираганы и катакана в Windows Vista. [ необходима цитата ] [ требуется пояснение ]

Шрифт ChinaSea [ править ]

Шрифты ChinaSea (中國 海 字 集) [4] - это традиционные китайские шрифты, созданные ChinaSea. Шрифты редко продаются отдельно, но идут в комплекте с другими продуктами, такими как китайская версия Microsoft Office 97 . Шрифты поддерживают японские кана , кокудзи и другие символы, отсутствующие в Big-5. В результате расширения ChinaSea стали более популярными, чем расширения, поддерживаемые государством. [ с? ] Некоторые Гонконгские BBS использовали кодировки шрифтов ChinaSea до появления HKSCS .

Шрифт 'Sakura' [ править ]

«Сакура» шрифт (日和字集Sakura Version) разработана в Гонконге и предназначен , чтобы быть совместимым с HKSCS . Он добавляет поддержку кокудзи и проприетарных дингбатов (включая Doraemon ), которых нет в HKSCS.

Unicode-at-on [ править ]

Unicode-at-on ( Unicode 補 完 計畫), ранее называвшееся расширением BIG5, расширяет BIG-5, изменяя таблицы кодовых страниц, но использует расширения ChinaSea, начиная с версии 2. Однако с банкротством ChinaSea, поздним развитием и увеличением популярность HKSCS и Unicode (проект несовместим с HKSCS), успех этого расширения в лучшем случае ограничен.

Несмотря на проблемы, символы, ранее сопоставленные с областью частного использования Unicode, переназначаются на стандартные эквиваленты при экспорте символов в формат Unicode.

OPG [ править ]

На веб-сайтах Oriental Daily News и Sun Daily , принадлежащих Oriental Press Group Limited (東方 報業 集團 有限公司) в Гонконге, использовался загружаемый шрифт с кодировкой расширения Big-5, отличной от HKSCS .

Официальные расширения [ править ]

Шрифт Министерства образования Тайваня [ править ]

Министерство образования Тайваня предоставило собственный шрифт, шрифт Министерства образования Тайваня (臺灣 教育部 造字 檔) для внутреннего использования.

Шрифт Тайваньского совета по сельскому хозяйству [ править ]

Шрифт Тайваньского совета по сельскому хозяйству, Executive Yuan представил 133-значный специальный шрифт Тайваньского совета по сельскому хозяйству (臺灣 農委會 常用 中文 外 字 集), который включает 84 символа из радикала «рыба» и 7 из радикала «птица». .

Big5 + [ править ]

Китайский фонд Оцифровка Technology (中文數位化技術推廣委員會) представил Big5 + в 1997 году, который использовал более 20000 точек кода , чтобы включить все CJK логограммы в Unicode 1.1. Однако дополнительные кодовые точки превышают исходное определение Big-5 (Big5 + использует старшие байтовые значения 81-FE и младшие байтовые значения 40-7E и 80-FE), что не позволяет установить его в Microsoft Windows без новых файлов кодовых страниц.

Big-5E [ править ]

Чтобы позволить пользователям Windows использовать собственные шрифты, Китайский фонд технологий оцифровки представил Big-5E, который добавил 3954 символа (в трех блоках кодовых точек: 8E40-A0FE, 8140-86DF, 86E0-875C) и удалил японскую кана из расширение ETEN. В отличие от Big-5 +, Big5E расширяет Big-5 в пределах своего первоначального определения. Mac OS X 10.3 и более поздних версий поддерживает Big-5E в шрифтах LiHei Pro (儷 黑 Pro.ttf) и LiSong Pro (儷 宋 Pro.ttf).

Big5-2003 [ править ]

Китайский фонд Оцифровка технологии сделали определение Big5 и поместить его в ЦНС 11643 в виде ноты, что делает его частью официального стандарта на Тайване.

Big5-2003 включает в себя все символы Big-5, представленные в расширениях ETEN 1984 года (кодовые точки A3C0-A3E0, C6A1-C7F2 и F9D6-F9FE), а также символ евро. Кириллические символы не были включены, поскольку, по утверждениям официальных органов, CNS 11643 не включает такие символы.

CDP [ править ]

Academia Синица сделал шрифт Китайский обработки данных (漢字構形資料庫) в конце 1990 - х годов, что последний релиз версии 2.5 включены 112,533 символы, некоторые меньше , чем Mojikyo шрифтов.

HKSCS [ править ]

Гонконг также принял Big5 для кодировки символов. Однако в письменном кантонском диалекте есть свои символы, которых нет в обычном наборе символов Big5. Чтобы решить эту проблему, правительство Гонконга создало набор правительственных символов Китая (GCCS) расширений «Большой пятерки» в 1995 году и дополнительный набор символов Гонконга в 1999 году. Гонконгские расширения обычно распространялись в виде патчей. Он все еще распространяется как патч Microsoft, но полный шрифт Unicode также доступен на веб-сайте правительства Гонконга.

Существует две схемы кодирования HKSCS: одна схема кодирования предназначена для стандарта кодирования Big-5, а другая - для стандарта ISO 10646 . После первоначального выпуска существуют также HKSCS-2001 и HKSCS-2004. HKSCS-2004 технически согласован с ISO / IEC 10646: 2003 и поправкой 1 к нему, опубликованной в апреле 2004 года Международной организацией по стандартизации (ISO).

HKSCS включает все символы из общего расширения ETEN, а также некоторые символы из упрощенного китайского , географические названия, имена людей и кантонские фразы (включая ненормативную лексику ).

По состоянию на 2020 год последней версией HKSCS является HKSCS-2016; однако последней версией HKSCS, кодирующей все свои символы в Big5, была HKSCS-2008, в то время как символы, добавленные в более поздних редакциях, отображены только в ISO 10646 / Unicode (как расширение горизонтальных глифов CJK Unified Ideographs, где это необходимо). [5] Кроме того, аналогично ситуации в Гонконге, существуют также символы, которые необходимы Макао, но не включены ни в Big5, ни в HKSCS, поэтому был разработан дополнительный набор символов Макао , включающий символы, которых нет в Big5 или HKSCS; это, однако, также не закодировано в Big5. Первая партия из 121 символа MSCS была представлена ​​для включения в преобразование в Unicode в 2009 году.[6], а первая окончательная версия MSCS была создана в 2020 г. [5]

Кана и кириллица [ править ]

Существует два основных макета расширения Big5 для кодирования каны , русской кириллицы и маркеров списков в диапазоне от 0xC6A1 до 0xC875. Они несовместимы друг с другом. [7] Они сравниваются в таблице ниже.

Макет каны и кириллицы ETEN также используется вариантами HKSCS [8] (включая HTML5 ) [9] и Unicode-At-On [10] , а также версией кодовой страницы 950 от IBM, [11] [12 ] [13], а раскладка каны ETEN (без кириллицы) также используется в варианте Big5-2003. [14] Опубликованные файлы сопоставления для Windows-950 не содержат ни того, ни другого, и этот диапазон Big5 сопоставлен с областью частного использования реализацией Windows-950 из International Components for Unicode . [15] Python «s cp950кодек использует макет BIG5.TXT.[16]

См. Также [ править ]

  • Unicode
  • Ханьское объединение
  • Китайские методы ввода для компьютеров

Ссылки [ править ]

  1. ^ Наборы символов китайского Mac
  2. ^ Apple, Inc (2005-04-04) [1996-06-31]. Преобразование (внешняя версия) из китайской традиционной кодировки Mac OS в Unicode 3.0 и выше . Консорциум Unicode .
  3. ^ "狗 爺 語錄» Архив блога »Что такое кодовая страница 951 (CP951)?" . Архивировано из оригинала на 2007-02-22 . Проверено 27 сентября 2006 .
  4. ^ 黃 國書. "Chinasea 1.0 中國 海 字 集" . ISU FTP. Архивировано из оригинала на 2005-03-19 . Проверено 5 декабря 2016 .
  5. ^ a b Правительство Специального административного района Макао (11.06.2020). «Подача вертикального расширения Макао (символы UNC), горизонтального расширения и регистрации IVSes для MSCS» (PDF) . ISO / IEC JTC 1 / SC 2 / WG 2 IRGN 2430.
  6. ^ Рабочая группа компьютерного кодирования китайских иероглифов (12.06.2009). «Представление символов из набора символов информационных систем Макао» (PDF) . ISO / IEC JTC 1 / SC 2 / WG 2 IRGN 1580. Архивировано из оригинала (PDF) 04.01.2015.
  7. ^ Лунде, Кен (1996-07-12). «2.3.1: БОЛЬШАЯ ПЯТЬ». CJK.INF Версия 2.1 .
  8. ^ "Big5HKSCS-2004" . Mozilla Тайвань.
  9. ^ ван Кестерен, Энн . "big5" . Стандарт кодирования . WHATWG .
  10. ^ "UAO 2.41 b2u" . Mozilla Тайвань.
  11. ^ "Ведущий байт C6: ibm-950_P110-1999" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
  12. ^ "Ведущий байт C7: ibm-950_P110-1999" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
  13. ^ "Ведущий байт C8: ibm-950_P110-1999" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
  14. ^ "Big5-2003 b2u" . Mozilla Тайвань.
  15. ^ IBM ; Консорциум Unicode (2002-12-03). "окна-950-2000" . Международные компоненты для Unicode .
  16. ^ Скрипт, показывающий вывод кодека cp950 для ведущих байтов 0xC6 и 0xC7
  17. ^ Консорциум Unicode (2015-12-02) [1994-02-11]. Таблица BIG5 в Unicode (полная) .
  18. ^ "Big5-ETen против таблицы сопоставления Unicode" . Mozilla Тайвань. 2002-02-24.
  • Лунде, Кен (1999). Обработка информации CJKV (Первое изд.). ISBN O'Reilly and Associates, Inc. 978-1-56592-224-2.

Внешние ссылки [ править ]

  • Mozilla и семейство кодировок Big5: обзор кодировок Big5 с диаграммами кодов для каждого расширения и соответствующими ошибками Firefox (традиционный китайский)
  • Таблица кодов символов Big5
  • Коды китайских иероглифов: обновление Кристиана Виттерна
  • На официальном сайте CNS 11643 в разделе «Китайский информационный код» есть информация о наборе символов Big5e (расширенная версия Big5).
  • Введение в Big5 Содержит различия между расширениями.
  • Графическое представление Big5 в проводнике конвертеров ICU
  • 教育部 標準 字體Страница загрузки шрифтов Министерства образования Тайваня
  • 文獻 處理 實驗室Скачать страницы шрифта CDP
  • Информация о дополнительном наборе символов Гонконга Загружаемые документы и шрифт HKSCS
  • 香港 參考 宋體Страница загрузки шрифта HKSCS от Dynalab (華 康 科技 有限公司).
  • Кодовая страница Microsoft Windows 950 (традиционный китайский Big5)
  • on.cc Страница загрузки шрифта OPG
  • 中國 海 字 集 視窗 Version (v3.0) 下載 網頁Страница загрузки шрифта ChinaSea
  • Обзор кодового набора Big5