Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

CCSID ( кодированный набор символов идентификатора ) представляет собой 16-битное число , которое представляет собой определенную кодировку конкретной кодовой страницы . Например, Unicode - это кодовая страница, которая имеет несколько форм кодирования (так называемых «преобразований»), таких как UTF-8 , UTF-16 и UTF-32 , но на самом деле может сопровождаться или не сопровождаться номером CCSID, чтобы указать, эта кодировка уже используется.

Разница между кодовой страницей и CCSID [ править ]

Термины « кодовая страница» и « CCSID» часто используются как синонимы, хотя они и не являются синонимами. Кодовая страница может быть только частью того, что составляет CCSID. Следующие определения от IBM помогают проиллюстрировать этот момент:

  • Глифа является фактической физической картиной пикселей или чернил , что показывает на дисплее или распечатке.
  • Символ представляет собой концепцию , которая охватывает все глифы , связанные с определенным символом. Например, «F», « F », « F », « F », « F » и « F » - все разные глифы, но используют один и тот же символ. Различные модификаторы (полужирный, курсив, подчеркивание, цвет и шрифт) не изменяют существенную F-ность буквы F.
  • Набор символов содержит символы, необходимые для того, чтобы конкретный человек мог полноценно взаимодействовать с компьютером. Он не определяет, как эти символы представлены на компьютере. [1] Этот уровень является первым, на котором символы разделяются на различные алфавиты (латинский, арабский, иврит, кириллица и т. Д.) Или идеографические группы (например, китайский, корейский). Он соответствует «репертуару символов» в модели кодирования Unicode .
  • Кодовая страница представляет собой особое задание значений точек коды для символов. [1] Он соответствует «набору кодированных символов» в модели кодирования Unicode. Точка коды для символа является внутренним представлением компьютера этого символа в заданной кодовой странице. [1] Многие символы представлены разными кодовыми точками на разных кодовых страницах. Некоторые наборы символов могут быть адекватно представлены однобайтовыми кодовыми страницами (которые имеют максимум 256 кодовых точек, следовательно, максимум 256 символов), но для многих требуется больше. Примеры включают JIS X 0208 и Unicode .
  • Схема кодирования - это байтовый формат кодовой страницы. Он сопоставляет значения кодовых точек с последовательностями одного или нескольких байтовых значений на компьютере. [2] Например, UTF-8 и UTF-16BE - это две кодировки одной и той же кодовой страницы Unicode. (Зависит только от того, сколько байтов необходимо для представления определенного значения символа Unicode, как оно содержится в этих байтах и ​​как указывается наличие информации Unicode.) Между тем, в архитектуре представления символьных данных IBM (CDRA) это обычно представлен ESID (идентификатор схемы кодирования). [3] EUC и ISO-2022 - другие примеры схем кодирования.
  • Идентификатор набора кодовых символов ( CCSID ) содержит всю информацию , необходимую для присвоения и сохранения значения и визуализации символов через различные этапы обработки и обмена. Эта информация всегда включает по крайней мере одну кодовую страницу, но может включать несколько кодовых страниц разной длины в байтах. CCSID также имеет связанную схему кодирования, которая определяет, как должны обрабатываться различные кодовые точки. Этот механизм позволяет программе распознавать двунаправленную ориентацию, формирование символов (в основном арабских символов) и другую сложную информацию о кодировании.

Примеры [ править ]

В следующих примерах показано, как одни CCSID состоят из других CCSID.

Все три варианта CCSID Shift-JIS представляют собой наборы многобайтовых символов (MBCS): часть набора однобайтовых символов (SBCS) каждого CCSID отличается. Часть набора двухбайтовых символов (DBCS) одинакова для всех CCSID. CCSID 5028 использует обновленную кодовую страницу 897 под названием CCSID 4993. CCSID 932 использует исходную кодовую страницу 897, которая является CCSID 897. CCSID 942 использует SBCS, отличный от двух других CCSID, то есть 1041.

Также обратите внимание, как CCSID 5028 и 4993 отличаются на 4096 (1000 в шестнадцатеричном формате) от CCSID предшественника с тем же идентификатором кодовой страницы. Это распространенный способ, которым CDRA обозначает обновленный CCSID.

Причин такой сложности несколько:

  • Многие из CCSID используются в базах данных IBM, таких как DB2 , где поле базы данных поддерживает только строку SBCS, DBCS или MBCS. CCSID позволяют программам различать, какой из них используется.
  • Когда символы добавляются или заменяются, как введение знака валюты евро, можно узнать, поддерживают ли сохраненные строки эти добавления символов, потому что используется другой CCSID. Это управление версиями важно для целостности данных.
  • Это позволяет повторно использовать ресурсы среди похожих CCSID. [7]

Ссылки [ править ]

  1. ^ a b c «Терминология IBM - Термины C» . IBM . Проверено 25 января 2013 .
  2. ^ «Архитектура представления символьных данных» . IBM . Приложение A. Схемы кодирования . Проверено 29 июня 2019 .
  3. ^ «Архитектура представления символьных данных» . IBM . Глава 3. Идентификаторы CDRA, раздел «Полная идентификация» . Проверено 29 июня 2019 .
  4. ^ "Смешанные данные японских ПК, включая 1880 УДК" . Глобализация . IBM. Архивировано из оригинального 20 февраля 2012 года . Проверено 29 ноября 2011 года .
  5. ^ "Смешанные данные японских ПК, включая 1880 UDC, Extended SBCS" . Глобализация . IBM. Архивировано из оригинала на 1 декабря 2014 года . Проверено 29 ноября 2011 года .
  6. ^ "Смешанные данные японских ПК, включая 1880 UDC (Катакана - общий набор ПК для SBCS)" . Глобализация . IBM. Архивировано из оригинального 29 ноября 2014 года . Проверено 29 ноября 2011 года .
  7. ^ http://www.ibm.com/software/globalization/cdra/chapter7.html

Внешние ссылки [ править ]

  • Глоссарий терминов IBM CDRA (архитектура представления символьных данных)
  • Терминология глобализации IBM
  • Полное описание IBM CDRA . (Это включает более подробное описание архитектуры, окружающей CCSID.)
  • Полный список CCSID и других связанных идентификаторов IBM
  • Список CCSID, поддерживаемых на компьютере IBM System i