ДБКС


Двухбайтовый набор символов ( DBCS ) — это кодировка символов, в которой либо все символы (включая управляющие символы ) закодированы в два байта, либо просто каждый графический символ , не представленный сопутствующим однобайтовым набором символов ( SBCS ), закодирован в два байта ( символы Han обычно включают большинство этих двухбайтовых символов). DBCS поддерживает национальные языки, которые содержат много уникальных символов или символов (максимальное количество символов, которое может быть представлено одним байтом, составляет 256 символов, а два байта могут представлять до 65 536 символов).персонажи). Примеры таких языков включают японский и китайский. Корейский хангыль не содержит столько символов, но KS X 1001 поддерживает как хангыль, так и ханджа и использует два байта на символ.

Термин DBCS традиционно относится к кодировке символов, в которой каждый графический символ кодируется двумя байтами.

В 8-битном коде, таком как Big-5 или Shift JIS , символ из DBCS представлен ведущим (первым) байтом с установленным старшим значащим битом (т. е. больше семи бит) и соединен с однобайтовый набор символов (SBCS). Из практических соображений обеспечения совместимости с немодифицированным готовым программным обеспечением SBCS ассоциируется с символами половинной ширины , а DBCS — с символами полной ширины . В 7-битном коде, таком как ISO-2022-JP , управляющие последовательности или коды сдвига используются для переключения между SBCS и DBCS.

Иногда использование термина «DBCS» может подразумевать базовую структуру, не соответствующую ISO 2022 . Например, «DBCS» иногда может означать двухбайтовую кодировку, которая не является расширенным кодом Unix (EUC).

Это первоначальное значение DBCS отличается от того, что некоторые считают правильным использованием сегодня. Некоторые настаивают на том, чтобы эти кодировки символов правильно назывались многобайтовыми наборами символов (MBCS) или кодировками переменной ширины , потому что кодировки символов, такие как EUC-JP , EUC-KR , EUC-TW , GB18030 и UTF-8 , используют более двух байтов для некоторых символов, и они поддерживают один байт для других символов.

Некоторые люди используют DBCS для обозначения кодировок UTF-16 и UTF-8 , в то время как другие люди используют термин DBCS для обозначения более старых (до Unicode ) кодировок символов, в которых используется более одного байта на символ. Shift JIS , GB2312 и Big5 — это несколько кодировок символов, которые могут содержать более одного байта на символ, но даже использование термина DBCS для этих кодировок символов является неправильной терминологией, поскольку эти кодировки символов на самом деле являются кодировками с переменной шириной (как и обе UTF -кодировки). 16 и UTF-8). Некоторые мэйнфреймы IBM имеют настоящие кодовые страницы DBCS, которые содержат только двухбайтовую часть многобайтовой кодовой страницы.