При вычислении, кодирование JIS относится к нескольким японских промышленным стандартам для кодирующих на японском языке . [1] Строго говоря, этот термин означает:
- Набор стандартных кодированных наборов символов для японского языка, а именно:
- JIS X 0201 , японская версия ISO 646 ( ASCII ), содержащая базовые 7-битные символы ASCII (с некоторыми изменениями) и 64 символа катаканы половинной ширины.
- JIS X 0208 , наиболее распространенный набор символов кандзи, содержащий 6879 символов, в том числе 6355 иероглифов и 524 других символа (одна плоскость 94 на 94)
- JIS X 0212 , дополнение к JIS X 0208, которое добавляет 5801 кандзи, всего 12156 кандзи (второй самолет 94 на 94).
- JIS X 0213 , который расширяет JIS X 0208 (две плоскости)
- JIS X 0202 (также известный как ISO-2022-JP), набор механизмов кодирования для отправки символьных данных JIS по средам передачи, которые поддерживают только 7-битные данные.
На практике «кодирование JIS» обычно относится к символьным данным JIS X 0208, закодированным с помощью JIS X 0202. Например, IANA использует JIS_Encoding
метку для ссылки на JIS X 0202, а ISO-2022-JP
метку для ссылки на его профиль, определенный в RFC 1468 . [2]
Другие механизмы кодирования для символов JIS включают кодировку Shift JIS и EUC-JP . Shift JIS добавляет кандзи, хирагану во всю ширину и катакану во всю ширину из JIS X 0208 в JIS X 0201 с обратной совместимостью. [3] Shift JIS, пожалуй, наиболее широко используемая кодировка в Японии, поскольку совместимость с однобайтовым набором символов JIS X 0201 позволила производителям электронного оборудования (например, производителям кассовых аппаратов) предлагать модернизацию более старого более дешевого оборудования. это не могло отображать иероглифы на новом оборудовании при сохранении совместимости набора символов.
EUC-JP используется в системах UNIX , где кодировки JIS несовместимы со стандартами POSIX .
Более поздней альтернативой кодированным символам JIS является Unicode ( символы с кодировкой UCS ), особенно в механизме кодирования UTF-8 .
Сравнение кодировок
В следующей таблице сравниваются характеристики трех основных схем кодирования для JIS X 0208.
Кодирование | Альтернативное имя | 7-битный? [а] | ISO 2022 ? | Без гражданства? [b] | Принимает ASCII ? | 0x00–7F всегда ASCII? | Надмножество 8-битного JIS X 0201 ? | Поддерживает JIS X 0212 ? | Самостоятельная синхронизация? | |
---|---|---|---|---|---|---|---|---|---|---|
ISO-2022-JP | « JIS » (JIS X 0202) | да | да | Нет [c] | да | Последовательности не могут быть ASCII [c] | Нет (кодировка возможна) [d] | Возможно [e] | Нет | |
Shift_JIS | "СДЖИС" | Нет | Нет | да | Почти [f] | Изолированные байты могут быть не в формате ASCII [g] | да | Нет | Нет | |
EUC-JP | "UJIS" (Unixized JIS) | Нет | Да [ч] | Да [ч] | Да [я] | Всегда ASCII | Нет (закодировано) [j] | Доступно [k] | Нет | |
Форматы Unicode для сравнения [l] | ||||||||||
UTF-8 | Нет | Нет | да | да | да | Нет (закодировано) | Имеется в наличии | да | ||
UTF-16 | Нет | Нет | да | Нет | Нет | Нет (закодировано) | Имеется в наличии | Только более 16-битных слов. | ||
ГБ 18030 | Нет | Нет [м] | да | да | Изолированные байты могут быть не в формате ASCII | Нет (закодировано) | Имеется в наличии | Нет |
- ^ т.е. не требует 8-битной чистой передачи.
- ^ т. е. последовательность, используемая для кодирования данного символа, всегда одна и та же, независимо от того, какими были предыдущие символы. См. Состояние (информатика) .
- ^ a b ISO-2022-JP - это кодировка с отслеживанием состояния : все кодировки закодированы с использованием 0x21–7E и переключаются между ними с помощью escape-символов ANSI. Следовательно, хотя в исходном состоянии это ASCII, целые последовательности символов, отличных от ASCII, могут быть закодированы байтами ASCII.
- ^ JIS X 0201 katakana доступны в JIS X 0202 и ISO 2022, но не включены в базовый профиль ISO-2022-JP, хотя они являются обычным расширением.
- ^ JIS X 0212 доступен в JIS X 0202 и ISO 2022 и включен в профили ISO-2022-JP-1 и ISO-2022-JP-2, но не в базовый профиль ISO-2022-JP.
- ^ Однобайтовые символы 0x21–7E в Shift_JIS - это правильно ISO-646-JP , чтобы быть надмножеством 8-битного JIS X 0201, но часто декодируются (не обязательно отображаются) как ASCII, который отличается только в двух местах.
- ^ Некоторые (не все) байты ASCII могут отображаться как вторые байты, но не как первые байты двухбайтовых символов в Shift_JIS. Следовательно, в последовательности из двух или более байтов ASCII второй байт обязательно должен быть символами ASCII (или ISO-646-JP).
- ^ a b EUC в упакованном формате основан на механизмах ISO 2022 с заранее заданными обозначениями кодировок. Избегают экранирования обозначений кодировки и блокирующих сдвигов, тогда как использование одиночных сдвигов может быть реализовано без сохранения состояния. Тем не менее, ограничения ISO 2022 соблюдаются.
- ^ Однобайтовые символы 0x21–7E в EUC-JP обычно считаются ASCII, но иногда рассматриваются как ISO-646-JP .
- ^ В отличие от Shift_JIS, EUC-JP не будет обрабатывать простой 8-битный ввод JIS X 0201 без предварительного преобразования из-за другого представления катаканы JIS X 0201 (с односменной).
- ^ JIS X 0212 в EUC-JP не всегда реализуется.
- ^ Помимо свойств самих кодировок, форматы Unicode имеют дополнительные преимущества, вытекающие из базового набора символов: они не ограничиваются кодированными символами JIS, но могут представлять всю UCS (включая полный репертуар кодированных символов JIS) и, следовательно, являются подходит для международного использования. На них также меньше влияют конфликтующие проприетарные расширения из-за их большего базового репертуара и обозначенных областей частного использования.
- ^ Хотя GB 18030 и GBK являются расширениями формы EUC-CN для GB / T 2312, они не соответствуют ограничениям EUC или ISO 2022, в отличие от EUC-JP (или исходного EUC-CN).
Смотрите также
- Японский язык и компьютеры
Рекомендации
- ^ Хараламбус, Яннис (2007). Шрифты и кодировки . O'Reilly Media . С. 42–44. ISBN 9780596102425.
- ^ «Наборы символов» . IANA.
- ^ Лунде, Кен (2009). CJKV Обработка информации . O'Reilly Media . С. 262–268. ISBN 9780596514471.