Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

JIS X 0201 , японский промышленный стандарт, разработанный в 1969 году (затем назывался JIS C 6220 до реформы категории JIS), был первым японским электронным набором символов, получившим широкое распространение. Это либо 7-битное кодирование, либо 8-битное кодирование, хотя 8-битное кодирование является доминирующим для современного использования. Полное название этого стандарта - 7-битные и 8-битные наборы символов для обмена информацией ( 7 ビ ッ ト 及 び 8 ビ ッ ト の 情報 交換 用 符号 化 文字 集合).

Первые 96 кодов представляют собой вариант ISO 646 , в основном следуют ASCII с некоторыми отличиями, а вторые 96-символьные коды представляют фонетические знаки японской катаканы . Поскольку эта кодировка не позволяет выразить хирагана или кандзи , она способна выражать только упрощенный письменный японский язык. Тем не менее, можно, по крайней мере, фонетически выразить весь спектр звуков языка. В 1980-х годах это было приемлемо для таких средств массовой информации, как компьютерные терминалы в текстовом режиме, телеграммы, квитанции или другие данные, обрабатываемые электронным способом.

JIS X 0201 был вытеснен последующими кодировками, такими как Shift JIS (который объединяет этот стандарт и JIS X 0208 ) и более поздний Unicode .

История [ править ]

Консультативный комитет по международной Telephonique и др Telegraphique (МККТТЫ) представили Международный телеграфный алфавит кода № 2 (ITA2) в качестве международного стандарта, который был 5-битное латинским кодированием. В большинстве стран существуют свои собственные национальные стандарты, основанные на этом. В Японии Агентство промышленной науки и технологий (AIST) стандартизовало его как 6-битные коды символов JIS C 0803-1961 ( Раскладка клавиатуры и коды для телетайпов ), которые сочетаются с символами катаканы. Однако это не соответствовало отраслевым требованиям, потому что карта символов была маленькой, а макет кода был непрактичным. AIST рассмотрел практическую кодировку символов для замены различных кодов, используемых в Японии. [1]

В 1963 году ISO представила проект стандарта ISO R 646 ( наборы символов с 6- и 7-битной кодировкой для обмена информацией ). AIST передал Японскому обществу обработки информации (IPSJ) объединение ISO R 646 и картографии катаканы . IPSJ сформировал комитет по стандартизации кодов. Комитет не принял 6-битную форму проекта ISO, потому что набор катаканы не мог вписаться в его карту символов. В раннем проекте JIS маленькие символы катаканы отображались рядом с каждым из их обычных символов катаканы. Годзюон посчитал это удобным для сортировкипорядок. Некоторые члены комитета критиковали, что это усложнит механику клавиатуры, которая обрабатывает только обычные символы катаканы. В более позднем проекте маленькие символы катаканы были сопоставлены с позициями 0xA7-0xAF. В 1966 году четвертый проект ISO определил символ национальной валюты как 0x24, и комитет JIS планировал нанести на карту знак иены . Первая редакция ISO 646 была опубликована в 1967 году. В ней в качестве инвариантного символа был указан знак доллара ASCII 0x24, поэтому комитет JIS решил заменить обратную косую черту ASCII 0x5c (один из вариантов символов) знаком йены. Однако в 1968 году CCITT представил международный алфавит № 5 (IA5), в котором говорилось, что знак доллара не требуется и его можно заменить назнак международной валюты (¤). [2] ISO 646 был пересмотрен в 1973 году для соответствия IA5. [3]

JIS C 6220 ( Коды для обмена информацией , 情報 交換 用 符号) был опубликован в 1969 году. Его номер был изменен на JIS X 0201 из-за реформы категории JIS в 1987 году, а название было изменено на 7-битное и 8-битное кодирование. наборы символов для обмена информацией (7 ビ ッ ト 及 び 8 ビ ッ ト の 情報 交換 用 符号 化 文字 集合) в издании 1990 года.

Набор символов JIS X 0201 широко использовался в Японии. Национальная система передачи банковских данных (全国 銀行 デ ー タ 通信 シ ス テ ム), крупнейшая система денежных переводов в Японии, была создана в 1973 году. В сообщениях о транзакциях между банками использовалась подмножество JIS X 0201. Система использовалась до 2018 года, и это было заменен ZEDI (Национальная система обмена банковскими электронными данными, 全 銀 EDI シ ス テ ム), которая могла обрабатывать символы хирагана и иероглифы. [4] В 1978 году был разработан 2-байтовый набор символов JIS C 6226 ( JIS X 0208 ) для обозначения символов хирагана и кандзи. Он включает символы катакана, но их коды и раскладка отличаются от JIS X 0201. Производители компьютеров разработали собственные расширения JIS X 0208, чтобы сохранить совместимость с JIS X 0201. В 1982 г.Схема кодирования Microsoft Kanji ( кодовая страница 932 в MS-DOS ) и SJC26 от Digital Research (для японского CP / M-86 ) были разработаны для объединения однобайтового кодирования JIS X 0201 и двухбайтового кодирования JIS X 0208 без сдвига и сдвига. в иероглифах. [5] Они назывались Shift JIS , который стал промышленным стандартом для персональных компьютеров.

Детали реализации [ править ]

7-битный римский ( сдвиг ) набор
7-битный набор Kana (сдвиг)

Первая половина (римский набор) JIS X 0201 представляет собой японский вариант ISO 646 , в котором ASCII с обратной косой чертой (\) и тильдой (~) заменены на иену (¥) и надстрочную черту (‾), [6] в то время как вторая половина (набор Кана) состоит в основном из катаканы . Управляющие символы указаны в JIS X 0211 .

В 7-битном формате управляющий символ сдвига (0x0E) переключается на набор Кана, а сдвиг (0x0F) переключает на набор латинских букв . [7] [8] В 8-битном формате, представленном в таблице ниже, байты с установленным старшим битом (например, 0x80–0xFF) используются для набора Кана, а байты без него (например, 0x00–0x7F) используются используется иначе.

Имена, используемые специально для 7-битного римского набора, включают «JISCII», [9] «JIS Roman», [10] «ISO646-JP», [11] [12] «JIS C6220-1969-ro», [12] [11] «Японско-римский», [13] «Японская 7-битная латынь», [14] и «ISO-IR-14», [11] [12] [8], тогда как имена используются специально для 7-битной Набор Kana включает «ISO-IR-13», [7] [11] [12] «JIS C6220-1969-jp» [11] [12] и «x0201-7». [11] [12]

Замена символа иены на обратную косую черту может привести к тому, что пути на компьютерах под управлением DOS и Windows с поддержкой японского языка будут отображаться странно, например, «C: ¥ Program Files ¥». [15] Другой похожей проблемой являются управляющие символы строковых литералов в языке программирования C , например .printf("Hello, world.¥n");

Макет кодовой страницы [ править ]

В следующей таблице представлен исходный 8-битный набор символов JIS X 0201 (с набором кана, обозначенным байтами с установленным старшим битом). [16]

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Как часть Shift JIS [ править ]

Ниже приводится отображение используется для JIS X 0201 как часть Shift JIS , [17] [18] т.е. показывающего 8-битового форму JIS X 0201, и отображение символов катаканов к полуширине и Полноширинный Forms блока (который , в свою очередь , происходит его половина ширины кана макета от JIS X 0201).

 Красные ячейки указывают первые байты двухбайтовых символов Shift JIS. [5]

Альтернативное отображение катаканы [ править ]

Базовый профиль ISO-2022-JP не допускает набор Kana для JIS X 0201, только набор Roman и JIS X 0208 (хотя сам ISO 2022 / JIS X 0202 допускает это). Соответственно, при преобразовании катаканы JIS X 0201 (или каны половинной ширины Unicode , которые используют тот же макет) в ISO-2022-JP часто используется следующее сопоставление или преобразование. [20] Это позволяет преобразовать кана в JIS X 0208.

Теоретически это сопоставление одинаково верно, поскольку сам JIS X 0201 не определяет ширину отображения, хотя на практике (и особенно в двухуровневых средах) JIS X 0201 используется для катаканы половинной ширины.

Для простоты сравнения с приведенной выше диаграммой сопоставление показано ниже в кодировке катакана JIS X 0201 и с установленным старшим битом.

Варианты и расширения [ править ]

Shift JIS [ править ]

Реализации IBM [ править ]

Кодовая страница 897 -это реализация IBM 8-битной формы JIS X 0201. Она включает несколько дополнительных графических символов в области управляющих символов C0 , а рассматриваемые кодовые точки могут использоваться как управляющие символы или графические символы в зависимости от context [23] по концепции аналогичен OEM-US , но с другими графическими символами. Строки C0 показаны ниже.

IBM также реализует 7-битный римский набор JIS X 0201 как кодовую страницу 895 [29] и 7-битный набор Kana как кодовую страницу 896 для использования в качестве кодовых наборов ISO 2022 или EUC-JP . Кодовая страница 896 в дополнение к стандартным назначениям JIS X 0201 определяет пять дополнительных назначений, показанных ниже. [30] Хотя использование этих расширенных символов не разрешено соответствующим CCSID 896, [31] они разрешены альтернативным CCSID 4992. [32]

Кодовая страница 1041 IBM - это расширенная версия кодовой страницы 897, кодирующая эти пять расширенных [33] символов IBM в альтернативных местах, которые совместимы с Shift JIS (соответственно 0x80, 0xA0, 0xFD, 0xFE и 0xFF). [34]

Кодовая страница 903 IBM закодирована для использования в качестве однобайтового компонента некоторых упрощенных кодировок китайских символов. [35] Несмотря на это, он следует ISO 646-JP / римской половине JIS X 0201 в том, что он заменяет обратную косую черту ASCII 0x5C (а не знак доллара ASCII 0x24, как в GB 1988 / ISO 646-CN ) на иену. / знак юаня . Он также использует ту же графику замены C0, что и кодовая страница 897. [36] Он тесно связан сКодовая страница 904 , которая закодирована для использования в качестве однобайтового компонента некоторых традиционных китайских кодировок символов, [37] [38] и использует ту же заменяющую графику C0, но следует ASCII . [39]

Другое [ править ]

  • Набор символов NEC PC-8001 (1979), отображаемый шрифтом 8 × 8 пикселей

  • Вариант NEC, используемый в серии PC98 .

  • Вариант Hitachi используется на HD44780 .

Сноски [ править ]

  1. ^ Получает картучтобы соответствовать 0208 JIS X символ (отображенного на U + 309B),не нормализации совместимости (что было бы U + 3099, комбинирование версия). [22]
  2. ^ Получает картучтобы соответствовать 0208 JIS X символ (отображенного на U + 309C),не нормализации совместимости (что было бы U + 309A, комбинирование версия). [22]

Ссылки [ править ]

  1. ^ 行政管理 庁 (Агентство административного управления) (1968).行政 に お け る 電子 計算機 の 共同 利用 に す る 調査 研究 報告 書(на японском языке). 行政事務 機械化 研究 協会. С. 108–113. OCLC  703804474 .
  2. ^ CCITT (1969). «Рекомендация V.3: Международный алфавит № 5». Белая книга: Том VIII - CCITT (Мар-дель-Плата, 1968) . Международный союз электросвязи . С. 11–19 . Проверено 25 июля 2019 .
  3. ^ Ясуока, Коичи; Ясуока, Мотоко (2006). «2.2 ASCII と ISO R 646 と JIS C 6220».文字 符号 の 歴 史(на японском языке). 共 立 出 Version. С. 89–112. ISBN 4-320-12102-3.
  4. ^ «経 理 部門 の 人材 不足 で 悩 会 社 報 、 EDI「 ZEDI 」が 2018 年 稼 働 へ» . Nikkei X-TECH . 2017-11-30 . Проверено 24 июля 2019 .
  5. ^ а б 田, 憲 正 (1983-12-19). «Unix 風 の 機能 を 込 ん だ MS-DOS 2.0 機能 と 内部 構造».日 経 エ レ ク ト ニ ク ス(на японском языке). Никкей МакГроу-Хилл : 165–190. ISSN 0385-1680 . 
  6. ^ «3.1.1 Детали проблем» . Проблемы и решения для Unicode и символов, определенных пользователем / поставщиком . Открытая группа в Японии. Архивировано из оригинала на 1999-02-03 . Проверено 15 апреля 2019 .
  7. ^ a b ISO-IR 013: Японский набор символов KATAKANA (PDF) , Комиссия по стандартам информационных технологий Японии (ITSCJ / IPSJ)
  8. ^ a b ISO-IR 014: Набор символов японского римского алфавита (PDF) , Комиссия по стандартам информационных технологий Японии (ITSCJ / IPSJ)
  9. ^ "IBM-943 и IBM-932" , Центр знаний IBM , IBM
  10. ^ "kUnicodeForceASCIIRangeMask" , Документация разработчика Apple , Apple Inc.
  11. ^ a b c d e f RFC 1345 
  12. ^ a b c d e f "Наборы символов" . IANA.
  13. ^ да Круз, Фрэнк (2010-04-02), «Кермит и имена наборов символов MIME» , Проект Кермит , Колумбийский университет
  14. ^ "CP 00895" , IBM Globalization - Идентификаторы кодовых страниц , IBM
  15. Каплан, Майкл С. (17 сентября 2005 г.). "Когда обратная косая черта не является обратной косой чертой?" .
  16. ^ JIS X 0201-1997 (на японском языке). Японская ассоциация стандартов . 1997-02-28. п. 17.
  17. ^ "ibm-943_P130-1999" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode .
  18. ^ Apple, Inc (2005-04-05) [1995-04-15]. «JAPANESE.TXT: преобразование (внешняя версия) японской кодировки Mac OS в Unicode 2.1 и выше» . Консорциум Unicode .
  19. ^ ван Кестерен, Энн (2019-02-11). «12.2.2. Кодировщик ISO-2022-JP» . Стандарт кодирования . WHATWG .
  20. ^ WHATWG Кодирование Стандартное, например, использует егокачестве преобразования при кодировании Unicode полуширины данных кана с ISO-2022-JP. [19]
  21. ^ ван Кестерен, Энн (2018-01-06). «Указатель ISO-2022-JP Katakana» . Стандарт кодирования . WHATWG .
  22. ^ a b ван Кестерен, Энн (11.02.2019). «5. Указатели» . Стандарт кодирования . WHATWG .
  23. ^ «Идентификаторы кодовой страницы - CP 00897» . IBM Globalization . IBM. Архивировано из оригинала на 2016-03-17.
  24. ^ "CP00897.pdf" (PDF) . IBM. Архивировано (PDF) из оригинала 12 января 2019 года . Проверено 5 декабря 2017 .
  25. ^ "CP00897.txt" . IBM. Архивировано 12 января 2019 года . Проверено 5 декабря 2017 .
  26. ^ "Converter Explorer - ibm-943_P130-1999" . Демонстрация интенсивной терапии . Международные компоненты для Unicode.
  27. ^ «Идентификаторы кодированного набора символов - CCSID 943» . IBM Globalization . IBM. Архивировано из оригинала на 2016-03-15.
  28. ^ Графика перечислены в файлах CP00897.pdf и CP00897.txt, предоставленных IBM. [24] [25] Элементы управления перечислены в отсутствие графической функции или там, где они отличаются от ASCII, в соответствии с кодеком ibm-943_P130-1999, предоставленным IBM для International Components for Unicode [26] (IBM-943 - кодовая страница 897 суперсет). [27] SUB назначен на 0x7F.
  29. ^ "CP00895.pdf" (PDF) . IBM. Архивировано (PDF) из оригинала на 2017-12-08 . Проверено 6 декабря 2017 .
  30. ^ a b "CP00896.pdf" (PDF) . IBM. Архивировано (PDF) из оригинала 12 января 2019 года . Проверено 5 декабря 2017 .
  31. ^ «Идентификаторы кодированного набора символов - CCSID 896» . IBM Globalization . IBM. Архивировано из оригинала на 2016-03-26.
  32. ^ «Идентификаторы кодированного набора символов - CCSID 4992» . IBM Globalization . IBM. Архивировано из оригинала на 2016-03-27.
  33. ^ «11.2 - IBM Extended SBCS Set». Набор символов японской графики IBM для расширенного кода UNIX (EUC) (PDF) . IBM. п. 315. Архивировано (PDF) из оригинала 12.01.2019 . Проверено 7 декабря 2017 .
  34. ^ "CP01041.pdf" (PDF) . IBM. Архивировано (PDF) из оригинала 12 января 2019 года . Проверено 5 декабря 2017 .
  35. ^ «Идентификаторы кодовой страницы - CP 903» . IBM Globalization . IBM. Архивировано из оригинала на 2016-03-17.
  36. ^ "CP00903.pdf" (PDF) . IBM. Архивировано (PDF) из оригинала 12 января 2019 года . Проверено 17 февраля 2018 .
  37. ^ «Идентификаторы кодовой страницы - CP 904» . IBM Globalization . IBM.[ постоянная мертвая ссылка ]
  38. ^ «Идентификаторы кодированного набора символов - CCSID 904» . IBM Globalization . IBM. Архивировано из оригинала на 2016-03-27.
  39. ^ "CP00904.pdf" (PDF) . IBM. Архивировано (PDF) из оригинала 12 января 2019 года . Проверено 11 мая 2018 .

Внешние ссылки [ править ]

  • Схема JIS X 0201 (как наборы 7-битных кодов)