Кана половинной ширины (半角カ ナ, Hankaku kana ) - это символы катаканы, отображаемые с половиной своей нормальной ширины ( соотношение сторон 1: 2 ) вместо обычного квадратного (1: 1) соотношения сторон. Например, обычная (полная) форма катакана ка - k, а форма полуширины - カ. Половина ширины хирагана не включена в Unicode, хотя это можно использовать на Web или электронные книги с помощью CSS «S font-feature-settings: "hwid" 1
с Adobe-Japan1-6 на основе OpenType шрифтов. [1] Кандзи половинной шириныне может использоваться на современных компьютерах, даже если он используется в некоторых принтерах чеков, электрических досках объявлений или старых компьютерах. [2]
Кана половинной ширины использовались на заре японских вычислений, чтобы японские символы отображались в той же сетке, что и моноширинные шрифты латинских символов. Кандзи половинной ширины не использовались. Символы кана половинной ширины сегодня обычно не используются, но находят некоторое применение в определенных условиях, таких как кассовые дисплеи, на квитанциях в магазинах, японском цифровом телевидении и субтитрах DVD, а также на этикетках почтовых адресов. Их использование иногда также является стилистическим выбором, особенно часто в определенном интернет-сленге .
Термин «кана половинной ширины», который строго относится только к тому, как отображаются кана , а не к тому, как они хранятся, также используется свободно для обозначения блока A0 – DF (шестнадцатеричный), где катакана хранится в некоторых кодировках символов , например как JIS X 0201 (1969) - см. кодировки ниже. Однако это формально неверно - этот стандарт JIS просто указывает, что катакана должна храниться в этих местах, без указания того, как они должны отображаться; путаница связана с тем, что на ранних этапах вычислений символы, хранящиеся здесь, фактически отображались как кана половинной ширины - см. путаницу ниже.
История
Кана половинной ширины и Кана 2/3 ширины использовались с докомпьютерной эры. [3] В раннюю компьютерную эру ASCII определялся как 7-битный набор символов и имел место для 128 символов. Однако, поскольку этот стандарт был разработан для США , он не содержит символов и символов, таких как символ йены (¥), необходимых для представления японской валюты, а также не включает пространство для символов других алфавитов, таких как кана или кандзи. - таким образом, японские символы не могут быть закодированы . Кроме того, японские символы, как кана, так и кандзи, нарисованы на квадратной сетке, тогда как латинские символы обычно пишутся более узко, поэтому японские символы также не могут отображаться .
JIS X 0201 был разработан в 1969 году, в то время, когда компьютеры, как правило, были неспособны, как по программному обеспечению, так и по аппаратным ресурсам, отображать тысячи китайских иероглифов кандзи, используемых в японском языке. В качестве компромисса этот стандарт закодировал катакану (только - не хирагана или кандзи) как небольшой набор символов, назначенных в диапазоне значений старшего байта 0x80–0xFF. Это позволило 8-битным процессорам кодировать и обрабатывать японский текст фонетически (как катакана), но без возможности обработки хираганы или кандзи. Эти символы катаканы, в свою очередь, отображались как «кана половинной ширины» - новый, неортодоксальный, более узкий форм-фактор, чтобы соответствовать той же ширине, что и машины с моноширинными латинскими алфавитами, способные печатать и отображать. С точки зрения кодирования JIS X 0201 является вариантом расширения ASCII - он включает дополнительные символы и не совсем соответствует ASCII в перекрывающейся части (раздел латинских символов).
Кана половинной ширины были разработаны как «... первые японские символы, закодированные на компьютерах, потому что они используются для японских телеграмм». [1]
Общенациональная система передачи банковских данных (全国 銀行 デ ー タ 通信 シ ス テ ム) , крупнейшая система денежных переводов в Японии, была создана в 1973 году. В транзакционных сообщениях между банками можно было использовать только латиницу, цифры и катакану половинной ширины в пределах 20 символов. В 2018 году эту систему заменила ZEDI (Национальная система обмена банковскими электронными данными), которая может обрабатывать хирагана и кандзи с символами переменной длины. [4] [5]
Чтобы катакана поместилась в разрешенной более узкой области ячейки, были сделаны некоторые компромиссы. Например, диакритические знаки dakuten и handakuten обрабатываются как отдельные символы, а не являются частью предыдущего символа. Этот компромисс привел к тому, что многие сочли "кана половинной ширины" визуально непривлекательной, и сегодня вызывает проблемы для многих компьютерных программ. [ необходима цитата ]
Еще одно применение каны половинной ширины - экономия места. Японская версия Windows 95 использовала катакану половинной ширины MS P Gothic в своем пользовательском интерфейсе. На смену ей пришла полноразмерная кана из MS UI Gothic, немного уже, чем MS P Gothic. [6] [7]
Кодирование
В спецификации JIS X 0201 (1969 г.) катаканы кодируются в блоке A0 – DF (шестнадцатеричный) - способ их отображения не указывается, и отсутствует отдельное кодирование полноширинной и полушириной каны. В JIS X 0208 все катакана, хирагана и кандзи закодированы (и отображаются как символы полной ширины; символы половинной ширины отсутствуют), хотя порядок каны отличается - см. JIS X 0208 # Хирагана и катакана .
В Shift JIS , который объединяет JIS X 0201 и JIS X 0208, эти кодировки (обе из которых могут кодировать латинские символы и катакану) хранятся отдельно, при этом все JIS X 0201 отображаются как полуширины (таким образом, катакана JIS X 0201 является отображается как кана половинной ширины), тогда как все JIS X 0208 отображаются как полноширинные (таким образом, латинские символы JIS X 0208 отображаются как латинские символы полной ширины). Таким образом, в Shift JIS латинские символы и катакана имеют две кодировки с двумя отдельными формами отображения, как полуширины, так и полной ширины.
В Юникоде катакана и хирагана в основном используются как обычные полноширинные символы (блоки катакана и хирагана отображаются как полноширинные символы); отдельный блок, блок Halfwidth и Fullwidth Forms используется для хранения вариантных символов, включая кана половинной ширины и латинские символы полной ширины.
Таким образом, катакана в JIS X 0201 и соответствующая часть производных кодировок (часть JIS X 0201 Shift JIS) отображаются как полуширина, тогда как в формах полуширины Unicode указываются отдельно.
Стол половинной ширины
«J» указывает первые четыре бита в JIS X 0201 (хотя см. Ниже , они не обязательно указывают на половинную ширину), а в других наборах, таких как Shift JIS , «U» указывает строку в Unicode в блоке половинной и полной ширины. .
J | U | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | B | C | D | E | F |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
А | FF6 | 。 | 「 | 」 | 、 | ・ | ヲ | ァ | ィ | ゥ | ェ | ォ | ャ | ュ | ョ | ッ | |
B | FF7 | ー | ア | イ | ウ | エ | オ | カ | キ | ク | ケ | コ | サ | シ | ス | セ | ソ |
C | FF8 | タ | チ | ツ | テ | ト | ナ | ニ | ヌ | ネ | ノ | ハ | ヒ | フ | ヘ | ホ | マ |
D | FF9 | ミ | ム | メ | モ | ヤ | ユ | ヨ | ラ | リ | ル | レ | ロ | ワ | ン | ゙ | ゚ |
Обратите внимание, что пустая первая ячейка представляет собой несуществующий символ в JIS, A0; но двойные круглые скобки полной ширины ⦆ в Unicode, U + FF60.
Кана половинной ширины в Интернете
Электронная почта
Поскольку протоколы SMTP и NNTP (используемые для доставки электронной почты и Usenet , соответственно) раньше могли передавать только 7 бит, тогда было принято использовать ISO-2022-JP для отправки электронной почты на японском языке.
Кана половинной ширины не содержится в ISO-2022-JP: он включает римский набор JIS X 0201 и весь JIS X 0208, но не набор катаканы JIS X 0201 (который используется для каны половинной ширины в Shift JIS, например). Оба набора JIS X 0201 имеют коды ISO 2022, но профиль ISO-2022-JP включает только римский набор: это означает, что формат для включения катаканы половинной ширины в ISO-2022-JP является как четко определенным, так и нарушением формата ISO-2022-JP. По этой причине, если кана половинной ширины случайно была включена в сообщение, оно могло быть искажено во время передачи (см. Моджибаке ). Стандарт кодирования WHATWG, используемый HTML5, разрешает декодирование, но не кодирование, катаканы JIS X 0201 в ISO-2022-JP в качестве расширения формата и преобразует катакану половинной ширины в их эквиваленты JIS X 0208 при кодировании. [8]
Это больше не проблема, поскольку большинство серверов электронной почты сегодня поддерживают расширение 8BITMIME и, следовательно, понимают 8-битные символы. В качестве альтернативы можно использовать систему кодирования, такую как Base64 , и указать ее в сообщении с помощью MIME .
интернет страницы
Проблема, которая существует в электронной почте, не существует с веб-страницами, поскольку HTTP принимает 8-битные символы.
Однако существует одна проблема, которая заключается в том, что компьютерные программы испытывают трудности с определением того, следует ли рассматривать символ как Shift JIS , EUC-JP или UTF-8, поэтому информацию о коде символа следует указывать с заголовком ответа HTTP или метатегом .
Спутанность сознания
Строго говоря, кодировка JIS X 0201 как «катакана половинной ширины» неверна, поскольку стандарт не определяет ширину символов - он определяет только кодовое представление символов катаканы. В стандарте JIS X 0201 символы катаканы печатаются с нормальной (полной) шириной, а не с половинной шириной.
Символы половинной ширины использовались для отображения только в тот период, когда символы отображались с половинной шириной (и использовались однобайтовые кодировки), до того, как стали отображаться символы полной ширины (и связанные двухбайтовые кодировки, такие как JIS X 0208). широко распространенный. Однако в стандарте Shift JIS, который сочетает в себе стандарт JIS X 0201 (символы которого - латиницу и катакана - отображались половинной шириной) и стандарт JIS X 0208 (символы которого - катакана, хирагана, кандзи и латынь - были отображаются как полноширинные), символы катакана и латинские символы кодируются дважды, как в JIS X 0201, так и в JIS 0208, но отображаются как полуширина или полная ширина в зависимости от того, в каком разделе они находятся (0201 или 0208) - таким образом, 0201 Блок катаканы можно рассматривать как соответствующий «кане половинной ширины», и широко распространено неправильное понимание того, что стандарт 0201 определяет символы «половинной ширины».
Кроме того, хотя JIS X 0201 является однобайтовой кодировкой (и отображается с полушириной), а JIS X 0208 является двухбайтовой кодировкой (и отображается с полной шириной), связи между количеством байтов и шириной нет ( кроме соответствующих в Shift JIS, как указано выше) - например, Unicode может быть закодирован четырьмя байтами ( UTF-32 ) для отображения как полноширинных, так и одинарных символов.
В популярной культуре
Персонажи кана половинной ширины предстают перед публикой в трилогии «Матрица» , которую поставили Вачовски . «Цифровой дождь» состоит из зеркальных половинных шириной кана символов, букв латинского алфавита и арабских цифр.
Смотрите также
- Формы с половинной и полной шириной
Рекомендации
- ^ 改 訂 新 Version ス タ イ ル シ ー ト ポ ッ ト リ フ ァ レ ンp.107 (на японском языке) , Hajime Fujimoto, 5 марта 2013 г., ISBN 978-4774154862
- ^ TSP100futurePRNT (на японском языке) , Star Micronics
- ^ 東京築地活版製造所-活版見本с.33 (на японском языке) , Sōjūrō Nomura, 1903
- ^ «理 部門 の 人材 不足 、 金融 EDI「 ZEDI 」が 2018 年 稼 働 へ» . Nikkei X-TECH . 2017-11-30 . Проверено 11 мая 2019 .
- ^ «全 銀 EDI シ ス テ ム (ZEDI) に 対 応 し た サ ー ビ ス に い て» . Mizuho Bank . 2018-12-25 . Проверено 11 мая 2019 .
- ^ «Версия Windows 98 β3 フ ァ ー ス ト イ レ ッ シ 第 1 回» . Произведите впечатление на часы для ПК . 1998-03-03 . Проверено 11 мая 2019 .
- ^ «Windows98 の イ ン タ ー フ ェ イ ス» . 1998-06-26 . Проверено 11 мая 2019 .
- ^ «12.2. ISO-2022-JP» . Стандарт кодирования . WHATWG.
- ^ Лунде, Кен. CJKV Обработка информации. О'Рейли, 2-е изд., 2009 г.,стр. 224–226(также 1-е изд., 1999 г., стр. 144–145)