Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

JIS X 0208 - это 2-байтовый набор символов, определенный в качестве промышленного стандарта Японии , содержащий 6879 графических символов, пригодных для написания текста, названий мест, личных имен и т. Д. На японском языке . Официальное название текущего стандарта - 7-битные и 8-битные двухбайтовые наборы KANJI для обмена информацией ( 7 ビ ッ ト 及 び 8 ビ ッ ト の 2 バ イ ト 情報 交換 用 化 漢字 集合, Nana-Bitto Oyobi Hachi-Bitto no Ni- Baito Jōhō Kōkan'yō Fugōka Kanji Shūg ) . Первоначально он был создан как JIS C 6226 в 1978 году и был пересмотрен в 1983, 1990 и 1997 годах. IBM также называет его кодовой страницей 952 . Версия 1978 года также называетсяКодовая страница 955 от IBM.

Сфера использования и совместимость [ править ]

Набор символов, установленный JIS X 0208, в первую очередь предназначен для обмена информацией (情報 交換, jōhō kōkan ) между системами обработки данных и подключенными к ним устройствами или взаимно между системами передачи данных. Этот набор символов можно использовать для обработки данных и обработки текста.

Частичные реализации набора символов не считаются совместимыми. Потому что есть места, где происходили такие вещи, как первоначальный редакционный комитет первого стандарта, который позаботился о разделении персонажей между уровнями 1 и 2 и вторым стандартом, а затем перетасовал некоторые варианты персонажей (異体 字, itaiji ) между уровнями, по крайней мере В первом и втором стандартах предполагается, что японские компьютерные системы , не использующие иероглифы, и реализация только уровня 1 одно время рассматривались для разработки. Однако такие реализации никогда не назывались совместимыми, хотя такой пример, как ранний NEC PC-9801, действительно существовал. [1]

Несмотря на то, что в стандарте JIS X 0208: 1997 есть положения, касающиеся совместимости, в настоящее время обычно считается, что этот стандарт не удостоверяет совместимость и не является официальным производственным стандартом, который является декларацией самосовместимости. [2] Следовательно, де-факто «совместимые» продукты JIS X 0208 не считаются существующими. Такие термины, как «соответствующий» (準 拠, junkyo ) и «поддержка» (対 応, taiō ) включены в JIS X 0208, но семантика этих терминов варьируется от человека к человеку.

Таблицы кодов [ править ]

Ведущий байт [ править ]

Первый байт кодирования соответствует номеру строки или ячейки плюс 0x20 или 32 в десятичном формате (см. Ниже). Следовательно, кодовый набор, начинающийся с 0x21, имеет номер строки 1, а его ячейка 1 имеет байт продолжения 0x21 (или 33) и так далее.

Строки без кандзи [ править ]

Набор символов 0x21 (номер строки 1, специальные символы) [ править ]

Некоторые поставщики используют для этого набора несколько иное отображение Unicode, чем приведенное ниже. Например, Microsoft сопоставляет kuten 1-29 (JIS 0x213D) с U + 2015 (горизонтальная полоса) [3], тогда как Apple сопоставляет его с U + 2014 (Em Dash). [4] Точно так же Microsoft сопоставляет kuten 1-61 (JIS 0x215D) с U + FF0D [3] (полноразмерная форма U + 002D Дефис-Минус), а Apple сопоставляет его с U + 2212 (Знак Минус). [4] Отображение в Юникоде волнового тире также различается у разных поставщиков. См. Ячейки со сносками ниже.

В пунктуации ASCII и JISCII (показаны здесь с жирной зеленой рамкой) могут использоваться альтернативные сопоставления с блоком Halfwidth и Fullwidth Forms, если они используются в кодировке, которая объединяет JIS X 0208 с ASCII или с JIS X 0201 , например Shift JIS , EUC-JP или ISO 2022-JP .

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x22 (номер строки 2, специальные символы) [ править ]

Большинство символов в этом наборе были добавлены в 1983 году, за исключением символов 0x2221–0x222E (кутэн с 2-1 по 2-14 или первая строка в таблице ниже), которые были включены в исходную версию стандарта 1978 года.

Набор символов 0x23 (номер строки 3, цифры и латинские буквы) [ править ]

Этот набор включает подмножество инвариантного набора ISO 646 (и, следовательно, также подмножество как ASCII, так и набора римского JIS X 0201 ), минус знаки пунктуации и символы, включая западные арабские цифры и оба регистра основного латинского алфавита . Символы в этом наборе могут использовать альтернативные сопоставления Unicode с блоком Halfwidth и Fullwidth Forms, если они используются в кодировке, которая объединяет JIS X 0208 с ASCII или с JIS X 0201, например EUC-JP , Shift JIS или ISO 2022-JP .

Сравните строку 3 KPS 9566 , которой точно соответствует эта строка. Сравните и сопоставьте строку 3 KS X 1001 и GB 2312 , которые включают в себя все национальные варианты ISO 646 в этой строке, а не только буквенно-цифровое подмножество.

Набор символов 0x24 (номер строки 4, хирагана) [ править ]

Эта строка содержит японскую хирагану .

Сравните строку 4 ГБ 2312 , которая соответствует этой строке. Сравните и сопоставьте ряд 10 KPS 9566 и KS X 1001 , которые используют ту же схему, но в другом ряду.

Набор символов 0x25 (номер строки 5, катакана) [ править ]

Эта строка содержит японскую катакану .

Сравните строку 5 GB 2312 , которая соответствует этой строке. Сравните и сопоставьте строку 11 KPS 9566 и KS X 1001 , которые используют ту же схему, но в другом ряду. Сравните значительно отличающуюся раскладку катаканы, используемую в JIS X 0201 .

Набор символов 0x26 (номер строки 6, греческий) [ править ]

Эта строка содержит базовую поддержку современного греческого алфавита без диакритических знаков и последней сигмы .

Сравните строку 6 для GB 2312 и GB 12345 и строку 6 для KPS 9566 , которые включают те же греческие буквы в той же компоновке, хотя GB 12345 добавляет вертикальные формы представления, а KPS 9566 добавляет римские цифры. Сравните и сопоставьте строку 5 KS X 1001 , в которой греческие буквы смещены, чтобы сначала включить римские цифры.

Набор символов 0x27 (номер строки 7, кириллица) [ править ]

Эта строка содержит современный русский алфавит и не обязательно достаточна для представления других форм кириллицы .

Сравните строку 7 GB 2312 , которая соответствует этой строке. Сравните и сопоставьте строку 12 KS X 1001 и строку 5 KPS 9566 , которые используют тот же макет (но в другой строке).

Набор символов 0x28 (номер строки 8, рисунок рамки) [ править ]

Все символы в этом наборе были добавлены в 1983 году и отсутствовали в исходной версии стандарта 1978 года.

Набор символов расширения 0x2D (номер строки 13, специальные символы NEC) [ править ]

Строки с 9 по 15 стандарта JIS X 0208 оставлены пустыми.

Однако следующая схема строки 13, впервые представленная NEC , является распространенным расширением. Он используется (с небольшими вариациями, отмеченными в сносках) в Windows-932 [3] (соответствует стандарту кодирования WHATWG, используемому в HTML5 ), в варианте PostScript (но, начиная с версии 7 KanjiTalk , это не обычный вариант) [5] из MacJapanese , и JIS X 0213 (преемник JIS X 0208). [5] [6] В отличие от других расширений, созданных Windows-932 / WHATWG и JIS X 0213, эти два расширения совпадают, а не конфликтуют, поэтому декодирование большей части этой строки поддерживается лучше, чем другие расширения, созданные JIS X 0213.

Строки кандзи [ править ]

Структура кода [ править ]

Для представления кодовых точек номера столбцов / строк используются для однобайтовых кодов, а числа kuten используются для двухбайтовых кодов. Для того, чтобы идентифицировать символ вне зависимости от кода, используются имена символов.

Однобайтовые коды [ править ]

Почти все коды графических символов JIS X 0208 представлены двумя байтами по крайней мере по семь бит каждый. Однако каждый управляющий символ , а также простое пространство - хотя и не идеографическое пространство - представлены однобайтовым кодом. Для представления битовой комбинации (ビ ッ ト 組合 せ, bitto kumiawase ) однобайтового кода два десятичных числа - номер столбца и номер строки- используются. Три старших бита из семи или четыре старших бита из восьми, считая от нуля до семи или от нуля до пятнадцати соответственно, образуют номер столбца. Четыре младших бита, считая от нуля до пятнадцати, образуют номер строки. Каждое десятичное число соответствует одной шестнадцатеричной цифре. Например, битовая комбинация, соответствующая графическому символу «пробел», составляет 010 0000 как 7-битное число и 0010 0000 как 8-битное число. В нотации столбец / строка это представлено как 2/0. Другие представления того же однобайтового кода включают 0x20 как шестнадцатеричное число или 32 как одно десятичное число.

Кодовые точки и кодовые номера [ править ]

Двухбайтовые коды разбиты на 94 пронумерованные группы, каждая из которых называется строкой (, ku , букв. «Секция») . Каждая строка содержит 94 пронумерованных кода, каждый из которых называется ячейкой (, десять , букв. «Точка») . [i] Всего получается 8836 (94 × 94) возможных кодовых точек (хотя не все назначены, см. ниже); они изложены в стандарте в кодовой таблице из 94 строк и 94 столбцов.

Номер строки и номер ячейки (каждая пронумерована от 1 до 94 для стандартного кода JIS X 0208) образуют точку кутэн (区 点) , которая используется для представления двухбайтовых кодовых точек. Ряд кода или Кутень номер (区点番号, Кутень BANGO ) выражается в виде «строки-ячейки», строки и числа клеток отделены друг от друга дефисом . Например, символ «» имеет кодовую точку в строке 16, ячейке 1, поэтому его кодовый номер представлен как «16-01».

В 7-битном JIS X 0208 (который может быть переключен в JIS X 0202 / ISO-2022-JP ) оба байта должны быть из 94-байтового диапазона от 0x 21 (используется для строки или ячейки номер 1) до 0x7E ( используется для номера строки или ячейки 94) - точно соответствует диапазону, используемому для 7-битных символов печати ASCII, не считая пробела. Соответственно, закодированные байты получаются добавлением 0x20 (32) к каждому числу. [7] Например, приведенный выше пример 16-01 («亜») будет представлен байтами 0x30 0x21. 8-битный EUC-JP вместо этого использует диапазон от 0xA1 до 0xFE (устанавливая старший бит на 1), тогда как другие кодировки, такие как Shift JISиспользовать более сложные преобразования. Shift JIS включает в себя больше пространства для кодирования, чем необходимо для самого JIS X 0208; некоторые специальные расширения Shift JIS для JIS X 0208 используют номера строк выше 94. [8]

Эта структура также используется в GB 2312 материкового Китая (где он изначально известен как区 位; qūwèi ) и южнокорейском KS C 5601 (в настоящее время KS X 1001 ; ку и десять соответственно известны как ханг и йол ). [9] Более поздний стандарт JIS X 0213 расширяет эту структуру, имея более одной плоскости (, мужчины , букв. «Лицо») рядов, что также является структурой, используемой CNS 11643 .

Неназначенные кодовые точки [ править ]

Среди 2-байтовых кодов строки с 9 по 15 и с 85 по 94 являются неназначенными кодовыми точками (空 き 領域, aki ryōiki ) ; то есть они являются кодовыми точками, которым не присвоены символы. Кроме того, некоторые ячейки в других строках также являются неназначенными кодовыми точками.

Эти пустые области содержат кодовые точки, которые в принципе не должны использоваться. За исключением случаев, когда имеется предварительное соглашение между соответствующими сторонами, символы ( гайдзи ) для обмена информацией не должны назначаться неназначенным кодовым точкам.

Даже при присвоении символов неназначенным кодовым точкам графические символы, определенные в стандарте, не должны назначаться им, и один и тот же символ не должен назначаться нескольким неназначенным кодовым точкам; символы не должны дублироваться в наборе.

Кроме того, при назначении символов неназначенным кодовым точкам необходимо проявлять осторожность при унификации глифов кандзи. Например, ячейка 66 строки 25 соответствует кандзи, означающему «высокий» или «дорогой»; как форма с компонентом, напоминающим символ «рот» () в середине (), так и менее распространенная форма с лестничной конструкцией в том же месте () включены в один и тот же код. Следовательно, ограничение точки 25-66 формой «рта» и присвоение последней «лестничной» формы неназначенной кодовой точке технически будет нарушением стандарта.

На практике, однако, несколько вариантов Shift JIS для конкретных поставщиков , включая Windows-932 и MacJapanese , кодируют расширения поставщика в нераспределенных строках пространства кодирования для JIS X 0208. Кроме того, большинство кодов, не назначенных в JIS X 0208, назначаются более новый стандарт JIS X 0213 .

Имена персонажей [ править ]

Каждому символу JIS X 0208 дается имя . Используя имя персонажа, можно идентифицировать персонажей, не полагаясь на их коды. Имена символов согласованы с другими стандартами наборов символов, в частности с универсальным кодированным набором символов (UCS / Unicode ), поэтому это один из возможных источников сопоставления символов с наборами символов, такими как Unicode. Например, и символ в ISO / IEC 646 International Reference Version ( US-ASCII ), столбец 4, строка 1, и символ в JIS X 0208, строка 3, ячейка 33, имеют имя «LATIN CAPITAL LETTER A». Следовательно, символ 4/1 в ASCII и символ 3-33 в JIS X 0208 можно рассматривать как один и тот же символ (хотя на практикедля символа JIS X 0208 используется альтернативное отображение, так как кодировки предоставляют ASCII отдельно). И наоборот, символы ASCII 2/2 (кавычки), 2/7 (апостроф), 2/13 (дефис-минус) и 7/14 (тильда) могут быть определены как символы, которых нет в этом стандарте.

В именах символов, отличных от кандзи, используются прописные латинские буквы, пробелы и дефисы. Символам , не связанным с кандзи, дается общее название на японском языке (日本語 通用 名称, Nihongo tsūy meishō ) , но некоторых положений для этих имен не существует. [j] Имена кандзи, с другой стороны, устанавливаются механически в соответствии с соответствующим шестнадцатеричным представлением их кода в UCS / Unicode. Название кандзи можно получить, добавив к кодовой точке Unicode "CJK UNIFIED IDEOGRAPH-". Например, строка 16, ячейка 1 (), соответствует U + 4E9C в UCS, поэтому ее имя будет «CJK UNIFIED IDEOGRAPH-4E9C». Кандзи не имеют общих японских имен.

Набор кандзи [ править ]

Обзор [ править ]

JIS X 0208 предписывает набор из 6879 графических символов, которые соответствуют двухбайтовым кодам с семью или восемью битами в байте; в JIS X 0208 это называется набором кандзи (漢字 集合, кандзи сюго ) , который включает 6355 иероглифов, а также 524 не-кандзи (非 漢字, хикандзи ) , включая такие символы, как латинские буквы , кана и т. д.

Специальные символы
Занимает строки 1 и 2. Имеется 18 дескрипторных символов (記述 記号, kijutsu kig ), таких как «идеографическое пространство» (  ), японская запятая и точка ; восемь диакритических знаков, таких как дакутэн и хандакутэн ; 10 знаков для вещей, следующих за кана или кандзи (仮 名 又 は 漢字 に 準 じ る も の, kana mata wa kanji ni junjiru mono ), например, знак итерации ; 22 символа скобок (括弧 記号, kakko kigō ) ; 45 математических символов (学術 記号, гакудзюцу киго ) ; и 32 символа единиц , включая знак валюты и почтовый знак , всего 147 знаков.
Цифры
Занимает часть строки 3. Десять цифр от «0» до «9».
Латинские буквы
Занимает часть строки 3. 26 букв английского алфавита в верхнем и нижнем регистре, всего 52.
Хирагана
Занимает строку 4. Содержит 48 глухих кана (включая устаревшие wi и we ), 20 звонких кана ( дакутэн ), 5 полуголосых кана ( хандакутэн ), 10 маленьких кана для палатализированных и ассимилированных звуков, всего 83 символа.
Катакана
Занимает строку 5. Всего 86 знаков; в дополнение к эквивалентам катаканы символов хираганы, малой ka / ke kana (/) и vu kana ().
Греческие буквы
Занимает строку 6. 24 буквы греческого алфавита в верхнем и нижнем регистре (за вычетом последней сигмы ), всего 48.
Кириллические буквы
Занимает строку 7. 33 буквы русского алфавита в верхнем и нижнем регистре, всего 66.
Персонажи, рисовавшие коробки
Занимает ряд 8. Тонкие и толстые сегменты, смешанные тонкие и толстые сегменты, всего 32.
Кандзи
2965 символов уровня 1 (第 1 水準, dai ichi suijun ) от строки 16 до строки 47 и 3390 символов уровня 2 (第 2 水準, dai ni suijun ) от строки 48 до строки 84, всего 6355 символов .

Специальные символы, цифры и латинские символы [ править ]

Что касается специальных символов в наборе кандзи, то некоторые символы из набора графических символов Международной справочной версии (IRV) ISO / IEC 646 : 1991 (эквивалент ASCII ) отсутствуют в JIS X 0208. Есть четыре вышеупомянутых символа. «ЦИТАТНЫЙ ЗНАК», «АПОСТРОФ», «ДЕФЕН-МИНУС» и «ТИЛЬДА». Первые три разделены на разные кодовые точки в наборе кандзи (Nishimura, 1978; стандарт JIS X 0221-1: 2001, раздел 3.8.7). «ТИЛЬДА» IRV не имеет соответствующего символа в наборе кандзи.

В следующей таблице соответствующие символы IRV ISO / IEC 646: 1991 сравниваются с их множественными эквивалентами в JIS X 0208, за исключением символа IRV «TILDE», который сравнивается с «WAVE DASH» в JIS X 0208. Записи в столбцах «Символ» используют кодовые точки UCS / Unicode, поэтому особенности отображения могут отличаться.

Символы ASCII / IRV без точных эквивалентов JIS X 0208 были позже присвоены кодовыми точками JIS X 0213 , они также перечислены ниже, как и сопоставление четырех символов Microsoft .

  1. ^ a b Из "Выбор расширений IBM NEC". Занимает кодовую точку, не назначенную в JIS X 0208.
  2. ^ a b Из "Расширений IBM". Вне диапазона JIS X 0208, но кодируется в Shift_JIS.
  3. ^ Microsoft рассматривает знак "минус" JIS как полноразмерную форму дефиса-минус.
  4. ^ a b Wave Dash иногда рассматривается как полноразмерная форма тильды, например Microsoft (см. Тильда § Unicode и Shift JIS-кодирование волнового тире ). ASCII / IRV тильда неоднозначного кода пункт , который может появляться либо как знак тильды акцента (\) или в виде тира с одной и той же кривизной (\), хотя тир является более распространенным в связи с распорным акцентом , имеющим отдельную точка коды в Windows-1252 ; нет символа JIS X 0208 для тильды. Символы 1-2-18 в JIS X 0213 показаны в кодовой таблице в виде тильды. [10]

Это означает, что набор иероглифов является наиболее распространенным в мире набором символов, не поддерживающих обратную совместимость; это считается одним из слабых мест этого стандарта.

Даже с 90 специальными символами, цифрами и латинскими буквами, которые являются общими для набора кандзи и набора IRV, этот стандарт не соответствует расположению ISO / IEC 646. Эти 90 символов разделены между строками 1 (пунктуация) и 3 ( буквы и цифры), хотя строка 3 соответствует расположению только 62 букв и цифр ISO 646 (например, 4/1(«A») в ISO 646 становится 2/3 4/1(т.е. 3-33) в JIS X 0208).

Что касается причины того, как эти цифры, латинские буквы и т. Д. В наборе кандзи являются «буквенно-цифровыми символами полной ширины» (全 角 英 数字, zenkaku eisūji ), и как исходная реализация вышла с иной интерпретацией по сравнению с IRV, считается, что это связано с несовместимостью.

Начиная с первого стандарта, стало возможно представлять составные части (合成, gōsei ), такие как числа в кружках , лигатуры для названий единиц измерения и римские цифры ; [11] им не были даны независимые коды кутэн . Хотя отдельные компании, производящие информационные системы, могут попытаться представить эти символы так, как того требуют клиенты, по составу символов, ни одна из них не просила добавить их в стандарт, вместо этого предлагая их как гайдзи .

В четвертом стандарте (1997 г.) все эти символы были явно определены как символы, сопровождающие продвижение на текущую позицию; иными словами, это символы пробела . Кроме того, было решено, что они не должны быть составлены из персонажей. По этой причине было запрещено вообще представлять латинские символы с диакритическими знаками , за исключением, возможно, единственного символа Ангстрема ( Å ) в строке 2 ячейки 82.

Хирагана и катакана [ править ]

Хирагана и катакана в JIS X 0208, в отличие от стандарта JIS X 0201 , включает в себя дакутэн и хандакутэн маркировку как часть символа. Катакана wi () и we () (оба являются устаревшими в современном японском языке), а также малое wa () , которых нет в JIS X 0201, также включены.

Расположение каны в JIS X 0208 отличается от расположения катаканы в JIS X 0201. В JIS X 0201 слоговое письмо начинается с wo () , за которым следует маленькая кана, отсортированная по порядку годзюон , за которой следует полноразмерная кана, также в порядке годзюон (ヲ ァ ィ ゥ ェ ュ ョ ッ ー ア イ ウ エ オ ...... ラ リ ル レ ロ ワ ン). С другой стороны, в JIS X 0208 кана сортируется сначала по порядку годзюон , затем в порядке «маленькая кана, полноразмерная кана, кана с дакутэн и кана с хандакутэн», так что одна и та же основная кана сгруппирована. со своими производными (ぁ あ ぃ い ぅ う ぇ え ぉ お ...... っ つ づ ...... は ば ぱ び び ぴ ぷ へ べ ぺ ほ ぼ ぽ ...... ゎ わ ゐ ゑを ん). Такой порядок был выбран для того, чтобы упростить сортировку словарных поисков на основе каны (Yasuoka, 2006). [k]

Как упоминалось выше, в этом стандарте ранее определенный порядок катаканы в JIS X 0201 не соблюдался в JIS X 0208. Считается, что катакана JIS X 0201, являющаяся « каной половинной ширины », возникла из-за несовместимости с катаканой этот стандарт. Этот момент также является одной из слабых сторон этого стандарта.

Кандзи [ править ]

Как кандзи в этом стандарте были выбраны из каких источников, почему они разделены на уровень 1 и уровень 2 и как они расположены, все подробно объясняется в четвертом стандарте (1997). Согласно этому объяснению, кандзи, включенные в следующие четыре списка кандзи, были отражены в 6349 символах первого стандарта (1978).

  • Список кандзи для стандартного кода (предварительно) (標準 コ ー ド 用 漢字 表 (試 案) , Hyōjun Kōdo-yō Kanjihyō (Shian) )
Обработки информации Общество Японии кандзи кода комитета составлен этот список в 1971 году ниже «Корреспонденция Результаты анализа», это , кажется, 6086 символов.
  • Основные кандзи для использования в административной обработке данных (行政 情報 処理 用 基本 漢字, Gyōsei Jōhō Shoriyō Kihon Kanji )
Отобранный Агентством административного управления Японии в 1975 году, он состоит из 2817 знаков. Для данных с целью отбора Агентство составило отчет, который, начиная с «Перечень кандзи для стандартного кода (предварительно)», сравнил несколько списков кандзи, «Результаты анализа соответствия и частота использования кандзи для административной обработки данных. Нормальный кандзи Выбор» (行政情報処理用標準漢字選定のための漢字の使用頻度および対応分析結果, Gyōsei Joho Shoriyō Kihon кандзи Sentei нет Tame нет кандзи нет Shiyō индо Oyobi Taio Bunseki Kekka ) , или "Корреспонденция Результаты анализа" (対 応 分析 結果, Taiō Bunseki Kekka ) для краткости.
  • Японское регистрационное имя кандзи (日本 生命 収容 人名 漢字, Nihon Seimei Shūy Jinmei Kanji )
Один из списков кандзи, составляющих «Результаты анализа корреспонденции», состоящий из 3044 символов. Его больше нет. Первоначального списка не существовало для первоначального редакционного комитета; этот список кандзи был отражен в стандарте, который следует за «Результатами анализа соответствий».
  • Кандзи для внесения в список национальных административных округов (国土 行政区 画 総 覧 使用 漢字, Kokudo Gyōsei Kukaku Sōran Shiy Kanji )
Один из списков кандзи, составляющих «Результаты анализа соответствий», состоящий из 3251 символа. Это иероглифы, используемые в списке всех административных географических названий, составленном Японским центром географических данных , «Национальным списком административных округов» (国土 行政区 画 総 覧, Kokudo Gyōsei Kukaku Sran ) . Первоначальный редакционный комитет не исследовал сам листинг; кандзи, использованные в этом списке, следовали за «Результатами анализа соответствий».

Во втором и третьем стандартах они добавили четыре и два символа к уровню 2, соответственно, в результате чего общее количество кандзи составило 6355. Кроме того, во втором стандарте были изменены формы символов, а также перестановка между уровнями; в третьем стандарте также были изменены формы персонажей. Они описаны ниже.

Разделение уровней [ править ]

2965 кандзи уровня 1 занимают строки с 16 по 47. 3 390 кандзи уровня 2 занимают строки с 48 по 84.

Для уровня 1 были выбраны символы, общие для нескольких списков символов кандзи , на основе кандзи тоё, проекта исправления кандзи тоё и кандзи дзинмэйё . Также были проведены консультации с JIS C 6260 («Идентификационный код To-Do-Fu-Ken (префектура)»; в настоящее время JIS X 0401 ) и JIS C 6261 («Идентификационный код для городов, поселков и деревень»; в настоящее время JIS X 0402 ); кандзи для почти всех японских префектур , городов, районов, округов, поселков, деревень и т.д. были намеренно помещены на уровень 1. [l] Кроме того, были добавлены поправки экспертов.

Уровень 2 был посвящен кандзи, которые появлялись в вышеупомянутых четырех основных списках, но не были выбраны для уровня 1. Как отмечено ниже, кандзи уровня 1 упорядочены по их произношению, поэтому среди кандзи, произношение которых было трудно определить, были те, которые были переведены с уровня 1 на уровень 2 на этой основе (Nishimura, 1978).

Из-за этих решений, по большей части, уровень 1 содержит более часто используемые кандзи, а уровень 2 содержит более редко используемые иероглифы, но, конечно, они оценивались по стандартам дня; с течением времени некоторые кандзи уровня 2 стали более часто использоваться, например, одно означает «парить» (), а другое - «блестеть» (); и наоборот, некоторые кандзи уровня 1 стали редкостью, особенно те, которые означают «сантиметр» () и «миллиметр» (). Кроме того, несколько кандзи дзинмэйё, добавленные после определения набора кандзи, относятся к уровню 2.

Аранжировка [ править ]

Кандзи на уровне 1 сортируются в порядке «репрезентативного прочтения» каждого (т. Е. Канонического прочтения, выбранного только для целей настоящего стандарта); чтение кандзи для этого может быть чтением он или кун ; показания отсортированы в порядке годзюон . [м] Как общее правило, на (китайский-звук) чтение считается представителем чтение; где кандзи имеет несколько по показаниям, показание оценивается как преобладающие по частоте использования, используются для репрезентативного чтения (JIS C стандартом 6226-1978, раздел 3.4). Для небольшого процента кандзи , которые либо не имеют на чтение или иметь начтение, которое малоизвестно и редко используется, чтение кун использовалось как репрезентативное чтение. Если в качестве репрезентативного прочтения необходимо использовать глагол кун , используется форма рэнъёкэй (а не сюсикей ).

Например, клетки 1 до 41 на строке 16 41 символов сортируются в качестве исходного с чтением . В них 22 символов, в том числе 16-10 (: на чтение « ки „; кун чтение“ Aoi „) и 16-32 (: по показаниям“ Дзоку » и « Сёку „; кун чтения“ AWA ») есть на основе их чтения кун . 16-09 (: при чтении « h », кун при чтении « a (i) ») и 16-23 (:в чтениях « » и « kyū », кун, читающий « atsuka (i) ») - это всего лишь два примера глаголов в форме ren'yōkei, используемых для репрезентативного чтения.

Если представитель чтение такого же между различными иероглифами, иероглифом , который использует на чтении помещается впереди тот , который использует куну чтение. Если значения on или kun одинаковы для более чем одного кандзи, они затем упорядочиваются по их первичному радикалу и количеству штрихов .

Будь то уровень 1 или уровень 2, итайдзи устроены так, чтобы непосредственно следовать своей образцовой форме. Например, на уровне 2, сразу после строки 49, ячейки 88 (), следующие сразу же символы отклоняются от общего правила (в данном случае количество штрихов) и включают три варианта 49-88 (,и). [n]

Кандзи на уровне 2 расположены в порядке основного корня и количества штрихов. Если эти два свойства одинаковы для разных кандзи, они затем сортируются путем чтения.

Кандзи из неизвестных источников [ править ]

Было указано, что в наборе кандзи есть иероглифы, которых нет в исчерпывающих, полных словарях кандзи, и что их источники неизвестны. Например, всего через год после того, как был установлен первый стандарт, Тадзима (1979) сообщил, что он подтвердил 63 кандзи, которых не было ни в Синдзиген (большой словарь кандзи, опубликованный Kadokawa Shoten ), ни в Дай Кан-Ва дзитэн. , и они не имели смысла как рьякудзи любого рода; он отметил, что было бы предпочтительнее, чтобы кандзи, отсутствующие в словарях кандзи, выбирались из определенных источников. Эти иероглифы стали известны как «призрачные» символы (幽 霊 文字, yūrei moji ).или «призрачный кандзи» (幽 霊 漢字, юрей кандзи ) среди других имен.

Редакционный комитет четвертой версии стандарта также усмотрел в существовании кандзи с неизвестными источниками проблему, и поэтому изучил, на какие источники ссылался редакционный комитет первой версии. В результате было обнаружено, что первоначальный редакционный комитет в значительной степени полагался на «Результаты анализа корреспонденции» при сборе кандзи. Когда редакционный комитет изучил «Результаты анализа корреспонденции», стало ясно, что многие кандзи, включенные в набор кандзи, но не найденные в исчерпывающих словарях кандзи, предположительно произошли от «японского регистрационного имени кандзи» и «кандзи для национального административного округа. Listing »списки, упомянутые в« результатах анализа корреспонденции ».

Было подтверждено, что не существует оригинального текста для «Японского регистрационного имени кандзи», упомянутого в «Результатах анализа корреспонденции». Что касается «Перечня национального административного округа», Сасахара Хироюки из редакционного комитета четвертой версии изучил кандзи, появившиеся на страницах в стадии разработки, для первого стандарта. Комитет также изучил множество древних писаний, а также множество примеров личных имен в базе данных телефонных книг NTT .

Благодаря этому тщательному расследованию комитет смог сократить количество иероглифов, источник которых не может быть достоверно объяснен, до двенадцати, указанных в таблице рядом. Предполагается, что из них несколько глифов возникли из-за ошибок копирования. В частности, 妛, вероятно, был создан, когда принтеры пытались создать 𡚴 путем вырезания и склеивания 山 и 女 вместе. Тень от этого процесса была неверно интерпретирована как линия, в результате чего получилось 妛 (изображение этого можно найти в Дзёё кандзи дзитэн ).

Унификация вариантов кандзи [ править ]

Согласно спецификациям четвертого стандарта (1997 г.), унификация (包 摂, hōsetsu , не тот же термин, который используется для « унификации » Unicode, хотя это почти та же концепция) - это действие по присвоению одной и той же кодовой точки символу безотносительно к его различным формам характера. В четвертом стандарте разрешенные глифы ограничены; четко определена степень, в которой отдельные аллографические глифы объединяются в графемный код.

Кроме того, согласно спецификациям стандарта, глиф (字体, jitai , букв. «Тело символа»;) является абстрактным понятием, относящимся к графическому представлению графического символа; форма символов (字形, jikei , лит «форма символа», также «Глиф» в некотором смысле, но дифференцирован на другой уровень в целях стандартизации)представляет собой представление в виде графической формы, которую глиф принимает в действительности (например, из-за того, что глиф написан от руки, напечатан, отображается на экране и т. д.). Для одного глифа существует бесконечный диапазон возможных конкретно и / или визуально различных форм символов. Вариация символьной формы одного глифа называется «дизайнерским различием» (デ ザ イ ン の 差, dezain no sa ) .

Степень, в которой глиф объединяется с одной кодовой точкой, определяется в соответствии с «примерным глифом» этой кодовой точки (例 示 字体, reiji jitai ) и «критериями объединения» (包 摂 規 準, hōsetsu kijun ), которые могут быть применены к этому примеру. глиф; то есть пример глифа для кодовой точки применяется к этой кодовой точке, и любые глифы, для которых части, составляющие примерный глиф, заменяются в соответствии с критериями унификации, также применяются к этой кодовой точке.

Например, глиф в 33–46 () состоит из радикала 9 () и кандзи, которые в конечном итоге породили оба so kana (). Кроме того, в критерии объединения 101 отображаются три иероглифа: первое принимает форму, наиболее часто встречающуюся в японском языке (); второй содержит более традиционную форму (), в которой первые два штриха образуют корень 12 (цифра кандзи для числа 8:); а третий подобен второму, за исключением того, что радикал 12 перевернут (). Следовательно, все три перестановки (,,) все применяются к кодовой точке в строке 33, ячейке 46.

В четвертом стандарте, включая одну из опечаток для первой печати, есть 186 критериев унификации.

Когда пример глифа кодовой точки состоит из нескольких глифов, критерии унификации могут применяться к каждой части. После того, как критерий унификации применяется к глифу одной части, к этой части больше нельзя применять критерии унификации. Кроме того, критерий унификации не может применяться, если результирующий глиф будет полностью совпадать с глифом другой кодовой точки.

Пример глифа - не более чем пример для этой кодовой точки; это не символ, «одобренный» стандартом. Кроме того, критерии унификации необходимо использовать только для обычно используемых кандзи и с целью присвоения вещей кодовым точкам этого стандарта. Стандартные запросы о том, что обычно неиспользуемые кандзи не создаются, на основе глифов и критериев объединения.

Кандзи набора кандзи не выбираются полностью последовательно в соответствии с критериями унификации. Например, хотя 41-7 соответствует форме, в которой пересекаются третьи и четвертые штрихи (), а также форме, в которой они не пересекаются (), согласно критерию объединения 72, 20-73 соответствует только форме, в которой они не пересекаются (), а 80-90 соответствует только той форме, в которой они пересекаются ().

Термины «унификация», «критерии унификации» и «пример глифа» были приняты в четвертом стандарте. С первой по третью версии иероглифы и отношения между кандзи были сгруппированы по трем типам: «независимые» (独立, dokuritsu ) , «совместимые» (対 応, taiō ) и «эквивалентные» (同 値, dōchi ) ; Было объяснено, что символы, признанные эквивалентными, «объединяются только в одну точку». «Эквивалентность» включает, кроме кандзи с точно такой же формой, кандзи с различиями из-за стиля и кандзи, где разница в форме символов небольшая.

В первом стандарте было оговорено, что «этот стандарт ... не устанавливает подробностей форм знаков» (раздел 3.1); в нем также говорится, что «цель этого стандарта состоит в том, чтобы установить общую идею символов и их кодов; дизайн форм их символов и тому подобное выходит за рамки его применения». Во втором и третьем стандартах также отмечается, что конкретные конструкции форм знаков не входят в сферу его применения (примечание к пункту 1). Четвертый стандарт также предусматривает, что «Этот стандарт регулирует графические символы, а также их битовые комбинации, и использование, конкретный дизайн отдельных символов и т. Д. Не входит в сферу применения этого стандарта» (JIS X 0208: 1997, пункт 1 ).

Критерии унификации для совместимости [ править ]

В четвертом стандарте определены «критерии унификации для поддержания совместимости с предыдущими стандартами» (過去 の 規格 と の 互換性 を 維持 す る た め 摂 規 準, kako no kikaku to no gokansei wo iji suru tame no hōsetsu kijun ) . Их применение ограничено 29 кодовыми точками, глифы которых сильно различаются между стандартами JIS C 6226-1983 и последующими и JIS C 6226-1978. Для этих 29 кодовых точек глифы из JIS C 6226-1983 и после них отображаются как «A», а глифы из JIS C 6226-1978 как «B». На каждом из них могут быть нанесены символы «A» и «B». Однако, чтобы заявить о совместимости со стандартом, необходимо явно указать, использовалась ли форма «A» или «B» для каждой кодовой точки.

Кодировки символов [ править ]

Схемы кодирования предусмотрены JIS X 0208 [ править ]

В JIS X 0208: 1997 статья 7 вместе с приложениями 1 и 2 определяет в общей сложности восемь схем кодирования.

В приведенных ниже описаниях области «CL» (элемент управления слева), «GL» (рисунок слева), «CR» (элемент управления справа) и «GR» (рисунок справа) соответственно в столбце / строке обозначены от 0 / 0 до 1/15, с 2/1 до 7/14, с 8/0 до 9/15 и с 10/1 до 15/14. Для каждого кода 2/0 назначается графический символ «ПРОБЕЛ», а 7/15 - управляющий символ «УДАЛИТЬ». Эти управляющие символы С0 (определенные в стандарте JIS X 0211 и соответствующие ISO / IEC 6429 ) присваиваются CL области.

7-битная кодировка кандзи
Это предусмотрено в самом стандарте. Двухбайтовый набор JIS X 0208 назначается области GL.
8-битная кодировка кандзи
Это предусмотрено в самом стандарте. То же, что и 7-битная кодировка, но определяется в терминах 8-битных байтов. Область CR может быть неиспользованной или кодировать управляющие символы C1 из JIS X 0211. Область GR не используется.
Международная справочная версия + 7-битная кодировка кандзи
Это предусмотрено в самом стандарте. Смещение управляющего символа обозначает ISO / IEC 646 : Ирвин 1991 (International Reference Version, что эквивалентно US-ASCII ) в GL области. Shift Out обозначает двухбайтовый набор JIS X 0208 в ту же область.
Латинские символы + 7-битная кодировка кандзи
Это предусмотрено в самом стандарте. То же, что и IRV + 7-бит, но с ISO / IEC 646: IRV заменен на ISO / IEC 646: JP (римский набор JIS X 0201 ).
Международная справочная версия + 8-битная кодировка кандзи
Это предусмотрено в самом стандарте. ISO / IEC 646: IRV присваивается региону GL, JIS X 0208 - региону GR. Фактически это подмножество EUC-JP , за исключением катаканы половинной ширины из JIS X 0201 и дополнительных кандзи из JIS X 0212 .
Латинские символы + 8-битная кодировка кандзи
Это предусмотрено в самом стандарте. Как и IRV + 8-бит, но с ISO / IEC 646: IRV заменен на ISO / IEC 646: JP.
Набор символов с кодировкой Shift
Предусмотрено в Приложении 1: «Представление с использованием сдвигового кода » (シ フ ト 符号 化 Sh , Шифуто Фугука Хёген ) . Авторитетное определение Shift JIS .
Набор символов в кодировке RFC 1468
Предусмотрено в Приложении 2: «Представление в кодировке RFC 1468 » ( RFC 1468 符号 表現, RFC 1468 Fugōka Hyōgen ) . Напоминает ISO-2022-JP (который авторитетно определен в RFC 1468), но определяется в терминах восьмибитных байтов, тогда как ISO-2022-JP определяется в терминах семибитных байтов.

Среди кодировок, предусмотренных в четвертом стандарте, только набор кодированных символов «Shift» зарегистрирован IANA . [12] Однако некоторые другие тесно связаны с зарегистрированными IANA кодировками, определенными в другом месте (EUC-JP и ISO-2022-JP).

Последовательности выхода для JIS X 0202 / ISO 2022 [ править ]

JIS X 0208 может использоваться в рамках ISO 2022 / JIS X 0202 (из которых ISO-2022-JP является подмножеством). Управляющие последовательности для обозначения JIS X 0208 в каждом из четырех кодовых наборов ISO 2022 перечислены ниже. Здесь «ESC» относится к управляющему символу « Escape » (0x1B или 1/11).

Управляющая последовательность, начинающаяся с ESC 2/4, выбирает многобайтовый набор символов. Управляющая последовательность, начинающаяся с ESC 2/6, определяет версию предстоящего выбора набора символов. JIS C 6226: 1978 идентифицируется байтом 4/0 идентификатора набора из многобайтовых 94 (соответствует ASCII @). JIS C 6226: 1983 / JIS X 0208: 1983 идентифицируется байтом 4/2 идентификатора из набора многобайтовых 94 ( B). JIS X 0208: 1990 также идентифицируется байтом идентификатора из 94 наборов 4/2, но может отличаться идентификатором версии 4/0 ( @).

Повторяющиеся кодировки ASCII и JIS X 0201 [ править ]

При использовании набора кандзи этого стандарта с набором графических символов IRV ISO / IEC 646: 1991 ( ASCII ) или набором графических символов JIS X 0201 для латинских символов ( JIS-Roman ) обработка символов, общих для обоих наборов, становится проблематично. Если не принять специальных мер, символы, включенные в оба набора, не все отображаются друг с другом один к одному, и одному символу может быть присвоено более одной кодовой точки; то есть это может привести к дублированию кодировки.

JIS X 0208: 1997 в отношении того, когда символ является общим для обоих наборов, в основном запрещает использование кодовой точки в наборе кандзи (который является одной из двух кодовых точек), устраняя повторяющиеся кодировки. Считается, что персонажи с одинаковым именем являются одним и тем же персонажем.

Например, и имя символа, соответствующего битовой комбинации 4/1 в ASCII, и имя символа, соответствующего ячейке 33 строки 3 набора кандзи, представляют собой «ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A». В международной справочной версии + 8-битный код для иероглифов, будь то битовая комбинация 4/1 или битовая комбинация, соответствующая ячейке 33 строки 3 набора кандзи (10/3 12/1), буква « A » (т. Е. «ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА А»). Стандарт запрещает использование битового шаблона «10/3 12/1» в попытке устранить дублирующееся кодирование.

Что касается реализаций, которые обрабатывают символы кодовых точек в наборе кандзи как " полноширинные символы ", а символы ASCII или JIS-Roman - как разные символы, использование кодовых точек набора иероглифов разрешено только ради обратная совместимость. Например, в целях обратной совместимости разрешено рассматривать 10/3 12/1 в Международной справочной версии + 8-битный код для кандзи как соответствующий полной ширине «A».

Если набор кандзи используется вместе с ASCII или JIS-Roman, то даже при строгом соблюдении стандарта уникальная кодировка символа не гарантируется. Например, в Международной справочной версии + 8-битный код для иероглифов допустимо представлять дефис с битовой комбинацией 2/13 для символа «ДЕФИС-МИНУС», а также с ячейкой 30 строки 1 набора кандзи. (битовая комбинация 10/1 11/14) для символа «ДЕФИС». Кроме того, стандарт не определяет, какой из двух использовать для чего, поэтому дефису не присваивается одна уникальная кодировка. Та же проблема влияет на знак минус , кавычки и т. Д.

Более того, даже если набор кандзи используется как отдельный код, нет гарантии, что будет реализована уникальная кодировка символов. Однако во многих случаях полноширинное « ИДЕОГРАФИЧЕСКОЕ ПРОСТРАНСТВО » в строке 1, ячейке 1, и пространство половинной ширины (2/0) сосуществуют. Чем они должны отличаться, не требует пояснений и не указывается в стандарте.

Сравнение схем кодирования, используемых на практике [ править ]

  1. ^ т.е. не требует 8-битной чистой передачи.
  2. ^ т. е. последовательность, используемая для кодирования данного символа, всегда одна и та же, независимо от того, какими были предыдущие символы. См. Состояние (информатика) .
  3. ^ a b ISO-2022-JP - это кодировка с отслеживанием состояния : все наборы символов закодированы с использованием кодов 0x21–7E и переключаются между ними с помощью escape-символов ANSI. Следовательно, хотя в исходном состоянии это ASCII, целые последовательности символов, отличных от ASCII, могут быть закодированы байтами ASCII.
  4. ^ JIS X 0201 katakana доступны в JIS X 0202 и ISO 2022, но не включены в базовый профиль ISO-2022-JP, хотя они являются общим расширением.
  5. ^ JIS X 0212 доступен в JIS X 0202 и ISO 2022 и включен в профили ISO-2022-JP-1 и ISO-2022-JP-2, но не в базовый профиль ISO-2022-JP.
  6. ^ Однобайтовые символы 0x21–7E в Shift_JIS - это правильно ISO-646-JP , чтобы быть надмножеством 8-битного JIS X 0201, но часто декодируются (не обязательно отображаются) как ASCII, который отличается только в двух местах.
  7. ^ Некоторые (не все) байты ASCII могут отображаться как вторые байты, но не как первые байты двухбайтовых символов в Shift_JIS. Следовательно, в последовательности из двух или более байтов ASCII второй байт обязательно должен быть символами ASCII (или ISO-646-JP).
  8. ^ a b EUC в упакованном формате основан на механизмах ISO 2022 с предварительно заданными обозначениями кодировок. Избегают экранирования обозначений кодировки и блокирующих сдвигов, тогда как использование одиночных сдвигов может быть реализовано без учета состояния. Тем не менее, ограничения ISO 2022 соблюдаются.
  9. ^ Однобайтовые символы 0x21–7E в EUC-JP обычно считаются ASCII, но иногда обрабатываются как ISO-646-JP .
  10. ^ В отличие от Shift_JIS, EUC-JP не будет обрабатывать простой 8-битный ввод JIS X 0201 без предварительного преобразования из-за другого представления катаканы JIS X 0201 (с односменным режимом).
  11. ^ JIS X 0212 в EUC-JP не всегда реализован.
  12. ^ Помимо свойств самих кодировок, форматы Unicode имеют дополнительные преимущества, вытекающие из базового набора символов: они не ограничиваются кодированными символами JIS, но могут представлять весь UCS (включая полный репертуар кодированных символов JIS) и, следовательно, являются подходит для международного использования. На них также меньше влияют конфликтующие проприетарные расширения из-за их большего базового репертуара и обозначенных областей частного использования.
  13. ^ Хотя GB 18030 и GBK являются расширениями формы EUC-CN для GB / T 2312, они не соответствуют ограничениям EUC или ISO 2022, в отличие от EUC-JP (или исходной EUC-CN).

История [ править ]

До тех пор, пока не пройдет пять лет после того, как японский промышленный стандарт был установлен, подтвержден или пересмотрен, предыдущий стандарт проходит процесс повторного подтверждения, пересмотра или отзыва. С момента создания стандарт трижды подвергался пересмотру, и в настоящее время действует четвертый стандарт.

Первый стандарт [ править ]

Первым стандартом является JIS C 6226-1978 «Кодекс набора графических символов Японии для обмена информацией» (情報 交換 用 漢字 符号 系, Jōhō Kōkan'y Kanji Fugōkei ) , установленный министром международной торговли и промышленности Японии 1 января 1978 г. Его также для краткости называют 78JIS . По поручению Агентства промышленной науки и техники , JIPDEC кандзи код стандартизации исследований и Проблемная комиссия подготовила проект. Председателем комитета был Моригути Сигейчи .

Код включал 453 не-кандзи (включая хирагана, катакана, римский, греческий и кириллический алфавиты и знаки препинания) и 6349 кандзи (2965 кандзи уровня 1 и 3384 кандзи уровня 2), всего 6802 символа. [13] В нем еще не было персонажей, рисовавших прямоугольники . Сам стандарт был установлен в шрифте Ishii Mincho компании Shaken Co., Ltd.

Второй стандарт [ править ]

Второй стандарт JIS C 6226-1983 «Код японского набора графических символов для обмена информацией» (情報 交換 用 漢字 符号 系, Jōhō Kōkan'yō Kanji Fugōkei ) пересмотрел первый стандарт 1 сентября 1983 года. Он также называется 83JIS . По поручению AIST комитет JIPDEC, связанный с иероглифами JIS, подготовил проект. Председателем комитета был Мотоока Туру .

Проект второго стандарта был основан на рассмотрении таких факторов, как обнародование кандзи дзёё , соблюдение кандзи цзинмэйё и стандартизация телетекса на японском языке Министерством почт и телекоммуникаций ; Кроме того, следующая модификация была выполнена в соответствии с JIS C 6234-1983 (24-пиксельные матричные печатные формы символов; в настоящее время JIS X 9052).

Добавление специальных символов
К специальным символам добавлено 39 символов. Среди этих 39, согласно рекомендациям JICST и таких стандартов, как JIS Z 8201-1981 (математические символы) и JIS Z 8202-1982 (количество, единицы и химические символы), были выбраны вещи, которые не могут быть представлены составом.
Недавно добавленные символы рисования прямоугольников
Было добавлено 32 символа рисования прямоугольников .
Перекачка itaiji кодовых точек
Кодовые точки для 22 пар вариантов иероглифов были заменены местами, так что вариант на уровне 2 был перемещен на уровень 1 и наоборот. [13] [14] Например, (уровень 1) строка 36, ячейка 59 в первом стандарте () была перемещена в (уровень 2) строку 52, ячейку 68; точка, первоначально находившаяся в строке 52, ячейке 68 (), в свою очередь, была перемещена в строку 36, ячейку 59.
Дополнения к кандзи 2 уровня
Трем символам уровня 1 и одному символу уровня 2 были присвоены новые кодовые точки в ранее не назначенных кодовых точках в строке 84 как кандзи уровня 2. Итайдзи для каждой из этих кодовых точек были заново присвоены их исходным местоположениям. [15] Например, строка 84 ячейка 1 во втором стандарте () была перемещена туда , чтобы приспособить различные формы , не включенные в первом стандарте в строке 22 ячейки 38 в качестве 1 -го уровня кандзи ().
Модификация форм персонажей
Были изменены иероглифы примерно 300 кандзи. [16]

Среди изменений в этих 300 или около того формах символов кандзи, многие глифы уровня 1, которые были в стиле словаря Канси, были изменены на варианты, особенно в более упрощенные формы (например, рьякудзи и расширенный синдзитай ). Например, пара кодовых точек, которые часто подвергаются критике из-за значительных изменений, - это строка 18, ячейка 10 (78JIS:, 83JIS:) и строка 38, ячейка 34 (78JIS:, 83JIS:).

Было много меньших изменений от вариантов стиля Канси; например, строка 25, ячейка 84 () потеряла часть штриха. Кроме того, там, где некоторые глифы для кандзи уровня 1 не были формами в стиле Канси, некоторые были изменены на формы в стиле Канси; например, ячейка 49 () строки 80 получила часть штриха (т. е. ту же часть штриха, которую потеряли 25-84).

Чтобы прояснить первоначальную цель первого стандарта, они попали в параметры критериев унификации в четвертом стандарте. Разница в форме для примеров, отмеченных выше («» и «»), подпадает под параметры критерия 42 унификации (относительно компонента «»). [o]

Основная часть изменений в формах персонажей связана с различиями между иероглифами 1 и 2 уровня. В частности, упрощение выполнялось чаще для кандзи уровня 1, чем для кандзи уровня 2; упрощения, применяемые к кандзи уровня 1 (например, от «» до «» и от «» до «»), обычно не применялись к кандзи на уровне 2 («» оставалось как есть). Вышеупомянутый 25-84 () и 80-49 () было дано другое лечение также, как бывший находится на уровне 1 , а второй находится в уровне 2. Тем не менее , произошли некоторые изменения , независимо от уровня; например, символы, содержащие «дверь» () и «зима»() компоненты были изменены без разницы в обработке кандзи уровня 1 и уровня 2.

Однако для 29 кодовых точек (таких как проблемные 18-10 и 38-34, упомянутые выше) формы, унаследованные четвертым стандартом, противоречат первоначальному замыслу первого. Для них существуют специальные критерии унификации, обеспечивающие совместимость с предыдущими стандартами в этих кодовых точках.

Когда была введена новая категория «X» для японских промышленных стандартов (для областей, связанных с информацией), второй стандарт 1 марта 1987 года был переименован в JIS X 0208-1983 [13] .

Третий стандарт [ править ]

Третий стандарт JIS X 0208-1990 «Код набора японских графических символов для обмена информацией» (情報 交換 用 漢字 符号, Jōhō Kōkan'y Kanji Fugō ) пересмотрел второй стандарт 1 сентября 1990 года. Его также для краткости называют 90JIS . По поручению AIST комитет Японской ассоциации стандартов по пересмотру JIS X 0208 создал проект. Председателем комитета был Тадзима Кадзуо .

Было изменено 225 символов кандзи, и два символа были добавлены на уровень 2 (84-05 «» и 84-06 «»). Это было разделение итайдзи для двух уже включенных персонажей (49-59 «» и 63-70 «»). Некоторые изменения и два дополнения соответствовали 118 кандзи дзинмэйё, добавленным в марте 1990 года. [13] Сам стандарт был установлен в Хэйсэй Минчо .

Четвертый стандарт [ править ]

Четвертый стандарт JIS X 0208: 1997 «Наборы KANJI с 7-битным и 8-битным двухбайтовым кодированием для обмена информацией» ( 7 ビ ッ ト 及 び 8 ビ ッ ト の 2 バ イ ト 情報 交換 用 符号 化, Nana-Bitto Oyobi Hachi-Bitto no Ni-Baito Jōh Kōkan'yō Fugōka Kanji Shūg ) пересмотрел третий стандарт 20 января 1997 года. Его также для краткости называют 97JIS . По поручению AIST комитет JSA по исследованию и изучению кодированных наборов символов подготовил проект. Председателем комитета был Сибано Кодзи .

Основная политика этой редакции заключалась в том, чтобы не вносить изменений в набор символов, чтобы прояснить двусмысленные положения и сделать стандарт относительно более простым в использовании. Добавление, удаление и перестановка кодовых точек не производились, и все без исключения глифы примеров также остались без изменений. Однако положения стандарта были полностью переписаны и / или дополнены. В то время как третий стандарт составлял 65 страниц без пояснений, четвертый стандарт - 374 страницы без пояснений.

Основными пунктами доработки являются:

Определение методов кодирования
До третьего стандарта был определен только метод кодирования, основанный на расширении кода JIS X 0202. Это что-то необычное с точки зрения кодированных наборов символов. В четвертом стандарте были определены методы кодирования, которые не используют escape-последовательности с целью расширения кода.
Определение общего запрета на использование неназначенных кодовых точек и способов использования неназначенных кодовых точек
Третий стандарт в пояснении, не являвшемся частью стандарта, описывает вещи так, как будто есть места, где для некоторых неназначенных кодовых точек было приемлемо назначать гайдзи. В четвертом стандарте было разъяснено, что использование неназначенных кодовых точек вообще запрещено. Также были уточнены условия использования неназначенных кодовых точек.
Общее устранение повторяющихся кодировок
Каждому персонажу было дано «имя персонажа», соответствующее другим стандартам. Кроме того, были указаны методы кодирования для их использования вместе с международной справочной версией ISO / IEC 646 или JIS X 0201. Когда JIS X 0208 используется вместе с любой из двух присвоенных кодовых точек для символов с тем же именем, разрешается только одна; таким образом, как правило, исключались повторяющиеся кодировки.
Исследование источников кандзи
Персонажи, включенные в стандарт до сих пор, которые не встречаются ни в Словаре Канси, ни в Дай Канва Цзитен, не были идентифицированы. Соответственно, с какой целью и из каких источников пришли эти иероглифы при составлении первого стандарта, было исследовано.
Определение критериев объединения кандзи
На основе таких вещей, как материалы для разработки первого стандарта, была предпринята попытка восстановить намерение первого стандарта в отношении объема глифов, которые представляет каждая кодовая точка. Кроме того, были четко определены критерии объединения глифов кандзи.
Включение стандартов де-факто
Ко времени появления четвертого стандарта методы кодирования Shift JIS и ISO-2022-JP стали де-факто стандартами для персональных компьютеров и электронной почты соответственно. Эти методы кодирования были включены как «представление с кодированием сдвига» и «представление с кодированием RFC 1468» (описанные выше).

Преемники [ редактировать ]

JIS X 0213 ( расширенные кандзи ) был разработан «с целью предложить достаточный набор символов для целей кодирования современного японского языка, которым JIS X 0208 с самого начала планировал быть»; [17] он определяет набор символов, который расширяет набор кандзи JIS X 0208. Разработчики JIS X 0213 рекомендуют переход с JIS X 0208 на JIS X 0213, среди преимуществ которого является совместимость JIS X 0213 со списком символов Hyōgai Kanji Glyph List. и с новыми кандзи дзинмэйё .

Вопреки ожиданиям разработчиков, принятие JIS X 0213 было далеко не быстрым с момента его принятия в 2000 году. Редакционный комитет JIS X 0213: 2004 написал (в 2004 году): «Статус, где 'то, что большинство информационных систем могут использоваться совместно, только JIS X 0208 "все еще продолжается". (JIS X 0213: 2000, Приложение 1: 2004, раздел 2.9.7)

Для Microsoft Windows , преобладающей операционной системы (и, следовательно, обеспечивающей преобладающую среду рабочего стола ) в секторе персональных компьютеров, репертуар JIS X 0213 был включен с Windows Vista , выпущенной в ноябре 2006 года. Mac OS X была совместима с JIS X 0213 начиная с версии 10.1 (выпущен в 2001 году). Многие подобные Unix, такие как Linux, могут (опционально) поддерживать JIS X 0213 при желании. Поэтому считается, что со временем поддержка JIS X 0213 на персональных компьютерах не станет препятствием для его окончательного внедрения.

Среди разработчиков JIS X 0213 есть те, кто ожидает увидеть сочетание JIS X 0208 и JIS X 0213 до принятия JIS X 0213 (Satō, 2004). Тем не менее, JIS X 0208 продолжает использоваться в настоящее время, и многие предсказывают, что он останется стандартом. Существуют препятствия, которые необходимо преодолеть, если JIS X 0213 вытеснит стандарт JIS X 0208:

  • Репертуары персонажей, используемые в японских мобильных телефонах в настоящее время [ когда? ] основаны на JIS X 0208. Нет никаких официально объявленных планов по их миграции на совместимость с JIS X 0213. Поскольку мобильные телефоны в настоящее время являются повсеместным аспектом японской текстовой коммуникации (см. Японскую культуру мобильных телефонов ), являясь широко распространенным, широко используемым средством для отправки электронной почты и доступа к всемирной паутине , отсутствие принятия мобильных телефонов сдерживает их использование в других местах.
  • JIS X 0213 не является строго совместимым с JIS X 0208 с точки зрения критериев унификации (см. Ниже ). Считается, что для крупномасштабных архивов (например, библиографических баз данных и Aozora Bunko ), которые используют JIS X 0208 и строго следуют его критериям унификации, будет чрезвычайно сложно преобразовать все данные в JIS X 0213 и сохранить тот же стандарт. текстовой целостности.
  • На практике многие системы определяют и используют неназначенные кодовые точки в JIS X 0208. Например, Windows назначает расширенные символы IBM и NEC и определенные пользователем области символов (см. Windows-932 ), а мобильные телефоны назначают эмодзи в некоторых таких местах. Кодовые точки этих гайдзи конфликтуют с кодовыми точками, которые используются кодами JIS X 0213, поэтому возникнут некоторые трудности при миграции этих систем с JIS X 0208 на JIS X 0213. Также есть планы перейти на UCS / Unicode и использовать Репертуар JIS X 0213 оттуда, но пока системный администратор не сможет судить, что реализации суррогатных пар UCS / Unicode и композиции персонажей достаточно стабильны, он или она, вероятно, не решится использовать репертуар JIS X 0213, который требует этих реализаций.
  • Улучшения, предоставляемые JIS X 0213, в основном касаются символов, которые используются не так часто, как те, которые уже присутствуют в JIS X 0208. Поскольку необходимо реализовать почти вдвое больше глифов для меньшего использования этих дополнительных глифов. , во многих случаях это может быть низкая окупаемость инвестиций, особенно когда ресурсы ограничены.

Реализации [ править ]

Поскольку JIS X 0208 / JIS C 6226 - это в первую очередь набор символов, а не строго определенная кодировка символов , несколько компаний внедрили свои собственные кодировки набора символов.

  • Apple Computer Inc .: MacJapanese (на основе Shift_JIS )
  • Fujitsu : код кандзи JEF
  • Hitachi Ltd .: KEIS (на базе EBCDIC)
  • IBM : различные, включая IBM-932 и IBM-942 (оба на основе Shift_JIS)
  • Microsoft : Windows-932 (на основе Shift_JIS)
  • NEC : JIPS

Некоторые из них включают в себя присвоение символов, зависящее от производителя, вместо нераспределенных областей стандарта. К ним относятся Окна-932 и MacJapanese, а также NEC «s PC98 кодировку. Хотя IBM-932 и IBM-942 также включают назначения поставщиков, они включают их за пределами региона, используемого для JIS X 0208.

Отношение к другим стандартам [ править ]

ISO / IEC 646 IRV и ASCII [ править ]

Как отмечалось выше, набор кандзи несовместим снизу вверх с набором графических символов ISO / IEC 646: 1991 IRV (ASCII). Набор кандзи и набор графических символов IRV можно использовать вместе, как указано в JIS X 0208 (IRV + 7-битный код для кандзи и IRV + 8-битный код для кандзи). Их также можно использовать вместе в EUC-JP .

JIS X 0201 [ править ]

В наборе кандзи не хватает трех символов, включенных в набор графических символов JIS X 0201 для латинских символов: 2/2 (ЦИТАТИРОВАНИЕ), 2/7 (АПОСТРОФ) и 2/13 (ДЕФИС-МИНУС). Набор кандзи содержит все символы, входящие в набор графических символов JIS X 0201 для катаканы.

Набор кандзи и набор графических символов для латинских символов могут использоваться вместе, как указано в JIS X 0208 (латинские символы + 7-битный код для кандзи и латинские символы + 8-битный код для кандзи). Набор иероглифов, набор графических символов для латинских символов и набор графических символов JIS X 0201 для катаканы могут использоваться вместе, как указано в JIS X 0208 (набор символов с кодированием сдвига; то есть Shift JIS ). Набор кандзи и набор графических символов для катаканы можно использовать вместе в EUC-JP .

JIS X 0212 [ править ]

JIS X 0212 (дополнительные кандзи) определяет дополнительные символы с кодовыми точками для целей обработки информации, которая требует символов, отсутствующих в JIS X 0208. Вместо того, чтобы выделять символы в основном наборе кандзи JIS X 0208, он определяет второй 94-by- Набор из 94 кандзи, содержащий дополнительные символы.

JIS X 0212 может использоваться с JIS X 0208 в EUC-JP . Кроме того, JIS X 0208 и JIS X 0212 являются исходными стандартами для унификации Han UCS / Unicode , что означает, что кандзи из обоих наборов могут быть включены в один документ формата Unicode.

Среди кодовых точек, которые были изменены во второй версии JIS X 0208, 28 кодовых точек в JIS X 0212 отражают формы символов до изменений. [18] Кроме того, JIS X 0212 переназначает « метку закрытия », которую JIS X 0208 назначил как не-кандзи ( , в строке 1, ячейка 26), как кандзи (, в строке 16, ячейка 17). JIS X 0212 не имеет общих символов с JIS X 0208, кроме этих. Следовательно, сам по себе он не подходит для общего использования.

Однако в четвертой версии JIS X 0208 соединение с JIS X 0212 вообще не определялось. Считается, что это связано с тем, что редакционный комитет четвертого стандарта JIS X 0208 имел критическое мнение о методах выбора и идентификации JIS X 0212. [19] Значения символов и обоснование выбора не были должным образом задокументированы, что затрудняло определить, соответствуют ли желаемые иероглифы кандзи в его репертуаре. [20] В тексте четвертого стандарта, а также указывается на проблемные моменты выбора символов в JIS X 0212, говорится, что «считается, что не только выбор символов невозможен, но также невозможно использовать вместе; подключение к JIS X 0212 вообще не определено ". (раздел 3.3.1)

JIS X 0213 [ править ]

Диаграмма Эйлера, сравнивающая репертуары JIS X 0208, JIS X 0212 , JIS X 0213 , Windows-31J , стандартный репертуар Microsoft и Unicode .

JIS X 0213 (расширение кандзи) определяет набор кандзи, который расширяет набор кандзи JIS X 0208. Согласно этому стандарту, он «разработан с целью предложить достаточный набор символов для целей кодирования современного японского языка. что JIS X 0208 задумывался с самого начала ». [17]

Набор кандзи JIS X 0213 включает все символы, которые могут быть представлены в наборе кандзи JIS X 0208, со многими дополнениями. Всего JIS X 0213 определяет 1183 не-кандзи и 10 050 иероглифов (всего 11 233 символа) в двух плоскостях 94 на 94 (, мужчины ) . Первая плоскость (без кандзи и кандзи уровня 1–3) основана на JIS X 0208, тогда как вторая плоскость (кандзи уровня 4) предназначена для размещения в нераспределенных строках JIS X 0212, что позволяет использовать в EUC-JP . [21] JIS X 0213 также определяет Shift_JISx0213 , вариант Shift_JIS, способный полностью кодировать JIS X 0213.

В большинстве случаев плоскость 1 JIS X 0213 является надмножеством JIS X 0208. Однако к некоторым кодовым точкам в JIS X 0213 применяются разные критерии унификации по сравнению с JIS X 0208. Следовательно, некоторые пары символов кандзи, которые были представлены одной кодовой точкой JIS X 0208, из-за унификации, даются отдельные кодовые точки в JIS X 0213. Например, глиф в строке 33 ячейке 46 JIS X 0208 ("", описанный выше ) объединяет несколько вариантов, к его правому компоненту. В JIS X 0213, две формы (те , содержащие компонент "„) унифицированы по плоскости 1 ряд 33 ячейки 46, а другой (содержащий компонент“") расположен в плоскости 1, строке 14, ячейке 41. Таким образом, невозможно определить, будет ли JIS X 0208 строка 33, ячейка 46 отображаться в JIS X 0213, плоскость 1, строка 33, ячейка 46 или плоскость 1, строка 14, ячейка 41, не может быть определено автоматически. [p] Это ограничивает степень, в которой JIS X 0213 может считаться совместимым снизу вверх с JIS X 0208, как было признано редакционным комитетом JIS X 0213. [22]

Однако по большей части ячейка n строки m в JIS X 0208 соответствует плоскости 1 ячейке m строки n в JIS X 0213; поэтому на практике не возникает большой путаницы. Это связано с тем, что в большинстве шрифтов используются глифы, представленные в JIS X 0208, и большинство пользователей сознательно не осведомлены о критериях унификации.

ISO / IEC 10646 и Unicode [ править ]

Набор кандзи JIS X 0208 является одним из исходных стандартов для унификации Han в ISO / IEC 10646 (UCS) и Unicode . Каждому кандзи в JIS X 0208 соответствует его собственная кодовая точка в базовой многоязычной плоскости (BMP) UCS / Unicode .

Не-кандзи в JIS X 0208 также соответствуют их собственные кодовые точки в BMP. Однако для некоторых специальных символов некоторые системы реализуют соответствия, отличные от соответствий UCS / Unicode (которые основаны на именах символов, указанных в JIS X 0208: 1997).

Сноски [ править ]

Пояснительный [ править ]

  1. ^ a b c d ( Снято )
  2. ^ JIS и Apple: U + 2014.
    Unicode, [a] Microsoft и WHATWG: U + 2015.
  3. ^ Microsoft и WHATWG: U + FF5E.
    Юникод, [a] JIS и Apple: U + 301C.
  4. ^ Microsoft и WHATWG: U + 2225.
    Unicode, [a] JIS и Apple: U + 2016.
  5. ^ Microsoft: U + FF0D.
    Unicode, [a] JIS и Apple: U + 2212.
    WHATWG: U + FF0D по декодированию, в исключительных случаях по кодированию.
  6. ^ a b c d Добавлено в JIS X 0213
  7. Отсутствует в оригинальной версии расширения, предшествующей эпохе Хэйсэй . Позиция кода выбрана NEC или Microsoft. [5] Нет в Macintosh PostScript.
  8. ^ a b c d e f g h i Дублировано добавлением, сделанным в строке 2 в 1983 году. Не закодировано здесь (но оставлено нераспределенным) в JIS X 0213, [5], но дублировано закодировано здесь Microsoft и WHATWG. Что касается кодировки Macintosh PostScript, то к форме, декодированной с помощью функций библиотеки macOS, добавляется код U + F87F для частного использования, что позволяет выполнять циклическое переключение .
  9. ^ Как показано в таблицах кодовзарегистрированных в Международном реестре Coded Character Sets быть использованным с Escapeпоследовательности, до четвертого стандарта (1997 г.), ку () и десять () были названы «раздел» и «позиция "соответственно на английском языке. Что касается предыстории изменения английского языка, то в стандарте JIS X 0221-1995 (UCS), который переводил ISO / IEC 10646-1: 1993, «группа», «плоскость», «строка» и «ячейка» могут переводиться на пистолет () , мен () , ку () ,и десять () . Однако строка и ячейка JIS X 0208 и строка и ячейка UCS представляют собой разные идеи.
  10. ^ Имена персонажей даются латинскими буквами и используются во всем мире, поэтому их можно рассматривать как международную конвенцию, что-то вроде научных названий живых организмов. Что касается этой аналогии, то японские общие названия персонажей будут похожи на использование общих имен организмов.
  11. ^ Для полнофункционального поиска или сортировки по порядку каны необходимо учитывать чтение слов, знаки повторения и т. Д. Сортировка строк японских символов предписана в JIS X 4061 (Сортировка строкяпонских символов).
  12. По словам Ясуоки (2001a), кажется, что произошли некоторые случайные упущения. Он отмечает, например, что ба (, 58-57) из INBA а ши (, 61-89) из Shisui, Кумамото не является частью уровня 1.
  13. ^ Для ячеек 30 и 31 строки 19 порядок показаний перепутан. Следовательно, там, где правильный порядок должен быть kaeru (, «лягушка»), за которым следует kaori (, «аромат») , их позиции меняются так, что kaori предшествует kaeru .
  14. ^ Кроме того, в основном используемый вариант () находится в строке 23, ячейка 85 на уровне 1, а еще один вариант () может быть сгруппирован как имеющий "золотой" радикал в строке 78, ячейке 63 на уровне 2.
  15. ^ Вопрос о том, какие глифы в рамках критериев унификации следует использовать, остается на усмотрение дизайнера шрифтов. В зависимости от этого (и обстоятельств конечного пользователя) возможно, что ни один, ни другой из этих двух не будут следовать своей форме в стиле Канси.
  16. ^ Это та же неопределенность относительно того, следует ли «ДЕФИС-МИНУС» в ISO / IEC 646 отображаться в «ДЕФИС» или «ЗНАК МИНУС» в JIS X 0208.

Ссылки на ссылки [ править ]

  1. ^ «Почему Япония не создала iPod» . Гатунка . 5 мая 2008 г.
  2. ^ JIS X 0208 не был одним из стандартов, включенных в список применимых целевых систем для отображения нового знака JIS, объявленный Министерством экономики, торговли и промышленности 17 января 2007 года.
  3. ^ a b c Стил, Шон (15 апреля 1998 г.). «CP932.TXT: cp932 в таблицу Unicode» . Microsoft. (коды в формате Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)
  4. ^ a b «Карта (внешняя версия) из японской кодировки Mac OS в Unicode 2.1 и выше» . Яблоко. (коды в формате Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)
  5. ^ a b c d Лунде, Кен (21 марта 2019 г.). "Краткая история лигатур имени эры Японии" . Блог CJK Type . Adobe Inc .
  6. ^ "233: Набор японских графических символов для обмена информацией, плоскость 1" (PDF) . IPSJ.
  7. Unicode, Inc. (14 октября 2011 г.). «JIS X 0208 (1990) в Unicode» .
  8. ^ ван Кестерен, Энн , "Index jis0208" , Стандарт кодирования , WHATWG
  9. ^ Jungshik Shin (14 октября 2011). «KSX1001.TXT: KS X 1001 в таблицу Unicode» . Unicode, Inc.
  10. ^ a b Таблица кодов ISO-IR-233 (JIS X 0213: 2004, плоскость 1)
  11. ^ JIS C 6225-1979 (коды управляющих символов для набора японских графических символов для обмена информацией) предоставил управляющие символы для начала и конца композиции. JIS C 6225 был переименован в JIS X 0207 в 1987 году и был отменен в 1997 году.
  12. ^ В наборах символов IANAShift JIS определяется со ссылкой на JIS X 0208: 1997 Приложение 1.
  13. ^ a b c d "15. История JIS X 0208", Набор символов японской графики IBM для расширенного кода UNIX (EUC) (PDF) , IBM, стр. 371, архивировано (PDF) из оригинала 8 декабря 2017 г. , извлечено 8 декабря 2017 г.
  14. ^ Лунде, Кен. «Приложение Q § 78-против-83-3» . CJKV Information Processing (дополнительный материал) . О'Рейли. Обратите внимание на включение кодов кутэн с опущенным дефисом.
  15. ^ Лунде, Кен. «Приложение Q § 78-против-83-2» . CJKV Information Processing (дополнительный материал) . О'Рейли. Обратите внимание на включение кодов кутэн с опущенным дефисом.
  16. ^ Согласно Nomura (1984), количество измененных форм символов, включая переходы между кодовыми точками, составляет 294. Согласно Shibano (1997a) и тексту четвертого стандарта, количество измененных форм символов составляет 300.
  17. ^ a b Оригинальный японский: 「JIS X 0208 が 当初 符号 化 を 意 図 し て い た 現代 日本語 を 化 す る た め に 十分 な 文字 集合 を 提供 す る て た
  18. ^ Лунде, Кен. «Приложение Q § TJ2» . CJKV Information Processing (дополнительный материал) . О'Рейли. Обратите внимание на включение кодов кутэн с опущенным дефисом.
  19. ^ Например, Шибано Кодзи (1997a), который был председателем редакционного комитета четвертого стандарта, так сказал о методе выбора: «Он основан на поверхностном понимании выбора набора символов JIS X 0208; это ошибочное понимание »(оригинальный японский:「 JIS X 0208 の 文字 集合 選定 の 表層 的 理解 に 基 づ く も り 、 違 っ た) и «Существует большая проблема в изучении всего набора символов, который превышает 10000 символов. . " (оригинальный японский:「1 万 字 を 越 え る 水準 の 文字 集合 の 検 討 と し て は 大 き な 問題 が あ る」 )
  20. ^ Marukawa, Kazushi. «Наборы символов JIS - JIS X 0212: 1990» . Архивировано из оригинального 22 мая 2005 года.
  21. ^ Чанг, Hyeshik. «Readme для CJKCodecs» . cPython . Фонд программного обеспечения Python.
  22. ^ JIS X 0213: 2000 раздел 5.3.2, JIS X 0213: 2000 Приложение 1: 2004 раздел 3.2.2

См. Также [ править ]

  • Кодированные наборы символов JIS
    • JIS X 0201 «Наборы 7-битных и 8-битных кодированных символов для обмена информацией»
    • JIS X 0202 «Информационные технологии - Структура кода символов и методы расширения» ( ISO / IEC 2022 )
    • JIS X 0208 «Наборы KANJI с 7-битным и 8-битным двухбайтовым кодированием для обмена информацией»
    • JIS X 0211 «Функции управления для наборов кодированных символов» ( ISO / IEC 6429 )
    • JIS X 0212 «Код дополнительного набора японских графических символов для обмена информацией»
    • JIS X 0213 «7-битные и 8-битные двухбайтовые расширенные наборы KANJI для обмена информацией»
    • JIS X 0221 «Универсальный набор многооктетных кодированных символов (UCS)» ( ISO / IEC 10646 )
  • Расширенный синдзитай
  • Справка: японский

Ссылки [ править ]

В целях цитирования эти японские имена представлены так, как если бы они были в западном порядке, если они романизированы, и сохраняют восточный порядок, где нет.

  • Нисимура, Хирохико [西村 恕 彦], 1978. Кандзи JIS [漢字 の JIS ]. Журнал стандартизации [標準化 ジ ャ ー ナ ル], 171: 3–8.
  • Номура, Масааки [野村 雅昭], 1984. Пересмотр JIS C 6226: Коды кандзи для обмена информацией [ JIS C 6226 情報 交換 用 漢字 符号 系 の 改正]. Журнал стандартизации [標準化 ジ ャ ー ナ ル], 14 (3): 4–9.
  • Огата, Кацухиро [小 形 克 宏], 2006a. [постоянная мертвая ссылка ] Вещи, которые не были унифицированы в 97JIS, среди примеров глифов, измененных в JIS C 6226-1983 (83JIS) [JIS C 6226-1983 (83JIS) で 例 示 字体 を 変 更 し た う ち 97JIS で 包 摂] [ постоянная мертвая ссылка ] (по состоянию на 29 января 2007 г.).
  • Огата, Кацухиро [小 形 克 宏], 2006b. [постоянная неработающая ссылка ] В JIS C 6226-1983 (83JIS) [JIS C 6226-1983 (83JIS) 例 示 字体 変 更 ち 、 包 摂 の 範 だ っ] [ постоянная мертвая ссылка ] (по состоянию на 29 января 2007 г.).
  • Satō, Takayuki [佐藤 敬 幸], 2004. Относительно версии JIS X 0213 (7-битные и 8-битные двухбайтовые расширенные наборы кандзи для обмена информацией) [ JIS X 0213 (7 ビ ッ ト 及 び 8 ビ ッ ト の 2 バ イ ト 情報 交換用 符号 化 拡 張 漢字 集合) の 改正 に つ い て]. Журнал стандартизации [標準化 ジ ャ ー ナ ル], 34 (4): 8–12.
  • Шибано, Кодзи [芝 野 耕 司], 1997a. Относительно версии JIS X 0208 (наборы кандзи с 7-битным и 8-битным двухбайтовым кодированием для обмена информацией) [ JIS X0208 (7 ビ ッ ト 及 び 8 ビ ッ ト の 2 バ イ ト 情報 交換 用 符号 集合) の 改正 に つ い て]. Журнал стандартизации [標準化 ジ ャ ー ナ ル], 27 (3): 8–12.
  • Шибано, Кодзи [芝 野 耕 司], 1997b. План расширения кандзи JIS [ JIS 漢字 の 拡 張 計画]. Журнал стандартизации [標準化 ジ ャ ー ナ ル], 27 (7): 5–11.
  • Shibano, Kōji [芝 野 耕 司], 2000. Создание JIS X 0213 (7-битные и 8-битные двухбайтовые расширенные наборы кандзи для обмена информацией) [ JIS X 0213 (7 ビ ッ ト 及 び 8 ビ ッ ト の 2 バ イ ト 情報 用 符号化 拡 張 漢字 集合) の 制定]. Журнал стандартизации [標準化 ジ ャ ー ナ ル], 30 (3): 3–7.
  • Shibano, Kji [芝 野 耕 司], 2001. Относительно кандзи JIS [漢字 に つ い て]. Стандартизация и контроль качества [と 子質 管理], 54 (8): 44–50.
  • Шибано, Кодзи [芝 野 耕 司] (редактор), 2002. Словарь кандзи JIS, расширенное и исправленное издание [増 補 改 訂 JIS 漢字 字典]. Токио: Японская ассоциация стандартов ( ISBN 4-542-20129-5 ). 
  • Shibano, Kji [芝 野 耕 司], 2002. Развитие технологий обработки кандзи и японского языка: стандартизация кодов кандзи [・ 日本語 処理 技術 の 発 展: 漢字 コ ー ド の 標準化] . Журнал IPSJ [情報 処理], 43 (12): 1362–1367
  • Таджима, Кадзуо [田 嶋 一夫], 1979. Проблемы, связанные с использованием списка кандзи JIS: разработка и обработка кандзи в системах обработки кандзи [ JIS 漢字 表 の 利用 上 の 問題: 漢字 処理 シ ス テ ム お 漢字 の デ ザ] ン と. Журнал Общества обработки информации Японии [情報 管理], 21 (10): 753–761.
  • Uchida, Tomio [内 田 富雄], 1990. Создание JIS X 0212 (Коды кандзи для обмена информацией - Дополнительные кандзи) [ JIS X 0212 (情報 交換 用 漢字 符号 - 補助 漢字) の 制定]. Журнал стандартизации [標準化 ジ ャ ー ナ ル], 20 (11): 6–11.
  • Ясуока, Коити [安岡 孝 一], 2001a. Ситуация с новейшими кодами символов в Японии (бывшая часть) [日本 に お け る 最新 文字 コ ー ド 事情 (前 編) ]. Системы, управление и информация [シ ス テ ム / 制 御 / 情報], 45 (9): 528–535.
  • Ясуока, Коити [安岡 孝 一], 2001b. Ситуация с новейшими кодами символов в Японии (последняя часть) [日本 に お け る 最新 文字 コ ー ド 事情 (後 編) ]. Системы, управление и информация [シ ス テ ム / 制 御 / 情報], 45 (12): 687–694.
  • Ясуока, Коити [安岡 孝 一], 2006 «Различия между планом кандзи JIS (1976) и JIS C 6226-1978» [ JIS 漢字 案 (1976) と JIS C 6226-1978 の ​​異同] на 17-м заседании «Использование компьютеров для восточных стран». Исследования »[東洋 学 へ の コ ン ピ ュ ー タ 利用] исследовательский семинар. 3–51.
  • Ясуока, Коити [安岡 孝 一] и Мотоко Ясуока [安岡 素 子], 2006. История кодов символов: Европа, Америка и Япония [文字 符号 の 歴 史: 欧米 と 日本 編]. Токио: Kyōritsu Shuppan ( ISBN 4-32012102-3 ). 

Внешние ссылки [ править ]

  • Международный реестр, который контролируется IPSJ / ITSCJ.
    • Набор японских символов JIS C 6226-1978
    • Набор японских символов JIS C 6226-1983
    • Обновление регистрации 87 Набор японских графических символов для обмена информацией
  • (на японском языке) Поиск в базе данных Японского комитета по промышленным стандартам (последний стандарт можно прочитать здесь).
  • (на японском языке) Поиск в базе данных Японской ассоциации стандартов : (копию последнего стандарта можно приобрести здесь).
  • (на японском языке) Положения стандартов JIS X 0208 и 0213, относящиеся к унификации
  • (на японском языке) Cyber ​​Librarian - список кандзи JIS