JIS X 0208

Эта статья включает в себя список общих ссылок , но он остается в основном непроверенным, поскольку в нем отсутствуют соответствующие встроенные ссылки . Пожалуйста, помогите улучшить эту статью, добавив более точные цитаты. ( Декабрь 2017 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

JIS X 0208
Псевдоним (а)	JIS C 6226
Язык (и)	Японский , английский , русский Частичная поддержка : греческий , китайский
Стандарт	JIS X 0208: с 1978 по 1997 год
Классификация	Кодирование ISO 2022 , DBCS , CJK
Расширения	ARIB STD B24 Кандзи , NEC PC98 DBCS
Форматы кодирования	Shift JIS ("SJIS") ISO-2022-JP (« JIS ») EUC-JP («UJIS»)
Предшествует	JIS X 0201
Преемник	JIS X 0213
Другая связанная кодировка (и)	KS X 1001 , GB 2312 , JIS X 0212
v т е

JIS X 0208 - это 2-байтовый набор символов, определенный в качестве промышленного стандарта Японии , содержащий 6879 графических символов, пригодных для написания текста, названий мест, личных имен и т. Д. На японском языке . Официальное название текущего стандарта - 7-битные и 8-битные двухбайтовые наборы KANJI для обмена информацией ( 7 ビット及び 8 ビットの 2 バイト情報交換用化漢字集合, Nana-Bitto Oyobi Hachi-Bitto no Ni- Baito Jōhō Kōkan'yō Fugōka Kanji Shūg ) . Первоначально он был создан как JIS C 6226 в 1978 году и был пересмотрен в 1983, 1990 и 1997 годах. IBM также называет его кодовой страницей 952 . Версия 1978 года также называетсяКодовая страница 955 от IBM.

Сфера использования и совместимость [ править ]

Набор символов, установленный JIS X 0208, в первую очередь предназначен для обмена информацией (情報交換, jōhō kōkan ) между системами обработки данных и подключенными к ним устройствами или взаимно между системами передачи данных. Этот набор символов можно использовать для обработки данных и обработки текста.

Частичные реализации набора символов не считаются совместимыми. Потому что есть места, где происходили такие вещи, как первоначальный редакционный комитет первого стандарта, который позаботился о разделении персонажей между уровнями 1 и 2 и вторым стандартом, а затем перетасовал некоторые варианты персонажей (異体字, itaiji ) между уровнями, по крайней мере В первом и втором стандартах предполагается, что японские компьютерные системы , не использующие иероглифы, и реализация только уровня 1 одно время рассматривались для разработки. Однако такие реализации никогда не назывались совместимыми, хотя такой пример, как ранний NEC PC-9801, действительно существовал. ^[1]

Несмотря на то, что в стандарте JIS X 0208: 1997 есть положения, касающиеся совместимости, в настоящее время обычно считается, что этот стандарт не удостоверяет совместимость и не является официальным производственным стандартом, который является декларацией самосовместимости. ^[2] Следовательно, де-факто «совместимые» продукты JIS X 0208 не считаются существующими. Такие термины, как «соответствующий» (準拠, junkyo ) и «поддержка» (対応, taiō ) включены в JIS X 0208, но семантика этих терминов варьируется от человека к человеку.

Таблицы кодов [ править ]

Ведущий байт [ править ]

Первый байт кодирования соответствует номеру строки или ячейки плюс 0x20 или 32 в десятичном формате (см. Ниже). Следовательно, кодовый набор, начинающийся с 0x21, имеет номер строки 1, а его ячейка 1 имеет байт продолжения 0x21 (или 33) и так далее.

JIS X 0208 (ведущие байты)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_	SP 0020	Пунктир. ВЕДУЩИЙ 1-_	Символ LEAD 2-_	Alnum. ВЕДУЩИЙ 3-_	Хирагана ВЕДУЩИЙ 4-_	Катакана ЛИД 5-_	Греческий LEAD 6-_	Кириллица LEAD 7-_	Коробка ЛИД 8-_	9-_	10-_	11-_	12-_	13-_	14-_	15-_
3_	Кандзи L1 ВИНТ 16-_	Кандзи L1 ВЕД 17-_	Кандзи L1 ВЕДУЩИЙ 18-_	Кандзи L1 ВЕД 19-_	Кандзи L1 ВЕД 20-_	Кандзи L1 ВЕД 21-_	Кандзи L1 ВЕД 22-_	Кандзи L1 ВЕД 23-_	Кандзи L1 ВЕДУ 24-_	Кандзи L1 ВЕД 25-_	Кандзи L1 ВЕД 26-_	Кандзи L1 ВЕД 27-_	Кандзи L1 ВЕД 28-_	Кандзи L1 ВЕД 29-_	Кандзи L1 ВЕДУЩИЙ 30-_	Кандзи L1 ВЕД 31-_
4_	Кандзи L1 ВЕД 32-_	Кандзи L1 ВЕДУЩИЙ 33-_	Кандзи L1 ВЕДУЩИЙ 34-_	Кандзи L1 ВЕДУЩИЙ 35-_	Кандзи L1 ВЕДУЩИЙ 36-_	Кандзи L1 ВЕД 37-_	Кандзи L1 ВЕДУЩИЙ 38-_	Кандзи L1 ВЕДУЩИЙ 39-_	Кандзи L1 ВЕДУЩИЙ 40-_	Кандзи L1 ВЕД 41-_	Кандзи L1 ВЕД 42-_	Кандзи L1 ВЕД 43-_	Кандзи L1 ВЕДУЩИЙ 44-_	Кандзи L1 ВЕД 45-_	Кандзи L1 ВЕДУЩИЙ 46-_	Кандзи L1 РУКОВОДСТВО 47-_
5_	Кандзи L2 ВЫНОС 48-_	Кандзи L2 СВИНКА 49-_	Кандзи L2 СВИНКА 50-_	Кандзи L2 СВИНКА 51-_	Кандзи L2 СВИНКА 52-_	Кандзи L2 LEAD 53-_	Кандзи L2: СВИНКА 54-_	Кандзи L2 СВИНКА 55-_	Кандзи L2: СВИНКА 56-_	Кандзи L2: СВИНКА 57-_	Кандзи L2 СВОД 58-_	Кандзи L2 СВИНКА 59-_	Кандзи L2 ВЕД 60-_	Кандзи L2 LEAD 61-_	Кандзи L2 СВИНКА 62-_	Кандзи L2 LEAD 63-_
6_	Кандзи L2 LEAD 64-_	Кандзи L2 ВЕД 65-_	Кандзи L2: СВИНКА 66-_	Кандзи L2 LEAD 67-_	Кандзи L2 LEAD 68-_	Кандзи L2 СВОД 69-_	Кандзи L2 LEAD 70-_	Кандзи L2 СВОД 71-_	Кандзи L2 СВОД 72-_	Кандзи L2 LEAD 73-_	Кандзи L2 СВИНКА 74-_	Кандзи L2 СВИНКА 75-_	Кандзи L2 СВИНКА 76-_	Кандзи L2 LEAD 77-_	Кандзи L2 LEAD 78-_	Кандзи L2 ВЕД 79-_
7_	Кандзи L2 СВИНКА 80-_	Кандзи L2 СВИНКА 81-_	Кандзи L2 СВИНКА 82-_	Кандзи L2 LEAD 83-_	Кандзи L2 LEAD 84-_	85-_	86-_	87-_	88-_	89-_	90-_	91-_	92-_	93-_	94-_	DEL 007F

Строки без кандзи [ править ]

Набор символов 0x21 (номер строки 1, специальные символы) [ править ]

Некоторые поставщики используют для этого набора несколько иное отображение Unicode, чем приведенное ниже. Например, Microsoft сопоставляет kuten 1-29 (JIS 0x213D) с U + 2015 (горизонтальная полоса) ^[3], тогда как Apple сопоставляет его с U + 2014 (Em Dash). ^[4] Точно так же Microsoft сопоставляет kuten 1-61 (JIS 0x215D) с U + FF0D ^[3] (полноразмерная форма U + 002D Дефис-Минус), а Apple сопоставляет его с U + 2212 (Знак Минус). ^[4] Отображение в Юникоде волнового тире также различается у разных поставщиков. См. Ячейки со сносками ниже.

В пунктуации ASCII и JISCII (показаны здесь с жирной зеленой рамкой) могут использоваться альтернативные сопоставления с блоком Halfwidth и Fullwidth Forms, если они используются в кодировке, которая объединяет JIS X 0208 с ASCII или с JIS X 0201 , например Shift JIS , EUC-JP или ISO 2022-JP .

JIS X 0208 (с префиксом 0x21)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_		IDSP 3000 1-1	、 3001 1-2	。 3002 1-3	, 002C 1-4	. 002E 1-5	・ 30FB 1-6	: 003A 1-7	; 003B 1-8	? 003F 1-9	! 0021 1-10	゛ 309Б 1-11	゜ 309C 1-12	´ 00B4 1-13	` 0060 1-14	¨ 00A8 1-15
3_	^ 005E 1–16	‾ 203E 1-17	_ 005F 1-18	ヽ 30ФД 1-19	ヾ 30FE 1-20	ゝ 309D 1-21	ゞ 309E 1-22	〃 3003 1-23	仝 4EDD 1-24	々 3005 1-25	〆 3006 1-26	〇 3007 1-27	ー 30FC 1-28	- ^[b] 1–29 2014 г.	- 2010 1-30	/ 002F 1-31
4_	\ 005C 1-32	〜^[C] 301C 1-33	‖ ^[D] 2016 1–34	\| 007C 1-35	… 2026 1-36	‥ 2025 г. 1-37	' 2018 1-38	' 2019 1-39	« 201С 1-40	» 201Д 1-41	( 0028 1-42	) 0029 1-43	〔 3014 1-44	〕 3015 1-45	[ 005B 1-46	] 005D 1-47
5_	{ 007B 1-48	} 007D 1-49	〈 3008 1-50	〉 3009 1-51	《 300A 1-52	》 300B 1-53	「 300C 1-54	」 300D 1-55	『 300E 1-56	』 300F 1-57	【 3010 1–58	】 3011 1-59	+ 002B 1-60	- ^[e] 2212 1-61	± 00B1 1-62	× 00D7 1-63
6_	÷ 00F7 1-64	= 003D 1-65	≠ 2260 1-66	< 003C 1-67	> 003E 1-68	≦ 2266 1-69	≧ 2267 1-70	∞ 221E 1-71	∴ 2234 1-72	♂ 2642 1-74	♀ 2640 1-73	° 00B0 1-75	′ 2032 1-76	″ 2033 1-77	℃ 2103 1-78	¥ 00A5 1–79
7_	$ 0024 1-80	¢ 00A2 1-81	£ 00A3 1–82	% 0025 1-83	# 0023 1-84	& 0026 1-85	* 002А 1-86	@ 0040 1-87	§ 00A7 1-88	☆ 2606 1-89	★ 2605 1-90	○ 25CB 1-91	● 25CF 1-92	◎ 25CE 1-93	◇ 25C7 1-94

Письмо Число Пунктуация Символ Другой Неопределенный

Набор символов 0x22 (номер строки 2, специальные символы) [ править ]

Большинство символов в этом наборе были добавлены в 1983 году, за исключением символов 0x2221–0x222E (кутэн с 2-1 по 2-14 или первая строка в таблице ниже), которые были включены в исходную версию стандарта 1978 года.

JIS X 0208 (с префиксом 0x22)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_		◆ 25C6 2-1	□ 25A1 2-2	■ 25A0 2-3	△ 25B3 2-4	▲ 25B2 2-5	▽ 25BD 2-6	▼ 25 г. до н.э. 2-7	※ 203B 2-8	〒 3012 2–9	→ 2192 2-10	← 2190 2-11	↑ 2191 2-12	↓ 2193 2-13	〓 3013 2-14	2-15
3_	2-16	2-17	2-18	2-19	2–21	2–21	2-22	2-23	2-24	2-25	∈ 2208 2-26	∋ 220В 2-27	⊆ 2286 2–28	⊇ 2287 2–29	⊂ 2282 2-30	⊃ 2283 2–31
4_	∪ 222А 2-32	∩ 2229 2-33	2-34	2-35	2-36	2-37	2-38	2-39	2-40	2-41	∧ 2227 2-42	∨ 2228 2-43	¬ 00AC 2-44	⇒ 21D2 2-45.	⇔ 21D4 2-46	∀ 2200 2-47
5_	∃ 2203 2-48	2-49	2-50	2-51	2-52	2-53	2-54	2-55	2-56	2-57	2-58	2-59	20 2220 2-60	⊥ 22A5 2-61	⌒ 2312 2-62	∂ 2202 2-63
6_	∇ 2207 2-64	≡ 2261 2-65	≒ 2252 2-66	≪ 226А 2-67	» 22 2-68	√ 221А 2-69	∽ 223Д 2-70	Α 221d 2-71	∵ 2235 2-72	∫ 222Б 2-73	∬ 222С 2-74	2-75	2-76	2-77	2-78	2-79
7_	2-80	2-81	Å 212B 2-82	‰ 2030 2-83	♯ 266Ф 2-84	♭ 266Д 2-85	♪ 266А 2-86	† 2-87 2020 г.	‡ 2021 2-88	¶ 00B6 2-89	2-90	2-91	2-92	2-93	◯ 25EF 2-94

Набор символов 0x23 (номер строки 3, цифры и латинские буквы) [ править ]

Этот набор включает подмножество инвариантного набора ISO 646 (и, следовательно, также подмножество как ASCII, так и набора римского JIS X 0201 ), минус знаки пунктуации и символы, включая западные арабские цифры и оба регистра основного латинского алфавита . Символы в этом наборе могут использовать альтернативные сопоставления Unicode с блоком Halfwidth и Fullwidth Forms, если они используются в кодировке, которая объединяет JIS X 0208 с ASCII или с JIS X 0201, например EUC-JP , Shift JIS или ISO 2022-JP .

Сравните строку 3 KPS 9566 , которой точно соответствует эта строка. Сравните и сопоставьте строку 3 KS X 1001 и GB 2312 , которые включают в себя все национальные варианты ISO 646 в этой строке, а не только буквенно-цифровое подмножество.

JIS X 0208 (с префиксом 0x23)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_		3-1	3-2	3-3	3-4	3-5	3-6	3-7	3-8	3-9	3-10	3-11	3–12	3-13	3-14	3-15
3_	0 0030 3-16	1 0031 3-17	2 0032 3-18	3 0033 3-19	4 0034 3-20	5 0035 3-21	6 0036 3-22	7 0037 3-23	8 0038 3-24	9 0039 3-25	3-26	3-27	3–28	3-29	3-30	3–31
4_	3-32	А 0041 3-33	В 0042 3-34	С 0043 3-35	D 0044 3-36	E 0045 3-37	Ф 0046 3-38	G 0047 3-39	Н 0048 3-40	I 0049 3-41	J 004A 3-42	К 004Б 3-43	L 004C 3-44	М 004Д 3-45	№ 004Е 3-46	О 004F 3-47
5_	П 0050 3-48	Q 0051 3-49	Р 0052 3-50	С 0053 3-51	Т 0054 3-52	U 0055 3-53	V 0056 3-54	W 0057 3-55	0058 Х 3-56	Y 0059 3-57	Z 005A 3-58	3-59	3-60	3-61	3-62	3-63
6_	3-64	а 0061 3-65	б 0062 3-66	c 0063 3-67	д 0064 3-68	е 0065 3-69	ф 0066 3-70	г 0067 3-71	ч 0068 3-72	я 0069 3-73	j 006A 3-74	к 006Б 3-75	л 006C 3-76	м 006Д 3-77	n 006E 3-78	o 006F 3-79
7_	п 0070 3-80	q 0071 3-81	р 0072 3-82	S 0073 3-83	т 0074 3-84	u 0075 3-85	v 0076 3-86	w 0077 3-87	х 0078 3-88	y 0079 3-89	z 007A 3-90	3-91	3-92	3-93	3-94

Набор символов 0x24 (номер строки 4, хирагана) [ править ]

Эта строка содержит японскую хирагану .

Сравните строку 4 ГБ 2312 , которая соответствует этой строке. Сравните и сопоставьте ряд 10 KPS 9566 и KS X 1001 , которые используют ту же схему, но в другом ряду.

JIS X 0208 (с префиксом 0x24)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_		ぁ 3041 4-1	あ 3042 4-2	ぃ 3043 4–3	い 3044 4-4	ぅ 3045 4–5	う 3046 4-6	ぇ 3047 4-7	え 3048 4–8	ぉ 3049 4–9	お 304A 4-10	か 304B 4-11	が 304C 4-12	き 304D 4-13	ぎ 304E 4-14	く 304F 4-15
3_	ぐ 3050 4–16	け 3051 4-17	げ 3052 4-18	こ 3053 4-19	ご 3054 4-20	さ 3055 4-21	ざ 3056 4-22	し 3057 4-23	じ 3058 4-24	す 3059 4-25	ず 305A 4-26	せ 305B 4-27	ぜ 305C 4-28	そ 305D 4-29	ぞ 305E 4-30	た 305F 4-31
4_	だ 3060 4-32	ち 3061 4-33	ぢ 3062 4-34	っ 3063 4-35	つ 3064 4–36	づ 3065 4–37	て 3066 4–38	で 3067 4–39	と 3068 4-40	ど 3069 4-41	な 306А 4-42	に 306Б 4-43	ぬ 306С 4-44	ね 306Д 4-45	の 306Е 4-46	は 306Ф 4-47
5_	ば 3070 4-48	ぱ 3071 4-49	ひ 3072 4–50	び 3073 4-51	ぴ 3074 4-52	ふ 3075 4–53	ぶ 3076 4-54	ぷ 3077 4-55	へ 3078 4-56	べ 3079 4–57	ぺ 307А 4-58	ほ 307B 4-59	ぼ 307C 4-60	ぽ 307Д 4-61	ま 307Е 4-62	み 307Ф 4-63
6_	む 3080 4–64	め 3081 4-65	も 3082 4-66	ゃ 3083 4-67	や 3084 4-68	ゅ 3085 4-69	ゆ 3086 4-70	ょ 3087 4-71	よ 3088 4-72	ら 3089 4-73	り 308А 4-74	る 30 4-75	れ 308С 4-76	ろ 308Д 4-77	ゎ 308Е 4-78	わ 308Ф 4-79
7_	ゐ 3090 4-80	ゑ 3091 4-81	を 3092 4-82	ん 3093 4-83	4-84	4-85	4-86	4-87	4-88	4-89	4-90	4-91	4-92	4-93	4-94

Набор символов 0x25 (номер строки 5, катакана) [ править ]

Эта строка содержит японскую катакану .

Сравните строку 5 GB 2312 , которая соответствует этой строке. Сравните и сопоставьте строку 11 KPS 9566 и KS X 1001 , которые используют ту же схему, но в другом ряду. Сравните значительно отличающуюся раскладку катаканы, используемую в JIS X 0201 .

JIS X 0208 (с префиксом 0x25)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_		ァ 30A1 5-1	ア 30A2 5-2	ィ 30A3 5-3	イ 30A4 5-4	ゥ 30A5 5-5	ウ 30A6 5-6	ェ 30A7 5-7	エ 30A8 5-8	ォ 30A9 5-9	オ 30AA 5-10	カ 30AB 5-11	ガ 30AC 5-12	キ 30AD 5-13	ギ 30 AE 5-14	ク 30AF 5-15
3_	グ 30B0 5-16	ケ 30B1 5-17	ゲ 30B2 5-18	コ 30B3 5-19	ゴ 30B4 5-20	サ 30B5 5-21	ザ 30B6 5-22	シ 30B7 5-23	ジ 30B8 5-24	ス 30B9 5-25	ズ 30BA 5-26	セ 30BB 5-27	ゼ 30BC 5-28	ソ 30BD 5-29	ゾ 30BE 5-30	タ 30BF 5-31
4_	ダ 30C0 5-32	チ 30C1 5-33	ヂ 30C2 5-34	ッ 30C3 5-35	ツ 30C4 5-36	ヅ 30C5 5-37	テ 30C6 5-38	デ 30C7 5-39	ト 30C8 5-40	ド 30C9 5-41	ナ 30СА 5-42	ニ 30CB 5-43	ヌ 30CC 5-44	ネ 30CD 5-45	ノ 30CE 5-46	ハ 30CF 5-47
5_	バ 30D0 5-48	パ 30Д1 5-49	ヒ 30D2 5-50	ビ 30D3 5-51	ピ 30D4 5-52	フ 30D5 5-53	ブ 30D6 5-54	プ 30Д7 5-55	ヘ 30D8 5-56	ベ 30D9 5-57	ペ 30DA 5-58	ホ 30 дБ 5-59	ボ 30DC 5-60	ポ 30ДД 5-61	マ 30ДЕ 5-62	ミ 30ДФ 5-63
6_	ム 30E0 5-64	メ 30Е1 5-65	モ 30E2 5-66	ャ 30E3 5-67	ヤ 30E4 5-68	ュ 30E5 5-69	ユ 30E6 5-70	ョ 30E7 5-71	ヨ 30E8 5-72	ラ 30E9 5-73	リ 30EA 5-74	ル 30EB 5-75	レ 30EC 5-76	ロ 30ЭД 5-77	ヮ 30EE 5-78	ワ 30EF 5-79
7_	ヰ 30F0 5-80	ヱ 30F1 5-81	ヲ 30F2 5-82	ン 30Ф3 5-83	ヴ 30F4 5-84	ヵ 30F5 5-85	ヶ 30Ф6 5-86	5-87	5-88	5-89	5-90	5-91	5-92	5-93	5-94

Набор символов 0x26 (номер строки 6, греческий) [ править ]

Эта строка содержит базовую поддержку современного греческого алфавита без диакритических знаков и последней сигмы .

Сравните строку 6 для GB 2312 и GB 12345 и строку 6 для KPS 9566 , которые включают те же греческие буквы в той же компоновке, хотя GB 12345 добавляет вертикальные формы представления, а KPS 9566 добавляет римские цифры. Сравните и сопоставьте строку 5 KS X 1001 , в которой греческие буквы смещены, чтобы сначала включить римские цифры.

JIS X 0208 (с префиксом 0x26)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_		Α 0391 6-1	Β 0392 6-2	Γ 0393 6-3	Δ 0394 6-4	Ε 0395 6-5	Ζ 0396 6-6	Η 0397 6-7	Θ 0398 6-8	Ι 0399 6-9	Κ 039A 6-10	Λ 039B 6-11	Μ 039C 6-12	Ν 039D 6-13	Ξ 039E 6-14	Ο 039F 6-15
3_	Π 03A0 6-16	Ρ 03A1 6-17	Σ 03A3 6-18	Τ 03A4 6-19	Υ 03A5 6-20	Φ 03A6 6-21	Χ 03A7 6-22	Ψ 03A8 6-23	Ом 03A9 6-24	6-25	6-26	6-27	6–28	6–29	6-30	6-31
4_	6-32	α 03B1 6-33	β 03B2 6-34	γ 03B3 6-35	δ 03B4 6-36	ε 03B5 6-37	ζ 03B6 6-38	η 03B7 6-39	θ 03B8 6-40	ι 03B9 6-41	κ 03BA 6-42	λ 03BB 6-43	μ 03BC 6-44	ν 03БД 6-45	ξ 03БЭ 6-46	ο 03BF 6-47
5_	π 03C0 6-48	ρ 03C1 6-49	σ 03C3 6-50	τ 03C4 6-51	υ 03C5 6-52	φ 03C6 6-53	χ 03C7 6-54	ψ 03C8 6-55	ω 03C9 6-56	6-57	6-58	6-59	6-60	6-61	6-62	6-63
6_	6–64	6-65	6-66	6-67	6-68	6-69	6-70	6-71	6-72	6-73	6-74	6-75	6-76	6-77	6-78	6-79
7_	6-80	6-81	6-82	6-83	6-84	6-85	6-86	6-87	6-88	6-89	6-90	6-91	6-92	6-93	6-94

Набор символов 0x27 (номер строки 7, кириллица) [ править ]

Эта строка содержит современный русский алфавит и не обязательно достаточна для представления других форм кириллицы .

Сравните строку 7 GB 2312 , которая соответствует этой строке. Сравните и сопоставьте строку 12 KS X 1001 и строку 5 KPS 9566 , которые используют тот же макет (но в другой строке).

JIS X 0208 (с префиксом 0x27)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_		А 0410 7-1	Б 0411 7-2	В 0412 7-3	Г 0413 7-4	Д 0414 7-5	Е 0415 7-6	Ё 0401 7-7	Ж 0416 7-8	З 0417 7-9	И 0418 7-10	№ 0419 7-11	К 041A 7-12	Л 041B 7-13	М 041C 7-14	Н 041D 7-15
3_	О 041E 7-16	П 041F 7-17	Р 0420 7-18	С 0421 7-19	Т 0422 7-20	У 0423 7-21	Ф 0424 7-22	Х 0425 7-23	Ц 0426 7-24	Ч 0427 7-25	Ш 0428 7-26	Щ 0429 7-27	Ъ 042А 7-28	Ы 042B 7-29	Ь 042C 7-30	Э 042D 7-31
4_	Ю 042E 7-32	Я 042F 7-33	7-34	7-35	7-36	7-37	7-38	7-39	7-40	7-41	7-42	7-43	7-44	7-45	7-46	7-47
5_	7-48	а 0430 7-49	б 0431 7-50	в 0432 7-51	г 0433 7-52	д 0434 7-53	е 0435 7-54	ё 0451 7-55	ж 0436 7-56	з 0437 7-57	и 0438 7-58	© 0439 7-59	к 043А 7-60	л 043Б 7-61	м 043C 7-62	н 043D 7-63
6_	о 043E 7-64	п 043F 7-65	р 0440 7-66	с 0441 7-67	т 0442 7-68	у 0443 7-69	ф 0444 7-70	х 0445 7-71	ц 0446 7-72	ч 0447 7-73	ш 0448 7-74	по 0449 7-75	ъ 044А 7-76	ы 044Б 7-77	ь 044С 7-78	э 044D 7-79
7_	ю 044E 7-80	я 044F 7-81	7-82	7-83	7-84	7-85	7-86	7-87	7-88	7-89	7-90	7-91	7-92	7-93	7-94

Набор символов 0x28 (номер строки 8, рисунок рамки) [ править ]

Все символы в этом наборе были добавлены в 1983 году и отсутствовали в исходной версии стандарта 1978 года.

JIS X 0208 (с префиксом 0x28)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_		│ 2502 8-1	─ 2500 8-2	┐ 2510 8-3	┌ 250C 8-4	└ 2514 8–5	┘ 2518 8-6	┤ 2524 8-7	┬ 252C 8-8	├ 251C 8-9	┴ 2534 8-10	┼ 253C 8-11	━ 2501 8–12	┃ 2503 8–13	┏ 250F 8-14	┓ 2513 8-15
3_	┗ 2517 8–16	┛ 251Б 8-17	┫ 252Б 8-18	┳ 2533 8-19	┣ 2523 8-20	┻ 253B 8-21	╋ 254Б 8-22	┠ 2520 8–23	┯ 252F 8-24	┨ 2528 8-25	┷ 2537 8-26	┿ 253F 8-27	┝ 251D 8-28	┰ 2530 8–29	┥ 2525 8–30	┷ 2537 8-31
4_	╂ 2542 8-32	8-33	8-34	8-35	8-36	8-37	8–38	8–39	8-40	8-41	8-42	8-43	8-44	8-45	8-46	8-47
5_	8-48	8-49	8-50	8-51	8-52	8-53	8-54	8-55	8-56	8-57	8-58	8-59	8-60	8-61	8-62	8-63
6_	8–64	8-65	8-66	8-67	8-68	8-69	8-70	8-71	8-72	8-73	8-74	8-75	8-76	8-77	8-78	8-79
7_	8-80	8-81	8-82	8-83	8-84	8-85	8-86	8-87	8-88	8-89	8-90	8-91	8-92	8-93	8-94

Набор символов расширения 0x2D (номер строки 13, специальные символы NEC) [ править ]

Строки с 9 по 15 стандарта JIS X 0208 оставлены пустыми.

Однако следующая схема строки 13, впервые представленная NEC , является распространенным расширением. Он используется (с небольшими вариациями, отмеченными в сносках) в Windows-932 ^[3] (соответствует стандарту кодирования WHATWG, используемому в HTML5 ), в варианте PostScript (но, начиная с версии 7 KanjiTalk , это не обычный вариант) ^[5] из MacJapanese , и JIS X 0213 (преемник JIS X 0208). ^[5]^[6] В отличие от других расширений, созданных Windows-932 / WHATWG и JIS X 0213, эти два расширения совпадают, а не конфликтуют, поэтому декодирование большей части этой строки поддерживается лучше, чем другие расширения, созданные JIS X 0213.

Специальные символы NEC для JIS X 0208 (с префиксом 0x2D)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_		① 2460 13-1	② 2461 13-2	③ 2462 13-3	④ 2463 13-4	⑤ 2464 13–5	⑥ 2465 13-6	⑦ 2466 13-7	⑧ 2467 13-8	⑨ 2468 13–9	⑩ 2469 13–10	⑪ 246A 13-11	⑫ 246Б 13-12	⑬ 246C 13-13	⑭ 246D 13-14	⑮ 246E 13-15
3_	⑯ 246F 13-16	⑰ 2470 13-17	⑱ 2471 13-18	⑲ 2472 13-19	⑳ 2473 13-20	Ⅰ 2160 13–21	Ⅱ 2161 13-22	Ⅲ 2162 13-23	Ⅳ 2163 13-24	Ⅴ 2164 13-25	Ⅵ 2165 13–26	Ⅶ 2166 13–27	Ⅷ 2167 13–28	Ⅸ 2168 13–29	Ⅹ 2169 13–30	Ⅺ ^[f] 216A 13-31
4_	㍉ 3349 13-32	㌔ 3314 13-33	㌢ 3322 13-34	㍍ 334Д 13-35	㌘ 3318 13-36	㌧ 3327 13-37	㌃ 3303 13-38	㌶ 3336 13-39	㍑ 3351 13-40	㍗ 3357 13-41	㌍ 330D 13-42	㌦ 3326 13-43	㌣ 3323 13-44	㌫ 332Б 13-45	㍊ 334А 13-46	㌻ 333Б 13-47
5_	㎜ 339C 13-48	㎝ 339D 13-49	㎞ 339E 13-50	㎎ 338E 13-51	㎏ 338F 13-52	㏄ 33C4 13-53	㎡ 33A1 13-54	Ⅻ ^[ж] 216Б 13-55	13-56	13-57	13–58	13–59	13-60	13–61	13-62	㍻ ^[г] 337B 13-63
6_	〝 301Д 13-64	〟 301Ф 13-65	№ 2116 13-66	㏍ 33CD 13-67	℡ 2121 13-68	㊤ 32A4 13-69	㊥ 32A5 13-70	㊦ 32A6 13-71	㊧ 32A7 13-72	㊨ 32A8 13-73	㈱ 3231 13-74	㈲ 3232 13-75	㈹ 3239 13-76	㍾ 337Е 13-77	㍽ 337Д 13-78	㍼ 337C 13-79
7_	≒ ^{[в час]} 2252 13-80	≡ ^[в] 2261 13-81	∫ ^[h] 222B 13-82	∮ 222Е 13-83	∑ 2211 13-84	√ ^[час] 221A 13-85	⊥ ^[h] 22A5 13-86	∠ ^[в] 2220 13-87	∟ 221Ф 13-88	⊿ 22БФ 13-89	∵ ^{[в час]} 2235 13-90	∩ ^[в] 2229 13-91	∪ ^[в] 222A 13-92	❖ ^[ж] 2756 13-93	☞ ^[ж] 261Е 13-94

Строки кандзи [ править ]

Структура кода [ править ]

Для представления кодовых точек номера столбцов / строк используются для однобайтовых кодов, а числа kuten используются для двухбайтовых кодов. Для того, чтобы идентифицировать символ вне зависимости от кода, используются имена символов.

Однобайтовые коды [ править ]

Почти все коды графических символов JIS X 0208 представлены двумя байтами по крайней мере по семь бит каждый. Однако каждый управляющий символ , а также простое пространство - хотя и не идеографическое пространство - представлены однобайтовым кодом. Для представления битовой комбинации (ビット組合せ, bitto kumiawase ) однобайтового кода два десятичных числа - номер столбца и номер строки- используются. Три старших бита из семи или четыре старших бита из восьми, считая от нуля до семи или от нуля до пятнадцати соответственно, образуют номер столбца. Четыре младших бита, считая от нуля до пятнадцати, образуют номер строки. Каждое десятичное число соответствует одной шестнадцатеричной цифре. Например, битовая комбинация, соответствующая графическому символу «пробел», составляет 010 0000 как 7-битное число и 0010 0000 как 8-битное число. В нотации столбец / строка это представлено как 2/0. Другие представления того же однобайтового кода включают 0x20 как шестнадцатеричное число или 32 как одно десятичное число.

Кодовые точки и кодовые номера [ править ]

Двухбайтовые коды разбиты на 94 пронумерованные группы, каждая из которых называется строкой (区, ku , букв. «Секция») . Каждая строка содержит 94 пронумерованных кода, каждый из которых называется ячейкой (点, десять , букв. «Точка») . ^[i] Всего получается 8836 (94 × 94) возможных кодовых точек (хотя не все назначены, см. ниже); они изложены в стандарте в кодовой таблице из 94 строк и 94 столбцов.

Номер строки и номер ячейки (каждая пронумерована от 1 до 94 для стандартного кода JIS X 0208) образуют точку кутэн (区点) , которая используется для представления двухбайтовых кодовых точек. Ряд кода или Кутень номер (区点番号, Кутень BANGO ) выражается в виде «строки-ячейки», строки и числа клеток отделены друг от друга дефисом . Например, символ «亜» имеет кодовую точку в строке 16, ячейке 1, поэтому его кодовый номер представлен как «16-01».

В 7-битном JIS X 0208 (который может быть переключен в JIS X 0202 / ISO-2022-JP ) оба байта должны быть из 94-байтового диапазона от 0x 21 (используется для строки или ячейки номер 1) до 0x7E ( используется для номера строки или ячейки 94) - точно соответствует диапазону, используемому для 7-битных символов печати ASCII, не считая пробела. Соответственно, закодированные байты получаются добавлением 0x20 (32) к каждому числу. ^[7] Например, приведенный выше пример 16-01 («亜») будет представлен байтами 0x30 0x21. 8-битный EUC-JP вместо этого использует диапазон от 0xA1 до 0xFE (устанавливая старший бит на 1), тогда как другие кодировки, такие как Shift JISиспользовать более сложные преобразования. Shift JIS включает в себя больше пространства для кодирования, чем необходимо для самого JIS X 0208; некоторые специальные расширения Shift JIS для JIS X 0208 используют номера строк выше 94. ^[8]

Эта структура также используется в GB 2312 материкового Китая (где он изначально известен как区位; qūwèi ) и южнокорейском KS C 5601 (в настоящее время KS X 1001 ; ку и десять соответственно известны как ханг и йол ). ^[9] Более поздний стандарт JIS X 0213 расширяет эту структуру, имея более одной плоскости (面, мужчины , букв. «Лицо») рядов, что также является структурой, используемой CNS 11643 .

Неназначенные кодовые точки [ править ]

Среди 2-байтовых кодов строки с 9 по 15 и с 85 по 94 являются неназначенными кодовыми точками (空き領域, aki ryōiki ) ; то есть они являются кодовыми точками, которым не присвоены символы. Кроме того, некоторые ячейки в других строках также являются неназначенными кодовыми точками.

Эти пустые области содержат кодовые точки, которые в принципе не должны использоваться. За исключением случаев, когда имеется предварительное соглашение между соответствующими сторонами, символы ( гайдзи ) для обмена информацией не должны назначаться неназначенным кодовым точкам.

Даже при присвоении символов неназначенным кодовым точкам графические символы, определенные в стандарте, не должны назначаться им, и один и тот же символ не должен назначаться нескольким неназначенным кодовым точкам; символы не должны дублироваться в наборе.

Кроме того, при назначении символов неназначенным кодовым точкам необходимо проявлять осторожность при унификации глифов кандзи. Например, ячейка 66 строки 25 соответствует кандзи, означающему «высокий» или «дорогой»; как форма с компонентом, напоминающим символ «рот» (口) в середине (高), так и менее распространенная форма с лестничной конструкцией в том же месте (髙) включены в один и тот же код. Следовательно, ограничение точки 25-66 формой «рта» и присвоение последней «лестничной» формы неназначенной кодовой точке технически будет нарушением стандарта.

На практике, однако, несколько вариантов Shift JIS для конкретных поставщиков , включая Windows-932 и MacJapanese , кодируют расширения поставщика в нераспределенных строках пространства кодирования для JIS X 0208. Кроме того, большинство кодов, не назначенных в JIS X 0208, назначаются более новый стандарт JIS X 0213 .

Имена персонажей [ править ]

Каждому символу JIS X 0208 дается имя . Используя имя персонажа, можно идентифицировать персонажей, не полагаясь на их коды. Имена символов согласованы с другими стандартами наборов символов, в частности с универсальным кодированным набором символов (UCS / Unicode ), поэтому это один из возможных источников сопоставления символов с наборами символов, такими как Unicode. Например, и символ в ISO / IEC 646 International Reference Version ( US-ASCII ), столбец 4, строка 1, и символ в JIS X 0208, строка 3, ячейка 33, имеют имя «LATIN CAPITAL LETTER A». Следовательно, символ 4/1 в ASCII и символ 3-33 в JIS X 0208 можно рассматривать как один и тот же символ (хотя на практикедля символа JIS X 0208 используется альтернативное отображение, так как кодировки предоставляют ASCII отдельно). И наоборот, символы ASCII 2/2 (кавычки), 2/7 (апостроф), 2/13 (дефис-минус) и 7/14 (тильда) могут быть определены как символы, которых нет в этом стандарте.

В именах символов, отличных от кандзи, используются прописные латинские буквы, пробелы и дефисы. Символам , не связанным с кандзи, дается общее название на японском языке (日本語通用名称, Nihongo tsūy meishō ) , но некоторых положений для этих имен не существует. ^[j] Имена кандзи, с другой стороны, устанавливаются механически в соответствии с соответствующим шестнадцатеричным представлением их кода в UCS / Unicode. Название кандзи можно получить, добавив к кодовой точке Unicode "CJK UNIFIED IDEOGRAPH-". Например, строка 16, ячейка 1 (亜), соответствует U + 4E9C в UCS, поэтому ее имя будет «CJK UNIFIED IDEOGRAPH-4E9C». Кандзи не имеют общих японских имен.

Набор кандзи [ править ]

Обзор [ править ]

JIS X 0208 предписывает набор из 6879 графических символов, которые соответствуют двухбайтовым кодам с семью или восемью битами в байте; в JIS X 0208 это называется набором кандзи (漢字集合, кандзи сюго ) , который включает 6355 иероглифов, а также 524 не-кандзи (非漢字, хикандзи ) , включая такие символы, как латинские буквы , кана и т. д.

Специальные символы: Занимает строки 1 и 2. Имеется 18 дескрипторных символов (記述記号, kijutsu kig ), таких как «идеографическое пространство» ( 　), японская запятая и точка ; восемь диакритических знаков, таких как дакутэн и хандакутэн ; 10 знаков для вещей, следующих за кана или кандзи (仮名又は漢字に準じるもの, kana mata wa kanji ni junjiru mono ), например, знак итерации ; 22 символа скобок (括弧記号, kakko kigō ) ; 45 математических символов (学術記号, гакудзюцу киго ) ; и 32 символа единиц , включая знак валюты и почтовый знак , всего 147 знаков.
Цифры: Занимает часть строки 3. Десять цифр от «0» до «9».
Латинские буквы: Занимает часть строки 3. 26 букв английского алфавита в верхнем и нижнем регистре, всего 52.
Хирагана: Занимает строку 4. Содержит 48 глухих кана (включая устаревшие wi и we ), 20 звонких кана ( дакутэн ), 5 полуголосых кана ( хандакутэн ), 10 маленьких кана для палатализированных и ассимилированных звуков, всего 83 символа.
Катакана: Занимает строку 5. Всего 86 знаков; в дополнение к эквивалентам катаканы символов хираганы, малой ka / ke kana (ヵ/ヶ) и vu kana (ヴ).
Греческие буквы: Занимает строку 6. 24 буквы греческого алфавита в верхнем и нижнем регистре (за вычетом последней сигмы ), всего 48.
Кириллические буквы: Занимает строку 7. 33 буквы русского алфавита в верхнем и нижнем регистре, всего 66.
Персонажи, рисовавшие коробки: Занимает ряд 8. Тонкие и толстые сегменты, смешанные тонкие и толстые сегменты, всего 32.
Кандзи: 2965 символов уровня 1 (第 1 水準, dai ichi suijun ) от строки 16 до строки 47 и 3390 символов уровня 2 (第 2 水準, dai ni suijun ) от строки 48 до строки 84, всего 6355 символов .

Специальные символы, цифры и латинские символы [ править ]

Что касается специальных символов в наборе кандзи, то некоторые символы из набора графических символов Международной справочной версии (IRV) ISO / IEC 646 : 1991 (эквивалент ASCII ) отсутствуют в JIS X 0208. Есть четыре вышеупомянутых символа. «ЦИТАТНЫЙ ЗНАК», «АПОСТРОФ», «ДЕФЕН-МИНУС» и «ТИЛЬДА». Первые три разделены на разные кодовые точки в наборе кандзи (Nishimura, 1978; стандарт JIS X 0221-1: 2001, раздел 3.8.7). «ТИЛЬДА» IRV не имеет соответствующего символа в наборе кандзи.

В следующей таблице соответствующие символы IRV ISO / IEC 646: 1991 сравниваются с их множественными эквивалентами в JIS X 0208, за исключением символа IRV «TILDE», который сравнивается с «WAVE DASH» в JIS X 0208. Записи в столбцах «Символ» используют кодовые точки UCS / Unicode, поэтому особенности отображения могут отличаться.

Символы ASCII / IRV без точных эквивалентов JIS X 0208 были позже присвоены кодовыми точками JIS X 0213 , они также перечислены ниже, как и сопоставление четырех символов Microsoft .

Нестрогое соответствие между ISO / IEC 646: 1991 IRV (ASCII) и JIS X 0208
ISO / IEC 646: 1991 IRV					JIS X 0208
Столбец / строка	x0213 ^[10]	Microsoft	Символ	Имя	Kuten	Символ	Имя
2/2	1-2-16	92-94 ^[A] 115-24 ^[B]	"	КАВЫЧКА	1-15	¨	ДИАРЕЗ
					1-40	«	ЛЕВЫЙ ДВОЙНОЙ ЦИТАТНЫЙ ЗНАК
					1-41	”	ПРАВИЛЬНЫЙ ДВОЙНОЙ ЦИТАТНЫЙ ЗНАК
					1-77	″	ДВОЙНОЙ ПРАЙМ
2/7	1-2-15	92-93 ^[A] 115-23 ^[B]	'	АПОСТРОФ	1-13	´	ОСТРЫЙ АКЦЕНТ
					1-38	'	ОДИНОЧНЫЙ ЦИТАТНЫЙ ЗНАК ЛЕВЫЙ
					1-39	'	ПРАВИЛЬНЫЙ ОДИНОЧНЫЙ ЗНАК
					1-76	′	ОСНОВНОЙ
2/13	1-2-17	1-61 ^[C]	-	ДЕФЕН-МИНУС	1-30	-	ДЕФИС
2/13	1-2-17	1-61 ^[C]	-	ДЕФЕН-МИНУС	1-61	-	МИНУСНЫЙ ЗНАК
14.07	1-2-18	1-33 ^[D]	~	ТИЛЬДА	(нет соответствующего символа)
(нет соответствующего символа)					1-33	〜	WAVE DASH ^[D]

^ a b Из "Выбор расширений IBM NEC". Занимает кодовую точку, не назначенную в JIS X 0208.
^ a b Из "Расширений IBM". Вне диапазона JIS X 0208, но кодируется в Shift_JIS.
^ Microsoft рассматривает знак "минус" JIS как полноразмерную форму дефиса-минус.
^ a b Wave Dash иногда рассматривается как полноразмерная форма тильды, например Microsoft (см. Тильда § Unicode и Shift JIS-кодирование волнового тире ). ASCII / IRV тильда неоднозначного кода пункт , который может появляться либо как знак тильды акцента (\) или в виде тира с одной и той же кривизной (\), хотя тир является более распространенным в связи с распорным акцентом , имеющим отдельную точка коды в Windows-1252 ; нет символа JIS X 0208 для тильды. Символы 1-2-18 в JIS X 0213 показаны в кодовой таблице в виде тильды. ^[10]

Это означает, что набор иероглифов является наиболее распространенным в мире набором символов, не поддерживающих обратную совместимость; это считается одним из слабых мест этого стандарта.

Даже с 90 специальными символами, цифрами и латинскими буквами, которые являются общими для набора кандзи и набора IRV, этот стандарт не соответствует расположению ISO / IEC 646. Эти 90 символов разделены между строками 1 (пунктуация) и 3 ( буквы и цифры), хотя строка 3 соответствует расположению только 62 букв и цифр ISO 646 (например, 4/1(«A») в ISO 646 становится 2/3 4/1(т.е. 3-33) в JIS X 0208).

Что касается причины того, как эти цифры, латинские буквы и т. Д. В наборе кандзи являются «буквенно-цифровыми символами полной ширины» (全角英数字, zenkaku eisūji ), и как исходная реализация вышла с иной интерпретацией по сравнению с IRV, считается, что это связано с несовместимостью.

Начиная с первого стандарта, стало возможно представлять составные части (合成, gōsei ), такие как числа в кружках , лигатуры для названий единиц измерения и римские цифры ; ^[11] им не были даны независимые коды кутэн . Хотя отдельные компании, производящие информационные системы, могут попытаться представить эти символы так, как того требуют клиенты, по составу символов, ни одна из них не просила добавить их в стандарт, вместо этого предлагая их как гайдзи .

В четвертом стандарте (1997 г.) все эти символы были явно определены как символы, сопровождающие продвижение на текущую позицию; иными словами, это символы пробела . Кроме того, было решено, что они не должны быть составлены из персонажей. По этой причине было запрещено вообще представлять латинские символы с диакритическими знаками , за исключением, возможно, единственного символа Ангстрема ( Å ) в строке 2 ячейки 82.

Хирагана и катакана [ править ]

Хирагана и катакана в JIS X 0208, в отличие от стандарта JIS X 0201 , включает в себя дакутэн и хандакутэн маркировку как часть символа. Катакана wi (ヰ) и we (ヱ) (оба являются устаревшими в современном японском языке), а также малое wa (ヮ) , которых нет в JIS X 0201, также включены.

Расположение каны в JIS X 0208 отличается от расположения катаканы в JIS X 0201. В JIS X 0201 слоговое письмо начинается с wo (ヲ) , за которым следует маленькая кана, отсортированная по порядку годзюон , за которой следует полноразмерная кана, также в порядке годзюон (ヲァィゥェュョッーアイウエオ ...... ラリルレロワン). С другой стороны, в JIS X 0208 кана сортируется сначала по порядку годзюон , затем в порядке «маленькая кана, полноразмерная кана, кана с дакутэн и кана с хандакутэн», так что одна и та же основная кана сгруппирована. со своими производными (ぁあぃいぅうぇえぉお ...... っつづ ...... はばぱびびぴぷへべぺほぼぽ ...... ゎわゐゑをん). Такой порядок был выбран для того, чтобы упростить сортировку словарных поисков на основе каны (Yasuoka, 2006). ^[k]

Как упоминалось выше, в этом стандарте ранее определенный порядок катаканы в JIS X 0201 не соблюдался в JIS X 0208. Считается, что катакана JIS X 0201, являющаяся « каной половинной ширины », возникла из-за несовместимости с катаканой этот стандарт. Этот момент также является одной из слабых сторон этого стандарта.

Кандзи [ править ]

Как кандзи в этом стандарте были выбраны из каких источников, почему они разделены на уровень 1 и уровень 2 и как они расположены, все подробно объясняется в четвертом стандарте (1997). Согласно этому объяснению, кандзи, включенные в следующие четыре списка кандзи, были отражены в 6349 символах первого стандарта (1978).

Список кандзи для стандартного кода (предварительно) (標準コード用漢字表 (試案) , Hyōjun Kōdo-yō Kanjihyō (Shian) )

Обработки информации Общество Японии кандзи кода комитета составлен этот список в 1971 году ниже «Корреспонденция Результаты анализа», это , кажется, 6086 символов.

Основные кандзи для использования в административной обработке данных (行政情報処理用基本漢字, Gyōsei Jōhō Shoriyō Kihon Kanji )

Отобранный Агентством административного управления Японии в 1975 году, он состоит из 2817 знаков. Для данных с целью отбора Агентство составило отчет, который, начиная с «Перечень кандзи для стандартного кода (предварительно)», сравнил несколько списков кандзи, «Результаты анализа соответствия и частота использования кандзи для административной обработки данных. Нормальный кандзи Выбор» (行政情報処理用標準漢字選定のための漢字の使用頻度および対応分析結果, Gyōsei Joho Shoriyō Kihon кандзи Sentei нет Tame нет кандзи нет Shiyō индо Oyobi Taio Bunseki Kekka ) , или "Корреспонденция Результаты анализа" (対応分析結果, Taiō Bunseki Kekka ) для краткости.

Японское регистрационное имя кандзи (日本生命収容人名漢字, Nihon Seimei Shūy Jinmei Kanji )

Один из списков кандзи, составляющих «Результаты анализа корреспонденции», состоящий из 3044 символов. Его больше нет. Первоначального списка не существовало для первоначального редакционного комитета; этот список кандзи был отражен в стандарте, который следует за «Результатами анализа соответствий».

Кандзи для внесения в список национальных административных округов (国土行政区画総覧使用漢字, Kokudo Gyōsei Kukaku Sōran Shiy Kanji )

Один из списков кандзи, составляющих «Результаты анализа соответствий», состоящий из 3251 символа. Это иероглифы, используемые в списке всех административных географических названий, составленном Японским центром географических данных , «Национальным списком административных округов» (国土行政区画総覧, Kokudo Gyōsei Kukaku Sran ) . Первоначальный редакционный комитет не исследовал сам листинг; кандзи, использованные в этом списке, следовали за «Результатами анализа соответствий».

Во втором и третьем стандартах они добавили четыре и два символа к уровню 2, соответственно, в результате чего общее количество кандзи составило 6355. Кроме того, во втором стандарте были изменены формы символов, а также перестановка между уровнями; в третьем стандарте также были изменены формы персонажей. Они описаны ниже.

Разделение уровней [ править ]

2965 кандзи уровня 1 занимают строки с 16 по 47. 3 390 кандзи уровня 2 занимают строки с 48 по 84.

Для уровня 1 были выбраны символы, общие для нескольких списков символов кандзи , на основе кандзи тоё, проекта исправления кандзи тоё и кандзи дзинмэйё . Также были проведены консультации с JIS C 6260 («Идентификационный код To-Do-Fu-Ken (префектура)»; в настоящее время JIS X 0401 ) и JIS C 6261 («Идентификационный код для городов, поселков и деревень»; в настоящее время JIS X 0402 ); кандзи для почти всех японских префектур , городов, районов, округов, поселков, деревень и т.д. были намеренно помещены на уровень 1. ^[l] Кроме того, были добавлены поправки экспертов.

Уровень 2 был посвящен кандзи, которые появлялись в вышеупомянутых четырех основных списках, но не были выбраны для уровня 1. Как отмечено ниже, кандзи уровня 1 упорядочены по их произношению, поэтому среди кандзи, произношение которых было трудно определить, были те, которые были переведены с уровня 1 на уровень 2 на этой основе (Nishimura, 1978).

Из-за этих решений, по большей части, уровень 1 содержит более часто используемые кандзи, а уровень 2 содержит более редко используемые иероглифы, но, конечно, они оценивались по стандартам дня; с течением времени некоторые кандзи уровня 2 стали более часто использоваться, например, одно означает «парить» (翔), а другое - «блестеть» (煌); и наоборот, некоторые кандзи уровня 1 стали редкостью, особенно те, которые означают «сантиметр» (糎) и «миллиметр» (粍). Кроме того, несколько кандзи дзинмэйё, добавленные после определения набора кандзи, относятся к уровню 2.

Аранжировка [ править ]

Кандзи на уровне 1 сортируются в порядке «репрезентативного прочтения» каждого (т. Е. Канонического прочтения, выбранного только для целей настоящего стандарта); чтение кандзи для этого может быть чтением он или кун ; показания отсортированы в порядке годзюон . ^[м] Как общее правило, на (китайский-звук) чтение считается представителем чтение; где кандзи имеет несколько по показаниям, показание оценивается как преобладающие по частоте использования, используются для репрезентативного чтения (JIS C стандартом 6226-1978, раздел 3.4). Для небольшого процента кандзи , которые либо не имеют на чтение или иметь начтение, которое малоизвестно и редко используется, чтение кун использовалось как репрезентативное чтение. Если в качестве репрезентативного прочтения необходимо использовать глагол кун , используется форма рэнъёкэй (а не сюсикей ).

Например, клетки 1 до 41 на строке 16 41 символов сортируются в качестве исходного с чтением . В них 22 символов, в том числе 16-10 (葵: на чтение « ки „; кун чтение“ Aoi „) и 16-32 (粟: по показаниям“ Дзоку » и « Сёку „; кун чтения“ AWA ») есть на основе их чтения кун . 16-09 (逢: при чтении « h », кун при чтении « a (i) ») и 16-23 (扱:в чтениях « sō » и « kyū », кун, читающий « atsuka (i) ») - это всего лишь два примера глаголов в форме ren'yōkei, используемых для репрезентативного чтения.

Если представитель чтение такого же между различными иероглифами, иероглифом , который использует на чтении помещается впереди тот , который использует куну чтение. Если значения on или kun одинаковы для более чем одного кандзи, они затем упорядочиваются по их первичному радикалу и количеству штрихов .

Будь то уровень 1 или уровень 2, итайдзи устроены так, чтобы непосредственно следовать своей образцовой форме. Например, на уровне 2, сразу после строки 49, ячейки 88 (劍), следующие сразу же символы отклоняются от общего правила (в данном случае количество штрихов) и включают три варианта 49-88 (劔,劒и剱). ^[n]

Кандзи на уровне 2 расположены в порядке основного корня и количества штрихов. Если эти два свойства одинаковы для разных кандзи, они затем сортируются путем чтения.

Кандзи из неизвестных источников [ править ]

Кандзи, источники которых неясны, неизвестны или иным образом не определены в приложении 7 JIS X 0208: 1997
Kuten	Символ	Классификация
52-55	墸	Неизвестный
52-63	壥	Неизвестный
54-12	妛	Источник неясен
55-27	彁	Неопознанный
57-43	挧	Источник неясен
58-83	暃	Источник неясен
59-91	椢	Источник неясен
60-57	槞	Источник неясен
74-12	蟐	Источник неясен
74-57	袮	Источник неясен
79–64	閠	Источник неясен
81-50	駲	Источник неясен

Было указано, что в наборе кандзи есть иероглифы, которых нет в исчерпывающих, полных словарях кандзи, и что их источники неизвестны. Например, всего через год после того, как был установлен первый стандарт, Тадзима (1979) сообщил, что он подтвердил 63 кандзи, которых не было ни в Синдзиген (большой словарь кандзи, опубликованный Kadokawa Shoten ), ни в Дай Кан-Ва дзитэн. , и они не имели смысла как рьякудзи любого рода; он отметил, что было бы предпочтительнее, чтобы кандзи, отсутствующие в словарях кандзи, выбирались из определенных источников. Эти иероглифы стали известны как «призрачные» символы (幽霊文字, yūrei moji ).или «призрачный кандзи» (幽霊漢字, юрей кандзи ) среди других имен.

Редакционный комитет четвертой версии стандарта также усмотрел в существовании кандзи с неизвестными источниками проблему, и поэтому изучил, на какие источники ссылался редакционный комитет первой версии. В результате было обнаружено, что первоначальный редакционный комитет в значительной степени полагался на «Результаты анализа корреспонденции» при сборе кандзи. Когда редакционный комитет изучил «Результаты анализа корреспонденции», стало ясно, что многие кандзи, включенные в набор кандзи, но не найденные в исчерпывающих словарях кандзи, предположительно произошли от «японского регистрационного имени кандзи» и «кандзи для национального административного округа. Listing »списки, упомянутые в« результатах анализа корреспонденции ».

Было подтверждено, что не существует оригинального текста для «Японского регистрационного имени кандзи», упомянутого в «Результатах анализа корреспонденции». Что касается «Перечня национального административного округа», Сасахара Хироюки из редакционного комитета четвертой версии изучил кандзи, появившиеся на страницах в стадии разработки, для первого стандарта. Комитет также изучил множество древних писаний, а также множество примеров личных имен в базе данных телефонных книг NTT .

Благодаря этому тщательному расследованию комитет смог сократить количество иероглифов, источник которых не может быть достоверно объяснен, до двенадцати, указанных в таблице рядом. Предполагается, что из них несколько глифов возникли из-за ошибок копирования. В частности, 妛, вероятно, был создан, когда принтеры пытались создать 𡚴 путем вырезания и склеивания 山 и 女 вместе. Тень от этого процесса была неверно интерпретирована как линия, в результате чего получилось 妛 (изображение этого можно найти в Дзёё кандзи дзитэн ).

Унификация вариантов кандзи [ править ]

Согласно спецификациям четвертого стандарта (1997 г.), унификация (包摂, hōsetsu , не тот же термин, который используется для « унификации » Unicode, хотя это почти та же концепция) - это действие по присвоению одной и той же кодовой точки символу безотносительно к его различным формам характера. В четвертом стандарте разрешенные глифы ограничены; четко определена степень, в которой отдельные аллографические глифы объединяются в графемный код.

Кроме того, согласно спецификациям стандарта, глиф (字体, jitai , букв. «Тело символа»;) является абстрактным понятием, относящимся к графическому представлению графического символа; форма символов (字形, jikei , лит «форма символа», также «Глиф» в некотором смысле, но дифференцирован на другой уровень в целях стандартизации)представляет собой представление в виде графической формы, которую глиф принимает в действительности (например, из-за того, что глиф написан от руки, напечатан, отображается на экране и т. д.). Для одного глифа существует бесконечный диапазон возможных конкретно и / или визуально различных форм символов. Вариация символьной формы одного глифа называется «дизайнерским различием» (デザインの差, dezain no sa ) .

Степень, в которой глиф объединяется с одной кодовой точкой, определяется в соответствии с «примерным глифом» этой кодовой точки (例示字体, reiji jitai ) и «критериями объединения» (包摂規準, hōsetsu kijun ), которые могут быть применены к этому примеру. глиф; то есть пример глифа для кодовой точки применяется к этой кодовой точке, и любые глифы, для которых части, составляющие примерный глиф, заменяются в соответствии с критериями унификации, также применяются к этой кодовой точке.

Например, глиф в 33–46 (僧) состоит из радикала 9 (亻) и кандзи, которые в конечном итоге породили оба so kana (曽). Кроме того, в критерии объединения 101 отображаются три иероглифа: первое принимает форму, наиболее часто встречающуюся в японском языке (曽); второй содержит более традиционную форму (曾), в которой первые два штриха образуют корень 12 (цифра кандзи для числа 8:八); а третий подобен второму, за исключением того, что радикал 12 перевернут (曾). Следовательно, все три перестановки (僧,僧,僧) все применяются к кодовой точке в строке 33, ячейке 46.

В четвертом стандарте, включая одну из опечаток для первой печати, есть 186 критериев унификации.

Когда пример глифа кодовой точки состоит из нескольких глифов, критерии унификации могут применяться к каждой части. После того, как критерий унификации применяется к глифу одной части, к этой части больше нельзя применять критерии унификации. Кроме того, критерий унификации не может применяться, если результирующий глиф будет полностью совпадать с глифом другой кодовой точки.

Пример глифа - не более чем пример для этой кодовой точки; это не символ, «одобренный» стандартом. Кроме того, критерии унификации необходимо использовать только для обычно используемых кандзи и с целью присвоения вещей кодовым точкам этого стандарта. Стандартные запросы о том, что обычно неиспользуемые кандзи не создаются, на основе глифов и критериев объединения.

Кандзи набора кандзи не выбираются полностью последовательно в соответствии с критериями унификации. Например, хотя 41-7 соответствует форме, в которой пересекаются третьи и четвертые штрихи (彥), а также форме, в которой они не пересекаются (彦), согласно критерию объединения 72, 20-73 соответствует только форме, в которой они не пересекаются (顔), а 80-90 соответствует только той форме, в которой они пересекаются (顏).

Термины «унификация», «критерии унификации» и «пример глифа» были приняты в четвертом стандарте. С первой по третью версии иероглифы и отношения между кандзи были сгруппированы по трем типам: «независимые» (独立, dokuritsu ) , «совместимые» (対応, taiō ) и «эквивалентные» (同値, dōchi ) ; Было объяснено, что символы, признанные эквивалентными, «объединяются только в одну точку». «Эквивалентность» включает, кроме кандзи с точно такой же формой, кандзи с различиями из-за стиля и кандзи, где разница в форме символов небольшая.

В первом стандарте было оговорено, что «этот стандарт ... не устанавливает подробностей форм знаков» (раздел 3.1); в нем также говорится, что «цель этого стандарта состоит в том, чтобы установить общую идею символов и их кодов; дизайн форм их символов и тому подобное выходит за рамки его применения». Во втором и третьем стандартах также отмечается, что конкретные конструкции форм знаков не входят в сферу его применения (примечание к пункту 1). Четвертый стандарт также предусматривает, что «Этот стандарт регулирует графические символы, а также их битовые комбинации, и использование, конкретный дизайн отдельных символов и т. Д. Не входит в сферу применения этого стандарта» (JIS X 0208: 1997, пункт 1 ).

Критерии унификации для совместимости [ править ]

В четвертом стандарте определены «критерии унификации для поддержания совместимости с предыдущими стандартами» (過去の規格との互換性を維持するため摂規準, kako no kikaku to no gokansei wo iji suru tame no hōsetsu kijun ) . Их применение ограничено 29 кодовыми точками, глифы которых сильно различаются между стандартами JIS C 6226-1983 и последующими и JIS C 6226-1978. Для этих 29 кодовых точек глифы из JIS C 6226-1983 и после них отображаются как «A», а глифы из JIS C 6226-1978 как «B». На каждом из них могут быть нанесены символы «A» и «B». Однако, чтобы заявить о совместимости со стандартом, необходимо явно указать, использовалась ли форма «A» или «B» для каждой кодовой точки.

Кодировки символов [ править ]

Схемы кодирования предусмотрены JIS X 0208 [ править ]

В JIS X 0208: 1997 статья 7 вместе с приложениями 1 и 2 определяет в общей сложности восемь схем кодирования.

В приведенных ниже описаниях области «CL» (элемент управления слева), «GL» (рисунок слева), «CR» (элемент управления справа) и «GR» (рисунок справа) соответственно в столбце / строке обозначены от 0 / 0 до 1/15, с 2/1 до 7/14, с 8/0 до 9/15 и с 10/1 до 15/14. Для каждого кода 2/0 назначается графический символ «ПРОБЕЛ», а 7/15 - управляющий символ «УДАЛИТЬ». Эти управляющие символы С0 (определенные в стандарте JIS X 0211 и соответствующие ISO / IEC 6429 ) присваиваются CL области.

7-битная кодировка кандзи: Это предусмотрено в самом стандарте. Двухбайтовый набор JIS X 0208 назначается области GL.
8-битная кодировка кандзи: Это предусмотрено в самом стандарте. То же, что и 7-битная кодировка, но определяется в терминах 8-битных байтов. Область CR может быть неиспользованной или кодировать управляющие символы C1 из JIS X 0211. Область GR не используется.
Международная справочная версия + 7-битная кодировка кандзи: Это предусмотрено в самом стандарте. Смещение управляющего символа обозначает ISO / IEC 646 : Ирвин 1991 (International Reference Version, что эквивалентно US-ASCII ) в GL области. Shift Out обозначает двухбайтовый набор JIS X 0208 в ту же область.
Латинские символы + 7-битная кодировка кандзи: Это предусмотрено в самом стандарте. То же, что и IRV + 7-бит, но с ISO / IEC 646: IRV заменен на ISO / IEC 646: JP (римский набор JIS X 0201 ).
Международная справочная версия + 8-битная кодировка кандзи: Это предусмотрено в самом стандарте. ISO / IEC 646: IRV присваивается региону GL, JIS X 0208 - региону GR. Фактически это подмножество EUC-JP , за исключением катаканы половинной ширины из JIS X 0201 и дополнительных кандзи из JIS X 0212 .
Латинские символы + 8-битная кодировка кандзи: Это предусмотрено в самом стандарте. Как и IRV + 8-бит, но с ISO / IEC 646: IRV заменен на ISO / IEC 646: JP.
Набор символов с кодировкой Shift: Предусмотрено в Приложении 1: «Представление с использованием сдвигового кода » (シフト符号化 Sh , Шифуто Фугука Хёген ) . Авторитетное определение Shift JIS .
Набор символов в кодировке RFC 1468: Предусмотрено в Приложении 2: «Представление в кодировке RFC 1468 » ( RFC 1468 符号表現, RFC 1468 Fugōka Hyōgen ) . Напоминает ISO-2022-JP (который авторитетно определен в RFC 1468), но определяется в терминах восьмибитных байтов, тогда как ISO-2022-JP определяется в терминах семибитных байтов.

Среди кодировок, предусмотренных в четвертом стандарте, только набор кодированных символов «Shift» зарегистрирован IANA . ^[12] Однако некоторые другие тесно связаны с зарегистрированными IANA кодировками, определенными в другом месте (EUC-JP и ISO-2022-JP).

Последовательности выхода для JIS X 0202 / ISO 2022 [ править ]

JIS X 0208 может использоваться в рамках ISO 2022 / JIS X 0202 (из которых ISO-2022-JP является подмножеством). Управляющие последовательности для обозначения JIS X 0208 в каждом из четырех кодовых наборов ISO 2022 перечислены ниже. Здесь «ESC» относится к управляющему символу « Escape » (0x1B или 1/11).

Управляющие последовательности ISO 2022 для выбора JIS C 6226 и JIS X 0208
Стандарт	G0	G1	G2	G3
78	ESC 2/4 4/0	ESC 2/4 2/9 4/0	ESC 2/4 2/10 4/0	ESC 2/4 2/11 4/0
83	ESC 2/4 4/2	ESC 2/4 2/9 4/2	ESC 2/4 2/10 4/2	ESC 2/4 2/11 4/2
90 и далее	ESC 2/6 4/0 ESC 2/4 4/2	ESC 2/6 4/0 ESC 2/4 2/9 4/2	ESC 2/6 4/0 ESC 2/4 2/10 4/2	ESC 2/6 4/0 ESC 2/4 2/11 4/2

Управляющая последовательность, начинающаяся с ESC 2/4, выбирает многобайтовый набор символов. Управляющая последовательность, начинающаяся с ESC 2/6, определяет версию предстоящего выбора набора символов. JIS C 6226: 1978 идентифицируется байтом 4/0 идентификатора набора из многобайтовых 94 (соответствует ASCII @). JIS C 6226: 1983 / JIS X 0208: 1983 идентифицируется байтом 4/2 идентификатора из набора многобайтовых 94 ( B). JIS X 0208: 1990 также идентифицируется байтом идентификатора из 94 наборов 4/2, но может отличаться идентификатором версии 4/0 ( @).

Повторяющиеся кодировки ASCII и JIS X 0201 [ править ]

При использовании набора кандзи этого стандарта с набором графических символов IRV ISO / IEC 646: 1991 ( ASCII ) или набором графических символов JIS X 0201 для латинских символов ( JIS-Roman ) обработка символов, общих для обоих наборов, становится проблематично. Если не принять специальных мер, символы, включенные в оба набора, не все отображаются друг с другом один к одному, и одному символу может быть присвоено более одной кодовой точки; то есть это может привести к дублированию кодировки.

JIS X 0208: 1997 в отношении того, когда символ является общим для обоих наборов, в основном запрещает использование кодовой точки в наборе кандзи (который является одной из двух кодовых точек), устраняя повторяющиеся кодировки. Считается, что персонажи с одинаковым именем являются одним и тем же персонажем.

Например, и имя символа, соответствующего битовой комбинации 4/1 в ASCII, и имя символа, соответствующего ячейке 33 строки 3 набора кандзи, представляют собой «ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A». В международной справочной версии + 8-битный код для иероглифов, будь то битовая комбинация 4/1 или битовая комбинация, соответствующая ячейке 33 строки 3 набора кандзи (10/3 12/1), буква « A » (т. Е. «ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА А»). Стандарт запрещает использование битового шаблона «10/3 12/1» в попытке устранить дублирующееся кодирование.

Что касается реализаций, которые обрабатывают символы кодовых точек в наборе кандзи как " полноширинные символы ", а символы ASCII или JIS-Roman - как разные символы, использование кодовых точек набора иероглифов разрешено только ради обратная совместимость. Например, в целях обратной совместимости разрешено рассматривать 10/3 12/1 в Международной справочной версии + 8-битный код для кандзи как соответствующий полной ширине «A».

Если набор кандзи используется вместе с ASCII или JIS-Roman, то даже при строгом соблюдении стандарта уникальная кодировка символа не гарантируется. Например, в Международной справочной версии + 8-битный код для иероглифов допустимо представлять дефис с битовой комбинацией 2/13 для символа «ДЕФИС-МИНУС», а также с ячейкой 30 строки 1 набора кандзи. (битовая комбинация 10/1 11/14) для символа «ДЕФИС». Кроме того, стандарт не определяет, какой из двух использовать для чего, поэтому дефису не присваивается одна уникальная кодировка. Та же проблема влияет на знак минус , кавычки и т. Д.

Более того, даже если набор кандзи используется как отдельный код, нет гарантии, что будет реализована уникальная кодировка символов. Однако во многих случаях полноширинное « ИДЕОГРАФИЧЕСКОЕ ПРОСТРАНСТВО » в строке 1, ячейке 1, и пространство половинной ширины (2/0) сосуществуют. Чем они должны отличаться, не требует пояснений и не указывается в стандарте.

Сравнение схем кодирования, используемых на практике [ править ]

Кодирование	Альтернативное имя	7-битный? ^[A]	ISO 2022 ?	Без гражданства? ^[B]	Принимает ASCII ?	0x00–7F всегда ASCII?	Надмножество 8-битного JIS X 0201 ?	Поддерживает JIS X 0212 ?	Самостоятельная синхронизация?
ISO-2022-JP	« JIS » (JIS X 0202)	да	да	Нет ^[C]	да	Последовательности не могут быть ASCII ^[C]	Нет (кодировка возможна) ^[D]	Возможно ^[E]	Нет
Shift_JIS	"СДЖИС"	Нет	Нет	да	Почти ^[F]	Изолированные байты не могут быть ASCII ^[G]	да	Нет	Нет
EUC-JP	"UJIS" (Unixized JIS)	Нет	Да ^[H]	Да ^[H]	Да ^[я]	Всегда ASCII	Нет (закодировано) ^[J]	Доступно ^[K]	Нет
Форматы Unicode для сравнения ^[L]
UTF-8		Нет	Нет	да	да	да	Нет (закодировано)	Имеется в наличии	да
UTF-16		Нет	Нет	да	Нет	Нет	Нет (закодировано)	Имеется в наличии	Только более 16-битных слов.
ГБ 18030		Нет	Нет ^[M]	да	да	Изолированные байты могут быть не в формате ASCII	Нет (закодировано)	Имеется в наличии	Нет

^ т.е. не требует 8-битной чистой передачи.
^ т. е. последовательность, используемая для кодирования данного символа, всегда одна и та же, независимо от того, какими были предыдущие символы. См. Состояние (информатика) .
^ a b ISO-2022-JP - это кодировка с отслеживанием состояния : все наборы символов закодированы с использованием кодов 0x21–7E и переключаются между ними с помощью escape-символов ANSI. Следовательно, хотя в исходном состоянии это ASCII, целые последовательности символов, отличных от ASCII, могут быть закодированы байтами ASCII.
^ JIS X 0201 katakana доступны в JIS X 0202 и ISO 2022, но не включены в базовый профиль ISO-2022-JP, хотя они являются общим расширением.
^ JIS X 0212 доступен в JIS X 0202 и ISO 2022 и включен в профили ISO-2022-JP-1 и ISO-2022-JP-2, но не в базовый профиль ISO-2022-JP.
^ Однобайтовые символы 0x21–7E в Shift_JIS - это правильно ISO-646-JP , чтобы быть надмножеством 8-битного JIS X 0201, но часто декодируются (не обязательно отображаются) как ASCII, который отличается только в двух местах.
^ Некоторые (не все) байты ASCII могут отображаться как вторые байты, но не как первые байты двухбайтовых символов в Shift_JIS. Следовательно, в последовательности из двух или более байтов ASCII второй байт обязательно должен быть символами ASCII (или ISO-646-JP).
^ a b EUC в упакованном формате основан на механизмах ISO 2022 с предварительно заданными обозначениями кодировок. Избегают экранирования обозначений кодировки и блокирующих сдвигов, тогда как использование одиночных сдвигов может быть реализовано без учета состояния. Тем не менее, ограничения ISO 2022 соблюдаются.
^ Однобайтовые символы 0x21–7E в EUC-JP обычно считаются ASCII, но иногда обрабатываются как ISO-646-JP .
^ В отличие от Shift_JIS, EUC-JP не будет обрабатывать простой 8-битный ввод JIS X 0201 без предварительного преобразования из-за другого представления катаканы JIS X 0201 (с односменным режимом).
^ JIS X 0212 в EUC-JP не всегда реализован.
^ Помимо свойств самих кодировок, форматы Unicode имеют дополнительные преимущества, вытекающие из базового набора символов: они не ограничиваются кодированными символами JIS, но могут представлять весь UCS (включая полный репертуар кодированных символов JIS) и, следовательно, являются подходит для международного использования. На них также меньше влияют конфликтующие проприетарные расширения из-за их большего базового репертуара и обозначенных областей частного использования.
^ Хотя GB 18030 и GBK являются расширениями формы EUC-CN для GB / T 2312, они не соответствуют ограничениям EUC или ISO 2022, в отличие от EUC-JP (или исходной EUC-CN).

История [ править ]

До тех пор, пока не пройдет пять лет после того, как японский промышленный стандарт был установлен, подтвержден или пересмотрен, предыдущий стандарт проходит процесс повторного подтверждения, пересмотра или отзыва. С момента создания стандарт трижды подвергался пересмотру, и в настоящее время действует четвертый стандарт.

Первый стандарт [ править ]

Первым стандартом является JIS C 6226-1978 «Кодекс набора графических символов Японии для обмена информацией» (情報交換用漢字符号系, Jōhō Kōkan'y Kanji Fugōkei ) , установленный министром международной торговли и промышленности Японии 1 января 1978 г. Его также для краткости называют 78JIS . По поручению Агентства промышленной науки и техники , JIPDEC кандзи код стандартизации исследований и Проблемная комиссия подготовила проект. Председателем комитета был Моригути Сигейчи .

Код включал 453 не-кандзи (включая хирагана, катакана, римский, греческий и кириллический алфавиты и знаки препинания) и 6349 кандзи (2965 кандзи уровня 1 и 3384 кандзи уровня 2), всего 6802 символа. ^[13] В нем еще не было персонажей, рисовавших прямоугольники . Сам стандарт был установлен в шрифте Ishii Mincho компании Shaken Co., Ltd.

Второй стандарт [ править ]

Второй стандарт JIS C 6226-1983 «Код японского набора графических символов для обмена информацией» (情報交換用漢字符号系, Jōhō Kōkan'yō Kanji Fugōkei ) пересмотрел первый стандарт 1 сентября 1983 года. Он также называется 83JIS . По поручению AIST комитет JIPDEC, связанный с иероглифами JIS, подготовил проект. Председателем комитета был Мотоока Туру .

Проект второго стандарта был основан на рассмотрении таких факторов, как обнародование кандзи дзёё , соблюдение кандзи цзинмэйё и стандартизация телетекса на японском языке Министерством почт и телекоммуникаций ; Кроме того, следующая модификация была выполнена в соответствии с JIS C 6234-1983 (24-пиксельные матричные печатные формы символов; в настоящее время JIS X 9052).

Добавление специальных символов: К специальным символам добавлено 39 символов. Среди этих 39, согласно рекомендациям JICST и таких стандартов, как JIS Z 8201-1981 (математические символы) и JIS Z 8202-1982 (количество, единицы и химические символы), были выбраны вещи, которые не могут быть представлены составом.
Недавно добавленные символы рисования прямоугольников: Было добавлено 32 символа рисования прямоугольников .
Перекачка itaiji кодовых точек: Кодовые точки для 22 пар вариантов иероглифов были заменены местами, так что вариант на уровне 2 был перемещен на уровень 1 и наоборот. ^[13]^[14] Например, (уровень 1) строка 36, ячейка 59 в первом стандарте (壺) была перемещена в (уровень 2) строку 52, ячейку 68; точка, первоначально находившаяся в строке 52, ячейке 68 (壷), в свою очередь, была перемещена в строку 36, ячейку 59.
Дополнения к кандзи 2 уровня: Трем символам уровня 1 и одному символу уровня 2 были присвоены новые кодовые точки в ранее не назначенных кодовых точках в строке 84 как кандзи уровня 2. Итайдзи для каждой из этих кодовых точек были заново присвоены их исходным местоположениям. ^[15] Например, строка 84 ячейка 1 во втором стандарте (堯) была перемещена туда , чтобы приспособить различные формы , не включенные в первом стандарте в строке 22 ячейки 38 в качестве 1 -го уровня кандзи (尭).
Модификация форм персонажей: Были изменены иероглифы примерно 300 кандзи. ^[16]

Среди изменений в этих 300 или около того формах символов кандзи, многие глифы уровня 1, которые были в стиле словаря Канси, были изменены на варианты, особенно в более упрощенные формы (например, рьякудзи и расширенный синдзитай ). Например, пара кодовых точек, которые часто подвергаются критике из-за значительных изменений, - это строка 18, ячейка 10 (78JIS:鷗, 83JIS:鴎) и строка 38, ячейка 34 (78JIS:瀆, 83JIS:涜).

Было много меньших изменений от вариантов стиля Канси; например, строка 25, ячейка 84 (鵠) потеряла часть штриха. Кроме того, там, где некоторые глифы для кандзи уровня 1 не были формами в стиле Канси, некоторые были изменены на формы в стиле Канси; например, ячейка 49 (靠) строки 80 получила часть штриха (т. е. ту же часть штриха, которую потеряли 25-84).

Чтобы прояснить первоначальную цель первого стандарта, они попали в параметры критериев унификации в четвертом стандарте. Разница в форме для примеров, отмеченных выше («鵠» и «靠»), подпадает под параметры критерия 42 унификации (относительно компонента «告»). ^[o]

Основная часть изменений в формах персонажей связана с различиями между иероглифами 1 и 2 уровня. В частности, упрощение выполнялось чаще для кандзи уровня 1, чем для кандзи уровня 2; упрощения, применяемые к кандзи уровня 1 (например, от «潑» до «溌» и от «醱» до «醗»), обычно не применялись к кандзи на уровне 2 («撥» оставалось как есть). Вышеупомянутый 25-84 (鵠) и 80-49 (靠) было дано другое лечение также, как бывший находится на уровне 1 , а второй находится в уровне 2. Тем не менее , произошли некоторые изменения , независимо от уровня; например, символы, содержащие «дверь» (戸) и «зима»(冬) компоненты были изменены без разницы в обработке кандзи уровня 1 и уровня 2.

Однако для 29 кодовых точек (таких как проблемные 18-10 и 38-34, упомянутые выше) формы, унаследованные четвертым стандартом, противоречат первоначальному замыслу первого. Для них существуют специальные критерии унификации, обеспечивающие совместимость с предыдущими стандартами в этих кодовых точках.

Когда была введена новая категория «X» для японских промышленных стандартов (для областей, связанных с информацией), второй стандарт 1 марта 1987 года был переименован в JIS X 0208-1983 ^[13] .

Третий стандарт [ править ]

Третий стандарт JIS X 0208-1990 «Код набора японских графических символов для обмена информацией» (情報交換用漢字符号, Jōhō Kōkan'y Kanji Fugō ) пересмотрел второй стандарт 1 сентября 1990 года. Его также для краткости называют 90JIS . По поручению AIST комитет Японской ассоциации стандартов по пересмотру JIS X 0208 создал проект. Председателем комитета был Тадзима Кадзуо .

Было изменено 225 символов кандзи, и два символа были добавлены на уровень 2 (84-05 «凜» и 84-06 «熙»). Это было разделение итайдзи для двух уже включенных персонажей (49-59 «凛» и 63-70 «煕»). Некоторые изменения и два дополнения соответствовали 118 кандзи дзинмэйё, добавленным в марте 1990 года. ^[13] Сам стандарт был установлен в Хэйсэй Минчо .

Четвертый стандарт [ править ]

Четвертый стандарт JIS X 0208: 1997 «Наборы KANJI с 7-битным и 8-битным двухбайтовым кодированием для обмена информацией» ( 7 ビット及び 8 ビットの 2 バイト情報交換用符号化, Nana-Bitto Oyobi Hachi-Bitto no Ni-Baito Jōh Kōkan'yō Fugōka Kanji Shūg ) пересмотрел третий стандарт 20 января 1997 года. Его также для краткости называют 97JIS . По поручению AIST комитет JSA по исследованию и изучению кодированных наборов символов подготовил проект. Председателем комитета был Сибано Кодзи .

Основная политика этой редакции заключалась в том, чтобы не вносить изменений в набор символов, чтобы прояснить двусмысленные положения и сделать стандарт относительно более простым в использовании. Добавление, удаление и перестановка кодовых точек не производились, и все без исключения глифы примеров также остались без изменений. Однако положения стандарта были полностью переписаны и / или дополнены. В то время как третий стандарт составлял 65 страниц без пояснений, четвертый стандарт - 374 страницы без пояснений.

Основными пунктами доработки являются:

Определение методов кодирования: До третьего стандарта был определен только метод кодирования, основанный на расширении кода JIS X 0202. Это что-то необычное с точки зрения кодированных наборов символов. В четвертом стандарте были определены методы кодирования, которые не используют escape-последовательности с целью расширения кода.
Определение общего запрета на использование неназначенных кодовых точек и способов использования неназначенных кодовых точек: Третий стандарт в пояснении, не являвшемся частью стандарта, описывает вещи так, как будто есть места, где для некоторых неназначенных кодовых точек было приемлемо назначать гайдзи. В четвертом стандарте было разъяснено, что использование неназначенных кодовых точек вообще запрещено. Также были уточнены условия использования неназначенных кодовых точек.
Общее устранение повторяющихся кодировок: Каждому персонажу было дано «имя персонажа», соответствующее другим стандартам. Кроме того, были указаны методы кодирования для их использования вместе с международной справочной версией ISO / IEC 646 или JIS X 0201. Когда JIS X 0208 используется вместе с любой из двух присвоенных кодовых точек для символов с тем же именем, разрешается только одна; таким образом, как правило, исключались повторяющиеся кодировки.
Исследование источников кандзи: Персонажи, включенные в стандарт до сих пор, которые не встречаются ни в Словаре Канси, ни в Дай Канва Цзитен, не были идентифицированы. Соответственно, с какой целью и из каких источников пришли эти иероглифы при составлении первого стандарта, было исследовано.
Определение критериев объединения кандзи: На основе таких вещей, как материалы для разработки первого стандарта, была предпринята попытка восстановить намерение первого стандарта в отношении объема глифов, которые представляет каждая кодовая точка. Кроме того, были четко определены критерии объединения глифов кандзи.
Включение стандартов де-факто: Ко времени появления четвертого стандарта методы кодирования Shift JIS и ISO-2022-JP стали де-факто стандартами для персональных компьютеров и электронной почты соответственно. Эти методы кодирования были включены как «представление с кодированием сдвига» и «представление с кодированием RFC 1468» (описанные выше).

Преемники [ редактировать ]

JIS X 0213 ( расширенные кандзи ) был разработан «с целью предложить достаточный набор символов для целей кодирования современного японского языка, которым JIS X 0208 с самого начала планировал быть»; ^[17] он определяет набор символов, который расширяет набор кандзи JIS X 0208. Разработчики JIS X 0213 рекомендуют переход с JIS X 0208 на JIS X 0213, среди преимуществ которого является совместимость JIS X 0213 со списком символов Hyōgai Kanji Glyph List. и с новыми кандзи дзинмэйё .

Вопреки ожиданиям разработчиков, принятие JIS X 0213 было далеко не быстрым с момента его принятия в 2000 году. Редакционный комитет JIS X 0213: 2004 написал (в 2004 году): «Статус, где 'то, что большинство информационных систем могут использоваться совместно, только JIS X 0208 "все еще продолжается". (JIS X 0213: 2000, Приложение 1: 2004, раздел 2.9.7)

Для Microsoft Windows , преобладающей операционной системы (и, следовательно, обеспечивающей преобладающую среду рабочего стола ) в секторе персональных компьютеров, репертуар JIS X 0213 был включен с Windows Vista , выпущенной в ноябре 2006 года. Mac OS X была совместима с JIS X 0213 начиная с версии 10.1 (выпущен в 2001 году). Многие подобные Unix, такие как Linux, могут (опционально) поддерживать JIS X 0213 при желании. Поэтому считается, что со временем поддержка JIS X 0213 на персональных компьютерах не станет препятствием для его окончательного внедрения.

Среди разработчиков JIS X 0213 есть те, кто ожидает увидеть сочетание JIS X 0208 и JIS X 0213 до принятия JIS X 0213 (Satō, 2004). Тем не менее, JIS X 0208 продолжает использоваться в настоящее время, и многие предсказывают, что он останется стандартом. Существуют препятствия, которые необходимо преодолеть, если JIS X 0213 вытеснит стандарт JIS X 0208:

Репертуары персонажей, используемые в японских мобильных телефонах в настоящее время ^{[ когда? ]} основаны на JIS X 0208. Нет никаких официально объявленных планов по их миграции на совместимость с JIS X 0213. Поскольку мобильные телефоны в настоящее время являются повсеместным аспектом японской текстовой коммуникации (см. Японскую культуру мобильных телефонов ), являясь широко распространенным, широко используемым средством для отправки электронной почты и доступа к всемирной паутине , отсутствие принятия мобильных телефонов сдерживает их использование в других местах.
JIS X 0213 не является строго совместимым с JIS X 0208 с точки зрения критериев унификации (см. Ниже ). Считается, что для крупномасштабных архивов (например, библиографических баз данных и Aozora Bunko ), которые используют JIS X 0208 и строго следуют его критериям унификации, будет чрезвычайно сложно преобразовать все данные в JIS X 0213 и сохранить тот же стандарт. текстовой целостности.
На практике многие системы определяют и используют неназначенные кодовые точки в JIS X 0208. Например, Windows назначает расширенные символы IBM и NEC и определенные пользователем области символов (см. Windows-932 ), а мобильные телефоны назначают эмодзи в некоторых таких местах. Кодовые точки этих гайдзи конфликтуют с кодовыми точками, которые используются кодами JIS X 0213, поэтому возникнут некоторые трудности при миграции этих систем с JIS X 0208 на JIS X 0213. Также есть планы перейти на UCS / Unicode и использовать Репертуар JIS X 0213 оттуда, но пока системный администратор не сможет судить, что реализации суррогатных пар UCS / Unicode и композиции персонажей достаточно стабильны, он или она, вероятно, не решится использовать репертуар JIS X 0213, который требует этих реализаций.
Улучшения, предоставляемые JIS X 0213, в основном касаются символов, которые используются не так часто, как те, которые уже присутствуют в JIS X 0208. Поскольку необходимо реализовать почти вдвое больше глифов для меньшего использования этих дополнительных глифов. , во многих случаях это может быть низкая окупаемость инвестиций, особенно когда ресурсы ограничены.

Реализации [ править ]

Поскольку JIS X 0208 / JIS C 6226 - это в первую очередь набор символов, а не строго определенная кодировка символов , несколько компаний внедрили свои собственные кодировки набора символов.

Apple Computer Inc .: MacJapanese (на основе Shift_JIS )
Fujitsu : код кандзи JEF
Hitachi Ltd .: KEIS (на базе EBCDIC)
IBM : различные, включая IBM-932 и IBM-942 (оба на основе Shift_JIS)
Microsoft : Windows-932 (на основе Shift_JIS)
NEC : JIPS

Некоторые из них включают в себя присвоение символов, зависящее от производителя, вместо нераспределенных областей стандарта. К ним относятся Окна-932 и MacJapanese, а также NEC «s PC98 кодировку. Хотя IBM-932 и IBM-942 также включают назначения поставщиков, они включают их за пределами региона, используемого для JIS X 0208.

Отношение к другим стандартам [ править ]

ISO / IEC 646 IRV и ASCII [ править ]

Как отмечалось выше, набор кандзи несовместим снизу вверх с набором графических символов ISO / IEC 646: 1991 IRV (ASCII). Набор кандзи и набор графических символов IRV можно использовать вместе, как указано в JIS X 0208 (IRV + 7-битный код для кандзи и IRV + 8-битный код для кандзи). Их также можно использовать вместе в EUC-JP .

JIS X 0201 [ править ]

В наборе кандзи не хватает трех символов, включенных в набор графических символов JIS X 0201 для латинских символов: 2/2 (ЦИТАТИРОВАНИЕ), 2/7 (АПОСТРОФ) и 2/13 (ДЕФИС-МИНУС). Набор кандзи содержит все символы, входящие в набор графических символов JIS X 0201 для катаканы.

Набор кандзи и набор графических символов для латинских символов могут использоваться вместе, как указано в JIS X 0208 (латинские символы + 7-битный код для кандзи и латинские символы + 8-битный код для кандзи). Набор иероглифов, набор графических символов для латинских символов и набор графических символов JIS X 0201 для катаканы могут использоваться вместе, как указано в JIS X 0208 (набор символов с кодированием сдвига; то есть Shift JIS ). Набор кандзи и набор графических символов для катаканы можно использовать вместе в EUC-JP .

JIS X 0212 [ править ]

JIS X 0212 (дополнительные кандзи) определяет дополнительные символы с кодовыми точками для целей обработки информации, которая требует символов, отсутствующих в JIS X 0208. Вместо того, чтобы выделять символы в основном наборе кандзи JIS X 0208, он определяет второй 94-by- Набор из 94 кандзи, содержащий дополнительные символы.

JIS X 0212 может использоваться с JIS X 0208 в EUC-JP . Кроме того, JIS X 0208 и JIS X 0212 являются исходными стандартами для унификации Han UCS / Unicode , что означает, что кандзи из обоих наборов могут быть включены в один документ формата Unicode.

Среди кодовых точек, которые были изменены во второй версии JIS X 0208, 28 кодовых точек в JIS X 0212 отражают формы символов до изменений. ^[18] Кроме того, JIS X 0212 переназначает « метку закрытия », которую JIS X 0208 назначил как не-кандзи ( 〆 , в строке 1, ячейка 26), как кандзи (乄, в строке 16, ячейка 17). JIS X 0212 не имеет общих символов с JIS X 0208, кроме этих. Следовательно, сам по себе он не подходит для общего использования.

Однако в четвертой версии JIS X 0208 соединение с JIS X 0212 вообще не определялось. Считается, что это связано с тем, что редакционный комитет четвертого стандарта JIS X 0208 имел критическое мнение о методах выбора и идентификации JIS X 0212. ^[19] Значения символов и обоснование выбора не были должным образом задокументированы, что затрудняло определить, соответствуют ли желаемые иероглифы кандзи в его репертуаре. ^[20] В тексте четвертого стандарта, а также указывается на проблемные моменты выбора символов в JIS X 0212, говорится, что «считается, что не только выбор символов невозможен, но также невозможно использовать вместе; подключение к JIS X 0212 вообще не определено ". (раздел 3.3.1)

JIS X 0213 [ править ]

Диаграмма Эйлера, сравнивающая репертуары JIS X 0208, JIS X 0212 , JIS X 0213 , Windows-31J , стандартный репертуар Microsoft и Unicode .

JIS X 0213 (расширение кандзи) определяет набор кандзи, который расширяет набор кандзи JIS X 0208. Согласно этому стандарту, он «разработан с целью предложить достаточный набор символов для целей кодирования современного японского языка. что JIS X 0208 задумывался с самого начала ». ^[17]

Набор кандзи JIS X 0213 включает все символы, которые могут быть представлены в наборе кандзи JIS X 0208, со многими дополнениями. Всего JIS X 0213 определяет 1183 не-кандзи и 10 050 иероглифов (всего 11 233 символа) в двух плоскостях 94 на 94 (面, мужчины ) . Первая плоскость (без кандзи и кандзи уровня 1–3) основана на JIS X 0208, тогда как вторая плоскость (кандзи уровня 4) предназначена для размещения в нераспределенных строках JIS X 0212, что позволяет использовать в EUC-JP . ^[21] JIS X 0213 также определяет Shift_JISx0213 , вариант Shift_JIS, способный полностью кодировать JIS X 0213.

В большинстве случаев плоскость 1 JIS X 0213 является надмножеством JIS X 0208. Однако к некоторым кодовым точкам в JIS X 0213 применяются разные критерии унификации по сравнению с JIS X 0208. Следовательно, некоторые пары символов кандзи, которые были представлены одной кодовой точкой JIS X 0208, из-за унификации, даются отдельные кодовые точки в JIS X 0213. Например, глиф в строке 33 ячейке 46 JIS X 0208 ("僧", описанный выше ) объединяет несколько вариантов, к его правому компоненту. В JIS X 0213, две формы (те , содержащие компонент "丷„) унифицированы по плоскости 1 ряд 33 ячейки 46, а другой (содержащий компонент“八") расположен в плоскости 1, строке 14, ячейке 41. Таким образом, невозможно определить, будет ли JIS X 0208 строка 33, ячейка 46 отображаться в JIS X 0213, плоскость 1, строка 33, ячейка 46 или плоскость 1, строка 14, ячейка 41, не может быть определено автоматически. ^[p] Это ограничивает степень, в которой JIS X 0213 может считаться совместимым снизу вверх с JIS X 0208, как было признано редакционным комитетом JIS X 0213. ^[22]

Однако по большей части ячейка n строки m в JIS X 0208 соответствует плоскости 1 ячейке m строки n в JIS X 0213; поэтому на практике не возникает большой путаницы. Это связано с тем, что в большинстве шрифтов используются глифы, представленные в JIS X 0208, и большинство пользователей сознательно не осведомлены о критериях унификации.

ISO / IEC 10646 и Unicode [ править ]

Набор кандзи JIS X 0208 является одним из исходных стандартов для унификации Han в ISO / IEC 10646 (UCS) и Unicode . Каждому кандзи в JIS X 0208 соответствует его собственная кодовая точка в базовой многоязычной плоскости (BMP) UCS / Unicode .

Не-кандзи в JIS X 0208 также соответствуют их собственные кодовые точки в BMP. Однако для некоторых специальных символов некоторые системы реализуют соответствия, отличные от соответствий UCS / Unicode (которые основаны на именах символов, указанных в JIS X 0208: 1997).

Сноски [ править ]

Пояснительный [ править ]

^ a b c d ( Снято )
^ JIS и Apple: U + 2014.
Unicode,^[a] Microsoft и WHATWG: U + 2015.
^ Microsoft и WHATWG: U + FF5E.
Юникод,^[a] JIS и Apple: U + 301C.
^ Microsoft и WHATWG: U + 2225.
Unicode,^[a] JIS и Apple: U + 2016.
^ Microsoft: U + FF0D.
Unicode,^[a] JIS и Apple: U + 2212.
WHATWG: U + FF0D по декодированию, в исключительных случаях по кодированию.
^ a b c d Добавлено в JIS X 0213
↑ Отсутствует в оригинальной версии расширения, предшествующей эпохе Хэйсэй . Позиция кода выбрана NEC или Microsoft. ^[5] Нет в Macintosh PostScript.
^ a b c d e f g h i Дублировано добавлением, сделанным в строке 2 в 1983 году. Не закодировано здесь (но оставлено нераспределенным) в JIS X 0213, ^[5], но дублировано закодировано здесь Microsoft и WHATWG. Что касается кодировки Macintosh PostScript, то к форме, декодированной с помощью функций библиотеки macOS, добавляется код U + F87F для частного использования, что позволяет выполнять циклическое переключение .
^ Как показано в таблицах кодовзарегистрированных в Международном реестре Coded Character Sets быть использованным с Escapeпоследовательности, до четвертого стандарта (1997 г.), ку (区) и десять (点) были названы «раздел» и «позиция "соответственно на английском языке. Что касается предыстории изменения английского языка, то в стандарте JIS X 0221-1995 (UCS), который переводил ISO / IEC 10646-1: 1993, «группа», «плоскость», «строка» и «ячейка» могут переводиться на пистолет (群) , мен (面) , ку (区) ,и десять (点) . Однако строка и ячейка JIS X 0208 и строка и ячейка UCS представляют собой разные идеи.
^ Имена персонажей даются латинскими буквами и используются во всем мире, поэтому их можно рассматривать как международную конвенцию, что-то вроде научных названий живых организмов. Что касается этой аналогии, то японские общие названия персонажей будут похожи на использование общих имен организмов.
^ Для полнофункционального поиска или сортировки по порядку каны необходимо учитывать чтение слов, знаки повторения и т. Д. Сортировка строк японских символов предписана в JIS X 4061 (Сортировка строкяпонских символов).
↑ По словам Ясуоки (2001a), кажется, что произошли некоторые случайные упущения. Он отмечает, например, что ба (旛, 58-57) из INBA а ши (泗, 61-89) из Shisui, Кумамото не является частью уровня 1.
^ Для ячеек 30 и 31 строки 19 порядок показаний перепутан. Следовательно, там, где правильный порядок должен быть kaeru (蛙, «лягушка»), за которым следует kaori (馨, «аромат») , их позиции меняются так, что kaori предшествует kaeru .
^ Кроме того, в основном используемый вариант (剣) находится в строке 23, ячейка 85 на уровне 1, а еще один вариант (釼) может быть сгруппирован как имеющий "золотой" радикал в строке 78, ячейке 63 на уровне 2.
^ Вопрос о том, какие глифы в рамках критериев унификации следует использовать, остается на усмотрение дизайнера шрифтов. В зависимости от этого (и обстоятельств конечного пользователя) возможно, что ни один, ни другой из этих двух не будут следовать своей форме в стиле Канси.
^ Это та же неопределенность относительно того, следует ли «ДЕФИС-МИНУС» в ISO / IEC 646 отображаться в «ДЕФИС» или «ЗНАК МИНУС» в JIS X 0208.

Ссылки на ссылки [ править ]

^ «Почему Япония не создала iPod» . Гатунка . 5 мая 2008 г.
^ JIS X 0208 не был одним из стандартов, включенных в список применимых целевых систем для отображения нового знака JIS, объявленный Министерством экономики, торговли и промышленности 17 января 2007 года.
^ a b c Стил, Шон (15 апреля 1998 г.). «CP932.TXT: cp932 в таблицу Unicode» . Microsoft. (коды в формате Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)
^ a b «Карта (внешняя версия) из японской кодировки Mac OS в Unicode 2.1 и выше» . Яблоко. (коды в формате Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)
^ a b c d Лунде, Кен (21 марта 2019 г.). "Краткая история лигатур имени эры Японии" . Блог CJK Type . Adobe Inc .
^ "233: Набор японских графических символов для обмена информацией, плоскость 1" (PDF) . IPSJ.
↑ Unicode, Inc. (14 октября 2011 г.). «JIS X 0208 (1990) в Unicode» .
^ ван Кестерен, Энн , "Index jis0208" , Стандарт кодирования , WHATWG
^ Jungshik Shin (14 октября 2011). «KSX1001.TXT: KS X 1001 в таблицу Unicode» . Unicode, Inc.
^ a b Таблица кодов ISO-IR-233 (JIS X 0213: 2004, плоскость 1)
^ JIS C 6225-1979 (коды управляющих символов для набора японских графических символов для обмена информацией) предоставил управляющие символы для начала и конца композиции. JIS C 6225 был переименован в JIS X 0207 в 1987 году и был отменен в 1997 году.
^ В наборах символов IANAShift JIS определяется со ссылкой на JIS X 0208: 1997 Приложение 1.
^ a b c d "15. История JIS X 0208", Набор символов японской графики IBM для расширенного кода UNIX (EUC) (PDF) , IBM, стр. 371, архивировано (PDF) из оригинала 8 декабря 2017 г. , извлечено 8 декабря 2017 г.
^ Лунде, Кен. «Приложение Q § 78-против-83-3» . CJKV Information Processing (дополнительный материал) . О'Рейли. Обратите внимание на включение кодов кутэн с опущенным дефисом.
^ Лунде, Кен. «Приложение Q § 78-против-83-2» . CJKV Information Processing (дополнительный материал) . О'Рейли. Обратите внимание на включение кодов кутэн с опущенным дефисом.
^ Согласно Nomura (1984), количество измененных форм символов, включая переходы между кодовыми точками, составляет 294. Согласно Shibano (1997a) и тексту четвертого стандарта, количество измененных форм символов составляет 300.
^ a b Оригинальный японский: 「JIS X 0208 が当初符号化を意図していた現代日本語を化するために十分な文字集合を提供するてた
^ Лунде, Кен. «Приложение Q § TJ2» . CJKV Information Processing (дополнительный материал) . О'Рейли. Обратите внимание на включение кодов кутэн с опущенным дефисом.
^ Например, Шибано Кодзи (1997a), который был председателем редакционного комитета четвертого стандарта, так сказал о методе выбора: «Он основан на поверхностном понимании выбора набора символов JIS X 0208; это ошибочное понимание »(оригинальный японский:「 JIS X 0208 の文字集合選定の表層的理解に基づくもり、違った) и «Существует большая проблема в изучении всего набора символов, который превышает 10000 символов. . " (оригинальный японский:「1 万字を越える水準の文字集合の検討としては大きな問題がある」 )
^ Marukawa, Kazushi. «Наборы символов JIS - JIS X 0212: 1990» . Архивировано из оригинального 22 мая 2005 года.
^ Чанг, Hyeshik. «Readme для CJKCodecs» . cPython . Фонд программного обеспечения Python.
^ JIS X 0213: 2000 раздел 5.3.2, JIS X 0213: 2000 Приложение 1: 2004 раздел 3.2.2

См. Также [ править ]

Кодированные наборы символов JIS
- JIS X 0201 «Наборы 7-битных и 8-битных кодированных символов для обмена информацией»
- JIS X 0202 «Информационные технологии - Структура кода символов и методы расширения» ( ISO / IEC 2022 )
- JIS X 0208 «Наборы KANJI с 7-битным и 8-битным двухбайтовым кодированием для обмена информацией»
- JIS X 0211 «Функции управления для наборов кодированных символов» ( ISO / IEC 6429 )
- JIS X 0212 «Код дополнительного набора японских графических символов для обмена информацией»
- JIS X 0213 «7-битные и 8-битные двухбайтовые расширенные наборы KANJI для обмена информацией»
- JIS X 0221 «Универсальный набор многооктетных кодированных символов (UCS)» ( ISO / IEC 10646 )
Расширенный синдзитай
Справка: японский

Ссылки [ править ]

В целях цитирования эти японские имена представлены так, как если бы они были в западном порядке, если они романизированы, и сохраняют восточный порядок, где нет.

Нисимура, Хирохико [西村恕彦], 1978. Кандзи JIS [漢字の JIS ]. Журнал стандартизации [標準化ジャーナル], 171: 3–8.
Номура, Масааки [野村雅昭], 1984. Пересмотр JIS C 6226: Коды кандзи для обмена информацией [ JIS C 6226 情報交換用漢字符号系の改正]. Журнал стандартизации [標準化ジャーナル], 14 (3): 4–9.
Огата, Кацухиро [小形克宏], 2006a. [постоянная мертвая ссылка ] Вещи, которые не были унифицированы в 97JIS, среди примеров глифов, измененных в JIS C 6226-1983 (83JIS) [JIS C 6226-1983 (83JIS) で例示字体を変更したうち 97JIS で包摂]^{[ постоянная мертвая ссылка ]} (по состоянию на 29 января 2007 г.).
Огата, Кацухиро [小形克宏], 2006b. [постоянная неработающая ссылка ] В JIS C 6226-1983 (83JIS) [JIS C 6226-1983 (83JIS) 例示字体変更ち、包摂の範だっ]^{[ постоянная мертвая ссылка ]} (по состоянию на 29 января 2007 г.).
Satō, Takayuki [佐藤敬幸], 2004. Относительно версии JIS X 0213 (7-битные и 8-битные двухбайтовые расширенные наборы кандзи для обмена информацией) [ JIS X 0213 (7 ビット及び 8 ビットの 2 バイト情報交換用符号化拡張漢字集合) の改正について]. Журнал стандартизации [標準化ジャーナル], 34 (4): 8–12.
Шибано, Кодзи [芝野耕司], 1997a. Относительно версии JIS X 0208 (наборы кандзи с 7-битным и 8-битным двухбайтовым кодированием для обмена информацией) [ JIS X0208 (7 ビット及び 8 ビットの 2 バイト情報交換用符号集合) の改正について]. Журнал стандартизации [標準化ジャーナル], 27 (3): 8–12.
Шибано, Кодзи [芝野耕司], 1997b. План расширения кандзи JIS [ JIS 漢字の拡張計画]. Журнал стандартизации [標準化ジャーナル], 27 (7): 5–11.
Shibano, Kōji [芝野耕司], 2000. Создание JIS X 0213 (7-битные и 8-битные двухбайтовые расширенные наборы кандзи для обмена информацией) [ JIS X 0213 (7 ビット及び 8 ビットの 2 バイト情報用符号化拡張漢字集合) の制定]. Журнал стандартизации [標準化ジャーナル], 30 (3): 3–7.
Shibano, Kji [芝野耕司], 2001. Относительно кандзи JIS [漢字について]. Стандартизация и контроль качества [と子質管理], 54 (8): 44–50.
Шибано, Кодзи [芝野耕司] (редактор), 2002. Словарь кандзи JIS, расширенное и исправленное издание [増補改訂 JIS 漢字字典]. Токио: Японская ассоциация стандартов ( ISBN 4-542-20129-5 ).
Shibano, Kji [芝野耕司], 2002. Развитие технологий обработки кандзи и японского языка: стандартизация кодов кандзи [・日本語処理技術の発展: 漢字コードの標準化] . Журнал IPSJ [情報処理], 43 (12): 1362–1367
Таджима, Кадзуо [田嶋一夫], 1979. Проблемы, связанные с использованием списка кандзи JIS: разработка и обработка кандзи в системах обработки кандзи [ JIS 漢字表の利用上の問題: 漢字処理システムお漢字のデザ] ンと. Журнал Общества обработки информации Японии [情報管理], 21 (10): 753–761.
Uchida, Tomio [内田富雄], 1990. Создание JIS X 0212 (Коды кандзи для обмена информацией - Дополнительные кандзи) [ JIS X 0212 (情報交換用漢字符号 - 補助漢字) の制定]. Журнал стандартизации [標準化ジャーナル], 20 (11): 6–11.
Ясуока, Коити [安岡孝一], 2001a. Ситуация с новейшими кодами символов в Японии (бывшая часть) [日本における最新文字コード事情 (前編) ]. Системы, управление и информация [システム / 制御 / 情報], 45 (9): 528–535.
Ясуока, Коити [安岡孝一], 2001b. Ситуация с новейшими кодами символов в Японии (последняя часть) [日本における最新文字コード事情 (後編) ]. Системы, управление и информация [システム / 制御 / 情報], 45 (12): 687–694.
Ясуока, Коити [安岡孝一], 2006 «Различия между планом кандзи JIS (1976) и JIS C 6226-1978» [ JIS 漢字案 (1976) と JIS C 6226-1978 の異同] на 17-м заседании «Использование компьютеров для восточных стран». Исследования »[東洋学へのコンピュータ利用] исследовательский семинар. 3–51.
Ясуока, Коити [安岡孝一] и Мотоко Ясуока [安岡素子], 2006. История кодов символов: Европа, Америка и Япония [文字符号の歴史: 欧米と日本編]. Токио: Kyōritsu Shuppan ( ISBN 4-32012102-3 ).

Внешние ссылки [ править ]

Найдите японские кандзи по кутен-коду JIS X 0208 в Викисловаре , бесплатном словаре.

Международный реестр, который контролируется IPSJ / ITSCJ.
- Набор японских символов JIS C 6226-1978
- Набор японских символов JIS C 6226-1983
- Обновление регистрации 87 Набор японских графических символов для обмена информацией
(на японском языке) Поиск в базе данных Японского комитета по промышленным стандартам (последний стандарт можно прочитать здесь).
(на японском языке) Поиск в базе данных Японской ассоциации стандартов : (копию последнего стандарта можно приобрести здесь).
(на японском языке) Положения стандартов JIS X 0208 и 0213, относящиеся к унификации
(на японском языке) Cyber Librarian - список кандзи JIS

[w31jnec-21] Из "Выбор расширений IBM NEC". Занимает кодовую точку, не назначенную в JIS X 0208.

[w31jibm-22] Из "Расширений IBM". Вне диапазона JIS X 0208, но кодируется в Shift_JIS.

[23] Microsoft рассматривает знак "минус" JIS как полноразмерную форму дефиса-минус.

[wavedash-24] Wave Dash иногда рассматривается как полноразмерная форма тильды, например Microsoft (см. Тильда § Unicode и Shift JIS-кодирование волнового тире ). ASCII / IRV тильда неоднозначного кода пункт , который может появляться либо как знак тильды акцента (\) или в виде тира с одной и той же кривизной (\), хотя тир является более распространенным в связи с распорным акцентом , имеющим отдельную точка коды в Windows-1252 ; нет символа JIS X 0208 для тильды. Символы 1-2-18 в JIS X 0213 показаны в кодовой таблице в виде тильды. ^[10]

[31] т.е. не требует 8-битной чистой передачи.

[32] т. е. последовательность, используемая для кодирования данного символа, всегда одна и та же, независимо от того, какими были предыдущие символы. См. Состояние (информатика) .

[state2022-33] ISO-2022-JP - это кодировка с отслеживанием состояния : все наборы символов закодированы с использованием кодов 0x21–7E и переключаются между ними с помощью escape-символов ANSI. Следовательно, хотя в исходном состоянии это ASCII, целые последовательности символов, отличных от ASCII, могут быть закодированы байтами ASCII.

[34] JIS X 0201 katakana доступны в JIS X 0202 и ISO 2022, но не включены в базовый профиль ISO-2022-JP, хотя они являются общим расширением.

[35] JIS X 0212 доступен в JIS X 0202 и ISO 2022 и включен в профили ISO-2022-JP-1 и ISO-2022-JP-2, но не в базовый профиль ISO-2022-JP.

[36] Однобайтовые символы 0x21–7E в Shift_JIS - это правильно ISO-646-JP , чтобы быть надмножеством 8-битного JIS X 0201, но часто декодируются (не обязательно отображаются) как ASCII, который отличается только в двух местах.

[37] Некоторые (не все) байты ASCII могут отображаться как вторые байты, но не как первые байты двухбайтовых символов в Shift_JIS. Следовательно, в последовательности из двух или более байтов ASCII второй байт обязательно должен быть символами ASCII (или ISO-646-JP).

[eucstateless-38] EUC в упакованном формате основан на механизмах ISO 2022 с предварительно заданными обозначениями кодировок. Избегают экранирования обозначений кодировки и блокирующих сдвигов, тогда как использование одиночных сдвигов может быть реализовано без учета состояния. Тем не менее, ограничения ISO 2022 соблюдаются.

[39] Однобайтовые символы 0x21–7E в EUC-JP обычно считаются ASCII, но иногда обрабатываются как ISO-646-JP .

[40] В отличие от Shift_JIS, EUC-JP не будет обрабатывать простой 8-битный ввод JIS X 0201 без предварительного преобразования из-за другого представления катаканы JIS X 0201 (с односменным режимом).

[41] JIS X 0212 в EUC-JP не всегда реализован.

[42] Помимо свойств самих кодировок, форматы Unicode имеют дополнительные преимущества, вытекающие из базового набора символов: они не ограничиваются кодированными символами JIS, но могут представлять весь UCS (включая полный репертуар кодированных символов JIS) и, следовательно, являются подходит для международного использования. На них также меньше влияют конфликтующие проприетарные расширения из-за их большего базового репертуара и обозначенных областей частного использования.

[43] Хотя GB 18030 и GBK являются расширениями формы EUC-CN для GB / T 2312, они не соответствуют ограничениям EUC или ISO 2022, в отличие от EUC-JP (или исходной EUC-CN).

[uniwith-5] ( Снято )

[6] JIS и Apple: U + 2014.
Unicode,^[a] Microsoft и WHATWG: U + 2015.

[7] Microsoft и WHATWG: U + FF5E.
Юникод,^[a] JIS и Apple: U + 301C.

[8] Microsoft и WHATWG: U + 2225.
Unicode,^[a] JIS и Apple: U + 2016.

[9] Microsoft: U + FF0D.
Unicode,^[a] JIS и Apple: U + 2212.
WHATWG: U + FF0D по декодированию, в исключительных случаях по кодированию.

[nu213-12] Добавлено в JIS X 0213

[13] Отсутствует в оригинальной версии расширения, предшествующей эпохе Хэйсэй . Позиция кода выбрана NEC или Microsoft. ^[5] Нет в Macintosh PostScript.

[dup1983-14] ^ a b c d e f g h i Дублировано добавлением, сделанным в строке 2 в 1983 году. Не закодировано здесь (но оставлено нераспределенным) в JIS X 0213, ^[5], но дублировано закодировано здесь Microsoft и WHATWG. Что касается кодировки Macintosh PostScript, то к форме, декодированной с помощью функций библиотеки macOS, добавляется код U + F87F для частного использования, что позволяет выполнять циклическое переключение .

[kuten-15] Как показано в таблицах кодовзарегистрированных в Международном реестре Coded Character Sets быть использованным с Escapeпоследовательности, до четвертого стандарта (1997 г.), ку (区) и десять (点) были названы «раздел» и «позиция "соответственно на английском языке. Что касается предыстории изменения английского языка, то в стандарте JIS X 0221-1995 (UCS), который переводил ISO / IEC 10646-1: 1993, «группа», «плоскость», «строка» и «ячейка» могут переводиться на пистолет (群) , мен (面) , ку (区) ,и десять (点) . Однако строка и ячейка JIS X 0208 и строка и ячейка UCS представляют собой разные идеи.

[19] Имена персонажей даются латинскими буквами и используются во всем мире, поэтому их можно рассматривать как международную конвенцию, что-то вроде научных названий живых организмов. Что касается этой аналогии, то японские общие названия персонажей будут похожи на использование общих имен организмов.

[26] Для полнофункционального поиска или сортировки по порядку каны необходимо учитывать чтение слов, знаки повторения и т. Д. Сортировка строк японских символов предписана в JIS X 4061 (Сортировка строкяпонских символов).

[27] По словам Ясуоки (2001a), кажется, что произошли некоторые случайные упущения. Он отмечает, например, что ба (旛, 58-57) из INBA а ши (泗, 61-89) из Shisui, Кумамото не является частью уровня 1.

[28] Для ячеек 30 и 31 строки 19 порядок показаний перепутан. Следовательно, там, где правильный порядок должен быть kaeru (蛙, «лягушка»), за которым следует kaori (馨, «аромат») , их позиции меняются так, что kaori предшествует kaeru .

[29] Кроме того, в основном используемый вариант (剣) находится в строке 23, ячейка 85 на уровне 1, а еще один вариант (釼) может быть сгруппирован как имеющий "золотой" радикал в строке 78, ячейке 63 на уровне 2.

[48] Вопрос о том, какие глифы в рамках критериев унификации следует использовать, остается на усмотрение дизайнера шрифтов. В зависимости от этого (и обстоятельств конечного пользователя) возможно, что ни один, ни другой из этих двух не будут следовать своей форме в стиле Канси.

[54] Это та же неопределенность относительно того, следует ли «ДЕФИС-МИНУС» в ISO / IEC 646 отображаться в «ДЕФИС» или «ЗНАК МИНУС» в JIS X 0208.

[1] «Почему Япония не создала iPod» . Гатунка . 5 мая 2008 г.

[2] JIS X 0208 не был одним из стандартов, включенных в список применимых целевых систем для отображения нового знака JIS, объявленный Министерством экономики, торговли и промышленности 17 января 2007 года.

[ms932-3] Стил, Шон (15 апреля 1998 г.). «CP932.TXT: cp932 в таблицу Unicode» . Microsoft. (коды в формате Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)

[macjapanese-4] «Карта (внешняя версия) из японской кодировки Mac OS в Unicode 2.1 и выше» . Яблоко. (коды в формате Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)

[lundenec13-10] Лунде, Кен (21 марта 2019 г.). "Краткая история лигатур имени эры Японии" . Блог CJK Type . Adobe Inc .

[11] "233: Набор японских графических символов для обмена информацией, плоскость 1" (PDF) . IPSJ.

[16] Unicode, Inc. (14 октября 2011 г.). «JIS X 0208 (1990) в Unicode» .

[17] ван Кестерен, Энн , "Index jis0208" , Стандарт кодирования , WHATWG

[18] Jungshik Shin (14 октября 2011). «KSX1001.TXT: KS X 1001 в таблицу Unicode» . Unicode, Inc.

[x02132004m1-20] Таблица кодов ISO-IR-233 (JIS X 0213: 2004, плоскость 1)

[25] JIS C 6225-1979 (коды управляющих символов для набора японских графических символов для обмена информацией) предоставил управляющие символы для начала и конца композиции. JIS C 6225 был переименован в JIS X 0207 в 1987 году и был отменен в 1997 году.

[30] В наборах символов IANAShift JIS определяется со ссылкой на JIS X 0208: 1997 Приложение 1.

[ibm208history-44] "15. История JIS X 0208", Набор символов японской графики IBM для расширенного кода UNIX (EUC) (PDF) , IBM, стр. 371, архивировано (PDF) из оригинала 8 декабря 2017 г. , извлечено 8 декабря 2017 г.

[45] Лунде, Кен. «Приложение Q § 78-против-83-3» . CJKV Information Processing (дополнительный материал) . О'Рейли. Обратите внимание на включение кодов кутэн с опущенным дефисом.

[46] Лунде, Кен. «Приложение Q § 78-против-83-2» . CJKV Information Processing (дополнительный материал) . О'Рейли. Обратите внимание на включение кодов кутэн с опущенным дефисом.

[47] Согласно Nomura (1984), количество измененных форм символов, включая переходы между кодовыми точками, составляет 294. Согласно Shibano (1997a) и тексту четвертого стандарта, количество измененных форм символов составляет 300.

[goal-49] Оригинальный японский: 「JIS X 0208 が当初符号化を意図していた現代日本語を化するために十分な文字集合を提供するてた

[50] Лунде, Кен. «Приложение Q § TJ2» . CJKV Information Processing (дополнительный материал) . О'Рейли. Обратите внимание на включение кодов кутэн с опущенным дефисом.

[51] Например, Шибано Кодзи (1997a), который был председателем редакционного комитета четвертого стандарта, так сказал о методе выбора: «Он основан на поверхностном понимании выбора набора символов JIS X 0208; это ошибочное понимание »(оригинальный японский:「 JIS X 0208 の文字集合選定の表層的理解に基づくもり、違った) и «Существует большая проблема в изучении всего набора символов, который превышает 10000 символов. . " (оригинальный японский:「1 万字を越える水準の文字集合の検討としては大きな問題がある」 )

[52] Marukawa, Kazushi. «Наборы символов JIS - JIS X 0212: 1990» . Архивировано из оригинального 22 мая 2005 года.

[python-eucjis-53] Чанг, Hyeshik. «Readme для CJKCodecs» . cPython . Фонд программного обеспечения Python.

[55] JIS X 0213: 2000 раздел 5.3.2, JIS X 0213: 2000 Приложение 1: 2004 раздел 3.2.2

vтеКодировки символов
Ранние телекоммуникации	Телеграфный код Иголка Морс Нелатинский Вабун / Кана Китайский Кириллица Корейский Бодо и Мюррей FIELDATA ASCII ISO / IEC 646 BCDIC 353 355 357 358 359 360 EBCDIC Телетекс и Видеотекс / Телетекст ISO / IEC 6937 / ITU T.51 ITU T.61 ITU T.101 Телетекст мировой системы фон наборы
ISO / IEC 8859	Одобренный -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 -13 -14 -15 -16 Заброшенный -12 Адаптации ISO-IR-182 ISO-IR-200 ISO-IR-201 Предложено, но не утверждено ISO-IR-111 ISO-IR-197 Французский / голландский / турецкий проект
Библиографическое использование	MARC-8 ANSEL CCCII / EACC ISO 5426 / 5426-2 / 5427 / 5428 / 6438 /6861/ 6862 / 10585 /10586/10754/11822
Национальные стандарты	ArmSCII BraSCII CNS 11643 ELOT 927 ГОСТ 10859 ГБ 2312 ГБ 12052 ГБ 18030 HKSCS IS 434 ISCII JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 КОИ-7 КПС 9566 KS X 1001 KS X 1002 LST 1284 LST 1564 LST 1590-1 LST 1590-2 LST 1590-3 LST 1590-4 PASCII RUSCII SI 960 ТИС-620 TSCII VISCII VSCII ЮСКИИ
ISO / IEC 2022	7-битный CN CN-EXT JP JP-EXT JP-1 JP-2 JP-3 KR ISO / IEC 4873 ISO / IEC 8859 ISO / IEC 10367 Расширенный код Unix / EUC CN KR JP TW
Кодовые страницы Mac OS («скрипты»)	Армянский арабский Баренц кириллица кельтская CentEuro КитайскийSimp / EUC-CN Китайский Трад / Big5 хорватский Кириллица Деванагари / ISCII Дингбаты Фарси (персидский) Гэльский Грузинский Греческий Гуджарати / ISCII Гурмукхи / ISCII иврит Исландия Инуиты Японский / Shift JIS Клавиатура Корейский / EUC-KR Латынь (Кермит) Мальтийский / эсперанто Огам / IS 434 Римский румынский Саами Символ Тайский / TIS-620 турецкий Тюркская кириллица украинец VT100
Кодовые страницы DOS	100 111 112 113 151 152 161 162 163 164 165 166 210 220 301 437 449 489 620 667 668 707 708 709 710 711 714 715 720 721 737 768 770 771 772 773 774 775 776 777 778 790 850 851 852 853 854 855 / 872 856 857 858 859 860 861 862 863 864 865 866 / 808 867 868 869 874 / один тысяча сто шестьдесят один / 1162 файл 876 877 878 881 882 883 884 885 891 895 896 897 898 899 900 903 904 906 907 909 910 911 926 927 928 929 932 934 936 938 941 942 943 944 946 947 948 949 950/1370 951 966 991 1034 1039 1040 1041 1042 1043 1044 1046 1086 1088 1092 1093 1098 1108 1109 1114 1115 1116 1117 1118 1119 1125 / 848 1126 1127 1131 / 849 1139 1167 1168 1300 1351 1361 1362 1363 1372 1373 1374 1375 1380 1381 1385 1386 1391 1392 1393 1394 3012 3021 3843 3844 3845 3846 3847 3848 30000 30001 30002 30003 30004 30005 30006 30007 30008 30009 30010 30011 30012 30013 30014 30015 30016 30017 30018 30019 30020 30021 30022 30023 30024 30025 30026 30027 30028 30029 30030 30031 30032 30033 30034 30039 30040 58152 58210 58335 59234 59829 60258 60853 61282 62306 CS Индийский CSX Индийский CSX + Индийский CWI-2 Иранская система Каменицкий KOI8 Мазовецкое воеводство МИК
Кодовые страницы IBM AIX	367 371 806 813 819 895 896 912 913 914 915 916 919 920 921 / 901 922 / 902 923 952 953 954 955 956 957 958 959 960 961 963 964 965 970 971 1004 1006 1008 1009 1010 1011 1012 1013 1014 1015 1016 1017 1018 1019 1029 1036 1089 1111 1124 1129 / 1163 1133 1350 1382 1383
Кодовые страницы IBM для кодировок других поставщиков	Apple Macintosh 1275 1280 1281 1282 1283 1284 1285 1286 Adobe 1038 1276 1277 DEC 1020 1021 1023 1090 1100 1101 1102 1103 1104 1105 1106 1107 1287 1288 HP 1050 1051 1052 1053 1054 1055 1056 1057 1058
Кодовые страницы Windows	CER-GS 874 / 1162 файла ( TIS-620 ) 932 / 943 ( Сдвиг JIS ) 936 / одна тысячи триста восемьдесят-шесть ( GBK ) 950 / 1370 ( Big5 ) 949 / 1363 ( EUC-KR ) 1169 1174 Расширенная латиница-8 1200 ( UTF-16LE ) 1201 ( UTF-16BE ) 1250 1251 1252 1253 1254 1255 1256 1257 1258 1261 1270 54936 (GB18030) Армянский Кириллица + финский Кириллица + французский Кириллица + немецкий Политонический греческий 65001 ( UTF-8 )
Кодовые страницы Microsoft для кодировок других поставщиков	Apple Macintosh 10000 10001 10002 10003 10004 10005 10006 10007 10008 10010 10017 10021 10029 10079 10081 10082
Кодовые страницы EBCDIC	37 390 391 392 393 394 395 435 829 834 835 837 839 881 882 883 884 885 886 887 888 889 890 931 933 / 1364 935 / 1388 937 / 1371 939 / 1399 1001 1003 1005 1007 1024 1027 1028 1030 1031 1032 1033 1037 1068 1071 1073 1074 1075 1076 1077 1078 1080 1082 1083 1085 1087 1091 1136 1150 1151 1152 1278 1279 1303 1364 1376 1377
Терминалы DEC ( VTx )	Многонациональная (MCS) Национальная замена (NRCS) французский канадец Швейцарский испанский объединенное Королевство нидерландский язык Финский Французский Норвежский и датский Шведский Норвежский и датский (альтернативный) 8-битный греческий 8-битный турецкий 7-битный иврит 8-битный иврит Специальная графика Технические (TCS)
Для конкретной платформы	Желудь Adobe Standard Adobe Latin 1 Амстрад КТК Яблоко I Яблоко II Яблоко III ATASCII Atari ST BICS Калькуляторы Casio CDC Compucolor II CP / M + ДЕКАБРЬ RADIX 50 DEC MCS / NRCS DG International ЭЛВРО-Юниор FIELDATA GEM GEOS GSM 03.38 Расширение HP Roman HP Роман-8 HP Роман-9 HP FOCAL ХП РПЛ IBM SQUOZE LICS LMBCS Маттел Водолей Минитель MSX NEC APC Следующий OricSCII PCW PETSCII Sega SC-3000 Калькуляторы Sharp Sharp MZ Sinclair QL Телетекст Калькуляторы TI TRS-80 Ventura International Символ Вентуры WISCII XCCS ZX80 ZX81 ZX Spectrum
Юникод / ISO / IEC 10646	UTF-1 UTF-7 UTF-8 UTF-16 ( UTF-16LE / UTF-16BE ) / UCS-2 UTF-32 ( UTF-32LE / UTF-32BE ) / UCS-4 UTF-EBCDIC ГБ 18030 BOCU-1 ЦЭСУ-8 ГКГУ
Система набора TeX	Пробка IL1 IL2 IL3 L7X LGR LY1 OML OMS OMX OT1 OT2 OT3 OT4 PL0 QX T2A T2B T2C T2D Т3 Т4 Т5 TS1 TS3 U X2
Разные кодовые страницы	ABICOMP APL 293 310 (графический побег) 351 (GDDM) 907 (OEM) ISO-IR-68 ARIB STD-B24 Гц IEC-P27-1 ИНИС 7-битный 8 бит Кириллица ISO-IR-169 ISO 2033 Йохаб Модзикё SEASCII Стэнфорд / ИТС TACE16 TRON UTF-5 UTF-6 WTF-8
Контрольные и непечатаемые наборы символов	Азбука Морзе Коды управления C0 и C1 ISO / IEC 6429 / ANSI X3.64 / ECMA-48 / JIS X 0211 ISO 6630 DIN 31626 JIS X 0207 ITU T.101 C0 C1 Коды управления EBCDIC Управление Unicode, формат и символы-разделители Пробельные символы
похожие темы	Кодовая страница Кодовая страница Windows CCSID Кодировки символов в HTML Обнаружение кодировки Ханьское объединение Аппаратное обеспечение Моджибаке
Наборы символов