Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

KS X 1001 , « Код для обмена информацией (хангыль и ханджа) », [a] [1], ранее называвшийся KS C 5601 , является южнокорейским стандартом кодированного набора символов для представления символов хангыль и ханджа на компьютере.

KS X 1001 кодируется с помощью наиболее распространенных устаревших кодировок символов (до Unicode ) для корейского языка , включая EUC-KR и унифицированный код хангыль Microsoft (UHC). Он содержит корейские слоги хангыль , иероглифы CJK (ханджа), греческие , кириллические , японские ( хирагана и катакана ) и некоторые другие символы.

KS X 1001 организован в виде таблицы 94 × 94 в соответствии со структурой 2-байтовых кодовых слов в ISO 2022 и EUC . Следовательно, его кодовые точки представляют собой пары целых чисел 1–94. Однако некоторые кодировки (UHC и Johab ), помимо предоставления кодов для каждой кодовой точки, предоставляют дополнительные коды для символов, которые иначе могут быть представлены только как последовательности кодовых точек.

История [ править ]

Этот стандарт ранее был известен как KS C 5601. В него было внесено несколько редакций. Например, изменения были в 1987, 1992, 1998 и 2002 годах.

Настоящий двухбайтовый набор символов Wansung ( 완성 , Wanseong , «предварительное составление») [1] был стандартизирован третьим изданием KS C 5601, [2], которое было опубликовано в 1986 году. [3] Это стандарт ISO 2022. совместимая кодировка, обычно используемая в форме EUC , которая назначает двухбайтовые коды для не-хангыль, хангыль-джамо и наиболее распространенных слогов хангыль, в отличие от Johab ( 조합 , Johap , «комбинирование») [1], которая несовместима с ISO 2022, но присваивает двухбайтовые коды всем слогам хангыля с использованием современного джамо. [2]Wansung технически является кодировкой переменной длины, позволяющей представлять другие слоги с помощью восьмибайтовых последовательностей (с использованием символов jamo и Hangul Filler), но эта функция не всегда реализуется. [4]

Самая ранняя редакция KS C 5601, опубликованная в 1974 г. [2], определяла 7-битный набор символов переменной длины [2], который назначал однобайтовые кодовые точки для 51 [3] базового хангыльского джамо , в некоторой степени аналогично JIS C 6220 в кодировке, известной как «N-байтовый хангыль». [5] Второе издание, опубликованное в 1982 году, сохранило основной набор символов из издания 1974 года, но определило два дополнительных набора, включая версию Джохаба. Ни одно из изданий не было принято так широко, как предполагалось. [2]

Вансон оставался неизменным в выпусках 1987 и 1992 годов. В издание 1992 года был добавлен дополнительный материал приложения [3], включая определение кодировки Johab [6] в приложении 3 и более старую N-байтовую кодировку хангыль в приложении 4. [1] [5] Оно было опубликовано в ответ на промышленное использование Johab в качестве кодировки, конкурирующей с Wansung, которая в то время использовалась текстовым процессором Hangul . После введения Microsoft Unified Hangul Code в Windows 95 и отказа текстового процессора Hangul от Johab в пользу Unicode в 2000 году, Johab перестал использоваться повсеместно. [2]

Кодировки [ править ]

Различные кодировки CJK , в том числе четыре на основе KS X 1001, поддерживаемые Mozilla Firefox с 2004 года (эта поддержка была сокращена в более поздних версиях, чтобы избежать некоторых атак межсайтового скриптинга ).

Кодирование схемы KS X 1001 включают в себя EUC-KR (в обоих ASCII и ISO 646 -Kr варианты , основанные, последний из которых включает в себя Won знак валюты ( ₩ ) на байт 0x 5С , а не обратной косой черты) и ISO-2022-KR , [7], а также ISO-2022-JP-2 (который также кодирует JIS X 0208 и JIS X 0212). Все они имеют недостаток, заключающийся в том, что они назначают коды только для 2350 предварительно составленных слогов хангыль, которые имеют свои собственные кодовые точки KS X 1001 (из общего числа 11172, не считая тех, которые используют устаревшее хамо), и требуют, чтобы другие использовали восьмибайтовые последовательности композиции которые не поддерживаются некоторыми частичными реализациями стандарта. [4]

Johab кодирование ( это предусмотрено в приложении 3 к версии стандарта 1992 года) и EUC-KR SUPERSET известен как Единый хангыль кодекс (UHC, называемым также Окнами-949) обеспечивает одиночные коды для всех 11172 хангылите слогов. [7] [6] ISO-2022-KR и Johab используются редко. Некоторые операционные системы расширяют этот стандарт другими неоднородными способами, например, расширения EUC-KR MacKorean в классической Mac OS и IBM-949 от IBM .

Наполнитель хангыль [ править ]

Символ-заполнитель хангыль используется для введения восьмибайтовых композиционных последовательностей хангыль [8] [9] и для замены отсутствующего элемента (обычно пустого финала) в такой последовательности. [9]

Unicode включает код Wansung Hangul Filler в блок Hangul Compatibility Jamo для двусторонней совместимости, но использует свою собственную систему (со своими собственными, по-разному используемыми символами-заполнителями) для составления хангыля. Система композиции KS X 1001 Hangul не используется в Unicode, и заполнитель визуализируется просто как пустое пространство; Последовательности композиции KS X 1001 с использованием современного джамо можно сопоставить с предварительно составленными символами в Unicode. [9] Обычно этого не делают с Унифицированным кодом хангыль .

Для двусторонней совместимости Unicode также включает N-байтовый код хангыль Hangul Filler отдельно в блоке Halfwidth и Fullwidth Forms , называемый «Halfwidth Hangul Filler».

N-байтовый код хангыль [ править ]

Это N-байтовый код хангыль [5], определенный в KS C 5601-1974 и в приложении 4 KS C 5601-1992. Вторая половина кодовой страницы 1040 [10] IBM представляет собой надмножество этой кодовой страницы , в которой символы ¢¬\~(хотя и не £) назначаются в те же места, что и на кодовой странице 1041 . Символ 0x40 / 0xC0 - это заполнитель хангыля (см. Выше ), используемый при объединении последовательностей.

Подобно своему японскому аналогу JIS C 6220 (JIS X 0201), N-байтовый код хангыль может использоваться как 7-битная кодировка с распределением символов в диапазоне от 0x 40 до 0x7C. [5] На диаграмме ниже показан код в 8-битной среде с установленным старшим битом (то есть от 0xC0 до 0xFC), как он используется, например, в кодовой странице 1040.

Таблицы кодов Wansung [ править ]

Ниже приведены таблицы кодов для KS X 1001 в компоновке Wansung. Если дана пара шестнадцатеричных чисел, меньшее используется при кодировании через GL (0x21-0x7E), как в ISO-2022-KR, когда корейский набор был сдвинут на, а большее используется в более типичном случае он кодируется через GR (0xA1-0xFE), как в EUC-KR или UHC. Джохаб изменяет расположение, чтобы кодировать все группы 11172 хангыль по отдельности и по порядку.

Непредварительно составленные наборы без ханджи [ править ]

Набор символов 0x21 / 0xA1 (номер строки 1, специальные символы) [ править ]

Этот набор содержит знаки препинания и другие символы, за исключением знаков пунктуации, присутствующих в KS X 1003 (который включен в строку 3). Кодировки, которые объединяют KS X 1001 с однобайтовым ASCII, могут использовать альтернативное отображение Unicode в блоках Halfwidth и Fullwidth Forms для обратной косой черты. Отображение в Юникоде волнового тире (тильда-тире) также различается между поставщиками и может быть U + 301C (одобрено IBM и Apple) [12] [13] [14] или U + 223C (одобрено Microsoft). [15] [16] Сравните аналогичную, но не идентичную обработку тире волны JIS и обработку тильды в следующей строке.

Если ниже показаны два сопоставления, за исключением обратной косой черты, первое используется Apple, а второе - Microsoft. [14] [16]

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x22 / 0xA2 (номер строки 2, специальные символы) [ править ]

Этот набор содержит дополнительные знаки препинания и символы. Подобно символу тильды в предыдущей строке, Apple и Microsoft используют разные сопоставления для символа тильды в этой строке (U + 02DC от Apple, FF5E от Microsoft), [14] [16], который предназначен для отображения как приподнятая тильда, тогда как тильда в предыдущей строке предназначена для отображения в строке на высоте тире. [17] Отображение точки в кружке также отличается. [14] [16]

Знак евро и зарегистрированный товарный знак были добавлены в 1998 г., а почтовый знак (㉾) был добавлен в 2002 г. [1]

Набор символов 0x23 / 0xA3 (номер строки 3, базовая латиница / ISO 646-KR) [ править ]

Этот набор соответствует KS X 1003 ( вариант ISO 646 для корейского языка, аналогичный набор для ASCII ), но в виде двухбайтовых кодов, которым предшествует 0x23 (или 0xA3 в форме с делегированием GR (EUC)). Он включает английский алфавит / основной латинский алфавит , западные арабские цифры и знаки препинания.

Сравните римский набор JIS X 0201 , который отличается тем, что включает знак йены, а не знак выигрыша . Сравните третьи ряды KPS 9566 и JIS X 0208 , которые соответствуют макету ISO 646, но содержат только буквы и цифры.

Кодировки, такие как EUC-KR и UHC, комбинируют KS X 1001 с однобайтовым ASCII или KS X 1003 и, следовательно, используют альтернативные отображения Unicode в блок Halfwidth и Fullwidth Forms для двухбайтовых представлений этих символов.

Набор символов 0x24 / 0xA4 (строка номер 4, хангыль джамо) [ править ]

Этот набор включает современные согласные хангыль, за которыми следуют гласные, оба упорядоченные по южнокорейским обычаям сопоставления, за которыми следуют устаревшие согласные. При использовании по отдельности эти символы сопоставляются с блоком Unicode Hangul Compatibility Jamo и не имеют однозначного сопоставления с позиционными символами в блоке Hangul Jamo . Сравните со строкой 4 северокорейского КПС 9566 . Символ 04-52 - это наполнитель хангыль (см. Выше ), используемый в комбинирующих последовательностях.

Набор символов 0x25 / 0xA5 (номер строки 5, римские цифры и греческие цифры) [ править ]

Этот набор содержит римские цифры и базовую поддержку греческого алфавита без диакритических знаков и последней сигмы .

Контрастный ряд 6 KPS 9566 , который включает те же символы, но в другой раскладке.

Набор символов 0x26 / 0xA6 (номер строки 6, рисунок рамки) [ править ]

Набор символов 0x27 / 0xA7 (номер строки 7, символы единиц) [ править ]

Набор символов 0x28 / 0xA8 (номер строки 8, расширенная латиница, в кружке, дроби) [ править ]

Набор символов 0x29 / 0xA9 (номер строки 9, расширенная латиница, в кружочках, надстрочный и подстрочный) [ править ]

Набор символов 0x2A / 0xAA (номер строки 10, хирагана) [ править ]

Этот набор содержит хирагану для написания японского языка .

Сравните строку 10 KPS 9566 , в которой используется такая же схема. Сравните и сопоставьте строку 4 стандарта JIS X 0208 , в котором также используется тот же макет, но в другой строке.

Набор символов 0x2B / 0xAB (номер строки 11, катакана) [ править ]

Этот набор содержит катакану для написания японского языка . Однако знак долгой гласной на японском языке , который используется в тексте катакана и включен в строку 1 стандарта JIS X 0208 , не включен. [18]

Сравните строку 11 KPS 9566 , в которой используется такая же компоновка. Сравните и сопоставьте строку 5 стандарта JIS X 0208 , в котором также используется тот же макет, но в другой строке.

Набор символов 0x2C / 0xAC (номер строки 12, кириллица) [ править ]

Этот набор содержит современный русский алфавит , и его необязательно достаточно для представления других форм кириллицы .

Сравните 5-ю строку KPS 9566 и 7-ю строку JIS X 0208 , в которых используется тот же макет (но в другой строке).

Предварительно составленные наборы хангыль (строки с 16 по 40) [ править ]

Кодовые точки для предварительно составленного хангыля включаются в непрерывный отсортированный блок между кодовыми точками 16-01 и 40-94 включительно. Не все возможные группы слогов включены в этот диапазон. Сравните различный порядок и доступность в KPS 9566 .

Обратите внимание, что начальные + гласные + конечные слоги 뢨, 썅, 쏀, 쓩 и 쭁 включены, но их начальные + гласные аналоги 뢔, 쌰, 쎼, 쓔 и 쬬 не включены. Раньше это вызывало проблемы при вводе, потому что методы ввода должны сначала пройти через начальный + гласный слог, чтобы ввести начальный + гласный + последний слог (например, ㅎ → 하 → 한).

Те, которые здесь не перечислены, могут быть представлены с использованием восьмибайтовых композиционных последовательностей. Всем остальным кластерам современных джамо UHC присваивает коды где-либо еще. Всем возможным кластерам современных джамо присвоены коды Джохабом.

  • Ряд 16: 가 각 간 갇 갈 갉 갊 갓 갔 강 갖 갗 같 갚 객 갠 갬 갭 갰 갱 갸 걀 걋 걍 걔 걘 걷 걸 걺 검 것 겄 겆 겉 겊 겋 게 겐 겔 겜 겝 겟 겠 겪 견 겯 결 겸 겹 경 곁 계 곈 곕 곗 고 곤 곧 곪 곬 곰 곱 곶 과 곽 관 괄 괆
  • Ряд 17: 괌 괍 괏 광 괘 괜 괭 괴 괵 괸 괼 굄 굅 굇 굔 굘 구 군 굳 굴 굵 굻 굽 굿 궁 궐 궜 궝 궤 귁 귈 귐 귑 귓 규 균 귤 그 극 근 귿 급 긋 긍 긔 기 긱 길 긺 김 깁 깅 깆 깊 깍 깎 깔 깖 깝 깟 깥 깨 깩 깬 깰 깸
  • Ряд 18: 깹 깻 깼 깽 꺄 꺅 꺌 껀 껄 껌 껍 껏 껐 껑 껜 껨 껭 껴 껼 꼇 꼈 꼬 꼭 꼰 꼲 꼴 꽂 꽃 꽈 꽉 꽜 꽝 꽥 꽹 꾀 꾄 꾈 꾐 꾑 꾕 꾜 꾸 꾹 꿈 꿉 꿋 꿍 꿎 꿔 꿩 꿰 꿱 꿴 뀀 뀁 뀄 뀐 뀔 뀝 뀨 끅 끈 끎 끓 끔 끕 끗 끙
  • Ряд 19: 끝 끼 끽 낀 낄 낌 나 낙 낚 난 낟 날 낡 낢 낫 났 낯 낳 내 낵 낸 냄 냅 냇 냈 냉 냠 냥 너 넉 넌 널 넓 넘 넙 넛 넜 넝 넣 네 넥 넨 넬 넸 넹 녀 녁 년 녈 녔 녕 녘 녜 노 녹 논 놂 놈 놋 농 놓 놔 놨 뇌 뇐 뇔 뇜 뇝
  • Ряд 20: 뇟 뇨 뇩 뇬 뇰 뇹 누 눅 눈 눋 눌 눔 눕 눗 눙 눼 뉘 뉠 뉨 뉴 뉼 늄 늉 느 늑 는 늘 늣 능 늦 늪 늰 늴 닉 닌 닐 닒 님 닙 닛 닝 닢 다 닥 달 닭 닮 닯 닳 담 닸 당 닺 닻 대 댁 댄 댐 댑 댔 댕 더 덕 덛 덜 덞 덟 덤 덥
  • Ряд 21: 덧 덩 덫 덮 데 덱 덴 뎄 뎅 뎌 뎐 뎔 뎠 뎬 도 돈 돋 돐 돔 동 돛 돝 돠 돤 돼 된 될 됨 됩 됴 두 둔 둘 둠 둡 둣 둥 둬 뒀 뒈 뒝 뒤 뒷 뒹 듀 듄 듈 듐 득 든 듣 들 듬 듭 듯 듸 디 딘 딛 딤 딥 딩 딪 따 딱 딴 딸
  • Ряд 22: 땀 땁 땃 땄 땅 땋 땐 땔 땜 땝 땟 땠 땡 떠 떡 떪 떫 떳 떵 떻 떼 뗄 뗌 뗍 뗏 뗐 똑 똔 똘 똥 똴 뙈 뙨 뚜 뚝 뚠 뚤 뚫 뚬 뚱 뛔 뛰 뛴 뜅 뜨 뜩 뜬 뜯 뜰 뜻 띄 띈 띌 띕 띠 띤 띰 띱 띵 라 란 랄 랏 랐 랑 랒 랖 랗
  • Ряд 23: 래 랙 랜 랠 램 랩 략 랸 럇 량 러 럭 런 럽 럿 렁 렇 렉 렐 렘 렛 렝 려 력 련 렷 렸 령 례 롄 롓 로 론 롤 롬 롭 롯 롱 롸 롼 뢍 뢨 뢰 룁 룃 룅 료 룐 룔 룡 루 룩 룬 룸 룹 룻 뤄 뤘 뤼 뤽 륄 륌 류 륙 륜 률 륨 륩
  • Ряд 24: 륫 륭 르 륵 른 를 릉 릊 릍 릎 리 릭 린 릴 릿 링 막 만 맏 맑 맒 맙 맛 망 맞 맡 맥 맬 맴 맵 맷 맹 맺 먁 먈 먕 머 먹 먼 멀 멂 멈 멉 멋 메 멕 멘 멜 멤 멥 멩 며 멱 면 몃 몄 명 몌 모 몫 몬 몲 몸 몽 뫄 뫈 뫘 뫙 뫼
  • Ряд 25: 묀 묄 묍 묏 묑 묘 무 묵 묶 문 묻 물 묽 뭅 뭇 뭍 뭏 뭔 뭘 뭡 뮈 뮌 뮐 뮤 뮨 뮴 믄 믈 믐 믓 믹 민 밀 밂 밈 밉 밋 밌 밍 및 밑 바 박 받 발 밝 밞 밟 밤 방 밭 배 백 밸 뱀 뱁 뱄 뱅 뱌 뱍 뱝 버 벋 벌 벎 범 법 벗
  • Ряд 26: 벙 벚 베 벡 벤 벧 벨 벴 벵 벼 벽 변 별 볍 병 볕 볘 볜 보 볶 볼 봄 봇 봉 봐 봔 봤 뵈 뵌 뵐 뵘 뵙 뵨 부 분 붇 불 붉 붊 붐 붑 붓 붕 붙 붚 붸 뷔 뷕 뷘 뷜 뷩 뷸 븀 븃 븅 븍 븐 블 븝 븟 빅 빈 빎 빔 빙 빚 빛 빠 빡 빤
  • Строка 27: 빨 빪 빰 빱 빳 빴 뺀 뺄 뺌 뺍 뺏 뺐 뺨 뻐 뻔 뻗 뻠 뻤 뻥 뼁 뼈 뼉 뼘 뼙 뼜 뽁 뽄 뽈 뽐 뽕 뾔 뿅 뿌 뿍 뿐 뿔 뿜 뿟 뿡 쀼 쁑 쁘 쁩 삐 삑 삔 삘 삠 삥 사 삭 삯 삳 살 삵 삼 삽 샀 상 새 색 샘 샙 샛 샜 생 샤
  • Ряд 28: 샥 샨 샬 샴 샵 샷 섄 섈 섐 섕 서 석 섞 섟 선 섦 섧 섭 섯 성 세 섹 셀 셈 셉 셋 셌 셜 셤 셥 셧 셩 셰 셸 솅 소 속 솎 손 솔 솖 솜 솝 솟 솩 솬 솰 솽 쇄 쇈 쇗 쇘 쇠 쇤 쇰 쇱 쇳 쇽 숀 숌 숍 숑 수 숟 술 숨 숩 숫 숭
  • Ряд 29: 숯 숱 숲 숴 쉈 쉐 쉑 쉠 쉥 쉬 쉭 쉰 쉴 쉼 쉽 슈 슉 슛 스 슥 슨 슴 습 슷 승 시 신 싫 심 십 싯 싸 싻 싼 쌀 쌈 쌉 쌌 쌍 쌓 쌔 쌕 쌘 쌨 쌩 썅 써 썩 썬 썸 썹 썼 썽 쎈 쎌 쏀 쏙 쏜 쏠 쏢 쏩 쏭 쏸 쐈 쐐 쐤 쐬 쐰
  • Ряд 30: 쐴 쐼 쐽 쑈 쑤 쑥 쑵 쑹 쒀 쒔 쒜 쒸 쒼 쓩 쓴 쓸 쓿 씀 씌 씐 씔 씩 씬 씰 씸 씹 안 앉 않 알 앎 앓 압 앗 았 앙 앝 앞 애 액 앤 앨 앰 앵 야 약 얀 얄 얇 얏 양 얕 얗 얜 얠 얩 억 언 얻 얼 얾 엄 엇 었 엉 엊 엌 엎
  • Ряд 31: 에 엑 엔 엘 엠 엡 엣 엮 연 열 엶 엷 염 엽 였 옆 옇 옌 옐 옘 옙 옜 오 옥 온 올 옴 옵 옷 옹 와 왁 왈 왐 왑 왓 왔 왕 왜 왝 왠 왬 왯 왼 욀 욈 욉 욋 욍 욘 욜 욤 욥 용 우 욱 울 욹 움 웁 웅 워 월 웜 웝 웠 웡 웨
  • Ряд 32: 웩 웬 웰 웸 웹 웽 윌 윕 윗 윙 유 육 윤 윱 윳 은 을 읊 읏 응 읒 읓 읔 읜 읠 읨 읫 익 인 읽 읾 잃 임 입 잇 있 잉 잊 잎 자 잗 잘 잚 잠 잡 잣 잦 재 잭 잰 잼 잽 잿 쟁 쟈 쟌 쟎 쟘 쟝 쟬 저 적 전 절 젊
  • Ряд 33: ​​점 접 젓 정 젖 제 젝 젬 젭 젯 젱 져 젼 졀 졈 졍 졔 족 존 좀 좁 좆 좇 좋 좌 좍 좨 좼 좽 죄 죌 죔 죗 죙 죠 죡 죤 죵 주 죽 준 줄 줅 줏 중 줘 줬 줴 쥐 쥘 쥠 쥡 쥣 쥰 쥴 쥼 즉 즌 즘 즙 증 지 짇 질 짊 짐 집 짓
  • Ряд 34: 징 짖 짙 짚 짜 짝 짢 짤 짬 짭 짯 짰 짱 째 짹 쨈 쨌 쨍 쨘 쨩 쩌 쩔 쩜 쩝 쩟 쩠 쩨 쪘 쪼 쪽 쫀 쫌 쫍 쫑 쫓 쫘 쫙 쫠 쫬 쫴 쬈 쬐 쬔 쬘 쭈 쭉 쭌 쭐 쭘 쭙 쭸 쭹 쮜 쮸 쯤 쯧 쯩 찍 찐 찜 찝 찢 찧 찬 찮 찰 참 찹 찻
  • Ряд 35: 찼 창 찾 채 책 챈 챗 챙 챠 챤 챦 챨 챰 척 천 첨 첩 첬 청 체 첼 쳄 쳅 쳇 쳉 쳔 쳰 촁 초 촉 촐 촘 촛 총 촤 촨 촬 촹 최 쵠 쵤 쵬 쵭 춈 추 축 춘 출 춤 충 춰 췄 췌 취 췬 췰 췹 췻 츄 츈 츔 츙 츤 츨 츰 츱 츳 층
  • Ряд 36: 치 칙 친 칟 칠 칡 칩 칫 칵 칸 칼 캄 캅 캇 캔 캡 캤 캬 캭 커 컥 컨 컫 컬 컵 컹 케 켁 켄 켐 켑 켕 켜 켠 켤 켬 켭 켯 켰 켱 켸 코 콤 콥 콧 콩 콰 콱 쾀 쾅 쾌 쾡 쾰 쿄 쿠 쿤 쿨 쿱 쿳 쿼 퀀 퀘 퀭 퀴 퀵 퀸 퀼
  • Ряд 37: 큄 큅 큇 큉 큐 큔 큠 크 클 큼 큽 킁 키 킥 킴 타 탁 탄 탈 탉 탓 탔 탕 태 택 탯 탰 탱 탸 터 턱 털 턺 텀 텁 텃 텄 텅 테 텍 텐 텔 텡 텨 텬 텼 톄 톈 톤 톨 톰 톱 통 톺 톼 퇘 퇴 툇 툉 투 툭 툼 툽 툿 퉁 퉈 퉜
  • Ряд 38: 퉤 튀 튁 튄 튈 튐 튕 튜 튬 튱 트 특 튼 튿 틈 틉 틔 틘 틤 티 틱 틸 팀 팁 팃 팅 팔 팖 팜 팝 팠 팡 패 팩 팬 팰 팸 팹 팻 팼 팽 퍄 퍅 펄 펌 펍 펏 펐 펑 펜 펠 펨 펩 펭 펴 편 폄 폅 평 폐 폡 폣 폰 폴 폼 폽 폿 퐁
  • Ряд 39: 퐈 퐝 푀 푄 표 푠 푹 푼 푿 풀 풂 품 풉 풔 풩 퓔 퓟 퓨 퓬 퓸 퓻 퓽 프 픈 플 픽 핀 필 핌 핏 핑 학 한 할 핥 함 합 핫 항 해 핵 핸 햇 했 행 햐 향 허 헐 헒 험 헙 헝 헤 헥 헬 헴 헷 헹 혁 현 협 혓 혔 형 혜 혠
  • Ряд 40: 혤 혭 호 혹 혼 홀 홅 화 확 환 활 홧 홱 홴 회 횐 횔 횝 효 횬 횰 횹 횻 훅 훑 훔 훗 훙 훤 훨 훵 훼 훽 휀 휄 휑 휘 휙 휜 휠 휨 휴 휵 휸 휼 흄 흇 흑 흔 흖 흗 흙 흠 흡 흥 흩 흰 흴 흽 힁 힌 힐 힘 힙 힛 힝

Ханджа наборы [ править ]

Кодировка Джохаба [ править ]

Схема расположения кодировки Johab

KS X 1001, с 1992 года, также определяет альтернативную кодировку, известную как Johab. Это представляет слог хангыль как последовательность трех пятибитовых значений, разделенных на два 8-битных байта , причем старший бит первым. Старший бит старшего байта всегда установлен (позволяет комбинировать с однобайтовым ASCII или KS X 1003 ). Эта кодировка также используется для современного джамо из строки 4 KS X 1001 с использованием значений-заполнителей для других компонентов. Кодировка Johab для хангыля показана в таблице ниже. [19]

Джохаб кодирует оставшуюся часть KS X 1001, используя ведущие байты, которые не соответствуют начальному хамо (0xE0–0xF9 для ханджа и 0xD9–0xDE [20] для не-ханджа, за исключением слогов хангыль и современного джамо), с байтами следа в диапазоны 0x31–0x7E и 0x91–0xFE. [19] Эти коды алгоритмически отображаются из кодовых точек KS X 1001 символов, [20] с двумя строками KS X 1001 на ведущий байт (сравните и сопоставьте Shift JIS ).

Существуют и другие варианты Johab, определяемые поставщиком; например, IBM определяет один для использования в качестве набора Shift Out с EBCDIC . Этот вариант использует другую кодировку для символов, отличных от хангыля, используя ведущие байты 0x40–6C с другим макетом, и использует ведущие байты 0xD4 – DD в качестве определяемой пользователем области . [21]

Сноски [ править ]

  1. ^ Корейский : 정보 교환 용 부호계 (한글 및 한자) , романизированный :  Чонбо Гьохванъён Бухогье (Hangeul mich Hanja)
  2. ^ a b c d Если бы он использовался, это привело бы к байту следа в диапазоне управляющих кодов C0 .
  3. ^ a b c d Если бы он использовался, это привело бы к байтам следа в строках 0x2_ и 0x3_ ASCII. Johab не использует строку 0x2_ для байтов следа, аналогично наиболее распространенным устаревшим кодировкам CJK (сравните Shift JIS , GBK , Big5 ).

Ссылки [ править ]

  1. ^ а б в г д Лунде, Кен (2009). «Глава 3: Стандарты набора символов» . CJKV Обработка информации . п. 143-148. ISBN 978-0596514471.
  2. ^ Б с д е е Hwang, Jinsang (2005). Социальное формирование стандартов ИКТ: случай разногласий по поводу национальных стандартов набора кодовых символов в Корее (PDF) . Эдинбургский университет.
  3. ^ a b c Лунде, Кен (1995-12-18). «2.4.6: Устаревшие стандарты». CJK.INF Версия 1.9 .
  4. ^ a b Шин, Юнгшик. "Что такое KS X 1001 (KS C 5601) и другие коды хангыля?" . Хангыль и Интернет в Корее FAQ .
  5. ^ a b c d Лунде, Кен (1995-12-18). «3.3.6: N-байтовый хангыль». CJK.INF Версия 1.9 .
  6. ^ a b «ИНФОРМАЦИЯ: Наборы символов хангыль (корейский)» , Служба поддержки Microsoft, Microsoft
  7. ^ a b Зигри, Дьюла (18.06.2002). «КСК и УХК» .
  8. ^ Чанг, Хе-Шик. «cpython / Modules / cjkcodecs / _codecs_kr.c (версия d3faf43)» . Исходное дерево cPython . Фонд программного обеспечения Python.
  9. ^ a b c Чанг, Джемин (2017-03-30). Предложение добавить информативную заметку к U + 3164 HANGUL FILLER (PDF) . Консорциум Unicode . UTC L2 / 17-081.
  10. ^ "Кодовая страница 01040" (PDF) . IBM. Архивировано из оригинального (PDF) 08.07.2015.
  11. ^ «KSRI-87-37-IR: 항 을 ・ 한자 코드 표준화 에 관한 예 연구: Исследование стандартизации кодов хангыль и ханджа» (PDF) (на корейском языке). Министерство науки и технологий . 1987. с. 68. Архивировано из оригинального (PDF) 01.03.2019.
  12. ^ "ibm-1363_P110-1997 (ведущий байт A1)" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode.
  13. ^ "euc-kr (ведущий байт A1)" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode.
  14. ^ a b c d «Сопоставить (внешняя версия) корейской кодировки Mac OS с Unicode 3.2 и новее» . Яблоко.
  15. ^ "windows-949-2000 (ведущий байт A1)" . Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode.
  16. ^ a b c d "Ведущий байт A1-A2 (кодовая страница 949)" . MSDN . Microsoft.
  17. ^ Корейское бюро стандартов (1988-10-01). Набор корейских графических символов для обмена информацией (PDF) . ITSCJ / IPSJ . ISO-IR- 149.
  18. ^ Лунде, Кен (2009). «Персонажи, которые кажутся пропавшими без вести». Обработка информации CJKV: вычисления на китайском, японском, корейском и вьетнамском языках (2-е изд.). Севастополь, Калифорния : О'Рейли . п. 180. ISBN 978-0-596-51447-1.
  19. ^ a b Лунде, Кен (2008). «Глава 4: Методы кодирования (§ Кодирование Джохаба - KS X 1001: 2004)». CJKV Обработка информации (2-е изд.). Севастополь, Калифорния : O'Reilly Media . С. 268–273. ISBN 978-0-596-51447-1.
  20. ^ a b Шин, Чоншик (14.10.2011) [16.08.1999]. Johab в таблицу Unicode . Консорциум Unicode .
  21. ^ "ibm-1364_P110-2007 (начиная с байтов 0x0E)" . Международные компоненты для Unicode . Консорциум Unicode .

Внешние ссылки [ править ]

  • Что такое KS X 1001 (KS C 5601) и другие коды хангыля?
  • Реализация кросс-языкового преобразования кода CJKV , Кен Лунде