Ханьское объединение

Эта статья требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален.
Найти источники: «Объединение ханьцев» - новости · газеты · книги · ученый · JSTOR ( февраль 2010 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Эта статья может содержать чрезмерное количество сложных деталей, которые могут заинтересовать только определенную аудиторию . Пожалуйста, помогите, выделив или переместив любую соответствующую информацию и удалив лишние детали, которые могут противоречить политике включения Википедии . ( Декабрь 2020 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Различия для одного и того же символа Unicode (U + 8FD4) в региональных версиях Source Han Sans

Эта статья содержит специальные символы . Без надлежащей поддержки рендеринга вы можете увидеть вопросительные знаки, квадраты или другие символы .

Объединение Хан является попыткой авторами Unicode и универсального набора символов для отображения нескольких наборов символов из символов хань из так называемых CJK языков в единый набор унифицированных символов . Иероглифы хань - это общая черта письменного китайского ( ханзи ), японского ( кандзи ) и корейского ( ханджа ).

Современные китайские, японские и корейские шрифты обычно используют региональные или исторические варианты данного ханьского символа . В формулировке Unicode была предпринята попытка унифицировать эти варианты, рассматривая их как разные глифы, представляющие одну и ту же « графему » или орфографическую единицу, следовательно, «объединение ханьцев», в результате чего репертуар персонажей иногда сокращался до Unihan . ^{[ необходима цитата ]} Тем не менее, многие символы имеют региональные варианты, присвоенные различным кодовым точкам , например, традиционный 個(U + 500B) или упрощенный 个 (U + 4E2A).

Unihan также может ссылаться на базу данных Unihan, поддерживаемую Консорциумом Unicode , которая предоставляет информацию обо всех унифицированных символах Han, закодированных в стандарте Unicode, включая сопоставления с различными национальными и отраслевыми стандартами, индексы в стандартных словарях, закодированные варианты, произношение в различных языки и определение на английском языке. База данных доступна для общественности в виде текстовых файлов ^[1] и через интерактивный веб-сайт. ^[2]^[3] Последний также включает репрезентативные глифы и определения для составных слов, взятые из бесплатных проектов словарей японского EDICT и китайского CEDICT (которые предоставляются для удобства и не являются формальной частью стандарта Unicode).

Обоснование и противоречие [ править ]

Этот раздел требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален. ( Август 2007 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Этот раздел может содержать чрезмерное количество сложных деталей, которые могут заинтересовать только определенную аудиторию . Пожалуйста, помогите, выделив или переместив любую соответствующую информацию и удалив лишние детали, которые могут противоречить политике включения Википедии . ( Ноябрь 2020 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Стандарт Unicode подробно описывает принципы объединения хань. ^[4]^[5] Идеографическое Research Group (IRG), состоящий из экспертов китайско-говорящих стран, Северной и Южной Кореи, Японии, Вьетнама и других стран, отвечает за этот процесс.

Одним из возможных объяснений является желание ограничить размер полного набора символов Unicode, где символы CJK, представленные дискретными идеограммами, могут приближаться к 100 000 ^[a] символов или превышать ^их . Версия 1 Unicode была разработана для размещения в 16 битах, и только 20 940 символов (32%) из возможных 65 536 были зарезервированы для этих унифицированных иероглифов CJK . Позже Unicode был расширен до 21 бита, что позволило использовать гораздо больше символов CJK (назначено 92 856 символов, с возможностью для большего числа).

Статья Тайная жизнь Unicode , размещенная на IBM DeveloperWorks, пытается частично проиллюстрировать мотивацию объединения Хань:

Проблема проистекает из того факта, что Unicode кодирует символы, а не «глифы», которые являются визуальным представлением символов. Существует четыре основных традиции форм восточноазиатских иероглифов: традиционный китайский, упрощенный китайский, японский и корейский. Хотя корневой символ Han может быть одинаковым для языков CJK, глифы, обычно используемые для одних и тех же символов, могут не совпадать. Например, традиционный китайский глиф «трава» использует четыре штриха для радикала «трава» [ ⺿ ], тогда как упрощенные китайские, японские и корейские глифы [ ⺾ ] используют три. Но для символа травы есть только одна точка Unicode (U + 8349) [草] независимо от системы письма. Другой пример - идеограмма слова «один», которая отличается в китайском, японском и корейском языках. Многие думают, что три версии нужно кодировать по-разному.

Фактически, три идеограммы для «одного» (一,壹или壱) кодируются отдельно в Unicode, поскольку они не считаются национальными вариантами. Первая форма является распространенной во всех трех странах, а вторая и третья используются для финансовых инструментов для предотвращения подделки (их можно рассматривать как варианты).

Однако объединение ханьцев также вызвало значительные противоречия, особенно среди японской общественности, которая вместе с грамотными нациями имеет историю протестов против уничтожения исторически и культурно значимых вариантов. ^[6]^[7] (См. Кандзи § Орфографическая реформа и списки иероглифов . Сегодня список символов, официально признанных для использования в именах собственных, продолжает расширяться скромными темпами.)

В 1993 году Японская ассоциация развития электронной промышленности (JEIDA) опубликовала брошюру под названием «未来の文字コード体系には不安をい» (мы с нетерпением ждем появления системы кодирования символов JPNO 20985671 в будущем ), в которой резюмируются основные критические замечания в адрес подход Han Unification, принятый в Unicode.

Графемы против глифов [ править ]

Латинская строчная буква « а » имеет очень разные глифы, которые представляют собой конкретные экземпляры одной и той же абстрактной графемы. Хотя носитель любого языка, использующий латинский шрифт, распознает эти два символа как одну и ту же графему, другим они могут показаться совершенно не связанными друг с другом.

Графема является наименьшим абстрактная единица означает в системе записи. Любая графема имеет много возможных выражений глифов, но все они распознаются как одна и та же графема теми, кто обладает знаниями в области чтения и записи конкретной системы письма. Хотя Unicode обычно назначает символы кодовым точкам для выражения графем в системе письма, Стандарт Unicode ( раздел 3.4 D7 ) делает это с осторожностью:

Абстрактный символ не обязательно соответствует тому, что пользователь считает «персонажем», и его не следует путать с графемой .

Однако эта цитата относится к тому факту, что некоторые графемы состоят из нескольких символов. Так, например, символ U + 0061 - СТРОЧНАЯ ЛАТИНСКАЯ БУКВА A в сочетании с U + 030A ◌̊ ОБЪЕДИНЕНИЕ КОЛЬЦО ВЫШЕ (т. е. комбинация «å») может быть воспринята пользователем как единая графема, состоящая из множества абстрактных символов Unicode. Кроме того, Unicode также назначает некоторые кодовые точки небольшому количеству (кроме соображений совместимости) символов форматирования, пробелов и других абстрактных символов, которые не являются графемами, но вместо этого используются для управления разрывами между строками, словами, графемами и графемы кластеры. Благодаря унифицированным идеографам Хань, стандарт Unicode отходит от предшествующей практики в назначении абстрактных символов не как графем, а в соответствии с основным значением графемы: то, что лингвисты иногда называют семемами.. Таким образом, это отклонение не просто объясняется часто цитируемым различием между абстрактным символом и глифом, но больше связано с различием между абстрактным символом, назначенным как графема, и абстрактным символом, назначенным как семема. Напротив, рассмотрим объединение знаков препинания и диакритики в ASCII , где графемы с очень разными значениями (например, апостроф и одиночная кавычка) объединены, потому что глифы одинаковы. Для Unihan персонажей объединяет не их внешний вид, а их определение или значение.

Представление графемы различными глифами означает, что графема имеет вариации глифов, которые обычно определяются путем выбора того или иного шрифта или использования функций замены глифов, когда несколько глифов включены в один шрифт. Такие вариации глифов рассматриваются Unicode как особенность протоколов форматированного текста и не обрабатываются должным образом целями Unicode для простого текста. Однако, когда переход от одного глифа к другому представляет собой переход от одной графемы к другой - где глиф не может, например, означать ту же самую графему, понимаемую как маленькая буква «а», - Юникод разделяет их на отдельные кодовые точки. Для Унихана то же самое происходит всякий раз, когда изменяется абстрактное значение, однако вместо того, чтобы говорить об абстрактном значении графемы (буква «а»),объединение идеографов Хань присваивает новый код каждому разному значению, даже если это значение выражается различными графемами на разных языках. Хотя графема, такая как «ö», может означать что-то другое на английском языке (используемом в слове «coördinated»), чем на немецком, это все же та же графема, и ее можно легко объединить, чтобы английский и немецкий языки могли иметь общую абстрактная латинская система письма (вместе с самой латынью). Этот пример также указывает на другую причину, по которой «абстрактный символ» и графема как абстрактная единица письменного языка не обязательно взаимно однозначно отображаются. В английском языке сочетание диэрезиса, «» и «o», которое оно модифицирует, можно рассматривать как две отдельные графемы, тогда как в таких языках, как шведский, буква «ö»можно рассматривать как единую графему. Точно так же в английском языке точка на «i» понимается как часть графемы «i», тогда как в других языках, таких как турецкий, точка может рассматриваться как отдельная графема, добавленная к «ı» без точки.

Чтобы иметь дело с использованием разных графем для одной и той же семемы Unihan, Unicode полагался на несколько механизмов, особенно в том, что касается визуализации текста. Один из них заключался в том, чтобы рассматривать это просто как проблему со шрифтом, так что для отображения китайского, японского или корейского языка можно использовать разные шрифты. Также форматы шрифтов, такие как OpenType, позволяют отображать альтернативные глифы в соответствии с языком, чтобы система визуализации текста могла смотреть на настройки среды пользователя, чтобы определить, какой глиф использовать. Проблема с этими подходами заключается в том, что они не соответствуют целям Unicode по определению последовательного способа кодирования многоязычного текста. ^[8]

Поэтому вместо того, чтобы рассматривать проблему как проблему с форматированным текстом альтернативных глифов, Unicode добавил концепцию селекторов вариантов , впервые представленных в версии 3.2 и дополненных в версии 4.0. ^[9]Хотя селекторы вариантов обрабатываются как комбинирующие символы, они не имеют связанного диакритического знака или знака. Вместо этого, комбинируясь с базовым символом, они сигнализируют, что последовательность из двух символов выбирает вариант (обычно с точки зрения графемы, но также с точки зрения основного значения, как в случае имени местоположения или другого имени собственного) основного символа. Таким образом, это не выбор альтернативного глифа, а выбор варианта графемы или варианта базового абстрактного символа. Однако такую двухсимвольную последовательность можно легко сопоставить с отдельным глифом в современных шрифтах. Поскольку Unicode назначил 256 отдельных селекторов вариантов, он способен назначить 256 вариантов для любой идеограммы Хана.Такие вариации могут быть специфичными для того или иного языка и обеспечивать возможность кодирования простого текста, который включает такие вариации графемы.

Unihan "абстрактные персонажи" [ править ]

Поскольку стандарт Unihan кодирует «абстрактные символы», а не «глифы», графические артефакты, создаваемые Unicode, считаются временными техническими препятствиями и, в лучшем случае, косметическими. Однако, опять же, особенно в Японии, отчасти из-за того, как китайские иероглифы исторически были включены в японские системы письма, невозможность указать конкретный вариант считалась существенным препятствием для использования Юникода в научной работе. Например, объединение слова «трава» (объяснено выше) означает, что исторический текст не может быть закодирован таким образом, чтобы сохранить его специфическую орфографию. Вместо этого, например, ученый должен будет найти нужный глиф в определенном шрифте, чтобы передать текст в том виде, в каком он написан, что противоречит цели унифицированного набора символов.Unicode отреагировал на эти потребности, назначив селекторы вариантов, чтобы авторы могли выбирать варианты графем определенных иероглифов (или даже других символов).^[9]

Небольшие различия в графическом представлении также являются проблематичными, если они влияют на удобочитаемость или принадлежат неправильной культурной традиции. Помимо того, что некоторые шрифты Unicode становятся непригодными для использования в текстах, включающих несколько «языков Unihan», имена или другая орфографически чувствительная терминология могут отображаться неправильно. (Имена собственные имеют тенденцию быть особенно консервативными с точки зрения орфографии - сравните это с изменением написания имени для соответствия языковой реформе в США или Великобритании.) Хотя это можно рассматривать в первую очередь как проблему графического представления или визуализации, которую необходимо преодолеть с помощью более искусных шрифтов. , широкое использование Unicode затруднит сохранение таких различий. Проблема одного символа, представляющего семантически разные понятия, также присутствует в латинской части Unicode.Символ Unicode для апострофа такой же, как и символ для правой одинарной кавычки ('). С другой стороны, столицаЛатинская буква не унифицирован с греческой буквой Л или кириллицей буквы А . Это, конечно, желательно по соображениям совместимости и касается гораздо меньшего набора буквенных символов.

Хотя аспект унификации Unicode вызывает споры в некоторых кругах по причинам, указанным выше, сам Unicode теперь кодирует огромное количество редко используемых символов более или менее антикварного характера.

Некоторая полемика проистекает из того факта, что само решение об объединении хань было принято первоначальным Консорциумом Unicode, который в то время был консорциумом североамериканских компаний и организаций (большинство из них в Калифорнии) ^[10], но включал нет представителей правительства Восточной Азии. Первоначальная цель дизайна заключалась в создании 16-битного стандарта ^[11], поэтому унификация Han была критическим шагом для предотвращения дублирования десятков тысяч символов. Позже от этого 16-битного требования отказались, что сделало размер набора символов менее важной проблемой сегодня.

Позднее разногласия распространились на представительную на международном уровне ISO: первоначальная группа CJK Joint Research Group (CJK-JRG) поддержала предложение (DIS 10646) о неунифицированном наборе символов, «которое было отвергнуто в пользу унификации с унифицированным консорциумом Unicode. набор символов голосами американских и европейских членов ISO »(хотя позиция Японии была неясной). ^[12] Поддержка унификации Unicode Han была необходимым шагом для горячего слияния ISO 10646 / Unicode.

Большая часть споров вокруг объединения Хань основана на различии между глифами , как определено в Unicode, и связанной, но отличной идее графем . Unicode назначает абстрактные символы (графемы), в отличие от глифов, которые представляют собой определенные визуальные представления символа в определенном шрифте . Один символ может быть представлен множеством различных глифов, например «g» или «a», оба из которых могут иметь один цикл ( ɑ , ɡ ) или два ( a , g). Тем не менее, для читателя языков, основанных на латинском алфавите, оба варианта символа «а» воспринимаются как одна и та же графема. Графемы, представленные в национальных стандартах кодирования символов, были добавлены в Unicode, как того требует правило Unicode Source Separation, даже если они могут состоять из уже имеющихся символов. Стандарты национальных кодов символов, существующие в языках CJK, являются значительно более сложными, учитывая технологические ограничения, в соответствии с которыми они развивались, и поэтому официальных участников CJK в объединении Хань, возможно, можно было реформировать.

В отличие от европейских версий, шрифты CJK Unicode, из-за унификации Хань, имеют большие, но нерегулярные образцы перекрытия, требующие шрифтов для конкретных языков. К сожалению, языковые шрифты также затрудняют доступ к варианту, который, как и в примере с «травой», чаще встречается в другом языковом стиле. (То есть было бы трудно получить доступ к «траве» с четырехстрочным радикалом, более типичным для традиционного китайского языка в японской среде, где шрифты обычно изображают трехстрочный радикал.) Сторонники Unihan склонны отдавать предпочтение языкам разметки. для определения языковых строк, но это не обеспечит использование конкретного варианта в данном случае, только специфический для языка шрифт с большей вероятностью отобразит символ как этот вариант. (На этом этапе проявляются чисто стилистические различия,поскольку набор японских и китайских шрифтов вряд ли будет визуально совместимым.)

Китайские пользователи, похоже, меньше возражают против унификации ханьцев, в основном потому, что Unicode не пытался объединить упрощенные китайские символы с традиционными китайскими иероглифами . (Упрощенные китайские символы используются носителями китайского языка в Китайской Народной Республике , Сингапуре и Малайзии . Традиционные китайские символы используются в Гонконге и Тайване ( Big5 ), и они, с некоторыми отличиями, более знакомы корейским и японским пользователям. ) Unicode считается нейтральным по отношению к этому политически заряженному вопросу и закодировал символы упрощенного и традиционного китайского языков по отдельности (например, идеограф для «отбросить» -丟U + 4E1F для традиционного китайского Big5 # A5E1 и丢U + 4E22 для упрощенного китайского GB # 2210). Также следует отметить, что традиционные и упрощенные символы должны кодироваться отдельно в соответствии с правилами Unicode Han Unification, поскольку они различаются в ранее существовавших наборах символов PRC. Кроме того, как и в случае с другими вариантами, символы традиционного и упрощенного типов не являются однозначными.

Альтернативы [ править ]

Есть несколько альтернативных наборов символов, которые не кодируются в соответствии с принципом объединения Хань и, следовательно, свободны от его ограничений:

Набор символов CNS
Набор символов CCCII
TRON
Модзикё

Эти зависящие от региона наборы символов также считаются не затронутыми Объединением Хань из-за их региональной природы:

ISO / IEC 2022 (на основе кодов последовательности для переключения между наборами символов китайского, японского и корейского языков - следовательно, без унификации)
Расширения Big5
GCCS и его преемник HKSCS

Однако ни один из этих альтернативных стандартов не получил такого широкого распространения, как Unicode , который теперь является базовым набором символов для многих новых стандартов и протоколов, принятых на международном уровне и встроен в архитектуру операционных систем ( Microsoft Windows , Apple macOS и многие другие). Unix-подобные системы), языки программирования ( Perl , Python , C # , Java , Common Lisp , APL , C , C ++ ) и библиотеки (IBM International Components for Unicode (ICU) вместе с Pango ,Механизмы рендеринга Graphite , Scribe , Uniscribe и ATSUI ), форматы шрифтов ( TrueType и OpenType ) и т. Д.

В марте 1989 года система на основе (B) TRON была принята японской правительственной организацией «Центр образовательных вычислений» в качестве предпочтительной системы школьного образования, включая обязательное образование . ^[13] Тем не менее, в апреле был опубликован отчет Управления торгового представителя США « Отчет об оценке внешней торговли за 1989 год».специально указали систему как торговый барьер в Японии. В отчете утверждалось, что принятие японским правительством системы на основе TRON выгодно японским производителям и, таким образом, исключает американские операционные системы с огромного нового рынка; в частности, в отчете в качестве примеров перечислены MS-DOS, OS / 2 и UNIX. Офис USTR предположительно находился под влиянием Microsoft, поскольку его бывшему офицеру Тому Робертсону тогда Microsoft предложила прибыльную должность. ^[14] Хотя сама система TRON была впоследствии исключена из списка санкций в соответствии с разделом 301 Закона о торговле 1974 г. после протестов организации в мае 1989 г., торговый спор заставил Министерство международной торговли и промышленности принять запрос отМасаёши Сон отменяет выбор Центром образовательных вычислений системы на основе TRON для использования в учебных компьютерах. ^[15] Этот инцидент рассматривается как символическое событие потери импульса и возможной гибели системы BTRON, что привело к широкому распространению MS-DOS в Японии и, в конечном итоге, к принятию Unicode с его преемником Windows.

Слияние всех эквивалентных персонажей [ править ]

Не было никакого стремления к полной семантической унификации всех семантически связанных символов, хотя эта идея будет относиться к соответствующим пользователям восточноазиатских языков одинаково, независимо от того, пишут ли они на корейском, упрощенном китайском, традиционном китайском, японском языке Кюдзитай, японском языке Синдзитай или Вьетнамский. Вместо того, чтобы некоторые варианты получали отдельные точки кода, в то время как другие группы вариантов должны иметь общие точки кода, все варианты могли быть надежно выражены только с помощью тегов метаданных (например, форматирование CSS на веб-страницах). Бремя будет лежать на всех, кто использует разные версии直,別,兩,兔.независимо от того, вызвана ли эта разница упрощением, международной или внутринациональной дисперсией. Однако для некоторых платформ (например, смартфонов) устройство может поставляться с предустановленным только одним шрифтом. Системный шрифт должен определять глиф по умолчанию для каждой кодовой точки, и эти глифы могут сильно различаться, указывая на разные лежащие в основе графемы.

Следовательно, использование языковой разметки в качестве подхода сталкивается с двумя основными проблемами. Во-первых, есть контексты, в которых языковая разметка недоступна (фиксация кода, простой текст). Во-вторых, любое решение потребует, чтобы каждая операционная система была предустановлена с множеством глифов для семантически идентичных символов, имеющих множество вариантов. Помимо стандартных наборов символов в упрощенном китайском, традиционном китайском, корейском, вьетнамском, японском языке Кюдзитай и японском языке Синдзитай, существуют также «древние» формы символов, которые представляют интерес для историков, лингвистов и филологов.

База данных Unicode Unihan уже установила связи между многими символами. База данных Unicode уже каталогизирует связи между вариантными символами с разными кодовыми точками. Однако для символов с общей кодовой точкой изображение эталонного глифа обычно смещено в сторону традиционной китайской версии. Кроме того, решение о том, классифицировать ли пары как семантические варианты или z-варианты , не всегда непротиворечиво или ясно, несмотря на рационализации в справочнике. ^[16]

Так называемые семантические варианты丟(U + 4E1F) и丢(U + 4E22) являются примерами, которые Unicode дает как существенно отличающиеся по своим абстрактным формам, в то время как Unicode перечисляет佛и仏как z-варианты, различающиеся только шрифтом. укладка. Как ни парадоксально, Unicode считает兩и両почти идентичными z-вариантами, в то же время классифицируя их как существенно разные семантические варианты. Также бывают случаи, когда некоторые пары символов одновременно являются семантическими вариантами и специализированными семантическими вариантами и упрощенными вариантами:個(U + 500B) и个(U + 4E2A). Бывают случаи не взаимной эквивалентности. Например, запись в базе данных Unihan для亀(U + 4E80) считает龜(U + 9F9C) своим z-вариантом, но запись для龜не перечисляет亀как z-вариант, хотя龜, очевидно, уже был база данных в то время, когда была написана запись для亀.

Некоторые канцелярские ошибки привели к дублированию полностью идентичных символов, таких как﨣(U + FA23) и 𧺯 (U + 27EAF). Если шрифт имеет глифы, закодированные для обеих точек, так что один шрифт используется для обеих, они должны выглядеть одинаково. Эти случаи перечислены как z-варианты, несмотря на то, что у них нет никакой вариации. Были добавлены намеренно дублированные символы, чтобы облегчить побитовое двустороннее преобразование . Поскольку двустороннее преобразование было одним из первых преимуществ Unicode, это означало, что если используемый национальный стандарт без необходимости дублирует символ, Unicode должен делать то же самое. Unicode называет эти преднамеренные дупликации « Совместимость вариантов » , как с漢(U + FA9A) , который призывает漢(U + 6F22) вариант совместимости. Пока приложение использует один и тот же шрифт для обоих, они должны выглядеть одинаково. Иногда, как в случае車с U + 8ECA и U + F902, добавленный символ совместимости перечисляет уже существующую версию車как как вариант совместимости, так и его z-вариант. Поле варианта совместимости переопределяет поле варианта z, вызывая нормализацию во всех формах, включая каноническую эквивалентность. Несмотря на название, варианты совместимости фактически канонически эквивалентны и объединены в любую схему нормализации Unicode, а не только в рамках нормализации совместимости. Это похоже на то, как U + 212B Å ANGSTROM SIGN канонически эквивалентен заранее составленному U + 00C5 Å. ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА А С КОЛЬЦОМ ВЫШЕ . Многие программы (например, программа MediaWiki, на которой размещена Википедия) заменят все канонически эквивалентные символы, которые не рекомендуются (например, символ Ангстрема), на рекомендуемый эквивалент. Несмотря на название, «варианты совместимости» CJK являются канонически эквивалентными символами, а не символами совместимости.

漢 (U + FA9A) был добавлен в базу данных позже, чем漢(U + 6F22), и его запись информирует пользователя об информации о совместимости. С другой стороны,漢(U + 6F22) не имеет этой эквивалентности, указанной в этой записи. Unicode требует, чтобы все записи, однажды допущенные, не могли изменить совместимость или эквивалентность, чтобы правила нормализации для уже существующих символов не менялись.

Некоторые пары «традиционный» и «упрощенный» также считаются семантическими вариантами. Согласно определениям Unicode, имеет смысл, что все упрощения (которые не приводят к слиянию совершенно разных символов для их гомофонии) будут формой семантического варианта. Unicode классифицирует丟и丢как соответствующие традиционные и упрощенные варианты друг друга, а также как семантические варианты друг друга. Однако, в то время как Unicode классифицирует億(U + 5104) и亿(U + 4EBF) как соответствующие традиционные и упрощенные варианты друг друга, Unicode не считает億и亿семантическими вариантами друг друга.

Unicode утверждает, что «в идеале в стандарте Unicode не должно быть пар z-вариантов». ^[16] Это может создать впечатление, что цель состоит в том, чтобы, по крайней мере, унифицировать все второстепенные варианты, избыточности совместимости и случайные избыточности, оставляя различие для шрифтов и языковых тегов. Это противоречит заявленной цели Unicode - убрать эти накладные расходы и позволить любому количеству любых мировых скриптов находиться в одном документе с одной системой кодирования. ^{[ неправильный синтез? ]}В первой главе руководства говорится, что «с помощью Unicode индустрия информационных технологий заменила растущие наборы символов стабильностью данных, глобальной совместимостью и обменом данными, упрощенным программным обеспечением и сокращением затрат на разработку. Взяв набор символов ASCII в качестве отправной точки, Стандарт Unicode выходит далеко за рамки ограниченной способности ASCII кодировать только прописные и строчные буквы от A до Z. Он обеспечивает возможность кодирования всех символов, используемых для письменных языков мира - можно закодировать более 1 миллиона символов. Отсутствие escape-последовательности или управляющий код необходим для указания любого символа на любом языке.Кодировка символов Unicode обрабатывает буквенные символы, идеографические символы и символы эквивалентно, что означает, что они могут использоваться в любой комбинации и с одинаковыми возможностями."^[8]

Это оставляет нам возможность остановиться на одной единой эталонной графеме для всех z-вариантов, что вызывает споры, поскольку немногие за пределами Японии признают佛и仏эквивалентными. Даже в Японии эти варианты находятся на разных сторонах большого упрощения, называемого Синдзитай. По сравнению с Unicode, упрощение PRC для侣(U + 4FA3) и侶(U + 4FB6) стало бы существенной разницей. Такой план также устранил бы очень визуально отличные вариации для таких символов, как直(U + 76F4) и雇(U + 96C7).

Можно было бы ожидать, что все упрощенные символы одновременно будут также z-вариантами или семантическими вариантами со своими традиционными аналогами, но многие таковыми не являются. Легче объяснить странный случай, когда семантические варианты могут быть одновременно как семантическими вариантами, так и специализированными вариантами, когда определение Unicode состоит в том, что специализированные семантические варианты имеют одно и то же значение только в определенных контекстах. Языки используют их по-разному. Пара, символы которой являются 100% заменой друг друга в японском языке, может оказаться не такой гибкой в китайском языке. Таким образом, любое всеобъемлющее слияние рекомендуемых кодовых точек должно будет поддерживать некоторые варианты, которые лишь незначительно отличаются по внешнему виду, даже если значение на 100% одинаково для всех контекстов на одном языке, потому что на другом языке два символа не могут быть на 100% отброшены. -в заменах.

Примеры языковых глифов [ править ]

В каждой строке следующей таблицы один и тот же символ повторяется во всех шести столбцах. Однако каждый столбец помечен ( атрибутом lang ) как принадлежащий к другому языку: китайскому ( упрощенный и два типа традиционных ), японскому , корейскому или вьетнамскому . Браузер должен выбрать для каждого символа, а символ (от шрифта) подходит для указанного языка. (Помимо фактических вариаций символов - ищите различия в порядке, количестве или направлении штрихов - гарнитуры могут также отражать разные типографские стили, как в алфавитах с засечками и без засечек.) Это работает только для резервного выбора глифов, если у вас установлены шрифты CJK. в вашей системе, и шрифт, выбранный для отображения этой статьи, не содержит глифов для этих символов.

Кодовая точка	Китайский (упрощенный) ( `zh-Hans`)	Китайский (традиционный) ( `zh-Hant`)	Китайский (традиционный, Гонконг) ( `zh-Hant-HK`)	Японский ( `ja`)	Корейский ( `ko`)	Вьетнамский ( `vi-Hani`)	английский
U + 4ECA	今	今	今	今	今	今	сейчас же
U + 4EE4	令	令	令	令	令	令	причина / команда
U + 514D	免	免	免	免	免	免	освобожденный / запасной
U + 5165	入	入	入	入	入	入	войти
U + 5168	全	全	全	全	全	全	все / всего
U + 5173	关	关	关	关	关	关	закрыть (упрощенный) / смех (традиционный)
U + 5177	具	具	具	具	具	具	инструмент
U + 5203	刃	刃	刃	刃	刃	刃	острие ножа
U + 5316	化	化	化	化	化	化	преобразовать / изменить
U + 5916	外	外	外	外	外	外	за пределами
U + 60C5	情	情	情	情	情	情	чувство
U + 624D	才	才	才	才	才	才	талант
U + 62B5	抵	抵	抵	抵	抵	抵	прибыть / сопротивляться
U + 6B21	次	次	次	次	次	次	вторичный / подписка
U + 6D77	海	海	海	海	海	海	море
U + 76F4	直	直	直	直	直	直	прямой / прямой
U + 771F	真	真	真	真	真	真	истинный
U + 793a	示	示	示	示	示	示	Показать
U + 795E	神	神	神	神	神	神	Бог
U + 7A7A	空	空	空	空	空	空	пустой / воздух
U + 8005	者	者	者	者	者	者	тот, кто делает / -ist / -er
U + 8349	草	草	草	草	草	草	трава
U + 8525	蔥	蔥	蔥	蔥	蔥	蔥	лук
U + 89D2	角	角	角	角	角	角	край / рог
U + 9053	道	道	道	道	道	道	путь / путь / дорога
U + 96C7	雇	雇	雇	雇	雇	雇	нанять
U + 9AA8	骨	骨	骨	骨	骨	骨	кость

Ни один вариант символа, который является эксклюзивным для корейского или вьетнамского, не получил своей собственной кодовой точки, тогда как почти все японские варианты Синдзитай или варианты упрощенного китайского имеют отдельные кодовые точки и однозначные ссылочные глифы в стандарте Unicode.

В двадцатом веке страны Восточной Азии создали свои собственные стандарты кодирования. В каждом стандарте сосуществовали варианты с разными кодовыми точками, отсюда и отдельные кодовые точки в Unicode для определенных наборов вариантов. Если взять упрощенный китайский в качестве примера, два варианта символов內(U + 5167) и内(U + 5185) отличаются точно так же, как корейский и не корейский варианты全(U + 5168). Каждый соответствующий вариант первого символа имеет либо入(U + 5165), либо人(U + 4EBA). Каждый соответствующий вариант второго символа имеет либо入(U + 5165), либо人(U + 4EBA). Оба варианта первого символа имеют свои собственные отличные кодовые точки. Однако два варианта второго символа должны были иметь один и тот же код.

Обоснование Unicode дает, что национальный орган по стандартизации в КНР из различных кодовых точек для двух вариаций первого символа內/内, в то время как Корея никогда не делала отдельные точки коды для различных вариантов全. Для этого есть причина, не имеющая ничего общего с тем, как домашние тела видят самих персонажей. В двадцатом веке Китай прошел через процесс, который изменил (если не упростить) несколько символов. Во время этого перехода возникла необходимость кодировать оба варианта в одном документе. Корейцы всегда использовали вариант全с入.(U + 5165) радикал сверху. Следовательно, не было причин кодировать оба варианта. В документах на корейском языке, созданных в двадцатом веке, было мало оснований для представления обеих версий в одном документе.

Почти все варианты, которые были разработаны или стандартизированы КНР, получили отдельные кодовые точки просто благодаря удачному переходу от упрощенного китайского языка к эпохе вычислений. Однако эта привилегия, похоже, применяется непоследовательно, тогда как большинство упрощений, выполненных в Японии и материковом Китае с кодовыми точками в национальных стандартах, включая символы, упрощенные по-разному в каждой стране, действительно вошли в Unicode как отдельные кодовые точки.

Шестьдесят два «упрощенных» символа Синдзитай с разными кодовыми точками в Японии были объединены с их традиционными эквивалентами Кюдзитай, такими как海. Это может вызвать проблемы для стратегии языковых тегов. Не существует универсального тега для традиционной и «упрощенной» версий японского языка, как для китайского. Таким образом, любой японский писатель хочет , чтобы отобразить Kyūjitai форму海может иметь помечать характер как «традиционный китайский» или траст , что японский шрифт ИСПОЛЬЗУЕТ получателя только глифы Kyūjitai, но теги традиционный китайский и упрощенный китайский язык может быть необходимо , чтобы показать две формы бок о бок в японском учебнике. Однако это помешало бы использовать один и тот же шрифт для всего документа.Есть две разные кодовые точки для海в Unicode, но только "из соображений совместимости". Любой Unicode-совместимый шрифт должен отображать эквивалентные кодовые точки версий Kyūjitai и Shinjitai в Unicode как одинаковые. Неофициально шрифт может отображать海 по- разному: 海 (U + 6D77) как версия Синдзитай и 海 (U + FA45) как версия Кюдзитай (которая идентична традиционной версии на китайском и корейском языках).

Радикал糸(U + 7CF8) используется в таких символах, как紅/红, с двумя вариантами, вторая форма - просто курсивная форма. Радикальные компоненты紅(U + 7D05) и红(U + 7EA2) семантически идентичны, и глифы различаются только последним с использованием курсивной версии компонента糸. Однако в материковом Китае органы стандартизации хотели стандартизировать курсивную форму при использовании в таких символах, как红. Поскольку это изменение произошло относительно недавно, был переходный период. Оба紅(U + 7D05) и红(U + 7EA2) получил отдельные кодовые точки в органах стандартов кодирования текста КНР, поэтому документы на китайском языке могли использовать обе версии. Два варианта также получили разные кодовые точки в Unicode.

Случай радикала艸(U + 8278) показывает, насколько произвольно обстоит дело. При использовании для создания таких символов, как草(U + 8349), радикал располагался вверху, но имел две разные формы. Традиционный китайский и корейский используют четырехтактную версию. В верхней части草должно быть что - то , что выглядит как два плюс знаков ( ⺿ ). Упрощенный китайский, японский кюдзитай и японский язык синдзитай используют трехстрочную версию, например, два знака плюс, разделяющие их горизонтальные штрихи ( ⺾ , т.е.草). Органы кодирования текста КНР не кодировали два варианта по-разному. Тот факт, что почти каждое другое изменение, внесенное КНР, каким бы незначительным оно ни было, действительно требовало наличия собственного кода, предполагает, что это исключение могло быть непреднамеренным. Unicode скопировал существующие стандарты как есть, сохранив такие нарушения.

Консорциум Unicode обнаружил ошибки и в других случаях. Множество блоков Unicode для идеографов CJK Han имеют избыточность в исходных стандартах, избыточность, вызванную ошибочным импортом исходных стандартов, а также случайные слияния, которые позже исправляются, создавая прецедент для разобщения символов.

Для носителей языка варианты могут быть непонятными или неприемлемыми в образованном контексте. Носители английского языка могут понимать написанную от руки заметку «4P5 кг» как «495 кг», но написание девяти задом наперед (чтобы она выглядела как «P») может вызвать раздражение и будет считаться неправильным в любой школе. Аналогичным образом, для пользователей одного языка CJK, читающих документ с «чужими» глифами: варианты骨могут отображаться как зеркальные изображения,者может не иметь штриха / иметь посторонний штрих, и令может быть нечитаемым или может быть перепутано с今 в зависимости от какой вариант令(например,令) используется.

Примеры некоторых неунифицированных идеографов Хань [ править ]

Для более ярких вариантов Unicode закодировал вариантные символы, что избавляет от необходимости переключаться между шрифтами или атрибутами lang . В следующей таблице каждая строка сравнивает варианты, которым были присвоены разные кодовые точки. ^[2] Обратите внимание, что для таких символов, как入(U + 5165), единственный способ отобразить два варианта - изменить шрифт (или атрибут lang ), как описано в предыдущей таблице. Однако для內(U + 5167) существует альтернативный символ内(U + 5185), как показано ниже. Для некоторых символов, таких как兌/兑(U + 514C / U + 5151), любой метод может использоваться для отображения различных глифов.

Упрощенный	Традиционный	Японский	Другой вариант	английский
U + 4E22 丢	U + 4E1F 丟			терять
U + 4E24 两	U + 5169 兩	U + 4E21 両	U + 34B3 㒳	два, оба
U + 4E58 乘	U + 4E58 乘	U + 4E57 乗	U + 6909 椉	ездить
U + 4EA7 产	U + 7522 產	U + 7523 産		рожать
U + 4FA3 侣	U + 4FB6 侶			товарищ
U + 5151 兑	U + 514C 兌			платить наличными
U + 5185 内	U + 5167 內			внутри
U + 522B 别	U + 5225 別			Покинуть
U + 7985 禅	U + 79AA 禪	U + 7985 禅		медитация (дзен)
U + 7A0E 税	U + 7A05 稅			налоги
U + 7EA2 红	U + 7D05 紅			красный
U + 7EAA 纪	U + 7D00 紀			дисциплина
U + 997F 饿	U + 9913 餓			голодный
U + 9AD8 高	U + 9AD8 高		U + 9AD9 髙	высоко
U + 9F9F 龟	U + 9F9C 龜	U + 4E80 亀		черепаха
Источники : Китайско-английский словарь MDBG.

База данных идеографических вариаций (IVD) [ править ]

Чтобы решить проблемы, вызванные объединением Хань, был создан технический стандарт Unicode, известный как База данных вариаций идентификаторов Unicode, чтобы решить проблему указания конкретного глифа в текстовой среде. ^[17] Регистрируя коллекции глифов в базе данных идеографической вариации (IVD), можно использовать селекторы идеографической вариации для формирования последовательности идеографических вариаций (IVS), чтобы указать или ограничить соответствующий глиф при обработке текста в среде Unicode.

Диапазоны Unicode [ править ]

Идеографические символы, присвоенные Unicode, появляются в следующих блоках:

Унифицированные иероглифы CJK (4E00–9FFF) (также известные как URO, сокращение от Unified Repertoire and Ordering) ^[18]
CJK Unified Ideographs Extension A (3400–4DBF)
Расширение B унифицированных иероглифов CJK (20000–2A6DF)
CJK Unified Ideographs Extension C (2A700–2B73F)
Расширение унифицированных иероглифов CJK D (2B740–2B81F)
Расширение E унифицированных иероглифов CJK (2B820–2CEAF)
Расширение унифицированных иероглифов CJK F (2CEB0–2EBEF)
CJK Unified Ideographs Extension G (30000–3134F)
Идеографы совместимости CJK (F900 – FAFF) (двенадцать символов в FA0E, FA0F, FA11, FA13, FA14, FA1F, FA21, FA23, FA24, FA27, FA28 и FA29 на самом деле являются «унифицированными идеограммами», а не «идеограммами совместимости»)

Unicode включает поддержку радикалов CJKV, штрихов, знаков препинания, знаков и символов в следующих блоках:

Приложение CJK Radicals (2E80–2EFF)
Инсульт CJK (31C0–31EF)
Символы и знаки препинания CJK (3000–303F)
Символы идеографического описания (2FF0–2FFF)

В этих блоках появляются дополнительные символы совместимости (использование которых не рекомендуется):

Совместимость с CJK (3300–33FF)
Формы совместимости CJK (FE30 – FE4F)
Идеографы совместимости CJK (F900 – FAFF)
Приложение к иероглифам о совместимости с CJK (2F800–2FA1F)
Приложенные буквы и месяцы CJK (3200–32FF)
Прилагаемое идеографическое приложение (1F200–1F2FF)
Kangxi Radicals (2F00–2FDF)

Эти символы совместимости (за исключением двенадцати унифицированных иероглифов в блоке CJK Compatibility Ideographs) включены для совместимости с устаревшими системами обработки текста и другими устаревшими наборами символов. Они включают формы символов для вертикального расположения текста и символы форматированного текста, которые Unicode рекомендует обрабатывать другими способами.

Ядро международных идеографов [ править ]

Ядро международных идеографов (IICore) - это подмножество идеографов 9810, полученных из таблиц унифицированных идеографов CJK, предназначенное для реализации в устройствах с ограниченной памятью, возможностями ввода / вывода и / или приложениями, в которых используется полный репертуар идеографов ISO 10646. неосуществимо. В текущем стандарте 9810 символов. ^[19]

Файлы базы данных Unihan [ править ]

Проект Unihan всегда старался сделать свою базу данных сборки доступной. ^[1]

Проект libUnihan предоставляет нормализованную базу данных SQLite Unihan и соответствующую библиотеку C. ^[20] Все таблицы в этой базе данных имеют пятую нормальную форму . libUnihan выпускается под лицензией LGPL , а его база данных, UnihanDb, выпускается под лицензией MIT .

См. Также [ править ]

Кодировка китайских символов
ГБ 18030
Китаизация
Z-вариант
Список шрифтов CJK
Аллография
Вариант китайского иероглифа

Заметки [ править ]

^ Большинство из них являются устаревшими и устаревшими символами, однако, в соответствии с целью Unicode, заключающейся в кодировании каждой системы письма, которая используется или когда-либо использовалась; только 2000–3000 знаков считаются грамотными.

Ссылки [ править ]

^ a b "Unihan.zip" . Стандарт Юникода . Консорциум Unicode.
^ a b «Поиск в базе данных Unihan» . Стандарт Юникода . Консорциум Unicode.
^ «Поиск в базе данных Unihan: пример поиска для 中» . Стандарт Юникода . Консорциум Unicode.
^ «Глава 18: Восточная Азия, принципы объединения ханьцев» (PDF) . Стандарт Юникода . Консорциум Unicode.
^ Уистлер, Кен (2010-10-25). «Техническое примечание 26 Unicode: О кодировке латинского, греческого, кириллического и ханьского языков» .
^ Возвращение к Unicode Стивен Дж. Сирл; Веб-мастер, TRON Web
^ "IVD / IVS とは - 文字情報基盤整備事業" . mojikiban.ipa.go.jp .
^ a b «Глава 1: Введение» (PDF) . Стандарт Юникода . Консорциум Unicode.
^ a b «База данных идеографических вариаций» . Консорциум Unicode.
^ «Ранние годы Unicode» . Консорциум Unicode.
^ Беккер, Джозеф Д. (1998-08-29). «Юникод 88» (PDF) .
^ «Юникод в Японии: Руководство по технической и психологической борьбе» . Архивировано 27 июня 2009 года.CS1 maint: bot: original URL status unknown (link)
^ 小林紀興『松下電器の果し状』 1 章
^ Крикке, Янв. «Самая популярная операционная система в мире» . LinuxInsider.com .
^ 大下英治『孫正義起業の若き獅子』（ ISBN 4-06-208718-9） стр. 285–294
^ a b "UAX # 38: База данных Unicode Han (Unihan)" . www.unicode.org .
^ "UTS # 37: База данных идеографических вариаций Unicode" . www.unicode.org .
^ "УРО" . blogs.adobe.com .
^ "OGCIO: Область загрузки: Утилита сравнения международных идеографов (IICORE)" . www.ogcio.gov.hk .
^ (陳定彞), Дин-И Чен. «libUnihan - библиотека для базы данных персонажей Unihan в пятой нормальной форме» . libunihan.sourceforge.net .

[6] Большинство из них являются устаревшими и устаревшими символами, однако, в соответствии с целью Unicode, заключающейся в кодировании каждой системы письма, которая используется или когда-либо использовалась; только 2000–3000 знаков считаются грамотными.

[UnihanZip-1] "Unihan.zip" . Стандарт Юникода . Консорциум Unicode.

[UnihanLookup-2] «Поиск в базе данных Unihan» . Стандарт Юникода . Консорциум Unicode.

[3] «Поиск в базе данных Unihan: пример поиска для 中» . Стандарт Юникода . Консорциум Unicode.

[4] «Глава 18: Восточная Азия, принципы объединения ханьцев» (PDF) . Стандарт Юникода . Консорциум Unicode.

[5] Уистлер, Кен (2010-10-25). «Техническое примечание 26 Unicode: О кодировке латинского, греческого, кириллического и ханьского языков» .

[7] Возвращение к Unicode Стивен Дж. Сирл; Веб-мастер, TRON Web

[8] "IVD / IVS とは - 文字情報基盤整備事業" . mojikiban.ipa.go.jp .

[tusch01-9] «Глава 1: Введение» (PDF) . Стандарт Юникода . Консорциум Unicode.

[UnicodeVariationSelectors-10] «База данных идеографических вариаций» . Консорциум Unicode.

[11] «Ранние годы Unicode» . Консорциум Unicode.

[12] Беккер, Джозеф Д. (1998-08-29). «Юникод 88» (PDF) .

[13] «Юникод в Японии: Руководство по технической и психологической борьбе» . Архивировано 27 июня 2009 года.CS1 maint: bot: original URL status unknown (link)

[14] 小林紀興『松下電器の果し状』 1 章

[15] Крикке, Янв. «Самая популярная операционная система в мире» . LinuxInsider.com .

[16] 大下英治『孫正義起業の若き獅子』（ ISBN 4-06-208718-9） стр. 285–294

[uax38-17] "UAX # 38: База данных Unicode Han (Unihan)" . www.unicode.org .

[18] "UTS # 37: База данных идеографических вариаций Unicode" . www.unicode.org .

[19] "УРО" . blogs.adobe.com .

[20] "OGCIO: Область загрузки: Утилита сравнения международных идеографов (IICORE)" . www.ogcio.gov.hk .

[21] (陳定彞), Дин-И Чен. «libUnihan - библиотека для базы данных персонажей Unihan в пятой нормальной форме» . libunihan.sourceforge.net .

[cnote_a_grp_version] 
Начиная с версии 13.0

[1]

vтеКодировки символов
Ранние телекоммуникации	Телеграфный код Иголка Морс Нелатинский Вабун / Кана Китайский Кириллица Корейский Бодо и Мюррей FIELDATA ASCII ISO / IEC 646 BCDIC 353 355 357 358 359 360 EBCDIC Телетекс и Видеотекс / Телетекст ISO / IEC 6937 / ITU T.51 ITU T.61 ITU T.101 Телетекст мировой системы фон наборы
ISO / IEC 8859	Одобренный -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 -13 -14 -15 -16 Заброшенный -12 Адаптации ISO-IR-182 ISO-IR-200 ISO-IR-201 Предложено, но не утверждено ISO-IR-111 ISO-IR-197 Французский / голландский / турецкий проект
Библиографическое использование	MARC-8 ANSEL CCCII / EACC ISO 5426 / 5426-2 / 5427 / 5428 / 6438 /6861/ 6862 / 10585 /10586/10754/11822
Национальные стандарты	ArmSCII BraSCII CNS 11643 ELOT 927 ГОСТ 10859 ГБ 2312 ГБ 12052 ГБ 18030 HKSCS IS 434 ISCII JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 КОИ-7 КПС 9566 KS X 1001 KS X 1002 LST 1284 LST 1564 LST 1590-1 LST 1590-2 LST 1590-3 LST 1590-4 PASCII RUSCII SI 960 ТИС-620 TSCII VISCII VSCII ЮСКИИ
ISO / IEC 2022	7-битный CN CN-EXT JP JP-EXT JP-1 JP-2 JP-3 KR ISO / IEC 4873 ISO / IEC 8859 ISO / IEC 10367 Расширенный код Unix / EUC CN KR JP TW
Кодовые страницы Mac OS («скрипты»)	Армянский арабский Баренц кириллица кельтская CentEuro КитайскийSimp / EUC-CN ChineseTrad / Big5 хорватский Кириллица Деванагари / ISCII Дингбаты Фарси (персидский) Гэльский Грузинский Греческий Гуджарати / ISCII Гурмукхи / ISCII иврит Исландия Инуиты Японский / Shift JIS Клавиатура Корейский / EUC-KR Латинский (Кермит) Мальтийский / Эсперанто Огам / IS 434 Римский румынский Саами Символ Тайский / TIS-620 турецкий Тюркская кириллица украинец VT100
Кодовые страницы DOS	100 111 112 113 151 152 161 162 163 164 165 166 210 220 301 437 449 489 620 667 668 707 708 709 710 711 714 715 720 721 737 768 770 771 772 773 774 775 776 777 778 790 850 851 852 853 854 855 / 872 856 857 858 859 860 861 862 863 864 865 866 / 808 867 868 869 874 / один тысяча сто шестьдесят-одна / 1162 файл 876 877 878 881 882 883 884 885 891 895 896 897 898 899 900 903 904 906 907 909 910 911 926 927 928 929 932 934 936 938 941 942 943 944 946 947 948 949 950/1370 951 966 991 1034 1039 1040 1041 1042 1043 1044 1046 1086 1088 1092 1093 1098 1108 1109 1114 1115 1116 1117 1118 1119 1125 / 848 1126 1127 1131 / 849 1139 1167 1168 1300 1351 1361 1362 1363 1372 1373 1374 1375 1380 1381 1385 1386 1391 1392 1393 1394 3012 3021 3843 3844 3845 3846 3847 3848 30000 30001 30002 30003 30004 30005 30006 30007 30008 30009 30010 30011 30012 30013 30014 30015 30016 30017 30018 30019 30020 30021 30022 30023 30024 30025 30026 30027 30028 30029 30030 30031 30032 30033 30034 30039 30040 58152 58210 58335 59234 59829 60258 60853 61282 62306 CS Индийский CSX Индийский CSX + Индийский CWI-2 Иранская система Каменицкий KOI8 Мазовецкое воеводство МИК
Кодовые страницы IBM AIX	367 371 806 813 819 895 896 912 913 914 915 916 919 920 921 / 901 922 / 902 923 952 953 954 955 956 957 958 959 960 961 963 964 965 970 971 1004 1006 1008 1009 1010 1011 1012 1013 1014 1015 1016 1017 1018 1019 1029 1036 1089 1111 1124 1129 / 1163 1133 1350 1382 1383
Кодовые страницы IBM для кодировок других поставщиков	Apple Macintosh 1275 1280 1281 1282 1283 1284 1285 1286 Adobe 1038 1276 1277 DEC 1020 1021 1023 1090 1100 1101 1102 1103 1104 1105 1106 1107 1287 1288 HP 1050 1051 1052 1053 1054 1055 1056 1057 1058
Кодовые страницы Windows	CER-GS 874 / 1162 файла ( TIS-620 ) 932 / 943 ( Сдвиг JIS ) 936 / один тысяча триста восемьдесят шесть ( GBK ) 950 / 1370 ( Big5 ) 949 / 1363 ( EUC-KR ) 1169 1174 Расширенная латиница-8 1200 ( UTF-16LE ) 1201 ( UTF-16BE ) 1250 1251 1252 1253 1254 1255 1256 1257 1258 1261 1270 54936 (GB18030) Армянский Кириллица + финский Кириллица + французский Кириллица + немецкий Политонический греческий 65001 ( UTF-8 )
Кодовые страницы Microsoft для кодировок других поставщиков	Apple Macintosh 10000 10001 10002 10003 10004 10005 10006 10007 10008 10010 10017 10021 10029 10079 10081 10082
Кодовые страницы EBCDIC	37 390 391 392 393 394 395 435 829 834 835 837 839 881 882 883 884 885 886 887 888 889 890 931 933 / 1364 935 / 1388 937 / 1371 939 / 1399 1001 1003 1005 1007 1024 1027 1028 1030 1031 1032 1033 1037 1068 1071 1073 1074 1075 1076 1077 1078 1080 1082 1083 1085 1087 1091 1136 1150 1151 1152 1278 1279 1303 1364 1376 1377
Терминалы DEC ( VTx )	Многонациональная (MCS) Национальная замена (NRCS) французский канадец Швейцарский испанский объединенное Королевство нидерландский язык Финский Французский Норвежский и датский Шведский Норвежский и датский (альтернативный) 8-битный греческий 8-битный турецкий 7-битный иврит 8-битный иврит Специальная графика Технические (TCS)
Специфичная для платформы	Желудь Adobe Standard Adobe Latin 1 Амстрад КТК Яблоко I Яблоко II Яблоко III ATASCII Atari ST BICS Калькуляторы Casio CDC Compucolor II CP / M + ДЕКАБРЬ RADIX 50 DEC MCS / NRCS DG International ЭЛВРО-Юниор FIELDATA ДРАГОЦЕННЫЙ КАМЕНЬ GEOS GSM 03.38 Расширение HP Roman HP Роман-8 HP Роман-9 HP FOCAL ХП РПЛ IBM SQUOZE LICS LMBCS Маттел Водолей Минитель MSX NEC APC Следующий OricSCII PCW PETSCII Sega SC-3000 Калькуляторы Sharp Sharp MZ Sinclair QL Телетекст Калькуляторы TI TRS-80 Ventura International Символ Вентуры WISCII XCCS ZX80 ZX81 ZX Spectrum
Юникод / ISO / IEC 10646	UTF-1 UTF-7 UTF-8 UTF-16 ( UTF-16LE / UTF-16BE ) / UCS-2 UTF-32 ( UTF-32LE / UTF-32BE ) / UCS-4 UTF-EBCDIC ГБ 18030 BOCU-1 ЦЭСУ-8 ГКГУ
Система набора TeX	Пробка IL1 IL2 IL3 L7X LGR LY1 OML OMS OMX OT1 OT2 OT3 OT4 PL0 QX T2A T2B T2C T2D Т3 Т4 Т5 TS1 TS3 U X2
Разные кодовые страницы	ABICOMP APL 293 310 (графический побег) 351 (GDDM) 907 (OEM) ISO-IR-68 ARIB STD-B24 Гц IEC-P27-1 ИНИС 7-битный 8-битный Кириллица ISO-IR-169 ISO 2033 Йохаб Модзикё SEASCII Стэнфорд / ИТС TACE16 TRON UTF-5 UTF-6 WTF-8
Контрольные и непечатаемые наборы символов	Азбука Морзе Коды управления C0 и C1 ISO / IEC 6429 / ANSI X3.64 / ECMA-48 / JIS X 0211 ISO 6630 DIN 31626 JIS X 0207 ITU T.101 C0 C1 Коды управления EBCDIC Элементы управления Unicode, формат и символы-разделители Пробельные символы
похожие темы	Кодовая страница Кодовая страница Windows CCSID Кодировки символов в HTML Обнаружение кодировки Ханьское объединение Аппаратное обеспечение Моджибаке
Наборы символов