Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Различия для одного и того же символа Unicode (U + 8FD4) в региональных версиях Source Han Sans

Объединение Хан является попыткой авторами Unicode и универсального набора символов для отображения нескольких наборов символов из символов хань из так называемых CJK языков в единый набор унифицированных символов . Иероглифы хань - это общая черта письменного китайского ( ханзи ), японского ( кандзи ) и корейского ( ханджа ).

Современные китайские, японские и корейские шрифты обычно используют региональные или исторические варианты данного ханьского символа . В формулировке Unicode была предпринята попытка унифицировать эти варианты, рассматривая их как разные глифы, представляющие одну и ту же « графему » или орфографическую единицу, следовательно, «объединение ханьцев», в результате чего репертуар персонажей иногда сокращался до Unihan . [ необходима цитата ] Тем не менее, многие символы имеют региональные варианты, присвоенные различным кодовым точкам , например, традиционный (U + 500B) или упрощенный (U + 4E2A).

Unihan также может ссылаться на базу данных Unihan, поддерживаемую Консорциумом Unicode , которая предоставляет информацию обо всех унифицированных символах Han, закодированных в стандарте Unicode, включая сопоставления с различными национальными и отраслевыми стандартами, индексы в стандартных словарях, закодированные варианты, произношение в различных языки и определение на английском языке. База данных доступна для общественности в виде текстовых файлов [1] и через интерактивный веб-сайт. [2] [3] Последний также включает репрезентативные глифы и определения для составных слов, взятые из бесплатных проектов словарей японского EDICT и китайского CEDICT (которые предоставляются для удобства и не являются формальной частью стандарта Unicode).

Обоснование и противоречие [ править ]

Стандарт Unicode подробно описывает принципы объединения хань. [4] [5] Идеографическое Research Group (IRG), состоящий из экспертов китайско-говорящих стран, Северной и Южной Кореи, Японии, Вьетнама и других стран, отвечает за этот процесс.

Одним из возможных объяснений является желание ограничить размер полного набора символов Unicode, где символы CJK, представленные дискретными идеограммами, могут приближаться к 100 000 [a] символов или превышать их . Версия 1 Unicode была разработана для размещения в 16 битах, и только 20 940 символов (32%) из возможных 65 536 были зарезервированы для этих унифицированных иероглифов CJK . Позже Unicode был расширен до 21 бита, что позволило использовать гораздо больше символов CJK (назначено 92 856 символов, с возможностью для большего числа).

Статья Тайная жизнь Unicode , размещенная на IBM DeveloperWorks, пытается частично проиллюстрировать мотивацию объединения Хань:

Проблема проистекает из того факта, что Unicode кодирует символы, а не «глифы», которые являются визуальным представлением символов. Существует четыре основных традиции форм восточноазиатских иероглифов: традиционный китайский, упрощенный китайский, японский и корейский. Хотя корневой символ Han может быть одинаковым для языков CJK, глифы, обычно используемые для одних и тех же символов, могут не совпадать. Например, традиционный китайский глиф «трава» использует четыре штриха для радикала «трава» [ ⺿ ], тогда как упрощенные китайские, японские и корейские глифы [ ] используют три. Но для символа травы есть только одна точка Unicode (U + 8349) [] независимо от системы письма. Другой пример - идеограмма слова «один», которая отличается в китайском, японском и корейском языках. Многие думают, что три версии нужно кодировать по-разному.

Фактически, три идеограммы для «одного» (,или) кодируются отдельно в Unicode, поскольку они не считаются национальными вариантами. Первая форма является распространенной во всех трех странах, а вторая и третья используются для финансовых инструментов для предотвращения подделки (их можно рассматривать как варианты).

Однако объединение ханьцев также вызвало значительные противоречия, особенно среди японской общественности, которая вместе с грамотными нациями имеет историю протестов против уничтожения исторически и культурно значимых вариантов. [6] [7] (См. Кандзи § Орфографическая реформа и списки иероглифов . Сегодня список символов, официально признанных для использования в именах собственных, продолжает расширяться скромными темпами.)

В 1993 году Японская ассоциация развития электронной промышленности (JEIDA) опубликовала брошюру под названием «未来 の 文字 コ ー ド 体系 に は 不安 を い» (мы с нетерпением  ждем появления системы кодирования символов JPNO 20985671 в будущем ), в которой резюмируются основные критические замечания в адрес подход Han Unification, принятый в Unicode.

Графемы против глифов [ править ]

Латинская строчная буква « а » имеет очень разные глифы, которые представляют собой конкретные экземпляры одной и той же абстрактной графемы. Хотя носитель любого языка, использующий латинский шрифт, распознает эти два символа как одну и ту же графему, другим они могут показаться совершенно не связанными друг с другом.

Графема является наименьшим абстрактная единица означает в системе записи. Любая графема имеет много возможных выражений глифов, но все они распознаются как одна и та же графема теми, кто обладает знаниями в области чтения и записи конкретной системы письма. Хотя Unicode обычно назначает символы кодовым точкам для выражения графем в системе письма, Стандарт Unicode ( раздел 3.4 D7 ) делает это с осторожностью:

Абстрактный символ не обязательно соответствует тому, что пользователь считает «персонажем», и его не следует путать с графемой .

Однако эта цитата относится к тому факту, что некоторые графемы состоят из нескольких символов. Так, например, символ U + 0061 - СТРОЧНАЯ ЛАТИНСКАЯ БУКВА A в сочетании с U + 030A ◌̊ ОБЪЕДИНЕНИЕ КОЛЬЦО ВЫШЕ (т. е. комбинация «å») может быть воспринята пользователем как единая графема, состоящая из множества абстрактных символов Unicode. Кроме того, Unicode также назначает некоторые кодовые точки небольшому количеству (кроме соображений совместимости) символов форматирования, пробелов и других абстрактных символов, которые не являются графемами, но вместо этого используются для управления разрывами между строками, словами, графемами и графемы кластеры. Благодаря унифицированным идеографам Хань, стандарт Unicode отходит от предшествующей практики в назначении абстрактных символов не как графем, а в соответствии с основным значением графемы: то, что лингвисты иногда называют семемами.. Таким образом, это отклонение не просто объясняется часто цитируемым различием между абстрактным символом и глифом, но больше связано с различием между абстрактным символом, назначенным как графема, и абстрактным символом, назначенным как семема. Напротив, рассмотрим объединение знаков препинания и диакритики в ASCII , где графемы с очень разными значениями (например, апостроф и одиночная кавычка) объединены, потому что глифы одинаковы. Для Unihan персонажей объединяет не их внешний вид, а их определение или значение.

Представление графемы различными глифами означает, что графема имеет вариации глифов, которые обычно определяются путем выбора того или иного шрифта или использования функций замены глифов, когда несколько глифов включены в один шрифт. Такие вариации глифов рассматриваются Unicode как особенность протоколов форматированного текста и не обрабатываются должным образом целями Unicode для простого текста. Однако, когда переход от одного глифа к другому представляет собой переход от одной графемы к другой - где глиф не может, например, означать ту же самую графему, понимаемую как маленькая буква «а», - Юникод разделяет их на отдельные кодовые точки. Для Унихана то же самое происходит всякий раз, когда изменяется абстрактное значение, однако вместо того, чтобы говорить об абстрактном значении графемы (буква «а»),объединение идеографов Хань присваивает новый код каждому разному значению, даже если это значение выражается различными графемами на разных языках. Хотя графема, такая как «ö», может означать что-то другое на английском языке (используемом в слове «coördinated»), чем на немецком, это все же та же графема, и ее можно легко объединить, чтобы английский и немецкий языки могли иметь общую абстрактная латинская система письма (вместе с самой латынью). Этот пример также указывает на другую причину, по которой «абстрактный символ» и графема как абстрактная единица письменного языка не обязательно взаимно однозначно отображаются. В английском языке сочетание диэрезиса, «» и «o», которое оно модифицирует, можно рассматривать как две отдельные графемы, тогда как в таких языках, как шведский, буква «ö»можно рассматривать как единую графему. Точно так же в английском языке точка на «i» понимается как часть графемы «i», тогда как в других языках, таких как турецкий, точка может рассматриваться как отдельная графема, добавленная к «ı» без точки.

Чтобы иметь дело с использованием разных графем для одной и той же семемы Unihan, Unicode полагался на несколько механизмов, особенно в том, что касается визуализации текста. Один из них заключался в том, чтобы рассматривать это просто как проблему со шрифтом, так что для отображения китайского, японского или корейского языка можно использовать разные шрифты. Также форматы шрифтов, такие как OpenType, позволяют отображать альтернативные глифы в соответствии с языком, чтобы система визуализации текста могла смотреть на настройки среды пользователя, чтобы определить, какой глиф использовать. Проблема с этими подходами заключается в том, что они не соответствуют целям Unicode по определению последовательного способа кодирования многоязычного текста. [8]

Поэтому вместо того, чтобы рассматривать проблему как проблему с форматированным текстом альтернативных глифов, Unicode добавил концепцию селекторов вариантов , впервые представленных в версии 3.2 и дополненных в версии 4.0. [9]Хотя селекторы вариантов обрабатываются как комбинирующие символы, они не имеют связанного диакритического знака или знака. Вместо этого, комбинируясь с базовым символом, они сигнализируют, что последовательность из двух символов выбирает вариант (обычно с точки зрения графемы, но также с точки зрения основного значения, как в случае имени местоположения или другого имени собственного) основного символа. Таким образом, это не выбор альтернативного глифа, а выбор варианта графемы или варианта базового абстрактного символа. Однако такую ​​двухсимвольную последовательность можно легко сопоставить с отдельным глифом в современных шрифтах. Поскольку Unicode назначил 256 отдельных селекторов вариантов, он способен назначить 256 вариантов для любой идеограммы Хана.Такие вариации могут быть специфичными для того или иного языка и обеспечивать возможность кодирования простого текста, который включает такие вариации графемы.

Unihan "абстрактные персонажи" [ править ]

Поскольку стандарт Unihan кодирует «абстрактные символы», а не «глифы», графические артефакты, создаваемые Unicode, считаются временными техническими препятствиями и, в лучшем случае, косметическими. Однако, опять же, особенно в Японии, отчасти из-за того, как китайские иероглифы исторически были включены в японские системы письма, невозможность указать конкретный вариант считалась существенным препятствием для использования Юникода в научной работе. Например, объединение слова «трава» (объяснено выше) означает, что исторический текст не может быть закодирован таким образом, чтобы сохранить его специфическую орфографию. Вместо этого, например, ученый должен будет найти нужный глиф в определенном шрифте, чтобы передать текст в том виде, в каком он написан, что противоречит цели унифицированного набора символов.Unicode отреагировал на эти потребности, назначив селекторы вариантов, чтобы авторы могли выбирать варианты графем определенных иероглифов (или даже других символов).[9]

Небольшие различия в графическом представлении также являются проблематичными, если они влияют на удобочитаемость или принадлежат неправильной культурной традиции. Помимо того, что некоторые шрифты Unicode становятся непригодными для использования в текстах, включающих несколько «языков Unihan», имена или другая орфографически чувствительная терминология могут отображаться неправильно. (Имена собственные имеют тенденцию быть особенно консервативными с точки зрения орфографии - сравните это с изменением написания имени для соответствия языковой реформе в США или Великобритании.) Хотя это можно рассматривать в первую очередь как проблему графического представления или визуализации, которую необходимо преодолеть с помощью более искусных шрифтов. , широкое использование Unicode затруднит сохранение таких различий. Проблема одного символа, представляющего семантически разные понятия, также присутствует в латинской части Unicode.Символ Unicode для апострофа такой же, как и символ для правой одинарной кавычки ('). С другой стороны, столицаЛатинская буква не унифицирован с греческой буквой Л или кириллицей буквы А . Это, конечно, желательно по соображениям совместимости и касается гораздо меньшего набора буквенных символов.

Хотя аспект унификации Unicode вызывает споры в некоторых кругах по причинам, указанным выше, сам Unicode теперь кодирует огромное количество редко используемых символов более или менее антикварного характера.

Некоторая полемика проистекает из того факта, что само решение об объединении хань было принято первоначальным Консорциумом Unicode, который в то время был консорциумом североамериканских компаний и организаций (большинство из них в Калифорнии) [10], но включал нет представителей правительства Восточной Азии. Первоначальная цель дизайна заключалась в создании 16-битного стандарта [11], поэтому унификация Han была критическим шагом для предотвращения дублирования десятков тысяч символов. Позже от этого 16-битного требования отказались, что сделало размер набора символов менее важной проблемой сегодня.

Позднее разногласия распространились на представительную на международном уровне ISO: первоначальная группа CJK Joint Research Group (CJK-JRG) поддержала предложение (DIS 10646) о неунифицированном наборе символов, «которое было отвергнуто в пользу унификации с унифицированным консорциумом Unicode. набор символов голосами американских и европейских членов ISO »(хотя позиция Японии была неясной). [12] Поддержка унификации Unicode Han была необходимым шагом для горячего слияния ISO 10646 / Unicode.

Большая часть споров вокруг объединения Хань основана на различии между глифами , как определено в Unicode, и связанной, но отличной идее графем . Unicode назначает абстрактные символы (графемы), в отличие от глифов, которые представляют собой определенные визуальные представления символа в определенном шрифте . Один символ может быть представлен множеством различных глифов, например «g» или «a», оба из которых могут иметь один цикл ( ɑ , ɡ ) или два ( a , g). Тем не менее, для читателя языков, основанных на латинском алфавите, оба варианта символа «а» воспринимаются как одна и та же графема. Графемы, представленные в национальных стандартах кодирования символов, были добавлены в Unicode, как того требует правило Unicode Source Separation, даже если они могут состоять из уже имеющихся символов. Стандарты национальных кодов символов, существующие в языках CJK, являются значительно более сложными, учитывая технологические ограничения, в соответствии с которыми они развивались, и поэтому официальных участников CJK в объединении Хань, возможно, можно было реформировать.

В отличие от европейских версий, шрифты CJK Unicode, из-за унификации Хань, имеют большие, но нерегулярные образцы перекрытия, требующие шрифтов для конкретных языков. К сожалению, языковые шрифты также затрудняют доступ к варианту, который, как и в примере с «травой», чаще встречается в другом языковом стиле. (То есть было бы трудно получить доступ к «траве» с четырехстрочным радикалом, более типичным для традиционного китайского языка в японской среде, где шрифты обычно изображают трехстрочный радикал.) Сторонники Unihan склонны отдавать предпочтение языкам разметки. для определения языковых строк, но это не обеспечит использование конкретного варианта в данном случае, только специфический для языка шрифт с большей вероятностью отобразит символ как этот вариант. (На этом этапе проявляются чисто стилистические различия,поскольку набор японских и китайских шрифтов вряд ли будет визуально совместимым.)

Китайские пользователи, похоже, меньше возражают против унификации ханьцев, в основном потому, что Unicode не пытался объединить упрощенные китайские символы с традиционными китайскими иероглифами . (Упрощенные китайские символы используются носителями китайского языка в Китайской Народной Республике , Сингапуре и Малайзии . Традиционные китайские символы используются в Гонконге и Тайване ( Big5 ), и они, с некоторыми отличиями, более знакомы корейским и японским пользователям. ) Unicode считается нейтральным по отношению к этому политически заряженному вопросу и закодировал символы упрощенного и традиционного китайского языков по отдельности (например, идеограф для «отбросить» -U + 4E1F для традиционного китайского Big5 # A5E1 иU + 4E22 для упрощенного китайского GB # 2210). Также следует отметить, что традиционные и упрощенные символы должны кодироваться отдельно в соответствии с правилами Unicode Han Unification, поскольку они различаются в ранее существовавших наборах символов PRC. Кроме того, как и в случае с другими вариантами, символы традиционного и упрощенного типов не являются однозначными.

Альтернативы [ править ]

Есть несколько альтернативных наборов символов, которые не кодируются в соответствии с принципом объединения Хань и, следовательно, свободны от его ограничений:

  • Набор символов CNS
  • Набор символов CCCII
  • TRON
  • Модзикё

Эти зависящие от региона наборы символов также считаются не затронутыми Объединением Хань из-за их региональной природы:

  • ISO / IEC 2022 (на основе кодов последовательности для переключения между наборами символов китайского, японского и корейского языков - следовательно, без унификации)
  • Расширения Big5
  • GCCS и его преемник HKSCS

Однако ни один из этих альтернативных стандартов не получил такого широкого распространения, как Unicode , который теперь является базовым набором символов для многих новых стандартов и протоколов, принятых на международном уровне и встроен в архитектуру операционных систем ( Microsoft Windows , Apple macOS и многие другие). Unix-подобные системы), языки программирования ( Perl , Python , C # , Java , Common Lisp , APL , C , C ++ ) и библиотеки (IBM International Components for Unicode (ICU) вместе с Pango ,Механизмы рендеринга Graphite , Scribe , Uniscribe и ATSUI ), форматы шрифтов ( TrueType и OpenType ) и т. Д.

В марте 1989 года система на основе (B) TRON была принята японской правительственной организацией «Центр образовательных вычислений» в качестве предпочтительной системы школьного образования, включая обязательное образование . [13] Тем не менее, в апреле был опубликован отчет Управления торгового представителя США « Отчет об оценке внешней торговли за 1989 год».специально указали систему как торговый барьер в Японии. В отчете утверждалось, что принятие японским правительством системы на основе TRON выгодно японским производителям и, таким образом, исключает американские операционные системы с огромного нового рынка; в частности, в отчете в качестве примеров перечислены MS-DOS, OS / 2 и UNIX. Офис USTR предположительно находился под влиянием Microsoft, поскольку его бывшему офицеру Тому Робертсону тогда Microsoft предложила прибыльную должность. [14] Хотя сама система TRON была впоследствии исключена из списка санкций в соответствии с разделом 301 Закона о торговле 1974 г. после протестов организации в мае 1989 г., торговый спор заставил Министерство международной торговли и промышленности принять запрос отМасаёши Сон отменяет выбор Центром образовательных вычислений системы на основе TRON для использования в учебных компьютерах. [15] Этот инцидент рассматривается как символическое событие потери импульса и возможной гибели системы BTRON, что привело к широкому распространению MS-DOS в Японии и, в конечном итоге, к принятию Unicode с его преемником Windows.

Слияние всех эквивалентных персонажей [ править ]

Не было никакого стремления к полной семантической унификации всех семантически связанных символов, хотя эта идея будет относиться к соответствующим пользователям восточноазиатских языков одинаково, независимо от того, пишут ли они на корейском, упрощенном китайском, традиционном китайском, японском языке Кюдзитай, японском языке Синдзитай или Вьетнамский. Вместо того, чтобы некоторые варианты получали отдельные точки кода, в то время как другие группы вариантов должны иметь общие точки кода, все варианты могли быть надежно выражены только с помощью тегов метаданных (например, форматирование CSS на веб-страницах). Бремя будет лежать на всех, кто использует разные версии,,,兔.независимо от того, вызвана ли эта разница упрощением, международной или внутринациональной дисперсией. Однако для некоторых платформ (например, смартфонов) устройство может поставляться с предустановленным только одним шрифтом. Системный шрифт должен определять глиф по умолчанию для каждой кодовой точки, и эти глифы могут сильно различаться, указывая на разные лежащие в основе графемы.

Следовательно, использование языковой разметки в качестве подхода сталкивается с двумя основными проблемами. Во-первых, есть контексты, в которых языковая разметка недоступна (фиксация кода, простой текст). Во-вторых, любое решение потребует, чтобы каждая операционная система была предустановлена ​​с множеством глифов для семантически идентичных символов, имеющих множество вариантов. Помимо стандартных наборов символов в упрощенном китайском, традиционном китайском, корейском, вьетнамском, японском языке Кюдзитай и японском языке Синдзитай, существуют также «древние» формы символов, которые представляют интерес для историков, лингвистов и филологов.

База данных Unicode Unihan уже установила связи между многими символами. База данных Unicode уже каталогизирует связи между вариантными символами с разными кодовыми точками. Однако для символов с общей кодовой точкой изображение эталонного глифа обычно смещено в сторону традиционной китайской версии. Кроме того, решение о том, классифицировать ли пары как семантические варианты или z-варианты , не всегда непротиворечиво или ясно, несмотря на рационализации в справочнике. [16]

Так называемые семантические варианты(U + 4E1F) и(U + 4E22) являются примерами, которые Unicode дает как существенно отличающиеся по своим абстрактным формам, в то время как Unicode перечисляетикак z-варианты, различающиеся только шрифтом. укладка. Как ни парадоксально, Unicode считаетипочти идентичными z-вариантами, в то же время классифицируя их как существенно разные семантические варианты. Также бывают случаи, когда некоторые пары символов одновременно являются семантическими вариантами и специализированными семантическими вариантами и упрощенными вариантами:(U + 500B) и(U + 4E2A). Бывают случаи не взаимной эквивалентности. Например, запись в базе данных Unihan для(U + 4E80) считает(U + 9F9C) своим z-вариантом, но запись дляне перечисляеткак z-вариант, хотя龜, очевидно, уже был база данных в то время, когда была написана запись для.

Некоторые канцелярские ошибки привели к дублированию полностью идентичных символов, таких как(U + FA23) и 𧺯 (U + 27EAF). Если шрифт имеет глифы, закодированные для обеих точек, так что один шрифт используется для обеих, они должны выглядеть одинаково. Эти случаи перечислены как z-варианты, несмотря на то, что у них нет никакой вариации. Были добавлены намеренно дублированные символы, чтобы облегчить побитовое двустороннее преобразование . Поскольку двустороннее преобразование было одним из первых преимуществ Unicode, это означало, что если используемый национальный стандарт без необходимости дублирует символ, Unicode должен делать то же самое. Unicode называет эти преднамеренные дупликации « Совместимость вариантов » , как с漢(U + FA9A) , который призывает(U + 6F22) вариант совместимости. Пока приложение использует один и тот же шрифт для обоих, они должны выглядеть одинаково. Иногда, как в случаес U + 8ECA и U + F902, добавленный символ совместимости перечисляет уже существующую версиюкак как вариант совместимости, так и его z-вариант. Поле варианта совместимости переопределяет поле варианта z, вызывая нормализацию во всех формах, включая каноническую эквивалентность. Несмотря на название, варианты совместимости фактически канонически эквивалентны и объединены в любую схему нормализации Unicode, а не только в рамках нормализации совместимости. Это похоже на то, как U + 212B Å ANGSTROM SIGN канонически эквивалентен заранее составленному U + 00C5 Å. ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА А С КОЛЬЦОМ ВЫШЕ . Многие программы (например, программа MediaWiki, на которой размещена Википедия) заменят все канонически эквивалентные символы, которые не рекомендуются (например, символ Ангстрема), на рекомендуемый эквивалент. Несмотря на название, «варианты совместимости» CJK являются канонически эквивалентными символами, а не символами совместимости.

漢 (U + FA9A) был добавлен в базу данных позже, чем(U + 6F22), и его запись информирует пользователя об информации о совместимости. С другой стороны,(U + 6F22) не имеет этой эквивалентности, указанной в этой записи. Unicode требует, чтобы все записи, однажды допущенные, не могли изменить совместимость или эквивалентность, чтобы правила нормализации для уже существующих символов не менялись.

Некоторые пары «традиционный» и «упрощенный» также считаются семантическими вариантами. Согласно определениям Unicode, имеет смысл, что все упрощения (которые не приводят к слиянию совершенно разных символов для их гомофонии) будут формой семантического варианта. Unicode классифицируетикак соответствующие традиционные и упрощенные варианты друг друга, а также как семантические варианты друг друга. Однако, в то время как Unicode классифицирует(U + 5104) и亿(U + 4EBF) как соответствующие традиционные и упрощенные варианты друг друга, Unicode не считаети亿семантическими вариантами друг друга.

Unicode утверждает, что «в идеале в стандарте Unicode не должно быть пар z-вариантов». [16] Это может создать впечатление, что цель состоит в том, чтобы, по крайней мере, унифицировать все второстепенные варианты, избыточности совместимости и случайные избыточности, оставляя различие для шрифтов и языковых тегов. Это противоречит заявленной цели Unicode - убрать эти накладные расходы и позволить любому количеству любых мировых скриптов находиться в одном документе с одной системой кодирования. [ неправильный синтез? ]В первой главе руководства говорится, что «с помощью Unicode индустрия информационных технологий заменила растущие наборы символов стабильностью данных, глобальной совместимостью и обменом данными, упрощенным программным обеспечением и сокращением затрат на разработку. Взяв набор символов ASCII в качестве отправной точки, Стандарт Unicode выходит далеко за рамки ограниченной способности ASCII кодировать только прописные и строчные буквы от A до Z. Он обеспечивает возможность кодирования всех символов, используемых для письменных языков мира - можно закодировать более 1 миллиона символов. Отсутствие escape-последовательности или управляющий код необходим для указания любого символа на любом языке.Кодировка символов Unicode обрабатывает буквенные символы, идеографические символы и символы эквивалентно, что означает, что они могут использоваться в любой комбинации и с одинаковыми возможностями."[8]

Это оставляет нам возможность остановиться на одной единой эталонной графеме для всех z-вариантов, что вызывает споры, поскольку немногие за пределами Японии признаютиэквивалентными. Даже в Японии эти варианты находятся на разных сторонах большого упрощения, называемого Синдзитай. По сравнению с Unicode, упрощение PRC для(U + 4FA3) и(U + 4FB6) стало бы существенной разницей. Такой план также устранил бы очень визуально отличные вариации для таких символов, как(U + 76F4) и(U + 96C7).

Можно было бы ожидать, что все упрощенные символы одновременно будут также z-вариантами или семантическими вариантами со своими традиционными аналогами, но многие таковыми не являются. Легче объяснить странный случай, когда семантические варианты могут быть одновременно как семантическими вариантами, так и специализированными вариантами, когда определение Unicode состоит в том, что специализированные семантические варианты имеют одно и то же значение только в определенных контекстах. Языки используют их по-разному. Пара, символы которой являются 100% заменой друг друга в японском языке, может оказаться не такой гибкой в ​​китайском языке. Таким образом, любое всеобъемлющее слияние рекомендуемых кодовых точек должно будет поддерживать некоторые варианты, которые лишь незначительно отличаются по внешнему виду, даже если значение на 100% одинаково для всех контекстов на одном языке, потому что на другом языке два символа не могут быть на 100% отброшены. -в заменах.

Примеры языковых глифов [ править ]

В каждой строке следующей таблицы один и тот же символ повторяется во всех шести столбцах. Однако каждый столбец помечен ( атрибутом lang ) как принадлежащий к другому языку: китайскому ( упрощенный и два типа традиционных ), японскому , корейскому или вьетнамскому . Браузер должен выбрать для каждого символа, а символ (от шрифта) подходит для указанного языка. (Помимо фактических вариаций символов - ищите различия в порядке, количестве или направлении штрихов - гарнитуры могут также отражать разные типографские стили, как в алфавитах с засечками и без засечек.) Это работает только для резервного выбора глифов, если у вас установлены шрифты CJK. в вашей системе, и шрифт, выбранный для отображения этой статьи, не содержит глифов для этих символов.

Ни один вариант символа, который является эксклюзивным для корейского или вьетнамского, не получил своей собственной кодовой точки, тогда как почти все японские варианты Синдзитай или варианты упрощенного китайского имеют отдельные кодовые точки и однозначные ссылочные глифы в стандарте Unicode.

В двадцатом веке страны Восточной Азии создали свои собственные стандарты кодирования. В каждом стандарте сосуществовали варианты с разными кодовыми точками, отсюда и отдельные кодовые точки в Unicode для определенных наборов вариантов. Если взять упрощенный китайский в качестве примера, два варианта символов(U + 5167) и(U + 5185) отличаются точно так же, как корейский и не корейский варианты(U + 5168). Каждый соответствующий вариант первого символа имеет либо(U + 5165), либо(U + 4EBA). Каждый соответствующий вариант второго символа имеет либо(U + 5165), либо(U + 4EBA). Оба варианта первого символа имеют свои собственные отличные кодовые точки. Однако два варианта второго символа должны были иметь один и тот же код.

Обоснование Unicode дает, что национальный орган по стандартизации в КНР из различных кодовых точек для двух вариаций первого символа/, в то время как Корея никогда не делала отдельные точки коды для различных вариантов. Для этого есть причина, не имеющая ничего общего с тем, как домашние тела видят самих персонажей. В двадцатом веке Китай прошел через процесс, который изменил (если не упростить) несколько символов. Во время этого перехода возникла необходимость кодировать оба варианта в одном документе. Корейцы всегда использовали вариантс入.(U + 5165) радикал сверху. Следовательно, не было причин кодировать оба варианта. В документах на корейском языке, созданных в двадцатом веке, было мало оснований для представления обеих версий в одном документе.

Почти все варианты, которые были разработаны или стандартизированы КНР, получили отдельные кодовые точки просто благодаря удачному переходу от упрощенного китайского языка к эпохе вычислений. Однако эта привилегия, похоже, применяется непоследовательно, тогда как большинство упрощений, выполненных в Японии и материковом Китае с кодовыми точками в национальных стандартах, включая символы, упрощенные по-разному в каждой стране, действительно вошли в Unicode как отдельные кодовые точки.

Шестьдесят два «упрощенных» символа Синдзитай с разными кодовыми точками в Японии были объединены с их традиционными эквивалентами Кюдзитай, такими как. Это может вызвать проблемы для стратегии языковых тегов. Не существует универсального тега для традиционной и «упрощенной» версий японского языка, как для китайского. Таким образом, любой японский писатель хочет , чтобы отобразить Kyūjitai формуможет иметь помечать характер как «традиционный китайский» или траст , что японский шрифт ИСПОЛЬЗУЕТ получателя только глифы Kyūjitai, но теги традиционный китайский и упрощенный китайский язык может быть необходимо , чтобы показать две формы бок о бок в японском учебнике. Однако это помешало бы использовать один и тот же шрифт для всего документа.Есть две разные кодовые точки дляв Unicode, но только "из соображений совместимости". Любой Unicode-совместимый шрифт должен отображать эквивалентные кодовые точки версий Kyūjitai и Shinjitai в Unicode как одинаковые. Неофициально шрифт может отображать海 по- разному: 海 (U + 6D77) как версия Синдзитай и 海 (U + FA45) как версия Кюдзитай (которая идентична традиционной версии на китайском и корейском языках).

Радикал(U + 7CF8) используется в таких символах, как/, с двумя вариантами, вторая форма - просто курсивная форма. Радикальные компоненты(U + 7D05) и(U + 7EA2) семантически идентичны, и глифы различаются только последним с использованием курсивной версии компонента. Однако в материковом Китае органы стандартизации хотели стандартизировать курсивную форму при использовании в таких символах, как. Поскольку это изменение произошло относительно недавно, был переходный период. Оба(U + 7D05) и(U + 7EA2) получил отдельные кодовые точки в органах стандартов кодирования текста КНР, поэтому документы на китайском языке могли использовать обе версии. Два варианта также получили разные кодовые точки в Unicode.

Случай радикала(U + 8278) показывает, насколько произвольно обстоит дело. При использовании для создания таких символов, как(U + 8349), радикал располагался вверху, но имел две разные формы. Традиционный китайский и корейский используют четырехтактную версию. В верхней частидолжно быть что - то , что выглядит как два плюс знаков ( ⺿ ). Упрощенный китайский, японский кюдзитай и японский язык синдзитай используют трехстрочную версию, например, два знака плюс, разделяющие их горизонтальные штрихи ( , т.е.). Органы кодирования текста КНР не кодировали два варианта по-разному. Тот факт, что почти каждое другое изменение, внесенное КНР, каким бы незначительным оно ни было, действительно требовало наличия собственного кода, предполагает, что это исключение могло быть непреднамеренным. Unicode скопировал существующие стандарты как есть, сохранив такие нарушения.

Консорциум Unicode обнаружил ошибки и в других случаях. Множество блоков Unicode для идеографов CJK Han имеют избыточность в исходных стандартах, избыточность, вызванную ошибочным импортом исходных стандартов, а также случайные слияния, которые позже исправляются, создавая прецедент для разобщения символов.

Для носителей языка варианты могут быть непонятными или неприемлемыми в образованном контексте. Носители английского языка могут понимать написанную от руки заметку «4P5 кг» как «495 кг», но написание девяти задом наперед (чтобы она выглядела как «P») может вызвать раздражение и будет считаться неправильным в любой школе. Аналогичным образом, для пользователей одного языка CJK, читающих документ с «чужими» глифами: вариантымогут отображаться как зеркальные изображения,может не иметь штриха / иметь посторонний штрих, иможет быть нечитаемым или может быть перепутано с今 в зависимости от какой вариант(например,) используется.

Примеры некоторых неунифицированных идеографов Хань [ править ]

Для более ярких вариантов Unicode закодировал вариантные символы, что избавляет от необходимости переключаться между шрифтами или атрибутами lang . В следующей таблице каждая строка сравнивает варианты, которым были присвоены разные кодовые точки. [2] Обратите внимание, что для таких символов, как(U + 5165), единственный способ отобразить два варианта - изменить шрифт (или атрибут lang ), как описано в предыдущей таблице. Однако для(U + 5167) существует альтернативный символ(U + 5185), как показано ниже. Для некоторых символов, таких как/(U + 514C / U + 5151), любой метод может использоваться для отображения различных глифов.

База данных идеографических вариаций (IVD) [ править ]

Чтобы решить проблемы, вызванные объединением Хань, был создан технический стандарт Unicode, известный как База данных вариаций идентификаторов Unicode, чтобы решить проблему указания конкретного глифа в текстовой среде. [17] Регистрируя коллекции глифов в базе данных идеографической вариации (IVD), можно использовать селекторы идеографической вариации для формирования последовательности идеографических вариаций (IVS), чтобы указать или ограничить соответствующий глиф при обработке текста в среде Unicode.

Диапазоны Unicode [ править ]

Идеографические символы, присвоенные Unicode, появляются в следующих блоках:

  • Унифицированные иероглифы CJK (4E00–9FFF) (также известные как URO, сокращение от Unified Repertoire and Ordering) [18]
  • CJK Unified Ideographs Extension A (3400–4DBF)
  • Расширение B унифицированных иероглифов CJK (20000–2A6DF)
  • CJK Unified Ideographs Extension C (2A700–2B73F)
  • Расширение унифицированных иероглифов CJK D (2B740–2B81F)
  • Расширение E унифицированных иероглифов CJK (2B820–2CEAF)
  • Расширение унифицированных иероглифов CJK F (2CEB0–2EBEF)
  • CJK Unified Ideographs Extension G (30000–3134F)
  • Идеографы совместимости CJK (F900 – FAFF) (двенадцать символов в FA0E, FA0F, FA11, FA13, FA14, FA1F, FA21, FA23, FA24, FA27, FA28 и FA29 на самом деле являются «унифицированными идеограммами», а не «идеограммами совместимости»)

Unicode включает поддержку радикалов CJKV, штрихов, знаков препинания, знаков и символов в следующих блоках:

  • Приложение CJK Radicals (2E80–2EFF)
  • Инсульт CJK (31C0–31EF)
  • Символы и знаки препинания CJK (3000–303F)
  • Символы идеографического описания (2FF0–2FFF)

В этих блоках появляются дополнительные символы совместимости (использование которых не рекомендуется):

  • Совместимость с CJK (3300–33FF)
  • Формы совместимости CJK (FE30 – FE4F)
  • Идеографы совместимости CJK (F900 – FAFF)
  • Приложение к иероглифам о совместимости с CJK (2F800–2FA1F)
  • Приложенные буквы и месяцы CJK (3200–32FF)
  • Прилагаемое идеографическое приложение (1F200–1F2FF)
  • Kangxi Radicals (2F00–2FDF)

Эти символы совместимости (за исключением двенадцати унифицированных иероглифов в блоке CJK Compatibility Ideographs) включены для совместимости с устаревшими системами обработки текста и другими устаревшими наборами символов. Они включают формы символов для вертикального расположения текста и символы форматированного текста, которые Unicode рекомендует обрабатывать другими способами.

Ядро международных идеографов [ править ]

Ядро международных идеографов (IICore) - это подмножество идеографов 9810, полученных из таблиц унифицированных идеографов CJK, предназначенное для реализации в устройствах с ограниченной памятью, возможностями ввода / вывода и / или приложениями, в которых используется полный репертуар идеографов ISO 10646. неосуществимо. В текущем стандарте 9810 символов. [19]

Файлы базы данных Unihan [ править ]

Проект Unihan всегда старался сделать свою базу данных сборки доступной. [1]

Проект libUnihan предоставляет нормализованную базу данных SQLite Unihan и соответствующую библиотеку C. [20] Все таблицы в этой базе данных имеют пятую нормальную форму . libUnihan выпускается под лицензией LGPL , а его база данных, UnihanDb, выпускается под лицензией MIT .

См. Также [ править ]

  • Кодировка китайских символов
  • ГБ 18030
  • Китаизация
  • Z-вариант
  • Список шрифтов CJK
  • Аллография
  • Вариант китайского иероглифа

Заметки [ править ]

  1. ^ Большинство из них являются устаревшими и устаревшими символами, однако, в соответствии с целью Unicode, заключающейся в кодировании каждой системы письма, которая используется или когда-либо использовалась; только 2000–3000 знаков считаются грамотными.

Ссылки [ править ]

  1. ^ a b "Unihan.zip" . Стандарт Юникода . Консорциум Unicode.
  2. ^ a b «Поиск в базе данных Unihan» . Стандарт Юникода . Консорциум Unicode.
  3. ^ «Поиск в базе данных Unihan: пример поиска для 中» . Стандарт Юникода . Консорциум Unicode.
  4. ^ «Глава 18: Восточная Азия, принципы объединения ханьцев» (PDF) . Стандарт Юникода . Консорциум Unicode.
  5. ^ Уистлер, Кен (2010-10-25). «Техническое примечание 26 Unicode: О кодировке латинского, греческого, кириллического и ханьского языков» .
  6. ^ Возвращение к Unicode Стивен Дж. Сирл; Веб-мастер, TRON Web
  7. ^ "IVD / IVS と は - 文字 情報 基 盤整 備 事業" . mojikiban.ipa.go.jp .
  8. ^ a b «Глава 1: Введение» (PDF) . Стандарт Юникода . Консорциум Unicode.
  9. ^ a b «База данных идеографических вариаций» . Консорциум Unicode.
  10. ^ «Ранние годы Unicode» . Консорциум Unicode.
  11. ^ Беккер, Джозеф Д. (1998-08-29). «Юникод 88» (PDF) .
  12. ^ «Юникод в Японии: Руководство по технической и психологической борьбе» . Архивировано 27 июня 2009 года.CS1 maint: bot: original URL status unknown (link)
  13. ^ 小 林紀興 『松下 電器 の 果 し 状』 1 章
  14. ^ Крикке, Янв. «Самая популярная операционная система в мире» . LinuxInsider.com .
  15. ^ 大 下 英 治 『孫正義 起 業 の 若 き 獅子』 ( ISBN 4-06-208718-9) стр. 285–294 
  16. ^ a b "UAX # 38: База данных Unicode Han (Unihan)" . www.unicode.org .
  17. ^ "UTS # 37: База данных идеографических вариаций Unicode" . www.unicode.org .
  18. ^ "УРО" . blogs.adobe.com .
  19. ^ "OGCIO: Область загрузки: Утилита сравнения международных идеографов (IICORE)" . www.ogcio.gov.hk .
  20. ^ (陳 定 彞), Дин-И Чен. «libUnihan - библиотека для базы данных персонажей Unihan в пятой нормальной форме» . libunihan.sourceforge.net .