Из Википедии, свободной энциклопедии
  (Перенаправлено из Модзикё )
Перейти к навигации Перейти к поиску

Модзикё ( японский :文字 鏡), также известный под своим полным названием Конджаку Модзикё (今昔文字 鏡, букв. «() Прошлое и настоящее зеркало символов») , представляет собойсхему кодирования символов . Институт Модзикё (文字 鏡 研究 会, Mojikyō Kenkyūkai ) , который публикует набор символов, также опубликовал компьютерное программное обеспечение и шрифты TrueType в дополнение к нему. Институт Модзикё, возглавляемый Тадахисой Исикава (石川忠 久) , [1]Изначально набор символов, соответствующее программное обеспечение и данные распространялись на CD-ROM компанией Kinokuniya . [2] Разработанный в 1996 году [3] первая версия компакт-диска была выпущена в июле 1997 года. [4] Какое-то время он даже предлагал веб-подписку « Mojikyō WEB» (文字 鏡 WEB ), в которой было больше современные символы. [5]

По состоянию на сентябрь 2006 г. он закодировал 174 975 символов. [6] Среди них 150 366 символов тогда принадлежали к расширенному семейству CJKV [примечание 2] . [5] Многие из закодированных символов считаются устаревшими или иным образом неясными и не кодируются никаким другим набором символов, включая международный стандарт Unicode .

Первоначально платный продукт, по состоянию на 2015 г. Mojikyō институт начал загружать свои последние версии в Internet Archive , как бесплатное программное обеспечение , [7] в качестве мемориала в честь одного из его разработчиков, Tokio Фуруя (古家時雄) , который умер в этом году. [3] 15 декабря 2018 г. была выпущена версия 4.0. На следующий день Исикава объявил, что это будет последний выпуск Mojiky . [3]

Предпосылка [ править ]

Mojikyō кодирования было создано , чтобы обеспечить полный индекс китайских, корейский и японских символов. Он также кодирует большое количество символов в древних письменах , таких как сценарий кости оракула, сценарий печати и даже санскрит ( Siddhaṃ ). Для многих символов это единственная кодировка символов для их кодирования, и ее данные часто используются в качестве отправной точки для предложений Unicode . [8] [9] Однако у Модзикё гораздо более свободные стандарты кодирования, чем у Юникода, что приводит к тому , что Модзикё имеет множество закодированных глифов сомнительного или даже вымышленного происхождения. [10][11] Таким образом, хотя многие незакодированныесимволы модзикё подходят для кодирования в Юникоде, не все могут стать символами Юникода из-за различных стандартов доказательства, требуемых каждым из них.

Состав [ править ]

В Mojikyō шрифты (文字鏡フォント) являются TrueType шрифтов , которые приходят в ZIP - файл и каждый из них около 2-5 мегабайта ; разные шрифты содержат разное количество символов. [примечание 3] Также включен исполняемый файл Windows, который реализует карту символов , « карту символов Mojikyō » (文字 鏡 MAP ), MOCHRMAP.EXE . [примечание 4] [примечание 5] Это позволяет пользователям просматривать Модзикёшрифты, а также копирование и вставка символов вместо их ввода на клавиатуре. В отличие от обычной карты символов Windows или, если на то пошло, KCharSelect , которые поддерживают шрифты TrueType, MOCHRMAP.EXE отображает кодировку Mojikyō запрошенного символа. [12] [примечание 6] Для того, чтобы MOCHRMAP.EXE работал, все шрифты Mojikyō должны быть установлены для всех пользователей (в C: \ Windows \ Fonts ).

Кодировка [ править ]

Когда речь идет о символе , закодированном в Mojikyō , часто используется формат MJXXXXXX, аналогичный формату U + XXXX, используемому для Unicode. Например, хентайгана U + 1B008 𛀈 имеет Mojikyō кодирующий MJ090007 и кодирование Unicode U + 1B008. [13] Разница, однако, заключается в том, что кодировки модзикё, отображаемые таким образом, являются десятичными , а кодировка Unicode U + - шестнадцатеричными .

С самых ранних дней Unicode, Mojikyō как влиял, так и находился под влиянием стандарта - его глифы впервые появляются в предложении группе идеографического докладчика (IRG) [примечание 7], которая отвечает за все блоки CJK в Unicode, [14 ] [15] 18 апреля 2002 года. [16] В мае 2007 года Модзикё сыграл незначительную роль в в конечном итоге успешной серии предложений по кодированию тангутского письма в Unicode; [17] [примечание 8] К октябрю 2002 года в кодировке Модзикё уже было 6000 тангутских символов. [6]

В немалой степени из-за ограничительной лицензии, на которую распространяется Mojiky , база данных Unihan стандарта Unicode Standard называет Mojikyō «Японской коллекцией KOKUJI » (日本国 字 iated ), сокращенно «JK». [18] Например, U + 2B679 𫙹 , [примечание 9] иероглиф, читаемый по-японски как burizādo (ブ リ ザ ー ド, букв. « метель ») , имеет J-источник [примечание 10], равный JK-66038. Все символы Юникода с префиксом JK J-Source происходят из Модзикё . [19] [примечание 11] По словам Кена Лунде , специалиста по кодировкам символов и восточноазиатским языкам , начиная с Unicode 13.0, 782 идеограммы в Unicode происходят из Mojikyō , разделенных поровну между двумя блоками : CJK Unified Ideographs Extension C , с 367, иCJK Unified Ideographs Extension E , с 415. [20] [21] Не все символы Unicode с происхождением Mojiky (J-Sources с префиксом JK) имеют такой же репрезентативный глиф в кодовой таблице, что и в шрифте Mojiky ; [примечание 12] некоторые символы изменили свою форму перед окончательной кодировкой, поскольку расследование показало, что формы, назначенные Институтом Модзикё, были неправильными. [11] [примечание 13]

Блокирует [ править ]

По состоянию на сентябрь 2006 г. он закодировал 174 975 символов. [6] Среди них 150 366 символов тогда принадлежали к расширенному семейству CJKV [примечание 2] . [5] Многие из закодированных символов считаются устаревшими или иным образом неясными и не кодируются никаким другим набором символов, включая международный стандарт Unicode. У каждого персонажа Модзикё есть уникальный номер, и персонажи организованы в блоки.

Модзикё помещает персонажей CJKV в разные блоки в соответствии с их традиционным радикалом Канси . Общие радикалы, содержащие особенно большое количество символов, такие как радикалы 9 () и 162 ( ), далее разделяются по порядку штрихов. [примечание 14]

Без объединения [ править ]

В отличие от Unicode, Mojikyō намеренно избегает ханьской унификации ; не предпринимается никаких попыток сделать кодировку компактной, как и не делается попыток сохранить все общие символы ниже U + FFFF, как в Юникоде.

Unicode, с другой стороны, сортирует CJK в блоки на основе как часто они являются наиболее распространенными , как правило , помещаются в Basic Multilingual Plane , [примечание 13] в то время как те , которые являются редкими или неясными помещаются в астральные планы .

Например, в Radical 9 есть два символа, а в Unicode - один: MJ054435 () и MJ059031 (), оба представлены в Unicode как U + 4EE4 .

Лицензия [ править ]

Mojikyō - это проприетарное программное обеспечение с ограниченной лицензией. Первоначально Институт Модзикё даже пытался предотвратить использование своих символьных данных и угрожал тем, кто публиковал таблицы преобразования в его набор символов и обратно. По состоянию на июль 2010 года Институт Модзикё отказался от попыток запретить пользователям публиковать таблицы преобразования или преобразовывать символы, закодированные в Модзикё, в Unicode или другие наборы символов. [22] Такие судебные иски, вероятно, никогда не были предъявлены к закону, поскольку они представляют собой всего лишь данные и форму букв, которые считаются общей собственностью и как таковые не соответствуют порогу оригинальности . [примечание 15]

Однако из-за этого наследия GlyphWiki не разрешала данные Модзикё даже с 2020 года. [23]

Собрание систем письма [ править ]

Жить [ править ]

  • Китайский - ханьцзы
  • Японский - кандзи , кана (включая хентайгана )
  • Корейский - ханджа
  • Латинский алфавит с диакритическими знаками
  • Кириллица с диакритическими знаками

Мертвые или устаревшие [ править ]

  • Древний китайский
    • Костяной скрипт Oracle
    • Сценарий печати
  • Тайваньская кана
  • Вьетнамский - Chữ Nôm
  • Санскрит - Сиддхах
  • Тангутская письменность
  • Скрипт суи

См. Также [ править ]

  • Ханьское объединение
  • JIS X 0208
  • Список шрифтов CJK
  • TRON

Ссылки [ править ]

  1. ^ "今昔 文字 鏡 に つ い て" [О Модзики]. Институт Модзикё (на японском). Архивировано из оригинала 3 февраля 2001 года . Дата обращения 6 июля 2020 .
  2. ^ よ う こ そ 、 今昔 文字 鏡 の 世界 へ![Добро пожаловать в мир Модзикё !] (На японском). Кинокуния КК. Архивировано из оригинала 4 марта 2005 года . Дата обращения 5 июля 2020 .
  3. ^ a b c Исикава, Тадахиса (август 2015 г.). «古 家 時 雄 君 を 悼 む» [Токио Фуруя, мы скорбим о твоей смерти]. Институт Модзикё (на японском) . Проверено 8 июля 2020 .
  4. ^ Кондзяку Mojikyō 今昔 文字 鏡(на японском языке), июль 1997 г., ISBN 9784314900034
  5. ^ а б в 今昔 文字 鏡 と は[О Модзикё] (на японском). Кинокуния КК. Архивировано из оригинального 27 апреля 2010 года . Дата обращения 5 июля 2020 .
  6. ^ а б в 今昔 文字 鏡 と は[Что такое Модзикё ?] (На японском). Кинокуния КК. Архивировано из оригинала 5 февраля 2005 года . Дата обращения 5 июля 2020 .
  7. ^ "Поиск: создатель:" Институт MOJIKYO " " . Интернет-архив . Дата обращения 6 июля 2020 .
  8. ^ Такада, Томокадзу; Яда, Цутому; Сайто, Тацуя (18 сентября 2015 г.). Предложение по хентайгане (PDF) . Перевод Кобаяши, Тацуо ; Кобаяши, Даниэль. Общество обработки информации Японии . L2 / 15-239 . Проверено 5 июля 2020 г. - через Unicode Consortium .
  9. ^ Хиура, Хидеки; Кобаяши, Тацуо ; и другие. (31 октября 2003 г.). Селектор вариантов идеографа и идентификатор набора вариаций . Инициатива открытой интернационализации. L2 / 03-413 . Проверено 5 июля 2020 г. - через Unicode Consortium .
  10. ^ Такада, Томокадзу [高田 智 和]; Ода, Тетсудзи [織田 哲 治]; и другие. (26 августа 2013 г.).平 成 25 年度 第 3 回 文字 情報 検 討 サ ブ ワ ー キ ン グ グ ル ー プ 議事 録[Протокол заседания Рабочей подгруппы по проверке информации третьего символа за 2013 год ( Хэйсэй 25)] (PDF) . Агентство по продвижению информационных технологий , правительство Японии (на японском языке). п. 2 . Проверено 6 июль +2020 .文字鏡研究会の関係者にヒアリングしたところ,オランダから提案されたРГ2 N36981には文字鏡のフォントが使用されているが,文字鏡研究会は関与しておらず,提案内容に つ い て も 疑問 が あ る の で あ っ た。 [Согласно интервью с представителем института Mojikyō, шрифт Mojikyō используется в WG2 N36981, предложенном Нидерландами, но сам институт Mojikyō не участвует в этом предложении; кроме того, у него есть сомнения относительно содержания этого предложения.]
  11. ^ a b Сузуки, Тошия [鈴木 俊 哉] (30 июля 2009 г.).統 合 漢字 に 申請 さ れ た 「殷 周金文 集成 引得」 図 文字 の 調査[Исследование глифов, собранных из «Указателя к собранию надписей периода Инь-Чжоу» для представления в CJK Unified Ideographs]. Технический отчет IPSJ SIG (на японском языке). Общество обработки информации Японии . 2009-DD-72 (7): 2 - через Internet Archive .しかし,拡張Cの標準化作業が8年の長期にわたり,また事後的に用例が必須とされたため,正式に公布された拡張C漢字の典拠は 当初 の 典 拠 と は か な る も の と な っ て い た と え ば 日本 で は 当初 文字 鏡 研究 会 に よ さ れ鏡 と は 独立 に 行 わ れ た 字形 が 文字 鏡 漢字 か ら れ た も の ​​も 多 い [Как усилия по стандартизации для CJK Unified Ideographs Extension CСоздавалось восемь долгих лет, и после их кодирования были запрошены примеры кандзи, официально обнародованный стандарт кандзи Extension C сильно отличается от исходного стандарта. Например, мы, правительство Японии, первоначально подали заявку на около 1000 иероглифов, выбранных Институтом Модзикё [.] [...] Поскольку проверка иероглифов проводилась независимо от Института Модзикё, формы символов часто менялись с Версия того же кода Модзикё.]
  12. Исикава, Тадахиса (25 мая 1999 г.). «パ ソ コ ン 悠悠 漢字 術 今昔 文字 鏡 徹底 活用» [Кандзи на вашем ПК, Made Easy - Полное руководство по модзикё]. Институт Модзикё . Дата обращения 6 июля 2020 .
  13. ^ MJ 文字 情報 一 覧 表[Таблица кодировок символов MJ] (на японском языке). Агентство по продвижению информационных технологий . Дата обращения 5 июля 2020 .
  14. ^ "Стандартное приложение Unicode № 45: Идеографы U-источника" . Стандарт Юникода . Консорциум Unicode.
  15. ^ «Приложение E: История объединения ханьцев» (PDF) . Стандарт Юникода . Консорциум Unicode. Март 2020.
  16. ^ «Расширение CJK C1 из Японии» . Группа идеографического докладчика . IRG # 19 N895 - через Департамент компьютерных наук и инженерии Китайского университета Гонконга . N895-Japan_C1
  17. ^ Кук, Ричард (9 мая 2007 г.). Предложение закодировать символы тангута в плоскости 1 UCS (PDF) . Инициатива UC Berkeley Script Encoding Initiative. п. 4. L2 / 07-143 - через Консорциум Unicode .
  18. ^ Дженкинс, Джон Х .; Кук, Ричард; Лунде, Кен, ред. (5 марта 2020), "Kirg JSource" , Unicode Standard Приложение № 38 , Консорциум Unicode
  19. ^ Кен Лунде [@ken_lunde] (6 июля 2020 г.). «Идеографы J-Source с префиксом JK пришли из 今昔 文字 鏡, которые находятся в Расширениях C и E (упоминание Расширения D было просто тем, что то, что стало Расширением E, изначально предназначалось для того, чтобы стать Расширением D)» (твит) . Проверено 6 июля 2020 г. - через Twitter .
  20. ^ Кен Лунде [@ken_lunde] (6 июля 2020 г.). «В частности, все 782 идеограммы с префиксом JK действительно взяты из 文字 鏡 на IRG N862. Большинство из них были закодированы в #ExtensionC, а отставшие - в #ExtensionE». (Твитнуть) . Проверено 6 июля 2020 г. - через Twitter .
  21. ^ Кен Лунде [@ken_lunde] (6 июля 2020 г.). «367 идеографов с префиксом JK находятся в расширении C, а остальные 415 - в расширении E.» (Твитнуть) . Проверено 6 июля 2020 г. - через Twitter .
  22. ^ "終 戦 宣言" [Объявление: Война окончена]. 青蛙 亭 漢語 塾[ Кандзи Seiwatei в Крах школа ] (на японском языке) (28 января 2016 г. под ред.). 21 июля 2010 . Дата обращения 7 июля 2020 .
  23. ^ "デ ー タ ・ 記事 の ラ イ セ ン ス" [Лицензия наших данных и статей]. GlyphWiki (изд. От 9 июня 2010 г.) . Источник 6 июле - 2020 .今昔文字鏡およびその関連製品,データは,そのライセンス上グリフウィキには用いることができません.文字鏡番号(独自部分)および文字鏡のフォントに収録されているグリフそのもの,およびそれを参照,利用して作成していると判断できる情報は,グリフウィキに登録する際の典拠とすることはできませんので,ご協力をお願いいたします. [ Кондзяку Mojikyō и родственные продукты и связанные с ними данные , лицензированы в таким образом, что они несовместимы с нашей вышеупомянутой лицензией GlyphWiki. Ни номер Mojikyō слота кодирования, ни внешний вид самого глифа Mojikyō ' шрифтов s, ни какой - либо информации , которая может быть оценена, были собраны со ссылкой на Mojikyōproduct, можно использовать при вводе данных в GlyphWiki. Мы абсолютно не принимаем данные Модзикё . Пожалуйста, сотрудничайте с нами.]

Заметки [ править ]

  1. ^ Пока что отсутствуеткодировка Unicode , поэтому здесь используется приблизительное значение с помощью CSS и U + 30BBKATAKANA LETTER SE .
  2. ^ a b Для корейского языка упоминаются ханджа . Для вьетнамцев - Chữ Nôm .
  3. ^ Скачайте файл MojikyoCmap400ALL49TTF.7z с официального сайта
  4. ^ Английское имя из заголовка окна, созданного при запуске исполняемого файла; Японское имя из значка исполняемого файла.
  5. ^ Также называется «Mojiky Cmap».
  6. ^ Смотрите скриншоты на официальном сайте
  7. В 2019 году IRG переименована в Ideographic Research Group.
  8. ^ История кодирования тангутского сценария довольно сложна, см. Тангут (блок Unicode) § История для полного списка всех связанных предложений и временной шкалы.
  9. ^ Последовательность идеографического описания : ⿰ 魚 嵐
  10. ^ Это имя столбца в базе данных Unihan ; ⟨J здесь является сокращением от «японского источника глифов». Полное название столбцаkIRG_JSource. При объединении Хань таких источников девять. См.Полный список и дополнительную информациюв §3.1 UAX # 38 .
  11. ^ Существуют и другие префиксы J-Source, такие как J4, что означает, что символ происходит из JIS X 0213: 2004 .
  12. ^ То есть глиф, состоящий из одинаковых радикалов в одинаковых позициях.
  13. ^ a b Ошибки в больших наборах идеографов, конечно, не редкость. Такие ошибки даже случайно встречаются в хорошо финансируемые правительством производства коллекций, таких как знаменитый кандзи из неизвестных источников в Комитет промышленных стандартов Японии «s 0208 JIS X двухбайтовым стандарт кодирования символов. Все эти кандзи ошибок JIS X 0208 (幽 霊 漢字; например,) проникли в Юникод, несмотря на то, что они не являются «настоящими» кандзи.
  14. ^ Для подтверждения см. Список в таблице символов модзикё , MOCHRMAP.EXE .
  15. ^ См. Также: фиктивная запись ; ловушка-стрит .

Внешние ссылки [ править ]

  • Официальный сайт