Модзикё ( японский :文字 鏡), также известный под своим полным названием Конджаку Модзикё ( 今昔文字 鏡, букв. «() Прошлое и настоящее зеркало символов») , представляет собойсхему кодирования символов . Институт Модзикё (文字 鏡 研究 会, Mojikyō Kenkyūkai ) , который публикует набор символов, также опубликовал компьютерное программное обеспечение и шрифты TrueType в дополнение к нему. Институт Модзикё, возглавляемый Тадахисой Исикава (石川忠 久) , [1]Изначально набор символов, соответствующее программное обеспечение и данные распространялись на CD-ROM компанией Kinokuniya . [2] Разработанный в 1996 году [3] первая версия компакт-диска была выпущена в июле 1997 года. [4] Какое-то время он даже предлагал веб-подписку « Mojikyō WEB» (文字 鏡 WEB ), в которой было больше современные символы. [5]
Разработчики) | Тадахиса Исикава (石川忠 久) Токио Фуруя (古 家 時 雄) Институт Модзикё (文字 鏡 研究 会) |
---|---|
Первый выпуск | 1.0 / июль 1997 г . |
Окончательный релиз | 4.0 / 15 декабря 2018 г . |
Операционная система | Майкрософт Виндоус |
Размер | 51 МБ |
Доступно в | Японский |
Тип | Набор символов в комплекте со шрифтами и картой символов |
Лицензия | Проприетарный |
Веб-сайт | mojikyo |
По состоянию на сентябрь 2006 г. [Обновить]он закодировал 174 975 символов. [6] Среди них 150 366 символов тогда принадлежали к расширенному семейству CJKV [примечание 2] . [5] Многие из закодированных символов считаются устаревшими или иным образом неясными и не кодируются никаким другим набором символов, включая международный стандарт Unicode .
Первоначально платный продукт, по состоянию на 2015 г. Mojikyō институт начал загружать свои последние версии в Internet Archive , как бесплатное программное обеспечение , [7] в качестве мемориала в честь одного из его разработчиков, Tokio Фуруя (古家時雄) , который умер в этом году. [3] 15 декабря 2018 г. была выпущена версия 4.0. На следующий день Исикава объявил, что это будет последний выпуск Mojiky . [3]
Посылка
Mojikyō кодирования было создано , чтобы обеспечить полный индекс китайских, корейский и японских символов. Он также кодирует большое количество символов в древних письменах , таких как сценарий кости оракула, сценарий печати и даже санскрит ( сиддха ). Для многих символов это единственная кодировка символов для их кодирования, и ее данные часто используются в качестве отправной точки для предложений Unicode . [8] [9] Однако у Модзикё гораздо более свободные стандарты кодирования, чем у Юникода, что приводит к тому , что Модзикё имеет множество закодированных глифов сомнительного или даже вымышленного происхождения. [10] [11] Таким образом, хотя многие незакодированные символы модзикё подходят для кодирования в Юникоде, не все могут стать символами Юникода из-за различных стандартов доказательства, требуемых каждым из них.
Состав
В Mojikyō шрифты (文字鏡フォント) являются TrueType шрифтов , которые приходят в ZIP - файл и каждый из них около 2-5 мегабайта ; разные шрифты содержат разное количество символов. [примечание 3] Также включен исполняемый файл Windows, который реализует карту символов , « карту символов Mojikyō » (文字 鏡 MAP ), MOCHRMAP.EXE . [примечание 4] [примечание 5] Это позволяет пользователям просматривать шрифты модзикё , а также копировать и вставлять символы вместо того, чтобы вводить их на клавиатуре. В отличие от обычной карты символов Windows или, если на то пошло, KCharSelect , которые поддерживают шрифты TrueType, MOCHRMAP.EXE отображает кодировку Mojikyō запрошенного символа. [12] [примечание 6] Для того, чтобы Для работы MOCHRMAP.EXE все шрифты Mojikyō должны быть установлены для всех пользователей (в C: \ Windows \ Fonts ).
Кодирование
Когда речь идет о символе , закодированном в Mojikyō , часто используется формат MJXXXXXX, аналогичный формату U + XXXX, используемому для Unicode. Например, хентайгана U + 1B008 𛀈 имеет Mojikyō кодирующий MJ090007 и кодирование Unicode U + 1B008. [13] Разница, однако, заключается в том, что кодировки модзикё, отображаемые таким образом, являются десятичными , а кодировка Unicode U + - шестнадцатеричными .
С самых ранних дней Unicode, Mojikyō как влиял, так и находился под влиянием стандарта - его глифы впервые появляются в предложении группе идеографического докладчика (IRG) [примечание 7], которая отвечает за все блоки CJK в Unicode, [14 ] [15] 18 апреля 2002 года. [16] В мае 2007 года Модзикё сыграл незначительную роль в в конечном итоге успешной серии предложений по кодированию тангутского письма в Unicode; [17] [примечание 8] К октябрю 2002 года в кодировке Модзикё уже было 6000 тангутских символов. [6]
В немалой степени из-за ограничительной лицензии, на которую распространяется Mojiky , база данных Unihan стандарта Unicode Standard называет Mojikyō «Японской коллекцией KOKUJI » (日本国 字 iated ), сокращенно «JK». [18] Например, U + 2B679 𫙹 , [примечание 9] иероглиф, читаемый по-японски как burizādo (ブ リ ザ ー ド, букв. « метель ») , имеет J-источник [примечание 10], равный JK-66038. Все символы Юникода с префиксом JK J-Source происходят из Модзикё . [19] [примечание 11] По словам Кена Лунде , специалиста по кодировкам символов и восточноазиатским языкам , начиная с Unicode 13.0, 782 идеограммы в Unicode происходят из Mojikyō , разделенных поровну между двумя блоками : CJK Unified Ideographs Extension C , с 367 и CJK Unified Ideographs Extension E с 415. [20] [21] Не все символы Unicode с происхождением Mojiky (J-Sources с префиксом JK) имеют такой же репрезентативный глиф в кодовой таблице, что и в шрифте Mojiky ; [примечание 12] некоторые символы изменили свою форму перед окончательной кодировкой, поскольку расследование показало, что формы, назначенные Институтом Модзикё, были неправильными. [11] [примечание 13]
Блоки
По состоянию на сентябрь 2006 г.[Обновить]он закодировал 174 975 символов. [6] Среди них 150 366 символов тогда принадлежали к расширенному семейству CJKV [примечание 2] . [5] Многие из закодированных символов считаются устаревшими или иным образом неясными и не кодируются никаким другим набором символов, включая международный стандарт Unicode. У каждого персонажа Модзикё есть уникальный номер, и персонажи организованы в блоки.
Модзикё помещает персонажей CJKV в разные блоки в соответствии с их традиционным радикалом Канси . Общие радикалы, содержащие особенно большое количество символов, такие как радикалы 9 (人) и 162 ( ⻌ ), далее разделяются по порядку штрихов. [примечание 14]
Никакой унификации
В отличие от Unicode, Mojikyō намеренно избегает ханьской унификации ; не предпринимается никаких попыток сделать кодировку компактной, как и не делается попыток сохранить все общие символы ниже U + FFFF, как в Юникоде.
Unicode, с другой стороны, сортирует CJK в блоки на основе как часто они являются наиболее распространенными , как правило , помещаются в Basic Multilingual Plane , [примечание 13] в то время как те , которые являются редкими или неясными помещаются в астральные планы .
Например, в Radical 9 есть два символа, а в Unicode - один: MJ054435 (令) и MJ059031 (令), оба представлены в Unicode как U + 4EE4 令 .
Лицензия
Mojikyō - это проприетарное программное обеспечение с ограниченной лицензией. Первоначально Институт Модзикё даже пытался предотвратить использование своих символьных данных и угрожал тем, кто публиковал таблицы преобразования в его набор символов и обратно. По состоянию на июль 2010 года Институт Модзикё отказался от попыток запретить пользователям публиковать таблицы преобразования или преобразовывать символы, закодированные в Модзикё, в Unicode или другие наборы символов. [22] Такие судебные иски, вероятно, никогда не были предъявлены к закону, поскольку они представляют собой всего лишь данные и форму букв, которые считаются общей собственностью и как таковые не соответствуют порогу оригинальности . [примечание 15]
Однако из-за этого наследия GlyphWiki не разрешала данные Модзикё даже по состоянию на 2020 год. [23]
Собрание систем письма
Жизнь
- Китайский - ханьцзы
- Японский - кандзи , кана (включая хентайгана )
- Корейский - ханджа
- Латинский алфавит с диакритическими знаками
- Кириллица с диакритическими знаками
Мертвые или устаревшие
- Древний китайский
- Костяной скрипт Oracle
- Сценарий печати
- Тайваньская кана
- Вьетнамский - Chữ Nôm
- Санскрит - сиддхах
- Тангутская письменность
- Скрипт суи
Смотрите также
- Ханьское объединение
- JIS X 0208
- Список шрифтов CJK
- TRON
Рекомендации
- ^ "今昔 文字 鏡 に つ い て" [О Модзики]. Институт Модзикё (на японском языке). Архивировано из оригинала 3 февраля 2001 года . Дата обращения 6 июля 2020 .
- ^ よ う こ そ 、 今昔 文字 鏡 の 世界 へ![Добро пожаловать в мир Модзикё !] (На японском). Кинокуния КК. Архивировано из оригинала 4 марта 2005 года . Дата обращения 5 июля 2020 .
- ^ а б в Исикава, Тадахиса (август 2015 г.). «古 家 時 雄 君 を 悼 む» [Токио Фуруя, мы скорбим о твоей смерти]. Институт Модзикё (на японском языке) . Проверено 8 июля 2020 .
- ^ Конджаку Модзикё 今昔 文字 鏡(на японском языке), июль 1997 г., ISBN 9784314900034
- ^ а б в 今昔 文字 鏡 と は[О Модзикё] (на японском). Кинокуния КК. Архивировано из оригинального 27 апреля 2010 года . Дата обращения 5 июля 2020 .
- ^ а б в 今昔 文字 鏡 と は[Что такое Модзикё ?] (На японском). Кинокуния КК. Архивировано из оригинала 5 февраля 2005 года . Дата обращения 5 июля 2020 .
- ^ "Поиск: создатель:" Институт МОДЗИКЁ " " . Интернет-архив . Дата обращения 6 июля 2020 .
- ^ Такада, Томокадзу; Яда, Цутому; Сайто, Тацуя (18 сентября 2015 г.). Предложение по хентайгане (PDF) . Перевод Кобаяши, Тацуо ; Кобаяши, Даниэль. Общество обработки информации Японии . L2 / 15-239 . Проверено 5 июля 2020 г. - через Unicode Consortium .
- ^ Хиура, Хидеки; Кобаяши, Тацуо ; и другие. (31 октября 2003 г.). Селектор вариантов идеографа и идентификатор набора вариаций . Инициатива открытой интернационализации. L2 / 03-413 . Проверено 5 июля 2020 г. - через Unicode Consortium .
- ^ Такада, Томокадзу [高田 智 和]; Ода, Тетсудзи [織田 哲 治]; и другие. (26 августа 2013 г.).平 成 25 年度 第 3 回 文字 情報 検 討 サ ブ ワ ー キ ン グ グ ル ー プ 議事 録[Протокол заседания Рабочей подгруппы по проверке информации третьего символа за 2013 год ( Хэйсэй 25)] (PDF) . Агентство по продвижению информационных технологий , правительство Японии (на японском языке). п. 2 . Проверено 6 Июль 2020 .
文字鏡研究会の関係者にヒアリングしたところ,オランダから提案されたРГ2 N36981には文字鏡のフォントが使用されているが,文字鏡研究会は関与しておらず,提案内容に つ い て も 疑問 が あ る の こ で あ っ た。 [Согласно интервью с представителем института Mojikyō, шрифт Mojikyō используется в WG2 N36981, предложенном Нидерландами, но сам институт Mojikyō не участвует в этом предложении; кроме того, у него есть сомнения относительно содержания этого предложения.]
- ^ а б Судзуки, Тошия [鈴木 俊 哉] (30 июля 2009 г.).統 合 漢字 に 申請 さ れ た 「殷 周金文 集成 引得」 図 文字 の 調査[Исследование глифов, собранных из «Указателя к собранию надписей периода Инь-Чжоу» для представления в CJK Unified Ideographs]. Технический отчет IPSJ SIG (на японском языке). Общество обработки информации Японии . 2009-DD-72 (7): 2 - через Интернет-архив .
し か し 、 張 C 標準化 作業 が 8 の 長期 に わ た り 、 ま た 事後 的 に 用 例 が 必須 とは 当初 の 典 拠 と は か な る も の と な っ て い た と え ば 日本 で は 当初 文字 鏡 研究 会 に よ さ れ鏡とは独立に行なわれたため,字形が文字鏡漢字から変更されたものも多い. [Поскольку усилия по стандартизации CJK Унифицированные идеографические Расширение C было восемь долгих лет разработки и примеры кандзи были запрошены после того, как их кодирования официально обнародованный стандарт кандзи Extension C сильно отличается от исходного стандарта. Например, мы, правительство Японии, первоначально подали заявку на около 1000 иероглифов, выбранных Институтом Модзикё [.] [...] Поскольку проверка иероглифов проводилась независимо от Института Модзикё, формы символов часто менялись с Версия того же кода Модзикё.]
- ^ Исикава, Тадахиса (25 мая 1999 г.). «パ ソ コ ン 悠悠 漢字 術 今昔 文字 鏡 徹底 活用» [Кандзи на вашем ПК, Made Easy - Полное руководство по модзикё]. Институт Модзикё . Дата обращения 6 июля 2020 .
- ^ MJ 文字 情報 一 覧 表[Таблица кодировок символов MJ] (на японском языке). Агентство по продвижению информационных технологий . Дата обращения 5 июля 2020 .
- ^ «Стандартное приложение Unicode № 45: Идеографы U-источника» . Стандарт Юникода . Консорциум Unicode.
- ^ «Приложение E: История объединения ханьцев» (PDF) . Стандарт Юникода . Консорциум Unicode. Март 2020.
- ^ «Расширение CJK C1 из Японии» . Группа идеографического докладчика . IRG # 19 N895 - через Департамент компьютерных наук и инженерии Китайского университета Гонконга .
N895-Japan_C1
- ^ Кук, Ричард (9 мая 2007 г.). Предложение закодировать символы тангута в плоскости 1 UCS (PDF) . Инициатива UC Berkeley Script Encoding Initiative. п. 4. L2 / 07-143 - через Unicode Consortium .
- ^ Дженкинс, Джон Х .; Кук, Ричард; Лунде, Кен, ред. (5 марта 2020), "Kirg JSource" , Unicode Standard Приложение № 38 , Консорциум Unicode
- ^ Кен Лунде [@ken_lunde] (6 июля 2020 г.). «Идеографы J-Source с префиксом JK пришли из 今昔 文字 鏡, которые находятся в Расширениях C и E (упоминание Расширения D было просто тем, что то, что стало Расширением E, изначально предназначалось для того, чтобы стать Расширением D)» (твит) . Проверено 6 июля 2020 г. - через Twitter .
- ^ Кен Лунде [@ken_lunde] (6 июля 2020 г.). «В частности, все 782 идеограммы с префиксом JK действительно взяты из 文字 鏡 на IRG N862. Большинство из них были закодированы в #ExtensionC, а отставшие - в #ExtensionE». (Твитнуть) . Проверено 6 июля 2020 г. - через Twitter .
- ^ Кен Лунде [@ken_lunde] (6 июля 2020 г.). «367 идеографов с префиксом JK находятся в расширении C, а остальные 415 - в расширении E.» (Твитнуть) . Проверено 6 июля 2020 г. - через Twitter .
- ^ «終 戦 宣言» [Объявление: Война окончена].青蛙 亭 漢語 塾[ Кандзи Seiwatei в Крах школа ] (на японском языке) (28 января 2016 г. под ред.). 21 июля 2010 . Проверено 7 июля 2020 .
- ^ "デ ー タ ・ 記事 の ラ イ セ ン ス" [Лицензия наших данных и статей]. GlyphWiki (изд. От 9 июня 2010 г.) . Источник 6 июль - 2020 .
今昔文字鏡およびその関連製品,データは,そのライセンス上グリフウィキには用いることができません.文字鏡番号(独自部分)および文字鏡のフォントに収録されているグリフそのもの,およびそれを参照,利用して作成していると判断できる情報は,グリフウィキに登録する際の典拠とすることはできませんので,ご協力をお願いいたします. [ Кондзяку Mojikyō и родственные продукты и связанные с ними данные , лицензированы в таким образом, что они несовместимы с нашей вышеупомянутой лицензией GlyphWiki. Ни номер Mojikyō слота кодирования, ни появление самого глифа в Mojikyō ' шрифтов с, ни какой - либо информация , которые могут быть оценены, были собраны путем обращения к Mojikyō продукту, не может быть использовано при вводе данных в GlyphWiki. Мы категорически не принимаем данные Mojiky . Пожалуйста, сотрудничайте с нами.]
Заметки
- ^ Пока что отсутствуеткодировка Unicode , поэтому здесь используется приблизительное значение с помощью CSS иU + 30BB セ KATAKANA ПИСЬМО SE .
- ^ a b Для корейского языка упоминаются ханджа . Для вьетнамцев - Chữ Nôm .
- ^ Загрузите файл MojikyoCmap400ALL49TTF.7z с официального сайта
- ^ Английское имя из заголовка окна, созданного при запуске исполняемого файла; Японское имя из значка исполняемого файла.
- ^ Также называется «Mojiky Cmap».
- ^ Смотрите скриншоты на официальном сайте
- ↑ В 2019 году IRG переименована в Ideographic Research Group.
- ^ История кодирования тангутского сценария довольно сложна, см. Тангут (блок Unicode) § История для полного списка всех связанных предложений и временной шкалы.
- ^ Последовательность идеографического описания : ⿰ 魚 嵐
- ^ Это имя столбца в базе данных Unihan ; ⟨J здесь является сокращением от «японского источника глифов». Полное название столбца
kIRG_JSource
. При объединении Хань таких источников девять. См.Полный список и дополнительную информациюв §3.1 UAX # 38 . - ^ Существуют и другие префиксы J-Source, такие как J4, что означает, что символ происходит из JIS X 0213: 2004 .
- ^ То есть глиф, состоящий из одинаковых радикалов в одинаковых позициях.
- ^ a b Ошибки в больших наборах идеографов, конечно, не редкость. Такие ошибки даже случайно встречаются в хорошо финансируемые правительством производства коллекций, таких как знаменитый кандзи из неизвестных источников в Комитет промышленных стандартов Японии «s 0208 JIS X двухбайтовым стандарт кодирования символов. Все эти кандзи ошибок JIS X 0208 (幽 霊 漢字; например,彁) проникли в Юникод, несмотря на то, что они не являются «настоящими» кандзи.
- ^ Для доказательства см. Список на Карте персонажей Модзикё, MOCHRMAP.EXE .
- ^ См. Также: фиктивная запись ; ловушка-стрит .
Внешние ссылки
- Официальный веб-сайт