Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Метод ввода Цанцза ( Tsang-цз метод ввода , который иногда называют Changjie , Цан Цз , Changjei [1] или Chongkit ) представляет собой систему для ввода китайских символов в компьютер с помощью стандартной клавиатуры компьютера . В именах файлов и в других местах имя Цанцзе иногда сокращается до cj.

Метод ввода был изобретен в 1976 году Чу Бонг-Фу и назван в честь Цанцзе (Цанг-цзе), мифологического изобретателя китайской системы письма, по предложению Чан Вэй-куо , бывшего министра обороны Тайваня . Чу Бонг-Фу выдал патент на Цанцзе в 1982 году, так как считал, что этот метод должен принадлежать китайскому культурному наследию . [2] Таким образом, Cangjie стал программным обеспечением с открытым исходным кодом и присутствует в каждой компьютерной системе, поддерживающей традиционные китайские символы , и было расширено, чтобы Cangjie был совместим с упрощенным набором китайских символов.

Китайская клавиатура в здании муниципальных служб Шек Тонг Цуй в Гонконге с намеками Цанцзе, напечатанными в нижнем левом углу клавиш. (В правом нижнем и правом верхнем углах напечатаны подсказки Дайи и символы Чжуинь соответственно.)

Цанцзе - это первый китайский метод ввода, в котором используется QWERTY- клавиатура. Чу увидел, что клавиатура QWERTY стала международным стандартом, и поэтому считал, что ввод на китайском языке должен быть основан на ней. [3] В других, более ранних методах используются большие клавиатуры с 40–2400 клавишами, за исключением метода четырех углов , в котором используются только цифровые клавиши.

В отличие от метода ввода пиньинь , Цанцзе основан на графологическом аспекте символов: каждая графическая единица, называемая « радикалом » (не путать с радикалами канси ), представлена ​​базовым компонентом символа, всего 24, каждый из которых сопоставлен с определенная буквенная клавиша на стандартной клавиатуре QWERTY . Дополнительная функция «сложный персонаж» отображается на клавишу X. Клавиши разделены на четыре группы , чтобы облегчить обучение и запоминание. Присвоение кодов китайским иероглифам осуществляется путем разделения составляющих «радикалов» символов.

Обзор [ править ]

Ключи и «радикалы» [ править ]

Основные компоненты характера в Цанцзе называются «радикалами» (字根) или «буквами» (字母). Есть 24 радикала, но 26 ключей; 24 радикала ( основные формы 基本 字形) связаны примерно с 76 вспомогательными формами (輔助 字形), которые во многих случаях являются либо повернутыми, либо транспонированными версиями компонентов основных форм. Например, буква A () может представлять либо себя, либо немного шире 曰, либо поворот на 90 °. (Более полный отчет о 76 с лишним транспозициях и поворотах, чем перечисленные ниже, см. В статье о записи Цанцзе в китайских Викиучебниках .)

24 клавиши разделены на четыре группы:

  • Философская группа - соответствует буквам от «A» до «G» и представляет солнце, луну и пять элементов.
  • Группа штрихов - соответствует буквам от «H» до «N» и представляет собой короткие и тонкие штрихи.
  • Группа, связанная с телом - соответствует буквам от 'O' до 'R' и представляет различные части анатомии человека.
  • Группа форм - соответствует буквам от 'S' до 'Y' и представляет сложные и замкнутые формы символов.

Вспомогательные формы каждого радикала Цанцзе немного изменились в разных версиях метода Цанцзе. Таким образом, это одна из причин того, что разные версии метода Цанцзе не полностью совместимы.

Чу Бонг-Фу дал альтернативные имена для некоторых букв в соответствии с их характеристиками. Например, H (竹) также называют 斜, что означает наклон. Имена образуют рифму, чтобы помочь учащимся запоминать буквы, каждая группа находится в строке (звуки последних символов указаны в скобках):

日 月 金 木 水 火 土 (tǔ)
斜 點 交 叉 縱 橫 鈎 (gōu)
人 心 手 口 (kǒu)
側 並 仰 紐 方 卜 (bǔ)

Раскладка клавиатуры [ править ]

Типичная раскладка клавиатуры для метода Цанцзе, основанная на раскладке клавиатуры США . Обратите внимание на нестандартное использование Z в качестве ключа столкновения.

Основные правила [ править ]

Машинист должен быть знаком с несколькими правилами декомпозиции (拆字 規則), которые определяют, как анализировать символ, чтобы получить код Цанцзе.

  • Направление разложения: слева направо, сверху вниз и снаружи внутрь
  • Геометрически связанные формы: возьмите четыре кода Цанцзе, а именно первый, второй, третий и последний коды.
  • Геометрически несвязанные формы, которые можно разбить на две подчиненные формы (например,): идентифицировать две геометрически связанные подчиненные формы в соответствии с направлением правил разложения (например, и 尔), затем взять первый и последний коды первой подчиненной формы и первый, второй и последний код второй подчиненной формы.
  • Геометрически несвязанные формы, которые можно разбить на несколько подчиненных форм (например,): идентифицировать первую геометрически связанную подчиненную форму в соответствии с направлением правил разложения (например, 言) и взять первый и последний коды этой формы. Затем разделите остаток (т. Е. Sub) на подформы (т. Е. И 寸) и возьмите первый и последний коды первой подформы и последний код последней подформы.

Правила подчиняются различным принципам:

  • Краткость (精簡) - если возможно несколько способов разложения, более короткое разложение считается правильным.
  • Полнота (完整) - если возможны несколько способов разложения с одинаковой длиной кода, правильным разложением будет тот, который первым определяет более сложную форму.
  • Отражение формы радикала (字型 特徵) - разложение должно отражать форму радикала, что означает: (а) следует избегать использования одного и того же кода дважды или более, если это возможно, и (б) форма символа должна не быть «разрезанным» на углу формы.
  • Пропуск кодов (省略)
    • Частичное пропускание (部分 省略) - когда количество кодов в полной декомпозиции превышает разрешенное количество кодов, дополнительные коды игнорируются.
    • Пропуск в закрытых формах (包含 省略) - когда часть символа, подлежащего разложению, а форма является закрытой, раскладывается только форма вложения; прилагаемые формы опускаются.

Примеры [ править ]

Воспроизвести медиа
Ввод китайского языка с помощью метода ввода Цанцзе версии 5
Воспроизвести медиа
Ввод китайского языка с помощью метода ввода Цанцзе на устройстве Android
  • 車 (chē: транспортное средство)
    • Этот символ имеет геометрическую связь и состоит из единой вертикальной структуры, поэтому мы берем первый, второй и последний коды Цанцзе сверху вниз.
    • Таким образом, код Цанцзе - это 十 田 十 (JWJ), соответствующий основным формам кодов в этом примере.
  • 謝 (xiè: благодарить, увядать)
    • Этот персонаж состоит из геометрически не связанных частей, расположенных горизонтально. Для начального разложения мы рассматриваем его как две части, 言 и.
    • Первая часть, ically, геометрически не связана сверху вниз; берем первую (亠, вспомогательную форму Y) и последнюю части (口, основная форма 口 R) и приходим к 卜 口 (YR).
    • Вторая часть снова геометрически не связана, расположена горизонтально. Две части - и 寸.
      • Для первой части этой второй части, 身, мы берем первый и последний коды. Оба являются наклонными и, следовательно, H; первый и последний коды, таким образом, 竹 (HH).
      • Для второй части оригинальной второй части, 寸, мы берем только последнюю часть. Поскольку он геометрически не связан и состоит из двух частей, первая часть представляет собой внешнюю форму, а вторая часть - это точка в середине. Точка - это I, поэтому последний код - 戈 (I).
    • Код Цанцзе, таким образом, 卜 口 (YR) 竹 竹 (HH) 戈 (I) или 卜 口 竹 竹 戈 (YRHHI).
  • 谢 (упрощенная версия 謝)
    • Этот пример идентичен приведенному выше примеру, за исключением того, что первая часть - 讠; первый и последний коды - это 戈 (I) и 女 (V).
    • Повторяя те же шаги, что и в приведенном выше примере, мы получаем 戈 女 (IV) 竹 竹 (HH) 戈 (I) или 戈 女 竹 竹 戈 (IVHHI).

Исключения [ править ]

Некоторые формы всегда декомпозируются одинаково, независимо от того, говорят правила, что они должны раскладываться таким образом или нет. Количество таких исключений невелико:

Некоторые формы нельзя разложить. Они обозначены знаком X, который является клавишей 難 на клавиатуре Цанцзе. [4]

Раннее развитие [ править ]

Изначально метод ввода Цанцзе не предназначался для создания символа в каком-либо наборе символов . Вместо этого он был частью интегрированной системы, состоящей из правил ввода Цанцзе и платы контроллера Цанцзе . Эта плата контроллера содержит микропрограммное обеспечение генератора символов , которое динамически генерирует китайские символы из кодов Цанцзе при выводе символов с использованием графического режима высокого разрешения компьютера Apple II . В предисловии к руководству пользователя Цанцза в , Чу Bong-Foo писал в 1982 году:

[в переводе]
С точки зрения вывода: вывод и ввод, по сути, [образуют] единое целое; нет причин, по которым [их следует] догматически разделить на два разных объекта… Это действительно необходимо…

В этой ранней системе, когда пользователь набирает «yk», например, чтобы получить китайский символ 文, коды Цанцзе не преобразуются в какую-либо кодировку символов, а фактическая строка «yk» сохраняется. Код Цанцзе для каждого символа (строка из 1–5 строчных букв плюс пробел) был кодировкой этого конкретного символа.

Демонстрация генератора символов Mingzhu ' способность s генерировать символы в соответствии с кодами. Ни один из примеров не включен в Unicode. Первый символ - ⿰ 飠 它, что означает разновидность супа в Сюйчжоу . Другие персонажи никогда не записываются.

Особенностью этой ранней системы является то, что, если кто-то отправит ей случайные строчные слова, генератор символов попытается построить китайские символы в соответствии с правилами разложения Цанцзе, иногда вызывая появление странных неизвестных символов. Эта непреднамеренная функция, «автоматическая генерация символов», описана в руководстве и отвечает за создание более 10 000 из 15 000 символов, которые может обрабатывать система. Имя Цанцзе, напоминающее о создании новых персонажей, действительно подходило для этой ранней версии Цанцзе.

Наличие встроенного генератора символов также объясняет историческую необходимость существования клавиши «X», которая используется для устранения неоднозначности коллизий разложения: поскольку символы «выбираются», когда коды «выводятся», каждый символ, который может фактически должен иметь уникальное разложение Цанцзе. Было бы нецелесообразно - и было бы непрактично - чтобы система предоставляла выбор символов-кандидатов при отображении случайного текстового файла, поскольку пользователь не знал бы, какой из кандидатов правильный.

Проблемы [ править ]

Cangjie была разработана как простая в использовании система, помогающая продвигать использование китайских компьютеров. Однако многие пользователи считают, что Цанцзе трудно изучить и использовать, многие трудности вызваны плохим обучением. [ необходима цитата ]

Воспринимаемые трудности [ править ]

  • Для ввода с использованием Цанцзе требуется знание названий радикалов, а также их вспомогательных форм. Часто можно встретить таблицы радикалов Цанцзе с их вспомогательными формами, приклеенными на мониторы пользователей компьютеров.
  • Также необходимо знать правила декомпозиции, незнание которых приводит к повышенным трудностям при вводе предполагаемых символов.
  • Пользователь не может ввести символ, который он забыл писать (проблема со всеми нефонетическими методами ввода).

При достаточной практике пользователи могут преодолеть вышеуказанные проблемы. Типичные машинисты слепого набора могут печатать на китайском со скоростью 25 символов в минуту (cpm) или выше, используя Цанцзе, несмотря на трудности с запоминанием списка вспомогательных форм или правил разложения. По имеющимся данным, опытные машинистки Цанцзе могут набирать со скоростью от 60 до 200 копий в минуту.

Ограничения в реализации [ править ]

Декомпозиция символа зависит от предопределенного набора «стандартных форм» (標準 字形). Однако, поскольку в разных странах существует множество вариаций Цанцзе, стандартная форма определенного персонажа в Цанцзе не всегда та, которую пользователь усвоил раньше. Изучение Цанцзе влечет за собой изучение не только самой Цанцзе, но и незнакомых стандартных форм некоторых персонажей. Редактор метода ввода Цанцзе(IME) не обрабатывает ошибки при декомпозиции, за исключением сообщения пользователю (обычно звуковым сигналом) о наличии ошибки. Однако изначально Цанцзе предназначался для присвоения разных кодов разным вариантам персонажа. Например, в Cangjie, доступном в Windows, код для 產 - YHHQM, что соответствует не форме этого символа, а другому варианту, 産. Это проблема, связанная с реализацией Cangjie в Windows. В оригинальном Цанцзе 產 должно быть YKMHM (первая часть - 文), а 産 - YHHQM (первая часть - 产).

Знаки препинания не разлагаются геометрически, а имеют заранее заданные коды, которые начинаются с ZX, за которым следует строка из трех букв, связанных с порядком символов в коде Big5 . (Этот набор кодов был добавлен в Cangjie в традиционной китайской версии Windows 95. В Windows 3.1 в Cangjie не было набора кодов для знаков препинания.) Таким образом, ввод знаков препинания в Cangjie становится утомительным упражнением, требующим либо запоминания, либо выбора -и-клевать. Однако в современных системах это решается путем доступа к виртуальной клавиатуре на экране (в Windows это активируется нажатием Ctrl + Alt + запятая).

Часто совершаемые ошибки не рассматриваются как альтернативные коды. Например, если не разложить 方 сверху вниз на YHS, а вместо этого ввести YSH в соответствии с порядком штрихов, Цанцзе не вернет символ 方 в качестве варианта выбора.

Поскольку для Цанцзе требуются все 26 клавиш QWERTY- клавиатуры, его нельзя использовать для ввода китайских иероглифов на обычных телефонах, которые имеют только 12-клавишную клавиатуру . Вместо этого используются альтернативные методы ввода, такие как Zhuyin , 5-тактный (или 9-тактный от Motorola ) и метод ввода Q9 .

Версии [ править ]

Обычно говорят, что метод ввода Цанцзе прошел через пять поколений (обычно называемых «версиями» на английском языке), каждое из которых немного несовместимо с другими. В настоящее время версия 3 (第三 代 倉 頡) является наиболее распространенной и изначально поддерживается Microsoft Windows . Версия 5 (第五 代 倉 頡), поддерживаемая Free Cangjie IME и ранее единственная Cangjie, поддерживаемая SCIM , представляет собой метод значительного меньшинства и поддерживается iOS .

Ранняя система Cangjie, поддерживаемая картой Zero One на Apple II, была Версией 2; Версия 1 так и не была выпущена.

Метод ввода Цанцзе, поддерживаемый в классической Mac OS, напоминает как версию 3, так и версию 5.

Версия 5, как и оригинальный метод ввода Цанцзе, была создана непосредственно Чу. Он надеялся, что выпуск Версии 5, изначально намеченной как Версия 6, положит конец «более чем десяти версиям метода ввода Цанцзе» (слегка несовместимые версии, созданные разными поставщиками).

Версия 6 еще не была выпущена для широкой публики, но используется для создания базы данных, которая может точно хранить любой исторический китайский текст.

Варианты [ править ]

Большинство современных реализаций редакторов методов ввода Cangjie (IME) предоставляют различные удобные функции:

  • В некоторых IME перечислены все символы, начинающиеся с набранного вами кода. Например, если вы введете A, система выдаст вам все символы, чей код Цанцзе начинается с A, так что вы можете выбрать правильный символ, если он есть на экране; если вы введете еще один A, список будет сокращен, чтобы включить все символы, код которых начинается с AA. Примеры таких реализаций включают IME в Mac OS X и Smart Common Input Method (SCIM).
  • Некоторые IME предоставляют один или несколько подстановочных ключей, обычно, но не всегда * и / или?, Которые позволяют пользователю опускать часть (и) кода Цанцзе; система отобразит список подходящих символов для выбора пользователем. Примеры включают в себя XIM-сервер китайского INput XIM (xcin), Smart Common Input Method (SCIM) и IME системы набора Founder Group (Университет Пекина). Стандартный IME Microsoft Windows «Changjie» позволяет * заменять промежуточные символы (эффективно сокращая его до упрощенных записей Cangjie), в то время как IME «New Changjie» допускает * в качестве подстановочного знака где угодно, кроме первого символа.
  • Некоторые IME предоставляют функцию «сокращения», при которой невозможные коды Цанцзе интерпретируются как сокращения кодов Цанцзе, состоящих из более чем одного символа. Это позволяет вводить больше символов с помощью меньшего количества клавиш. Примером является интеллектуальный общий метод ввода (SCIM).
  • Некоторые IME предоставляют функцию «ассоциации» (聯想 lianxiang), при которой система предугадывает, что вы собираетесь ввести дальше, и предоставляет вам список символов или даже фраз, связанных с тем, что набрал пользователь. Примером может служить IME Microsoft "Changjie".
  • Некоторые IME представляют список символов-кандидатов по-разному, в зависимости от частоты использования символов (как часто этот символ вводился пользователем). Примером может служить Cangjie IME в текстовом процессоре китайского языка NJStar .

Помимо подстановочного знака, многие из этих функций удобны для обычных пользователей, но не подходят для слепых наборщиков, поскольку они делают Cangjie IME непредсказуемым.

Также предпринимались различные попытки так или иначе «упростить» Цанцзе:

  • Упрощенный Цанцзе (также известный как Быстрый, (簡易 jiǎnyì) или (速成 sùchéng)) имеет те же радикалы, вспомогательные формы, правила разложения и короткий список исключений, что и Цанцзе, но только первый и последний коды используются, если более двух коды требуются в Цанцзе.

Приложения [ править ]

Многие исследователи обсуждали способы разложения китайских иероглифов на их основные компоненты и пытались создавать приложения на основе системы декомпозиции. Идея может быть отнесена к изучению генов китайских иероглифов  [ ж ] . Коды Цанцзе предлагают основу для таких усилий. Аналогичные проекты имеют также Academia Sinica на Тайване [5] и Университет Цзяотун в Шанхае [6] .

Одно из прямых применений использования разложенных символов - это возможность вычисления сходства между разными китайскими иероглифами. [7] Метод ввода Цанцзе является хорошей отправной точкой для такого рода приложений. Ослабив ограничение в пять кодов для каждого китайского символа и приняв более подробные коды Цанцзе, визуально похожие символы можно найти путем вычислений. Интеграция этого с информацией о произношении позволяет изучать китайские иероглифы с помощью компьютера. [8]

См. Также [ править ]

  • Китайские методы ввода для компьютеров
  • Раскладка клавиатуры
  • Более полная таблица форм ввода в китайских Викиучебниках
  • OpenVanilla - фреймворк, который предоставляет возможности для использования Cangjie в Mac OS X.

Примечания [ править ]

  • Тайбэй: Чва! Taiwan Inc. (全 華 科技 圖書 公司).倉 頡 中文 資訊 碼: 倉 頡 字母 、 部首 、 注音 三 檢 字 對照[Китайский информационный код Цанцзе: индексы, введенные радикалами Цанцзе, радикалами Канси и чжуинь]. Номер публикации 023479. - Это руководство пользователя ранней системы Cangjie с картой контроллера Cangjie.
    • Предпоследний абзац на первой странице раздела, озаглавленного «Метод ввода китайского языка на основе радикалов Цанцзе» (倉 頡 字母 中文 輸入 法), гласит, что

      [Перевод]
      Это не проблема; есть также вспомогательные формы для восполнения недостатков радикалов. Вспомогательные формы представляют собой вариации формы радикалов, [и поэтому] легко запоминающиеся.

    • В последнем абзаце пятой страницы того же раздела говорится

      [Перевод]
      Словарь, прилагаемый [к этой книге], основан на стандарте 4800 широко используемых символов, провозглашенном Министерством образования. Если добавить к этому автоматически сгенерированные символы, количество символов составляет около 15 000 (используя словарь Kangxi в качестве основы).

  • Часть информации из этой статьи взята из эквивалентной статьи в Википедии на китайском языке.
  • Правила декомпозиции взяты с веб-сайта «Друг Цанцзе - Малайзия» по адресу http://www.chinesecj.com/. Этот сайт также дает информацию о скорости набора текста опытными машинистами и предоставляет программное обеспечение для версии 5 метода Цанцзе для Microsoft Windows.
  • Может быть трудно найти конкретные ссылки на свойство Цанцзе «не прощать ошибок». Таблица на https://web.archive.org/web/20050206223713/http://www.array.com.tw/keytool/compete.htm является одной из внешних ссылок, подтверждающих этот факт.
  • Input.foruto.com содержит краткую историю метода ввода Цанцзе, как ее видел автор этой статьи. Варианты 1 и 2 четко обозначены в статье.
  • Cbflabs.com содержит ряд статей, написанных г-ном Чу Бонг-Фу, со ссылками не только на метод ввода Цанцзе, но и на вычисления на китайском языке в целом. Версии 5 и 6 (теперь обозначаемые как 5) метода ввода Цанцзе четко обозначены.

Ссылки [ править ]

  1. ^ Правописание, используемое в качестве имени файла в китайской системе ETen .
  2. ^ Чу, Chyi-Хва (朱麒華) (1 февраля 2012). "科技 的 專利 與 普及" . Электронный бюллетень Национальной академии исследований в области образования (на китайском языке). Архивировано 19 октября 2017 года . Дата обращения 28 мая 2017 .
  3. ^ Чу Бонг-фу (朱 邦 復). «智慧 之 旅» .開放 文學(на китайском языке). Архивировано из оригинального 19 октября 2017 года . Дата обращения 8 июня 2017 .
  4. ^ "倉 頡 取 碼 規則 及 方法" [Правила и методы поиска кода Цанцзе]. Друзья Цанцзе (на китайском). 1997–2002 гг. Архивировано 1 января 2019 года . Дата обращения 2 октября 2020 .
  5. ^ "漢字 構 形 資料 庫" [База данных конфигурации китайских иероглифов]. Китайская лаборатория обработки документов (на китайском языке). 2013. Архивировано из оригинала 27 июля 2020 года . Дата обращения 2 октября 2020 .
  6. ^ 上海 交通 大學 漢字 編碼 組, 上海 漢語拼音 文字 研究 組 編著 漢字 信息 字典。 北京市 科學 1988。
  7. ^ 宋 柔 , 林 民 , 詩 利。 計算 及其 在 校對 系統 中 的 應用 , 小型 微型 計算機 系統 , 第 29 卷 第 10 , 第 1964 至 1968 , 2008。
  8. ^ Лю, Чао-Линь; Лай, Мин-Хуа; Тянь, Кан-Вэнь; Чжуан И-Сюань; Ву, Ши-Хунг; Ли, Чиа-Инь (2011). «Визуально и фонологически похожие символы в некорректных китайских словах: анализ, идентификация и приложения». Транзакции ACM по обработке информации на азиатских языках . 10 (2): 1–39. DOI : 10.1145 / 1967293.1967297 .

Внешние ссылки [ править ]

  • Онлайн-метод ввода Цанцзе 網上 倉 頡 輸入 法
  • Исследовательский центр гуманитарных наук Китайского университета Гонконга: база данных китайских иероглифов: словообразования, фонологически устраненные в соответствии с кантонским диалектом : база данных китайских иероглифов, охватывающая весь набор китайских иероглифов большой пятерки (5401 уровень 1 и 7652 уровень 2 Hanzi), а также 7 дополнительных ETen Hanzi. Коды ввода Цанцзе показаны для каждого символа в базе данных. Примечание: Гонконгский дополнительный набор символов (HKSCS - 2001) не включен в эту базу данных.
  • Генератор Минчжу (на китайском) : страница Чу Бонг Фу. Включает исполняемый файл, исходный код и инструкции. Mingzhu - это генератор символов Canjie, работающий на MS Windows " DOS PROMPT ". Для этого требуется Microsoft Macro Assembler и Link.
  • Друг Цанцзе : ссылка на Цанцзе и место, где можно загрузить Цанцзе 5 для различных операционных систем, а также дополнительные списки кодов ввода Цанцзе для ввода упрощенных символов.
  • CjExplorer : инструмент для изучения Цанцзе. Код Цанцзе для выделенного китайского символа будет отображаться, когда инструмент запущен.
  • Обзор метода Цан-Цзе : отличный ресурс для англоговорящих людей, чтобы узнать правила и метод Цанцзе.
  • Онлайн-редактор методов ввода Цанцзе (IME) 網上 倉 頡 輸入 法
  • 倉 頡 之 友。 馬來西亞