В китайском языках описания характера являются несколько предложенных языков наиболее точно и полно описать китайский (или CJK ) символов и такую информацию, как их список компонентов, список ходов (основной и сложной), их порядка и расположения каждого из них на фон пустой квадрат. Они предназначены для преодоления неотъемлемой нехватки информации в описании растрового изображения. Эта расширенная информация может использоваться для идентификации вариантов символов, которые объединены в одну кодовую точку с помощью Unicode и ISO / IEC 10646 , а также для обеспечения альтернативной формы представления для редких символов, которые еще не имеют стандартизованной кодировки в Unicode или ISO / IEC 10646. Многие стремятся работать в стиле Кайсю.и стиль песни , а также для обеспечения внутренней структуры персонажа, которая может использоваться для более легкого поиска персонажа путем индексации внутреннего макияжа персонажа и перекрестных ссылок между похожими персонажами.
CDL
Язык описания символов - это технология шрифтов , основанная на XML , совместно созданная Томом Бишопом и Ричардом Куком для Института Венлин , предназначенная для описания любого символа CJK , но подходящая для описания любого глифа .
Этот декларативный язык на основе XML определяет порядок штрихов каждого компонента (субъединица глифа, подобная радикалу , но не обязательно несущая семантическое значение истинного радикала), а также сборку ранее определенных компонентов для создания еще большего количества сложные персонажи. Многие из этих компонентов являются самостоятельными персонажами в дополнение к тому, что служат компонентами строительных блоков.
Фон выглядит как квадрат по 128 пикселей с каждой стороны. На этом фоне:
- Каждый из примерно 50 штрихов можно нарисовать в SVG .
- Базовый компонент составляется путем вызова нескольких штрихов. В этом компоненте каждый штрих описывается нижним левым и верхним правым углами. Возможны трансформации (уменьшение, увеличение и т. Д.). Имеется более 1000 основных компонентов.
- Персонаж составляется путем вызова нескольких компонентов. В этом символе каждый компонент описывается своим нижним левым и верхним правым углами. Для того, чтобы компонент поместился в соответствующую часть прямоугольного блока китайского иероглифа, компонент может быть преобразован (например, горизонтальное или вертикальное уменьшение или увеличение) при его использовании в качестве строительного блока, встроенного в содержащий более сложный символ.
Соответственно, набор из менее чем 50 штрихов [1] позволяет создать набор из примерно 1000 компонентов [2], которые, в свою очередь, могут быть встроены в описания десятков тысяч символов. [2] Изменение формы одного из 50 основных штрихов неявно применяется к каждому символу, который включает этот штрих. Точно так же изменение компонента неявно применяется в пределах всех без исключения персонажей, сборка которых использует этот компонент. [2]
Т. Бишоп и Р. Кук объясняют это следующим образом:
Количество штрихов одного символа обычно связано с количеством штрихов других символов. Большинство символов построено из компонентов, и до тех пор, пока количество штрихов этих компонентов определено, сложение их вместе для получения общего количества штрихов редко вызывает затруднения. Следовательно, если стандарт определяет штрихи нескольких тысяч символов, он неявно определяет штрихи многих тысяч дополнительных символов. [3]
По состоянию на 2020 год[Обновить]почти 100 000 китайских иероглифов были описаны через CDL. [4]
HanGlyph
Язык описания символов, предназначенный для предоставления отсутствующих редких символов в документах (обращаясь к китайскому эквиваленту проблемы гайдзи ). [5] Документы могут содержать разметку для пропущенных символов, которая автоматически запускает создание мелких шрифтов для отображения символов. Сам язык представляет собой простую постфиксную нотацию, описывающую штрихи и способы их сочетания. Программное обеспечение-прототип использует Metapost для визуализации символов и встраивания их в документы LaTeX . Язык был представлен Вай Вонгом в 1997 г. [6], а статьи о его реализации в Metapost и LaTeX появились на конференциях групп пользователей TeX в 2003 г. [7] [8]
Последовательности идеографического описания
Глава 12 спецификации Unicode [9] определяет синтаксис для «Ideographic Description Sequences» (IDSes), предназначенный для использования при описании символов, не включенных в стандарт, в терминах комбинаций компонентов, которые действительно имеют кодовые точки. Двенадцать специальных символов в диапазоне от U + 2FF0 до U + 2FFB действуют как префиксные операторы для объединения других символов или последовательностей в более крупные символы.
Персонаж | Номер символа Юникода | Полное имя Unicode |
---|---|---|
⿰ | U + 2FF0 | Символ идеографического описания слева направо |
⿱ | U + 2FF1 | Символ идеографического описания сверху вниз |
⿲ | U + 2FF2 | Символ идеографического описания слева направо и справа |
⿳ | U + 2FF3 | Символ идеографического описания вверху до середины и внизу |
⿴ | U + 2FF4 | Идеографическое описание персонажа полное окружение |
⿵ | U + 2FF5 | Идеографическое описание символа окружает сверху |
⿶ | U + 2FF6 | Идеографическое описание символа окружает снизу |
⿷ | U + 2FF7 | Идеографическое описание символа окружает слева |
⿸ | U + 2FF8 | Символ идеографического описания обрамляет слева вверху |
⿹ | U + 2FF9 | Символ идеографического описания обрамляет сверху справа |
⿺ | U + 2FFA | Идеографическое описание символа обрамляет снизу слева |
⿻ | U + 2FFB | Идеографическое описание символов накладным |
Эти последовательности полезны при описании читателю символа, который не печатается напрямую, либо потому, что он отсутствует в данном шрифте, либо вообще отсутствует в стандарте Unicode. Например, персонаж Sawndip " "(закодированный в CJK Unified Ideographs Extension F как U + 2DA21 𭨡) можно описать как" ⿰ 書 史 ". Другое использование - для поиска в словаре, как своего рода грубый метод ввода для запросов.
Эти последовательности могут быть визуализированы либо путем сохранения отдельных символов по отдельности, либо путем анализа последовательности идеографического описания и рисования идеограммы, описанной таким образом. [10] Сами по себе они не обеспечивают однозначного отображения всех символов. Например, последовательность ⿱ 十一 представляет как 土, так и 士.
Спецификация Unicode для этих последовательностей основана на символах и синтаксисе более раннего стандарта GBK .
Пакет бесплатного программного обеспечения IDSgrep от Мэтью Скала [11] [12] расширяет синтаксис IDS Unicode, добавляя дополнительные функции для поиска по словарю; он способен преобразовывать базу данных KanjiVG в свой собственный расширенный формат IDS или выполнять поиск файлов EIDS, созданных родственным семейством шрифтов Tsukurimashou.
KanjiVG
KanjiVG - это бесплатный (CC-by-sa-3.0) язык описания японских персонажей (который в конечном итоге будет расширен и до китайского), основанный на SVG и вики-системе редактирования.
SCML
В 2007 году был предложен язык моделирования структурных символов как другой вид языка описания китайских иероглифов на основе XML, расположение которого не основано на числовой сетке, как это делают CDL и HanGlyph. Известная база данных символов, штрихи и компоненты которых закодированы в SCML, предназначена только для демонстрации принципа; не существует известных попыток закодировать, скажем, все символы CJK Unicode в SCML.
Смотрите также
- Юникод
- Список радикалов Shuowen Jiezi , система из 540 компонентов, использованная Сюй Шенем (ум. ≈147 г. н.э.) в его Shuowen Jiezi
- Список радикалов Канси , система из 214 компонентов, использованная в словаре Канси (1716 г.), составленный под руководством императора Канси
- Список радикалов Unicode , современная компьютерная постоянная попытка создать полный и точный набор списка компонентов CJK, возглавляемый Unicode .
- Метод ввода Цанцзе
- Радикальный
- Инсульт
- Порядок инсульта
Заметки
- ^ Бишоп и Кук 2013-12-31: p2
- ^ a b c Bishop & Cook 31.12.2013: стр. 9
- ^ Епископ, Том Кук, Ричард и 2003-10-31 , стр. 8-9, точка n⁰12
- ^ Веб-страница Венлинского института для CDL
- ^ "HanGlyph" . Архивировано из оригинального 24 января 2013 года . Проверено 17 февраля 2012 года .
- ^ Вонг, Вай (апрель 1997 г.). «HanGlyph - китайский язык описания иероглифов». Труды семнадцатой международной конференции по компьютерной обработке восточных языков, Гонконг .
- ^ Ю, Candy LK; Вай Вонг (июль 2003 г.). «Синтез китайских иероглифов с использованием METAPOST». Материалы 24-го ежегодного собрания и конференции группы пользователей TeX, Гавайи, США .
- ^ Вонг, Вай; Candy LK Yiu; Кельвин, CF Ng (июнь 2003 г.). «Набор редких китайских иероглифов в LaTeX». Материалы 14-й Европейской конференции TeX, Брест, Франция .
- ^ [1]
- ^ «Стандарт Unicode® - версия 12.0 - основная спецификация» (PDF) . Консорциум Unicode. Март 2019. с. 26.
- ^ [2]
- ^ Скала, Мэтью (2015). «Структурная система запросов для символов хань» (PDF) . Международный журнал обработки азиатских языков . 23 (2): 127–159. arXiv : 1404,5585 . Архивировано из оригинального (PDF) 04 марта 2016 года . Проверено 13 января 2016 .
Внешние ссылки
- Язык CDL от института Вэньлинь
- Wenlin Institute (2015), Руководство пользователя Wenlin: язык описания символов
- Епископ, Том; Кук, Ричард, спецификация CDL
- Епископ, Том; Кук, Ричард (2003), Язык описания персонажей (CDL): набор основных унифицированных типов штрихов CJK (PDF)
- Епископ, Том; Кук, Ричард (2003-10-31), Спецификация языка описания символов CDL (PDF)
- 2003/12/31 исправление: Епископ, Том; Кук, Ричард (2003-10-31), Спецификация для CDL (PDF) , в архиве от оригинала (PDF) на 2016-04-05 , извлекается 2018-01-17
- Кук, Ричард (2003), Языки описания китайских иероглифов (PDF)
- Бишоп, Том (2007), Язык описания персонажей для CJK (PDF) , Multilingual, # 91, том 18, выпуск 7, стр. 62–8
- Грант для стартапа цифровых гуманитарных наук от Национального фонда гуманитарных наук США
- SCML
- Пиблз, Дэниел Дж .; Balkcom, Девин (советник) (29 мая 2007 г.), SCML: Структурное представление китайских иероглифов, Технический отчет TR2007-592 (PDF) , Дартмутский колледж, стр. 30
- HanGlyph
- HanGlyph - китайский язык описания иероглифов - презентация , заархивировано из оригинала 25 января 2013 г. , извлечено 11 декабря 2007 г.
- HanGlyph - китайский язык описания иероглифов - Справочное руководство (PDF) , 13 сентября 2003 г., стр. 31, архивировано из оригинального (PDF) 4 марта 2016 г. , извлечено 11 декабря 2007 г.