Вариантная форма является другой глифа для символа, закодированной в Unicode через механизм вариации последовательностей : последовательности в Unicode , которые состоят из базового символа с последующим селекторного изменение характера.
Вариант формы обычно имеет очень похожий внешний вид и значение, что и его основная форма. Механизм предназначен для вариантных форм, где, как правило, если вариантная форма недоступна, отображение основного символа не меняет смысла текста и может даже не быть заметным для многих читателей.
Unicode определяет два типа вариационных последовательностей:
- Стандартизированные последовательности вариаций, определенные в StandardizedVariants.txt [1]
- Последовательности идеографических вариаций, определенные в базе данных идеографических вариаций (IVD) [2] [3]
Символы селектора вариантов находятся в нескольких блоках Unicode:
- Селекторы вариантов (16 символов, сокращенно VS1 – VS16)
- Дополнение к селекторам вариантов (240 символов, сокращенно VS17 – VS256)
- Монгольский (3 символа, сокращенно FVS1 – FVS3)
Селекторы вариантов не требуются для арабских и латинских символов курсива, где замена глифов может происходить в зависимости от контекста: глифы могут быть соединены вместе в зависимости от того, является ли символ начальным символом в слове, конечным символом, средним символом или изолированным персонаж. Эти типы замены глифов легко обрабатываются контекстом символа без какого-либо другого авторского ввода. Авторы также могут использовать специальные символы, такие как присоединяющиеся и не присоединяющиеся, для принудительного использования альтернативной формы глифа там, где в противном случае он не появился бы. Лигатуры - аналогичные случаи, когда глифы могут быть заменены простым включением или отключением лигатур в качестве атрибута форматированного текста .
Для замены других глифов замысел автора может быть закодирован с текстом и не может быть определен контекстно. Так обстоит дело с символом / глифами, называемыми гайдзи , где разные глифы используются для одного и того же символа либо исторически, либо для идеограмм для фамилий. Это одна из серых областей при различении глифа и символа: если имя семейства немного отличается от символа идеограммы, от которого оно происходит, то это простой вариант глифа или вариант символа?
Подстановки символов также могут происходить вне Unicode, например, с помощью тегов OpenType Layout. [4]
Блоки со стандартизованными последовательностями вариаций
Начиная с Unicode 13.0, стандартизированные последовательности вариантов, специально предназначенные для представления эмодзи / текста, определены для основных символов в двадцати блоках: [1]
- Стрелки
- Базовая латынь
- Символы и знаки препинания CJK
- Дингбаты
- Смайлики
- Прилагаемое буквенно-цифровое приложение
- Вложенные буквенно-цифровые символы
- Прилагаемые письма и месяцы CJK
- Прилагаемое идеографическое приложение
- Общая пунктуация
- Геометрические фигуры
- Дополнение Latin-1
- Буквоподобные символы
- Плитки для маджонга
- Разные символы
- Разные символы и стрелки
- Разные символы и пиктограммы
- Разное Техническое
- Дополнительные стрелки-B
- Транспортные и картографические символы
Другие стандартизованные вариационные последовательности образуются с базовыми символами в следующих одиннадцати блоках: [1]
Блоки с идеографическими вариациями последовательностей
По состоянию на 6 ноября 2020 г.[Обновить], последовательности идеографических вариаций определены для основных символов в восьми блоках: [2] [3]
- Идеографы совместимости CJK
- Единые иероглифы CJK
- Расширение унифицированных иероглифов CJK A
- Расширение B унифицированных иероглифов CJK
- Расширение унифицированных иероглифов CJK C
- Расширение унифицированных иероглифов CJK D
- Расширение унифицированных иероглифов CJK E
- Расширение унифицированных иероглифов CJK F
Смотрите также
- Управляющие символы Unicode
- Вариант китайского иероглифа
- Список типографских функций
Рекомендации
- ^ a b c «UCD: стандартизированные последовательности вариаций» . Консорциум Unicode.
- ^ а б «База данных идеографических вариаций» . Консорциум Unicode.
- ^ а б "UTS # 37, База данных идеографических вариаций Unicode" . Консорциум Unicode.
- ^ «Теги языковой системы» . Microsoft.