Объединение объединяющих графем (CGJ), U + 034F ͏ Объединение объединяющих графем (HTML ͏
) - это символ Unicode, который не имеет видимого глифа и "по умолчанию игнорируется" приложениями. Его имя неверно и не описывает его функцию: персонаж не присоединяется к графемам. [1] Его цель - семантически разделить символы, которые не следует рассматривать как орграфы, а также заблокировать каноническое переупорядочение комбинируемых знаков во время нормализации .
Например, в контексте венгерского языка соседние буквы c и s обычно считаются эквивалентными орграфу cs . Если они разделены CGJ, они будут рассматриваться как две отдельные графемы. Однако, в отличие от соединителя нулевой ширины и аналогичных символов, CGJ не влияет на то, отображаются ли две буквы отдельно, как лигатура или курсивно соединены - поведение по умолчанию для этого определяется шрифтом. [2]
CGJ также необходим для сложных сценариев . Например, в большинстве случаев предполагается, что еврейский кантилляционный акцент metheg появляется слева от точки гласной, и по умолчанию большинство систем отображения будут отображать его таким образом, даже если он напечатан перед гласной. Но в некоторых словах на библейском иврите метег появляется справа от гласной, и для того, чтобы средство отображения отображало его правильно, нужно ввести CGJ между метегом и гласной. Сравнивать:
Эта таблица содержит кантилляцию на иврите , требующую шрифта ( рекомендуется Ezra SIL SR ), браузера и / или операционной системы, которые должным образом поддерживают отображение кантилляции на иврите. Без надлежащей поддержки рендеринга вы можете увидеть вопросительные знаки, квадраты или другие символы . |
он | ה |
патха (гласная) | ַ |
метег | ֽ |
он + патх + метег | הַֽ |
он + метег + патах | הַֽ |
он + метег + CGJ + pathah | הֽ͏ַ |
В случае нескольких последовательных комбинированных диакритических знаков промежуточный CGJ указывает, что они не должны подвергаться каноническому изменению порядка. [2]
Напротив, « не соединяющийся с нулевой шириной » в U + 200C в диапазоне общих знаков пунктуации , который предотвращает превращение двух соседних символов в лигатуру.
Ссылки [ править ]
- ^ «UTN # 27: Известные аномалии в именах символов Unicode» .
- ^ a b «Стандартная версия Unicode 6.0 - основная спецификация» (PDF) . www.unicode.org . Проверено 16 апреля 2020 .