Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Кириллица Y в сочетании с breve дает ў .

В цифровой типографии , объединяющие символы являются символами , которые предназначены для изменения других символов. Чаще всего в латинском шрифте сочетаются комбинированные символы - это комбинированные диакритические знаки (включая комбинированные акценты ).

Юникод также содержит множество предварительно составленных символов , так что во многих случаях можно использовать как комбинированные диакритические знаки, так и предварительно составленные символы по выбору пользователя или приложения. Это приводит к требованию выполнить нормализацию Unicode перед сравнением двух строк Unicode и тщательно спроектировать конвертеры кодирования, чтобы правильно сопоставить все допустимые способы представления символа в Unicode с устаревшей кодировкой, чтобы избежать потери данных. [1]

В Юникоде основным блоком сочетания диакритических знаков для европейских языков и международного фонетического алфавита является U + 0300 – U + 036F. Комбинированные диакритические знаки также присутствуют во многих других блоках символов Unicode. В Юникоде диакритические знаки всегда добавляются после главного символа (в отличие от некоторых старых наборов комбинированных символов, таких как ANSEL ), и к одному и тому же символу можно добавить несколько диакритических знаков, включая сложенные диакритические знаки сверху и снизу, хотя некоторые системы могут не сделать их хорошо.

Диапазоны Unicode [ править ]

Следующие блоки предназначены специально для комбинирования символов:

  • Объединение диакритических знаков (0300–036F), начиная с версии 1.0, с изменениями в последующих версиях до 4.1.
  • Расширенное объединение диакритических знаков (1AB0–1AFF), версия 7.0
  • Дополнение по комбинированным диакритическим знакам (1DC0–1DFF), версии с 4.1 по 5.2
  • Объединение диакритических знаков для символов (20D0–20FF), начиная с версии 1.0, с изменениями в последующих версиях до 5.1
  • Комбинированные полуметки (FE20 – FE2F), версии 1.0, с модификациями в последующих версиях до 8.0

Комбинирование символов не ограничивается этими блоками; например, объединение дакутэна (U + 3099) и объединение хандакутэно (U + 309A) находятся в блоке Хираганов , то Деванагари блок содержит сочетание гласных знаков и другие знаки для использования с этим сценарием, и так далее. Комбинированным символам присваивается основная категория Юникода «M» («Метка»).

Кодовые точки U + 032A и U + 0346–034A являются символами IPA :

  • U + 032A  ◌̪ : стоматологический
  • U + 0346  ◌͆ : dentolabial
  • U + 0347  ◌͇ : альвеолярный
  • U + 0348  ◌͈ : сильная артикуляция
  • U + 0349  ◌͉ : слабая артикуляция
  • U +  034A ◌͊ : денасал

Кодовые точки U + 034B – 034E являются диакритическими знаками IPA для расстройства речи :

  • U + 034B  ◌͋ : побег из носа
  • U + 034C ◌͌ : небно-  глоточное трение
  • U + 034D  ◌͍ : губное распространение
  • U + 034E  ◌͎ : свистящая артикуляция

U + 034F является « объединяющим графемным соединителем » (CGJ) и не имеет видимого глифа.

Кодовые точки U + 035C – 0362 - это двойные диакритические знаки , диакритические знаки, расположенные между двумя буквами.

Кодовые точки U + 0363–036F - это средневековые диакритические знаки надстрочных букв, буквы, написанные непосредственно над другими буквами, появляющиеся в средневековых германских рукописях, но в некоторых случаях использовавшиеся вплоть до XIX века. Например, U + 0364 является е написано выше предыдущего письма, которые будут использоваться для ( раннего ) New High немецкой умляут обозначения, такие как ˙U для современного немецкого Ростовэлектросвязь .

OpenType [ править ]

OpenType имеет ccmp «тег функции» для определения глифов, которые представляют собой композиции или декомпозиции, включающие комбинирование символов, тег mark для определения расположения комбинируемых символов на базовом глифе и mkmk для позиционирования комбинируемых символов друг на друга.

Текст Zalgo [ править ]

Текст Zalgo.

Комбинирование символов использовалось для создания так называемого « текста Zalgo », который представляет собой текст, который кажется «поврежденным» или «жутким» из-за чрезмерного использования диакритических знаков. Это заставляет текст вытягиваться вертикально, перекрывая другой текст. [2]

См. Также [ править ]

  • Пунктирный круг
  • Мертвый ключ
  • Буквы модификатора интервала, которые не следует комбинировать (хотя они ошибочно используются в некоторых реализациях, где разработчик перепутал «комбинирование» с «модификатором»)

Примечания [ править ]

  1. ^ Например, при преобразовании между окнами-1258 и VISCII в первом используется объединение диакритических знаков, в то время как во втором имеется большой выбор предварительно составленных символов, поэтому преобразователь, использующий простое сопоставление между кодовыми значениями и кодовыми точками Unicode, будет повреждать текст при преобразовании между ними.
  2. ^ Корпела, Юкка К. "Как работает текст Zalgo?" . Переполнение стека . Проверено 11 апреля 2019 года .

Внешние ссылки [ править ]

  • Комбинированная диаграмма диакритических знаков (в формате Adobe PDF )
  • Таблица дополнений для комбинирования диакритических знаков (в формате Adobe PDF )
  • Комбинированные отметки на тестовой странице, обращенные к комбинированным и заранее составленным буквам
  • Ресурсы Юникода Алана Вуда
  • DecodeUnicode.org справочник по объединению диакритических знаков