Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Кириллица Y в сочетании с breve дает ў .

В цифровой типографии , объединяющие символы являются символами , которые предназначены для изменения других символов. Чаще всего в латинском алфавите комбинируются комбинированные знаки - это комбинированные диакритические знаки (включая комбинированные акценты ).

Юникод также содержит множество предварительно составленных символов , поэтому во многих случаях можно использовать как комбинированные диакритические знаки, так и предварительно составленные символы по выбору пользователя или приложения. Это приводит к требованию выполнить нормализацию Unicode перед сравнением двух строк Unicode и тщательно спроектировать преобразователи кодирования, чтобы правильно сопоставить все допустимые способы представления символа в Unicode с устаревшей кодировкой, чтобы избежать потери данных. [1]

В Юникоде основным блоком сочетания диакритических знаков для европейских языков и международного фонетического алфавита является U + 0300 – U + 036F. Комбинированные диакритические знаки также присутствуют во многих других блоках символов Unicode. В Юникоде диакритические знаки всегда добавляются после главного символа (в отличие от некоторых более старых наборов комбинированных символов, таких как ANSEL ), и к одному и тому же символу можно добавить несколько диакритических знаков, включая сложенные диакритические знаки сверху и снизу, хотя некоторые системы могут не сделать их хорошо.

Диапазоны Unicode [ править ]

Следующие блоки предназначены специально для комбинирования символов:

  • Объединение диакритических знаков (0300–036F), начиная с версии 1.0, с изменениями в последующих версиях до 4.1.
  • Расширенное объединение диакритических знаков (1AB0–1AFF), версия 7.0
  • Дополнение по комбинированным диакритическим знакам (1DC0–1DFF), версии с 4.1 по 5.2
  • Объединение диакритических знаков для символов (20D0–20FF), начиная с версии 1.0, с изменениями в последующих версиях до 5.1
  • Комбинированные Half Marks (FE20 – FE2F), версии 1.0, с модификациями в последующих версиях до 8.0.

Комбинирование символов не ограничивается этими блоками; например, объединение дакутэна (U + 3099) и объединение хандакутэно (U + 309A) находятся в блоке Хираганов , то Деванагари блок содержит сочетание гласных знаков и другие знаки для использования с этим сценарием, и так далее. Комбинированным символам присваивается основная категория Юникода «M» («Метка»).

Кодовые точки U + 032A и U + 0346–034A являются символами IPA :

  • U + 032A  ◌̪ : стоматологический
  • U + 0346  ◌͆ : dentolabial
  • U + 0347  ◌͇ : альвеолярный
  • U + 0348  ◌͈ : сильная артикуляция
  • U + 0349  ◌͉ : слабая артикуляция
  • U +  034A ◌͊ : денасал

Кодовые точки U + 034B – 034E являются диакритическими знаками IPA для расстройства речи :

  • U + 034B  ◌͋ : побег из носа
  • U + 034C ◌͌ : небно-  глоточное трение
  • U + 034D  ◌͍ : губное распространение
  • U + 034E  ◌͎ : свистящая артикуляция

U + 034F является « объединяющим графемным соединителем » (CGJ) и не имеет видимого глифа.

Кодовые точки U + 035C – 0362 - это двойные диакритические знаки , диакритические знаки, расположенные между двумя буквами.

Codepoints U+0363–036F are medieval superscript letter diacritics, letters written directly above other letters appearing in medieval Germanic manuscripts, but in some instances in use until as late as the 19th century. For example, U+0364 is an e written above the preceding letter, to be used for (Early) New High German umlaut notation, such as for Modern German ü.

OpenType[edit]

OpenType has the ccmp "feature tag" to define glyphs that are compositions or decompositions involving combining characters, the mark tag to define the positioning of combining characters onto base glyph, and mkmk for the positionings of combining characters onto each other.

Zalgo text[edit]

Zalgo text.

Combining characters have been used to create Zalgo text, which is text that appears "corrupted" or "creepy" due to an overuse of diacritics. This causes the text to extend vertically, overlapping other text.[2]

See also[edit]

  • Dotted circle
  • Dead key
  • Spacing Modifier Letters which shouldn't combine (although they do erroneously on some implementations where a developer has confused "combining" with "modifier")

Notes[edit]

  1. ^ For example, when converting between windows-1258 and VISCII, the former uses combining diacritics whilst the latter has a large selection of precomposed characters so a converter using a simple mapping between code values and Unicode code points will corrupt text when converting between them.
  2. ^ Korpela, Jukka K. "How does Zalgo text work?". Stack Overflow. Retrieved 11 April 2019.

External links[edit]

  • Combining diacritics chart (in Adobe PDF format)
  • Combining diacritics supplement chart (in Adobe PDF format)
  • Combining marks test page facing combined and precomposed letters
  • Alan Wood’s Unicode Resources
  • DecodeUnicode.org combining diacritical marks reference