Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Наложены гомоглифы латинской строчной буквы A (Unicode 0061) и кириллической строчной буквы A (Unicode 0430). Оба символа установлены в Helvetica LT Std.

В орфографии и типографике , омоглиф является одним из двух или более графем , символов или знаков с формами , которые кажутся одинаковыми или очень похожими. Обозначение также применяется к последовательностям символов, обладающих этими свойствами.

Синоглифы - это глифы, которые выглядят по-разному, но означают одно и то же. Синоглифы также неофициально известны как варианты отображения . Термин омограф иногда используется как синоним гомоглифа, но в обычном лингвистическом смысле омографы - это слова , которые пишутся одинаково, но имеют разные значения, свойство слов, а не символов.

В 2008 году Консорциум Unicode опубликовал свой Технический отчет № 36 [1] по ряду вопросов, связанных с визуальным сходством символов как в отдельных сценариях, так и схожестью между символами в разных сценариях.

Пример гомоглифической путаницы в историческом отношении является результатом использования буквы «y» для обозначения «þ» при установке старых английских текстов в гарнитуры, которые не содержат последний символ. В наше время это привело к такому феномену, как Ye olde shoppe , неверно подразумевая, что слово the раньше было написано ye / j / . Для дальнейшего обсуждения см. Шип .

Примерами гомоглифических символов являются (а) диэрезис и умляут (обе пары точек, но с разным значением, хотя и закодированы одними и теми же кодовыми точками ); и (b) дефис и знак минус (оба являются коротким горизонтальным штрихом, но имеют разное значение, хотя часто кодируются одним и тем же кодом ). Среди цифр и букв цифра 1 и строчная l всегда кодируются отдельно, но во многих шрифтах используются очень похожие глифы, а цифра 0 и заглавная O всегда кодируются отдельно, но во многих случаях.шрифты имеют очень похожие глифы. Практически каждый пример гомоглифической пары символов потенциально можно дифференцировать графически с помощью четко различимых глифов и отдельных кодовых точек, но это не всегда делается. Гарнитуры , в которых явно не различаются гомоглифы one / el и zero / oh, считаются непригодными для написания формул , URL-адресов , исходного кода , идентификаторов и другого текста, где символы не всегда можно различить без контекста . Для таких целей предпочтительны шрифты, которые различают глифы с помощью нулевой косой черты .

Умлаут и диарезис [ править ]

Во времена механических пишущих машинок они набирались с помощью одной и той же клавиши, которая также использовалась для двойной кавычки. Однако умляут возник именно как пара коротких вертикальных линий (а не из двух точек) (см. Саттерлин ). Между прочим, две точки над буквой E на албанском языке описываются как диарезис, но не выполняют функции диарезиса.[2]

0 и О; 1, я и я [ править ]

Два общих и важных набора гомоглифов, используемых сегодня, - это цифра ноль и заглавная буква O (то есть 0 и O); и цифра один, строчная буква L и прописная i (то есть 1, l и I). На заре механических пишущих машинок между этими символами было очень мало или совсем не было визуальных различий, и машинистки относились к ним как к сочетаниям клавиш. Фактически, на большинстве клавиатур даже не было клавиши для цифры «1», что требовало от пользователей ввода вместо этого буквы «l», а некоторые также пропускали 0. Поскольку эти же машинистки в 1970-х и 1980-х годах стали операторами компьютерной клавиатуры. , их старые привычки к игре на клавиатуре сохранились с ними и время от времени вызывали путаницу.

Большинство современных шрифтовых дизайнов тщательно различают эти гомоглифы, обычно сужая нулевую цифру и рисуя цифру один с заметными засечками . Ранние компьютерные распечатки пошли еще дальше и отметили ноль косой чертой или точкой; что привело к новому конфликту с участием скандинавской буквы « Ø » и греческой буквы Φ ( фи ). Изменение типов персонажей для различения этих персонажей привело к меньшей путанице. Степень, в которой два разных персонажа кажутся одинаковыми для данного наблюдателя, называется «визуальным сходством». [3]

Многобуквенные гомоглифы [ править ]

St EFAN Szczotkowski выглядит как А effan Szczotkowski на надгробии

Некоторые другие комбинации букв выглядят похожими, например, rn выглядит похоже на m , cl похоже на d , а vv похоже на w .

В некоторых шрифтах с узким интервалом (например, Tahoma ) размещение буквы c рядом с такой буквой, как j, l или i, создаст гомоглиф, например cj cl ci (gda).

Когда некоторые персонажи помещаются рядом друг с другом, и их можно сразу увидеть вместе, они создают визуальное впечатление другого, не связанного с ними персонажа. Точнее сказать, что некоторые типографские лигатуры могут быть похожи на отдельные глифы. Например, фи лигатуры ( фи ) может выглядеть примерно так А в некоторых шрифтах или шрифтов. Эта возможность путаницы иногда является аргументом против использования лигатур. [ необходима цитата ]

Гомоглифы Unicode [ править ]

Три самых известных европейских алфавита (греческий, кириллица и латиница) имеют много форм букв, которые закодированы в Unicode под разными кодовыми точками.

Unicode набор символов содержит много сильно homoglyphic символов, известных как «confusables». [1] Они представляют риски для безопасности в различных ситуациях (рассматривается в UTR № 36) [4] и недавно привлекли особое внимание в отношении интернационализированных доменных имен . Можно преднамеренно подделать доменное имя, заменив один символ его гомоглифом, создав таким образом второе доменное имя, трудно отличимое от первого, которое может быть использовано в фишинге ( см. Основную статью о атаке гомографа IDN ). Во многих шрифтах греческой буквы Α ', то кириллицабуква А и латиницабуква «А» визуально идентичны, как и латинская буква «а» и кириллическая буква «а» (то же самое можно применить к латинским буквам «aBeHKopcTxy» и кириллическим буквам «аВеНКорсТху»). Доменное имя можно подделать, просто заменив одну из этих форм на другую в отдельно зарегистрированном имени. Есть также много примеров почти гомоглифов в одном и том же письме, таких как 'í' (с острым ударением) и 'i', É (E-острый) и Ė (E-точка выше) и È (E-grave), Í (с острым ударением) и ĺ (L в нижнем регистре с острым ударением). При обсуждении этой конкретной проблемы безопасности любые две последовательности одинаковых символов могут быть оценены с точки зрения их способности восприниматься как «пара гомоглифов» или, если последовательности явно кажутся словами, как «псевдогомографы».(еще раз отмечая, что эти термины сами по себе могут вызвать путаницу в других контекстах). вКитайский язык , многие упрощенные китайские иероглифы являются гомоглифами соответствующих традиционных китайских иероглифов .

Реестры TLD и разработчики веб-браузеров прилагают усилия для минимизации рисков гомоглифической путаницы. Обычно это достигается путем запрета имен, в которых смешаны наборы символов из нескольких языков ( toys-Я-us.org с использованием кириллической буквы Я будет недействительным, но wíkipedia.org и wikipedia.org по- прежнему существуют как разные веб-сайты); Реестр .ca Канады идет еще дальше, требуя, чтобы имена, различающиеся только диакритическими знаками, имели одного владельца и одного и того же регистратора. [5] Обработка китайских иероглифов различается: в .org и .info.регистрация одного варианта делает другой недоступным для кого-либо, в то время как в .biz традиционная и упрощенная версии с одним и тем же именем поставляются в виде двухдоменного пакета, который указывает на один и тот же сервер доменных имен .

Соответствующую документацию можно найти как на веб-сайтах разработчиков, так и на форуме IDN [6], предоставленном ICANN .

Канонизация [ править ]

Гомоглифы всех видов можно обнаружить с помощью процесса, называемого «двойной канонизацией». [3] Первым шагом в этом процессе является определение наборов гомоглифов, а именно символов, которые кажутся одинаковыми для данного наблюдателя. Отсюда указывается один токен для представления набора гомоглифов. Этот знак называется каноном. Следующим шагом является преобразование каждого символа в тексте в соответствующий канон в процессе, называемом канонизацией. Если каноны двух отрывков текста одинаковы, но исходный текст отличается, то в тексте существует гомоглиф.

См. Также [ править ]

  • Повторяющиеся символы в Юникоде
  • Засечки

Ссылки [ править ]

  1. ^ a b «UTR # 36: Вопросы безопасности Unicode» . www.unicode.org .
  2. ^ Описывать их как гомоглифы сомнительно, поскольку, вероятно, нет языков, в которых глиф мог бы выполнять обе эти роли. Было бы так же правильно описать, скажем, серьезный акцент как гомоглиф, потому что он выполняет разные роли в разных языках.
  3. ^ a b Хелфрич, Джеймс; Нефф, Рик (2012). Двойная канонизация: ответ на атаку омографа . eCrime Исследователи Summit (eCrime), 2012. DOI : 10,1109 / eCrime.2012.6489517 .
  4. ^ "UTR # 36: Вопросы безопасности Unicode" . unicode.org .
  5. ^ "Архивная копия" . Архивировано из оригинала на 2013-03-28 . Проверено 29 марта 2013 .CS1 maint: заархивированная копия как заголовок ( ссылка )
  6. ^ «Архивы электронной почты ICANN: [idn-rules]» . forum.icann.org .

Внешние ссылки [ править ]

  • https://www.unicode.org/Public/security/latest/confusables.txt - рекомендованное неверное сопоставление для IDN.