Из Википедии, свободной энциклопедии
Перейти к навигации Перейти к поиску

Кельнская фонетика (также Kölner Phonetik, Кельнский процесс) - это фонетический алгоритм, который присваивает словам последовательность цифр, фонетический код. Цель этой процедуры - присвоить одинаково звучащим словам один и тот же код. Алгоритм может использоваться для поиска сходства между словами. Например, в списке имен можно найти такие записи, как «Meier», с разными написаниями, такими как «Maier», «Mayer» или «Mayr». Фонетика Кельна связана с хорошо известным фонетическим алгоритмом Soundex , но оптимизирована для соответствия немецкому языку. Алгоритм был опубликован в 1969 году Хансом Иоахимом Постелем.

Метод [ править ]

Кельнская фонетика сопоставляет каждую букву слова с цифрой от «0» до «8». Чтобы выбрать соответствующую цифру, в качестве контекста используется не более одной соседней буквы. Некоторые правила применяются конкретно к инициалам слов. Таким образом, подобным звукам должен быть присвоен один и тот же код. Например, буквы «W» и «V» кодируются числом «3». Фонетический код «Википедии» - «3412» (W = 3, K = 4, P = 1 и D = 2). В отличие от кода Soundex, длина кодов кёльнского метода фонетики не ограничена.

Процедура [ править ]

То, что для буквы «C» правило «SC» имеет приоритет над правилом «CH», было учтено добавлением «кроме после S, Z» в строке 10 таблицы. Это не упоминается явно в исходной публикации, но может быть выведено из примеров, перечисленных там, например, для «Breschnew» указан код «17863».

Строчные буквы кодируются соответствующим образом; все остальные символы (например, дефисы) игнорируются. Для умляутов Ä, Ö, Ü, а также ß, которые не учитываются в таблице преобразования, предлагается сопоставить их с гласными (код "0"), соответствующими группе S, Z (код " 8 дюймов).

Обработка слова выполняется в три этапа:

  1. Кодируйте букву за буквой слева направо в соответствии с таблицей преобразования.
  2. Удалите все цифры, встречающиеся более одного раза рядом друг с другом.
  3. Удалите весь код «0», кроме начала.

Пример [ править ]

Название Müller-Lüdenscheidt будет закодировано следующим образом:

  1. Кодируйте каждую букву: 60550750206880022
  2. Свернуть все несколько последовательных цифр кода: 6050750206802
  3. Удалите все цифры "0": 65752682

Литература [ править ]

Ганс Иоахим Постель: Die Kölner Phonetik. Ein Verfahren zur Identifizierung von Personennamen auf der Grundlage der Gestaltanalyse. в: IBM-Nachrichten, 19. Jahrgang, 1969, S. 925-931.

См. Также [ править ]

Внешние ссылки [ править ]