В математике и информатике , струна метрика (также известная как струна подобие метрическая или строке функция расстояния ) является метрикой , что меры расстояние ( «обратное подобие») между двумя текстовыми строками для приблизительного совпадения строк или сравнений и нечеткого поиск строки . Требование для метрики строки (например, в отличие от сопоставления строк ) - выполнение неравенства треугольника . Например, строки «Сэм» и «Самуэль» можно считать близкими. [1] Строковая метрика представляет собой число, указывающее расстояние, зависящее от алгоритма.
Наиболее широко известная строковая метрика - это элементарная метрика, называемая расстоянием Левенштейна (также известное как расстояние редактирования). [2] Он работает между двумя входными строками, возвращая число, эквивалентное количеству замен и удалений, необходимых для преобразования одной входной строки в другую. Упрощенные метрики , такие как строковые расстояния Левенштейна расширились , чтобы включать в себя фонетические, лексем , грамматические и символьные методы , основанные на статистических сравнений.
Строковые метрики широко используются при интеграции информации и в настоящее время используются в таких областях, как обнаружение мошенничества , анализ отпечатков пальцев , обнаружение плагиата , объединение онтологий , анализ ДНК, анализ РНК, анализ изображений , доказательное машинное обучение , дедупликация данных базы данных , интеллектуальный анализ данных , инкрементный поиск , интеграция данных , обнаружение вредоносных программ [3] и интеграция семантических знаний .
Список строковых показателей [ править ]
- Расстояние Левенштейна или его обобщение edit distance
- Расстояние Дамерау – Левенштейна
- Коэффициент Соренсена – Дайса
- Расстояние блока или расстояние L1 или расстояние городского квартала
- Расстояние Хэмминга
- Расстояние Яро – Винклера
- Коэффициент простого согласования (SMC)
- Сходство Жаккара или коэффициент Жаккара или коэффициент Танимото
- Индекс Тверски
- Коэффициент перекрытия
- Вариационное расстояние
- Расстояние Хеллингера или расстояние Бхаттачарьи
- Информационный радиус ( расхождение Дженсена – Шеннона )
- Косая дивергенция
- Вероятность путаницы
- Тау-метрика , приближение расходимости Кульбака – Лейблера.
- Метрика Феллеги и Сантерса (SFS)
- Максимальные совпадения
- Расстояние на основе грамматики
- Показатель расстояния TFIDF [4]
Примеры выбранных строковых мер [ править ]
Имя | Пример |
---|---|
Расстояние Хэмминга | « Ка рол в » и « ка Чет в » является 3. |
Расстояние Левенштейна и Damerau-расстояние Левенштейна | k itt e n и s itt i n g имеют расстояние 3.
|
Расстояние Яро – Винклера | JaroWinklerDist («МАРТА», «МАРХТА») =
|
Наиболее часто встречающиеся символы k | MostFreqKeySimilarity (' r e s e a r ch', 's ee king', 2) = 2 |
Ссылки [ править ]
- ^ Лу, Цзяхэн; и другие. (2013). «Сходство строк измеряет и объединяется с синонимами» . Материалы Международной конференции по управлению данными ACM SIGMOD 2013 : 373–384. DOI : 10.1145 / 2463676.2465313 . ISBN 9781450320375.
- Перейти ↑ Navarro, Gonzalo (2001). «Экскурсия по приблизительному сопоставлению строк». ACM Computing Surveys . 33 (1): 31–88. DOI : 10.1145 / 375360.375365 . ЛВП : 10533/172862 .
- ^ Шломи Долев ; Мохаммад, Ганаим; Александр, Бинун; Сергей, Френкель; Йили, С. Сан (2017). «Взаимосвязь Жаккара и расстояния редактирования в кластеризации вредоносных программ и онлайн-идентификации». 16-й Международный симпозиум IEEE по сетевым вычислениям и приложениям : 369–373.
- ^ Коэн, Уильям; Равикумар, Прадип; Финберг, Стивен (2003-08-01). «Сравнение метрик расстояния строк для задач сопоставления имен» : 73–78. Cite journal requires
|journal=
(help)
Внешние ссылки [ править ]
- https://web.archive.org/web/20070304092115/http://www.dcs.shef.ac.uk/~sam/stringmetrics.html#qgram Достаточно полный обзор Индекс архива на Wayback Machine
- Библиотека с открытым исходным кодом Университета Карнеги-Меллона
- StringMetric проекта в Scala библиотеку строковых метрик и фонетических алгоритмов
- Natural project - библиотека обработки естественного языка JavaScript, которая включает в себя реализации популярных строковых показателей.