Индекс Фаулкса – Маллоуз - это внешний метод оценки, который используется для определения сходства между двумя кластерами (кластеры, полученные после алгоритма кластеризации ), а также метрика для измерения матриц путаницы . [1] Эта мера сходства может быть либо между двумя иерархическими кластерами, либо кластеризацией и эталонной классификацией. Более высокое значение индекса Фаулкса – Маллоуз указывает на большее сходство между кластерами и эталонными классификациями.
Предварительные мероприятия
Индекс Фаулкса – Маллоуса , когда результаты двух алгоритмов кластеризации используются для оценки результатов, определяется как [2]
где это количество истинных положительных результатов ,- количество ложных срабатываний , аколичество ложноотрицательных результатов .является истинно положительным показателем , также называемым чувствительностью или отзывом , и- положительный прогнозируемый коэффициент , также известный как точность .
Минимально возможное значение индекса Фаулкса – Маллоуса равно 0, что соответствует наихудшей возможной двоичной классификации, когда все элементы были классифицированы неправильно. И максимально возможное значение индекса Фаулкса – Маллоуса равно 1, что соответствует наилучшей возможной двоичной классификации, при которой все элементы были идеально классифицированы.
Определение
Рассмотрим две иерархические кластеры помеченные объекты а также . Деревья а также можно разрезать для производства кластеры для каждого дерева (путем выбора кластеров на определенной высоте дерева или установки различной степени иерархической кластеризации). Для каждого значения, затем можно создать следующую таблицу
где есть объекты, общие между й кластер а также й кластер . Индекс Фаулкса – Маллоуса для конкретного значения тогда определяется как
где
затем можно рассчитать для каждого значения и сходство между двумя кластерами можно показать, построив график против . Для каждого у нас есть .
Индекс Фаулкса – Маллоуз также может быть определен на основе количества точек, которые являются общими или необычными в двух иерархических кластерах. Если мы определим
- как количество пар точек, которые присутствуют в одном кластере в обоих а также .
- как количество пар точек, которые присутствуют в одном кластере в но не в .
- как количество пар точек, которые присутствуют в одном кластере в но не в .
- как количество пар точек, которые находятся в разных кластерах в обоих а также .
Можно показать, что четыре отсчета обладают следующим свойством
и что индекс Фаулкса – Мэллоуса для двух кластеров можно определить как [3]
- где это количество истинных положительных результатов , - количество ложных срабатываний , а количество ложноотрицательных результатов .
- является истинно положительным показателем , также называемым чувствительностью или отзывом , и - положительный прогнозируемый коэффициент , также известный как точность .
- Индекс Fowlkes-Mallows является средним геометрическим из точности и отзыва . [4]
Обсуждение
Поскольку индекс прямо пропорционален количеству истинно положительных результатов, более высокий индекс означает большее сходство между двумя кластерами, используемыми для определения индекса. Один из основных способов проверить достоверность этого индекса - сравнить две не связанные друг с другом кластеризации. Фаулкс и Мэллоуз показали, что при использовании двух несвязанных кластеров значение этого индекса приближается к нулю по мере увеличения общего количества точек данных, выбранных для кластеризации; тогда как значение индекса Rand для тех же данных быстро приближается[1] делает индекс Фаулкса – Маллоуса гораздо более точным представлением несвязанных данных. Этот индекс также хорошо работает, если к существующему набору данных добавляется шум и сравнивается их сходство. Фаулкс и Мэллоуз показали, что значение индекса уменьшается с увеличением составляющей шума. Индекс также показал сходство, даже когда зашумленный набор данных имел другое количество кластеров, чем кластеры исходного набора данных. Это делает его надежным инструментом для измерения сходства между двумя кластерами.
дальнейшее чтение
- Фаулкс, Эдвард Б. Мальвы, Колин Л. (1983). «Метод сравнения двух иерархических кластеров» . Журнал Американской статистической ассоциации . 78 (383): 553–569. DOI : 10.1080 / 01621459.1983.10478008 .
Смотрите также
Рекомендации
- ^ а б Fowlkes, EB; Mallows, CL (1 сентября 1983 г.). «Метод сравнения двух иерархических кластеров». Журнал Американской статистической ассоциации . 78 (383): 553. DOI : 10,2307 / 2288117 .
- ^ Халкиди, Мария; Батистакис, Яннис; Вазиргианнис, Михалис (1 января 2001 г.). «О методах проверки кластеризации». Журнал интеллектуальных информационных систем . 17 (2/3): 107–145. DOI : 10,1023 / A: 1012801612483 .
- ^ МЕЙЛА, М. (1 мая 2007 г.). «Сравнение кластеризации - расстояние, основанное на информации» . Журнал многомерного анализа . 98 (5): 873–895. DOI : 10.1016 / j.jmva.2006.11.013 .
- ^ Тарват А. (август 2018 г.). «Классификационные методы оценки» . Прикладные вычисления и информатика . DOI : 10.1016 / j.aci.2018.08.003 .