Индекс Фаулкса – Маллоуса

Индекс Фаулкса – Маллоуз - это внешний метод оценки, который используется для определения сходства между двумя кластерами (кластеры, полученные после алгоритма кластеризации ), а также метрика для измерения матриц путаницы . ^[1] Эта мера сходства может быть либо между двумя иерархическими кластерами, либо кластеризацией и эталонной классификацией. Более высокое значение индекса Фаулкса – Маллоуз указывает на большее сходство между кластерами и эталонными классификациями.

Предварительные мероприятия

Индекс Фаулкса – Маллоуса , когда результаты двух алгоритмов кластеризации используются для оценки результатов, определяется как ^[2]

{\ displaystyle FM = {\ sqrt {PPV \ cdot TPR}} = {\ sqrt {{\ frac {TP} {TP + FP}} \ cdot {\ frac {TP} {TP + FN}}}}}

где ${\ displaystyle TP}$ это количество истинных положительных результатов , ${\ displaystyle FP}$ - количество ложных срабатываний , а ${\ displaystyle FN}$ количество ложноотрицательных результатов . ${\ displaystyle TPR}$ является истинно положительным показателем , также называемым чувствительностью или отзывом , и ${\ displaystyle PPV}$ - положительный прогнозируемый коэффициент , также известный как точность .

Минимально возможное значение индекса Фаулкса – Маллоуса равно 0, что соответствует наихудшей возможной двоичной классификации, когда все элементы были классифицированы неправильно. И максимально возможное значение индекса Фаулкса – Маллоуса равно 1, что соответствует наилучшей возможной двоичной классификации, при которой все элементы были идеально классифицированы.

Определение

Рассмотрим две иерархические кластеры ${\ displaystyle n}$ помеченные объекты ${\ displaystyle A_ {1}}$ а также ${\ displaystyle A_ {2}}$ . Деревья ${\ displaystyle A_ {1}}$ а также ${\ displaystyle A_ {2}}$ можно разрезать для производства ${\ Displaystyle к = 2, \ ldots, п-1}$ кластеры для каждого дерева (путем выбора кластеров на определенной высоте дерева или установки различной степени иерархической кластеризации). Для каждого значения ${\ displaystyle k}$ , затем можно создать следующую таблицу

{\ displaystyle M = [m_ {i, j}] \ qquad (i = 1, \ ldots, k {\ text {и}} j = 1, \ ldots, k)}

где ${\ displaystyle m_ {i, j}}$ есть объекты, общие между ${\ displaystyle i}$ й кластер ${\ displaystyle A_ {1}}$ а также ${\ displaystyle j}$ й кластер ${\ displaystyle A_ {2}}$ . Индекс Фаулкса – Маллоуса для конкретного значения ${\ displaystyle k}$ тогда определяется как

{\ displaystyle B_ {k} = {\ frac {T_ {k}} {\ sqrt {P_ {k} Q_ {k}}}}}

где

{\ displaystyle T_ {k} = \ sum _ {i = 1} ^ {k} \ sum _ {j = 1} ^ {k} m_ {i, j} ^ {2} -n}

{\ displaystyle P_ {k} = \ sum _ {я = 1} ^ {k} (\ sum _ {j = 1} ^ {k} m_ {i, j}) ^ {2} -n}

{\ displaystyle Q_ {k} = \ sum _ {j = 1} ^ {k} (\ sum _ {i = 1} ^ {k} m_ {i, j}) ^ {2} -n}

${\ displaystyle B_ {k}}$ затем можно рассчитать для каждого значения ${\ displaystyle k}$ и сходство между двумя кластерами можно показать, построив график ${\ displaystyle B_ {k}}$ против ${\ displaystyle k}$ . Для каждого ${\ displaystyle k}$ у нас есть ${\ displaystyle 0 \ leq B_ {k} \ leq 1}$ .

Индекс Фаулкса – Маллоуз также может быть определен на основе количества точек, которые являются общими или необычными в двух иерархических кластерах. Если мы определим

{\ displaystyle TP}

как количество пар точек, которые присутствуют в одном кластере в обоих

{\ displaystyle A_ {1}}

а также

{\ displaystyle A_ {2}}

.

{\ displaystyle FP}

как количество пар точек, которые присутствуют в одном кластере в

{\ displaystyle A_ {1}}

но не в

{\ displaystyle A_ {2}}

.

{\ displaystyle FN}

как количество пар точек, которые присутствуют в одном кластере в

{\ displaystyle A_ {2}}

но не в

{\ displaystyle A_ {1}}

.

{\ displaystyle TN}

как количество пар точек, которые находятся в разных кластерах в обоих

{\ displaystyle A_ {1}}

а также

{\ displaystyle A_ {2}}

.

Можно показать, что четыре отсчета обладают следующим свойством

{\ Displaystyle TP + FP + FN + TN = n (n-1) / 2}

и что индекс Фаулкса – Мэллоуса для двух кластеров можно определить как ^[3]

{\ displaystyle FM = {\ sqrt {PPV \ cdot TPR}} = {\ sqrt {{\ frac {TP} {TP + FP}} \ cdot {\ frac {TP} {TP + FN}}}}}

где

{\ displaystyle TP}

это количество истинных положительных результатов ,

{\ displaystyle FP}

- количество ложных срабатываний , а

{\ displaystyle FN}

количество ложноотрицательных результатов .

{\ displaystyle TPR}

является истинно положительным показателем , также называемым чувствительностью или отзывом , и

{\ displaystyle PPV}

- положительный прогнозируемый коэффициент , также известный как точность .

Индекс Fowlkes-Mallows является средним геометрическим из точности и отзыва . ^[4]

Обсуждение

Поскольку индекс прямо пропорционален количеству истинно положительных результатов, более высокий индекс означает большее сходство между двумя кластерами, используемыми для определения индекса. Один из основных способов проверить достоверность этого индекса - сравнить две не связанные друг с другом кластеризации. Фаулкс и Мэллоуз показали, что при использовании двух несвязанных кластеров значение этого индекса приближается к нулю по мере увеличения общего количества точек данных, выбранных для кластеризации; тогда как значение индекса Rand для тех же данных быстро приближается ${\ displaystyle 1}$ ^[1] делает индекс Фаулкса – Маллоуса гораздо более точным представлением несвязанных данных. Этот индекс также хорошо работает, если к существующему набору данных добавляется шум и сравнивается их сходство. Фаулкс и Мэллоуз показали, что значение индекса уменьшается с увеличением составляющей шума. Индекс также показал сходство, даже когда зашумленный набор данных имел другое количество кластеров, чем кластеры исходного набора данных. Это делает его надежным инструментом для измерения сходства между двумя кластерами.

дальнейшее чтение

Фаулкс, Эдвард Б. Мальвы, Колин Л. (1983). «Метод сравнения двух иерархических кластеров» . Журнал Американской статистической ассоциации . 78 (383): 553–569. DOI : 10.1080 / 01621459.1983.10478008 .

Смотрите также

Внешние ссылки

Реализация индекса Fowlkes-мальвы в R .

[fowlkes1983method-1] а ^б Fowlkes, EB; Mallows, CL (1 сентября 1983 г.). «Метод сравнения двух иерархических кластеров». Журнал Американской статистической ассоциации . 78 (383): 553. DOI : 10,2307 / 2288117 .

[2] Халкиди, Мария; Батистакис, Яннис; Вазиргианнис, Михалис (1 января 2001 г.). «О методах проверки кластеризации». Журнал интеллектуальных информационных систем . 17 (2/3): 107–145. DOI : 10,1023 / A: 1012801612483 .

[3] МЕЙЛА, М. (1 мая 2007 г.). «Сравнение кластеризации - расстояние, основанное на информации» . Журнал многомерного анализа . 98 (5): 873–895. DOI : 10.1016 / j.jmva.2006.11.013 .

[4] Тарват А. (август 2018 г.). «Классификационные методы оценки» . Прикладные вычисления и информатика . DOI : 10.1016 / j.aci.2018.08.003 .

[1]