Индекс Рэнда [1] или показатель Рэнда (названный в честь Уильяма М. Рэнда) в статистике и, в частности, в кластеризации данных , является мерой сходства между двумя кластерами данных . Может быть определена форма индекса Rand, скорректированная с учетом случайной группировки элементов, это скорректированный индекс Rand . С математической точки зрения индекс Rand связан с точностью , но применим, даже когда метки классов не используются.
Индекс Рэнда [ править ]
Определение [ править ]
Учитывая набор из элементов и двух разделов из для сравнения, , разбиение S в г подмножества, и , разбиение S в ы подмножества, определит следующее:
- , Число пар элементов , которые находятся в той же подгруппе в и в то же подмножество в
- , количество пар элементов в, которые находятся в разных подмножествах и в разных подмножествах в
- , количество пар элементов, которые находятся в одном подмножестве и в разных подмножествах в
- , количество пар элементов в, которые находятся в разных подмножествах и в одном подмножестве в
Интуитивно может рассматриваться как количество соглашений между и и как количество разногласий между и .
Поскольку знаменатель - это общее количество пар, индекс Rand представляет частоту возникновения соглашений по всем парам или вероятность того, что и придут к соглашению по случайно выбранной паре.
рассчитывается как .
Точно так же можно рассматривать индекс Rand как меру процента правильных решений, принятых алгоритмом. Его можно вычислить по следующей формуле:
- где - количество истинных положительных результатов, - количество истинных отрицательных результатов , - количество ложных срабатываний и - количество ложных отрицательных результатов .
Свойства [ править ]
Индекс Rand имеет значение от 0 до 1, где 0 указывает, что две кластеры данных не согласуются ни по одной паре точек, а 1 указывает, что кластеризация данных точно такая же.
С математической точки зрения, a, b, c, d определяются следующим образом:
- , куда
- , куда
- , куда
- , куда
для некоторых
Связь с точностью классификации [ править ]
Индекс Рэнда также можно рассматривать через призму точности двоичной классификации пар элементов в . Два класса метки « и находятся в той же подгруппе в и » и « и в различных подмножеств и ».
В этой настройке - это количество пар, правильно помеченных как принадлежащие к одному подмножеству ( истинные положительные результаты ), и количество пар, правильно помеченных как принадлежащие к разным подмножествам ( истинно отрицательные ).
Скорректированный индекс Рэнда [ править ]
Скорректированный индекс Rand - это скорректированная версия индекса Rand. [1] [2] [3] Такая поправка на случайность устанавливает базовый уровень, используя ожидаемое сходство всех парных сравнений между кластерами, заданными случайной моделью. Традиционно индекс Rand корректировался с использованием модели перестановки для кластеризации (количество и размер кластеров в кластере фиксированы, и все случайные кластеры генерируются путем перетасовки элементов между фиксированными кластерами). Однако предпосылки модели перестановки часто нарушаются; во многих сценариях кластеризации количество кластеров или их распределение по размеру сильно различаются. Например, рассмотрим, что в K-среднихколичество кластеров фиксируется практикующим специалистом, но размеры этих кластеров выводятся из данных. Вариации скорректированного индекса Rand учитывают разные модели случайных кластеров. [4]
Хотя индекс Rand может давать значение только от 0 до +1, скорректированный индекс Rand может давать отрицательные значения, если индекс меньше ожидаемого. [5]
Таблица непредвиденных обстоятельств [ править ]
Учитывая набор S из n элементов и две группировки или разделения ( например, кластеры) этих элементов, а именно и , перекрытие между X и Y может быть суммировано в таблице непредвиденных обстоятельств, где каждая запись обозначает количество общих объектов между и : .
Определение [ править ]
Исходный скорректированный индекс ранда с использованием модели перестановок:
где - значения из таблицы непредвиденных обстоятельств.
См. Также [ править ]
- Коэффициент простого соответствия
Ссылки [ править ]
- ^ a b c В. М. Рэнд (1971). «Объективные критерии оценки методов кластеризации». Журнал Американской статистической ассоциации . Американская статистическая ассоциация. 66 (336): 846–850. arXiv : 1704.01036 . DOI : 10.2307 / 2284239 . JSTOR 2284239 .
- ^ а б Лоуренс Хьюберт и Фиппс Араби (1985). «Сравнение перегородок». Журнал классификации . 2 (1): 193–218. DOI : 10.1007 / BF01908075 .
- ^ Нгуен Суан Винь, Жюльен Эппс и Джеймс Бейли (2009). "Теоретико-информационные меры для сравнения кластеризации: нужна ли поправка на случайность?" (PDF) . ICML '09: Материалы 26-й ежегодной международной конференции по машинному обучению . ACM. С. 1073–1080. PDF .
- ^ Александр Дж Гейтс и Ён Ёль Ан (2017). «Влияние случайных моделей на подобие кластеризации» (PDF) . Журнал исследований в области машинного обучения . 18 : 1–28. PDF .
- ^ http://i11www.iti.uni-karlsruhe.de/extra/publications/ww-cco-06.pdf
Внешние ссылки [ править ]
- Реализация C ++ с файлами MATLAB mex