В теории вероятностей и теории информации , скорректированная взаимной информации , изменение взаимной информации может быть использовано для сравнения кластеризаций . [1] Он корректирует эффект согласования исключительно из-за случайности между кластеризацией, подобно тому, как скорректированный индекс rand корректирует индекс Rand . Это тесно связано с изменением информации : [2] при аналогичной корректировке индекса VI он становится эквивалентным AMI. [1] Скорректированная мера, однако, больше не является метрической. [3]
Взаимная информация двух разделов [ править ]
Принимая во внимание множество S из N элементов , рассмотрим две перегородки из S , а именно с R кластеров, а также с C кластеров. Здесь предполагается, что разделы представляют собой так называемые жесткие кластеры; разбиения попарно не пересекаются:
для всех и в комплекте:
Взаимный обмен информация кластера перекрытия между U и V может быть представлена в виде R х C непредвиденную таблицу , где обозначает число объектов , которые являются общими для кластеров и . То есть,
Предположим, что объект выбран случайным образом из S ; вероятность попадания объекта в кластер составляет:
Энтропия , связанная с разбиением U является:
H (U) неотрицательна и принимает значение 0 только тогда, когда нет неопределенности, определяющей принадлежность объекта к кластеру, т.е. когда есть только один кластер. Аналогичным образом энтропия кластеризации V может быть рассчитана как:
где . Взаимная информация (MI) между двумя разделами:
где обозначает вероятность того, что точка принадлежит как кластеру в U, так и кластеру в V :
MI - неотрицательная величина, ограниченная сверху энтропиями H ( U ) и H ( V ). Он количественно определяет информацию, совместно используемую двумя кластерами, и, таким образом, может использоваться в качестве меры сходства кластеризации .
Поправка на случайность [ править ]
Как и индекс Rand , базовое значение взаимной информации между двумя случайными кластерами не принимает постоянного значения и имеет тенденцию к увеличению, когда два раздела имеют большее количество кластеров (с фиксированным количеством элементов набора N ). Приняв гипергеометрическую модель случайности, можно показать, что ожидаемая взаимная информация между двумя случайными кластерами:
где обозначает . Переменные и являются частичными суммами таблицы непредвиденных обстоятельств; то есть,
и
Скорректированная мера [1] для взаимной информации может быть определена следующим образом:
- .
AMI принимает значение 1, когда два раздела идентичны, и 0, когда MI между двумя разделами равен значению, ожидаемому только по случайности.
Ссылки [ править ]
- ^ а б в Винь, NX; Epps, J .; Бейли, Дж. (2009). «Теоретико-информационные меры для сравнения кластеризации». Материалы 26-й ежегодной международной конференции по машинному обучению - ICML '09 . п. 1. дои : 10,1145 / 1553374,1553511 . ISBN 9781605585161.
- ^ Meila, М. (2007). «Сравнение кластеризации - расстояние, основанное на информации». Журнал многомерного анализа . 98 (5): 873–895. DOI : 10.1016 / j.jmva.2006.11.013 .
- ^ Винь, Нгуен Суан; Эппс, Жюльен; Бейли, Джеймс (2010), «Теоретико-информационные меры для сравнения кластеризации: варианты, свойства, нормализация и поправка на случайность» (PDF) , Журнал исследований в области машинного обучения , 11 (октябрь): 2837–54