Из Википедии, свободной энциклопедии
Перейти к навигации Перейти к поиску

В теории вероятностей и теории информации , скорректированная взаимной информации , изменение взаимной информации может быть использовано для сравнения кластеризаций . [1] Он корректирует эффект согласования исключительно из-за случайности между кластеризацией, подобно тому, как скорректированный индекс rand корректирует индекс Rand . Это тесно связано с изменением информации : [2] при аналогичной корректировке индекса VI он становится эквивалентным AMI. [1] Скорректированная мера, однако, больше не является метрической. [3]

Взаимная информация двух разделов [ править ]

Принимая во внимание множество S из N элементов , рассмотрим две перегородки из S , а именно с R кластеров, а также с C кластеров. Здесь предполагается, что разделы представляют собой так называемые жесткие кластеры; разбиения попарно не пересекаются:

для всех и в комплекте:

Взаимный обмен информация кластера перекрытия между U и V может быть представлена в виде R х C непредвиденную таблицу , где обозначает число объектов , которые являются общими для кластеров и . То есть,

Предположим, что объект выбран случайным образом из S ; вероятность попадания объекта в кластер составляет:

Энтропия , связанная с разбиением U является:

H (U) неотрицательна и принимает значение 0 только тогда, когда нет неопределенности, определяющей принадлежность объекта к кластеру, т.е. когда есть только один кластер. Аналогичным образом энтропия кластеризации V может быть рассчитана как:

где . Взаимная информация (MI) между двумя разделами:

где обозначает вероятность того, что точка принадлежит как кластеру в U, так и кластеру в V :

MI - неотрицательная величина, ограниченная сверху энтропиями H ( U ) и H ( V ). Он количественно определяет информацию, совместно используемую двумя кластерами, и, таким образом, может использоваться в качестве меры сходства кластеризации .

Поправка на случайность [ править ]

Как и индекс Rand , базовое значение взаимной информации между двумя случайными кластерами не принимает постоянного значения и имеет тенденцию к увеличению, когда два раздела имеют большее количество кластеров (с фиксированным количеством элементов набора N ). Приняв гипергеометрическую модель случайности, можно показать, что ожидаемая взаимная информация между двумя случайными кластерами:

где обозначает . Переменные и являются частичными суммами таблицы непредвиденных обстоятельств; то есть,

и

Скорректированная мера [1] для взаимной информации может быть определена следующим образом:

.

AMI принимает значение 1, когда два раздела идентичны, и 0, когда MI между двумя разделами равен значению, ожидаемому только по случайности.

Ссылки [ править ]

  1. ^ а б в Винь, NX; Epps, J .; Бейли, Дж. (2009). «Теоретико-информационные меры для сравнения кластеризации». Материалы 26-й ежегодной международной конференции по машинному обучению - ICML '09 . п. 1. дои : 10,1145 / 1553374,1553511 . ISBN 9781605585161.
  2. ^ Meila, М. (2007). «Сравнение кластеризации - расстояние, основанное на информации». Журнал многомерного анализа . 98 (5): 873–895. DOI : 10.1016 / j.jmva.2006.11.013 .
  3. ^ Винь, Нгуен Суан; Эппс, Жюльен; Бейли, Джеймс (2010), «Теоретико-информационные меры для сравнения кластеризации: варианты, свойства, нормализация и поправка на случайность» (PDF) , Журнал исследований в области машинного обучения , 11 (октябрь): 2837–54

Внешние ссылки [ править ]