Определение количества кластеров в наборе данных

Определение количества кластеров в наборе данных , величина, часто обозначаемая k, как в алгоритме k- средних , является частой проблемой при кластеризации данных и отличается от процесса фактического решения проблемы кластеризации.

Для определенного класса алгоритмов кластеризации (в частности K -средних, к -medoids и алгоритм ожидания максимизации ), есть параметр обычно упоминается как к , указывающее количество кластеров для обнаружения. Другие алгоритмы, такие как DBSCAN и алгоритм OPTICS , не требуют указания этого параметра; иерархическая кластеризация полностью устраняет проблему.

Правильный выбор k часто неоднозначен, интерпретация зависит от формы и масштаба распределения точек в наборе данных и желаемого разрешения кластеризации пользователя. Кроме того, увеличение k без штрафа всегда будет уменьшать количество ошибок в результирующей кластеризации до крайнего случая нулевой ошибки, если каждая точка данных считается своим собственным кластером (то есть, когда k равно количеству точек данных, n ). Тогда интуитивно понятно, что оптимальный выбор k обеспечит баланс между максимальным сжатием данных с использованием одного кластера и максимальной точностью путем назначения каждой точки данных ее собственному кластеру . Если подходящее значение kне очевидно из предварительного знания свойств набора данных, его нужно как-то выбрать. Есть несколько категорий методов для принятия этого решения.

Метод локтя [ править ]

Объясненное отклонение. «Локоть» обозначен красным кружком. Следовательно, количество выбранных кластеров должно быть 4.

Метод локтя рассматривает процент отклонения, объясняемый как функцию количества кластеров: следует выбрать количество кластеров, чтобы добавление еще одного кластера не давало лучшего моделирования данных. Точнее, если построить график зависимости процента дисперсии, объясняемой кластерами, от количества кластеров, первые кластеры добавят много информации (объяснят большую дисперсию), но в какой-то момент предельный выигрыш упадет, давая угол в график. На этом этапе выбирается количество кластеров, отсюда и «критерий локтя». Этот «локоть» не всегда можно однозначно идентифицировать ^[1], что делает этот метод очень субъективным и ненадежным. Процент объясненной дисперсии - это отношение дисперсии между группами к общей дисперсии,также известный какF-тест . Небольшая вариация этого метода отображает кривизну внутригрупповой дисперсии. ^[2]

Этот метод восходит к предположению Роберта Л. Торндайка в 1953 г. ^[3]

X-означает кластеризацию [ править ]

В статистических данных и анализе данных , X-средства кластеризация является разновидностью K-средних кластеризациями , вписанные не кластер назначений, неоднократно попытки подразделения, и сохраняя лучшим в результате расколов, пока критерий , такие как информационный критерий Акаика (АИК) или информационного критерий байесовского (BIC) достигнут. ^[4]

Информационно-критериальный подход [ править ]

Другой набор методов для определения количества кластеров - это информационные критерии, такие как информационный критерий Акаике (AIC), байесовский информационный критерий (BIC) или информационный критерий отклонения (DIC) - если возможно построить функцию правдоподобия для модель кластеризации. Например: модель k- средних является «почти» моделью гауссовой смеси, и можно построить вероятность для модели гауссовой смеси и, таким образом, также определить значения информационных критериев. ^[5]

Теоретико-информационный подход [ править ]

Теория искажения скорости была применена для выбора k, называемого методом «скачка», который определяет количество кластеров, которые максимизируют эффективность при минимизации ошибок по стандартам теории информации . ^[6] Стратегия алгоритма состоит в том, чтобы сгенерировать кривую искажения для входных данных путем запуска стандартного алгоритма кластеризации, такого как k-среднее для всех значений k между 1 и n , и вычисления искажения (описанного ниже) результирующего кластеризация. Затем кривая искажения преобразуется с помощью отрицательной мощности, выбранной на основе размерности данных. Скачки в результирующих значениях означают разумный выбор k, причем самый большой прыжок представляет лучший выбор.

Искажение кластеризации некоторых входных данных формально определяются следующим образом : Пусть набор данных быть смоделирован как р - мерная случайная величина , X , состоящие из распределения смеси из G компонентов с общей ковариантностью , $Г$ . Если мы допустим набор из K центров кластеров с ближайшим центром к заданной выборке X , то минимальное среднее искажение на измерение при подборе K центров к данным будет: ${\ Displaystyle c_ {1} \ ldots c_ {K}}$ ${\ displaystyle c_ {X}}$

{\ displaystyle d_ {K} = {\ frac {1} {p}} \ min _ {c_ {1} \ ldots c_ {K}} {E [(X-c_ {X}) ^ {T} \ Gamma ^ {- 1} (X-c_ {X})]}}

Это также среднее расстояние Махаланобиса на измерение между X и множеством центров кластеров C . Поскольку минимизация по всем возможным наборам центров кластеров является чрезмерно сложной, искажение вычисляется на практике путем создания набора центров кластеров с использованием стандартного алгоритма кластеризации и вычисления искажения с использованием результата. Псевдокод для метода перехода с входным набором p -мерных точек данных X :

JumpMethod (X): Пусть Y = (p / 2) Инициирует список D размера n + 1. Пусть D [0] = 0 Для k = 1 ... n: Кластер X с k кластерами (например, с k-средними) Пусть d = искажение результирующей кластеризации D [k] = d ^ (- Y) Определите J (i) = D [i] - D [i-1] Верните k между 1 и n, которое максимизирует J (k)

Выбор мощности преобразования мотивирован асимптотическими рассуждениями с использованием результатов теории искажения скорости. Пусть данные X имеют единственное произвольно p -мерное гауссовское распределение и пусть фиксированное для некоторого $α$ больше нуля. Тогда искажение кластеризации K кластеров в пределе, когда p стремится к бесконечности, равно . Видно, что асимптотически искажение кластеризации в степень пропорционально , что по определению приблизительно равно количеству кластеров K $Y=(p/2)$ $K=\lfloor \alpha ^{p}\rfloor$ $\alpha ^{-2}$ $(-p/2)$ $\alpha ^{p}$ . Другими словами, для одного гауссова распределения увеличение K сверх истинного числа кластеров, которое должно быть равно одному, вызывает линейный рост искажения. Такое поведение важно в общем случае смеси нескольких компонентов распределения.

Пусть X - смесь G p -мерных гауссовских распределений с общей ковариацией. Тогда для любого фиксированного K, меньшего, чем G , искажение кластеризации при стремлении p к бесконечности бесконечно. Интуитивно это означает, что кластеризация меньшего количества кластеров, чем правильное, не может описать асимптотически многомерные данные, что приводит к неограниченному увеличению искажения. Если, как описано выше, сделать K возрастающей функцией p , а именно, будет достигнут тот же результат, что и выше, со значением искажения в пределе, когда p стремится к бесконечности, равным $K=\lfloor \alpha ^{p}\rfloor$ $\alpha ^{-2}$ . Соответственно, существует та же пропорциональная зависимость между трансформированным искажением и количеством кластеров, K .

Ввод результатов выше вместе, можно видеть , что при достаточно больших значениях р , преобразованная искажение приблизительно равно нулю для K < G , то прыгает внезапно и начинает линейно увеличивается для K ≥ G . Алгоритм перехода для выбора K использует это поведение, чтобы определить наиболее вероятное значение для истинного количества кластеров. $d_{K}^{-p/2}$

Хотя математическая поддержка метода дается в терминах асимптотических результатов, алгоритм был эмпирически подтвержден, чтобы хорошо работать в различных наборах данных с разумной размерностью. В дополнение к методу локализованного перехода, описанному выше, существует второй алгоритм для выбора K с использованием тех же преобразованных значений искажения, известный как метод ломаной линии. Метод ломаной линии определяет точку скачка на графике преобразованного искажения, выполняя простую аппроксимацию методом наименьших квадратов ошибок двух отрезков, которые теоретически будут падать вдоль оси x для K < G , и вдоль линейно возрастающей фазы. преобразованного графика искажения дляК ≥ С . Метод ломаной линии более надежен, чем метод скачка, поскольку его решение является глобальным, а не локальным, но он также полагается на предположение о гауссовых компонентах смеси, тогда как метод скачка является полностью непараметрическим и доказал свою жизнеспособность для общие распределения смеси.

Метод силуэта [ править ]

Средний силуэт данных - еще один полезный критерий для оценки натурального числа кластеров. Силуэт экземпляра данных является мерой того, насколько близко он сопоставлен с данными в его кластере и насколько слабо он сопоставлен с данными соседнего кластера, то есть кластера, среднее расстояние которого от данных является наименьшим. ^[7] Силуэт, близкий к 1, означает, что элемент данных находится в соответствующем кластере, в то время как силуэт, близкий к -1, означает, что элемент данных находится в неправильном кластере. Методы оптимизации, такие как генетические алгоритмы , полезны для определения количества кластеров, которые дают наибольший силуэт. ^[8]Также можно изменить масштаб данных таким образом, чтобы силуэт с большей вероятностью был максимизирован при правильном количестве кластеров. ^[9]

Перекрестная проверка [ править ]

Можно также использовать процесс перекрестной проверки для анализа количества кластеров. В этом процессе данные делятся на v частей. Затем каждая из частей по очереди откладывается как тестовый набор, модель кластеризации, вычисляемая на других обучающих наборах v - 1, и значение целевой функции (например, сумма квадратов расстояний до центроидов для k -среднее) рассчитано для тестовой выборки. Эти значения v вычисляются и усредняются для каждого альтернативного количества кластеров, а номер кластера выбирается таким образом, чтобы дальнейшее увеличение количества кластеров приводило только к небольшому снижению целевой функции. ^[10]

Определение количества кластеров в текстовых базах данных [ править ]

В текстовых базах данных набор документов, определяемый документом по матрице D (размера m на n, m: количество документов, n: количество терминов), количество кластеров можно приблизительно оценить по следующей формуле, где t - количество ненулевых записей в D. Обратите внимание, что в D каждая строка и каждый столбец должны содержать по крайней мере один ненулевой элемент.^[11] ${\tfrac {mn}{t}}$

Анализ матрицы ядра [ править ]

Матрица ядра определяет близость входной информации. Например, в базисной функции Gaussian Radial определяет скалярное произведение входных данных в многомерном пространстве, называемом пространством признаков. Считается, что данные становятся более линейно разделяемыми в пространстве признаков, и, следовательно, линейные алгоритмы могут применяться к данным с большим успехом.

Таким образом, матрица ядра может быть проанализирована, чтобы найти оптимальное количество кластеров. ^[12] Метод основан на разложении ядерной матрицы по собственным значениям. Затем он проанализирует собственные значения и собственные векторы, чтобы получить меру компактности входного распределения. Наконец, будет нарисован график, где изгиб этого графика указывает оптимальное количество кластеров в наборе данных. В отличие от предыдущих методов, этот метод не требует априорной кластеризации. Он напрямую находит количество кластеров из данных.

Ссылки [ править ]

^ См., Например, Дэвид Дж. Кетчен-младший; Кристофер Л. Шук (1996). «Применение кластерного анализа в исследованиях стратегического управления: анализ и критика» . Журнал стратегического менеджмента . 17 (6): 441–458. DOI : 10.1002 / (SICI) 1097-0266 (199606) 17: 6 <441 :: AID-SMJ819> 3.0.CO; 2-G .^{[ мертвая ссылка ]}
^
См., Например, рисунок 6 в
- Сирил Гутте, Питер Тофт, Эгилл Роструп, Финн Оруп Нильсен, Ларс Кай Хансен (март 1999 г.). «О кластеризации временных рядов фМРТ». NeuroImage . 9 (3): 298–310. DOI : 10.1006 / nimg.1998.0391 . PMID 10075900 .CS1 maint: multiple names: authors list (link)
↑ Роберт Л. Торндайк (декабрь 1953 г.). «Кто в семье?». Психометрика . 18 (4): 267–276. DOI : 10.1007 / BF02289263 .
^ Д. Пеллег; А. В. Мур. X-means: расширение K-средних с помощью эффективной оценки количества кластеров (PDF) . Труды семнадцатой международной конференции по машинному обучению (ICML 2000) . Проверено 16 августа 2016 .
^ Кирилл Goutte, Ларс Кай Хансен , Мэтью Г. Liptrot & Эгиль Rostrup (2001). «Кластеризация пространства признаков для метаанализа фМРТ» . Картирование человеческого мозга . 13 (3): 165–183. DOI : 10.1002 / hbm.1031 . PMC 6871985 . PMID 11376501 . Архивировано из оригинала на 2012-12-17. CS1 maint: multiple names: authors list (link) особенно см. рисунок 14 и приложение.
^ Кэтрин А. Сахар ; Гарет М. Джеймс (2003). «Определение количества кластеров в наборе данных: теоретико-информационный подход». Журнал Американской статистической ассоциации . 98 (январь): 750–763. DOI : 10.1198 / 016214503000000666 .
^ Питер Дж Rousseuw (1987). «Силуэты: графическое средство для интерпретации и проверки кластерного анализа» . Вычислительная и прикладная математика . 20 : 53–65. DOI : 10.1016 / 0377-0427 (87) 90125-7 .
^ Р. Ллети; MC Ortiz; Лос-Анджелес Сарабия; МС Санчес (2004). «Выбор переменных для кластерного анализа k- средних с помощью генетического алгоритма, оптимизирующего силуэты». Analytica Chimica Acta . 515 : 87–100. DOI : 10.1016 / j.aca.2003.12.020 .
^ RC де Аморим & C. Хенниг (2015). «Восстановление количества кластеров в наборах данных с шумовыми характеристиками с использованием коэффициентов масштабирования функций». Информационные науки . 324 : 126–145. arXiv : 1602.06989 . DOI : 10.1016 / j.ins.2015.06.039 .
^ См., Например, «Поиск нужного количества кластеров в k-средних и электромагнитная кластеризация: перекрестная проверка v-кратности» . Электронный учебник статистики . StatSoft. 2010 . Проверено 3 мая 2010 .
^ Can, F .; Озкарахан, EA (1990). «Концепции и эффективность методологии кластеризации на основе коэффициента покрытия для текстовых баз данных». ACM-транзакции в системах баз данных . 15 (4): 483. DOI : 10,1145 / 99935,99938 . hdl : 2374.MIA / 246 . особенно см. раздел 2.7.
^ Хонархах, М; Каерс, Дж (2010). «Стохастическое моделирование паттернов с использованием дистанционного моделирования паттернов». Математические науки о Земле . 42 (5): 487–517. DOI : 10.1007 / s11004-010-9276-7 .

Дальнейшее чтение [ править ]

Ральф Вагнер , Серен В. Шольц, Райнхольд Декер (2005): Число кластеров в сегментации рынка, в: Даниэль Байер, Райнхольд Декер; Ларс Шмидт-Тим (ред.): Анализ данных и поддержка принятия решений, Берлин, Springer, 157–176.

Внешние ссылки [ править ]

Clustergram - график диагностики кластера - для визуальной диагностики выбора количества ( k ) кластеров ( код R )
Восемь методов определения оптимального значения k для анализа k- средних - Ответ на stackoverflow, содержащий код R для нескольких методов вычисления оптимального значения k для кластерного анализа k- средних
Разделение и кластеризация: сколько классов? Бесплатный семинарский документ доступен на сервере HAL, id = hal-02124947: представлены два непараметрических метода (предоставляются библиографические ссылки), один для числовых переменных (работает с массивом расстояний, не обязательно евклидовым), один для категориальных переменных ( оптимальное разбиение; работает также со знаковыми несходствами).

[1] См., Например, Дэвид Дж. Кетчен-младший; Кристофер Л. Шук (1996). «Применение кластерного анализа в исследованиях стратегического управления: анализ и критика» . Журнал стратегического менеджмента . 17 (6): 441–458. DOI : 10.1002 / (SICI) 1097-0266 (199606) 17: 6 <441 :: AID-SMJ819> 3.0.CO; 2-G .^{[ мертвая ссылка ]}

[2] См., Например, рисунок 6 в
Сирил Гутте, Питер Тофт, Эгилл Роструп, Финн Оруп Нильсен, Ларс Кай Хансен (март 1999 г.). «О кластеризации временных рядов фМРТ». NeuroImage . 9 (3): 298–310. DOI : 10.1006 / nimg.1998.0391 . PMID 10075900 .CS1 maint: multiple names: authors list (link)

[3] Сирил Гутте, Питер Тофт, Эгилл Роструп, Финн Оруп Нильсен, Ларс Кай Хансен (март 1999 г.). «О кластеризации временных рядов фМРТ». NeuroImage . 9 (3): 298–310. DOI : 10.1006 / nimg.1998.0391 . PMID 10075900 .CS1 maint: multiple names: authors list (link)

[3] Роберт Л. Торндайк (декабрь 1953 г.). «Кто в семье?». Психометрика . 18 (4): 267–276. DOI : 10.1007 / BF02289263 .

[4] Д. Пеллег; А. В. Мур. X-means: расширение K-средних с помощью эффективной оценки количества кластеров (PDF) . Труды семнадцатой международной конференции по машинному обучению (ICML 2000) . Проверено 16 августа 2016 .

[5] Кирилл Goutte, Ларс Кай Хансен , Мэтью Г. Liptrot & Эгиль Rostrup (2001). «Кластеризация пространства признаков для метаанализа фМРТ» . Картирование человеческого мозга . 13 (3): 165–183. DOI : 10.1002 / hbm.1031 . PMC 6871985 . PMID 11376501 . Архивировано из оригинала на 2012-12-17. CS1 maint: multiple names: authors list (link) особенно см. рисунок 14 и приложение.

[6] Кэтрин А. Сахар ; Гарет М. Джеймс (2003). «Определение количества кластеров в наборе данных: теоретико-информационный подход». Журнал Американской статистической ассоциации . 98 (январь): 750–763. DOI : 10.1198 / 016214503000000666 .

[7] Питер Дж Rousseuw (1987). «Силуэты: графическое средство для интерпретации и проверки кластерного анализа» . Вычислительная и прикладная математика . 20 : 53–65. DOI : 10.1016 / 0377-0427 (87) 90125-7 .

[8] Р. Ллети; MC Ortiz; Лос-Анджелес Сарабия; МС Санчес (2004). «Выбор переменных для кластерного анализа k- средних с помощью генетического алгоритма, оптимизирующего силуэты». Analytica Chimica Acta . 515 : 87–100. DOI : 10.1016 / j.aca.2003.12.020 .

[9] RC де Аморим & C. Хенниг (2015). «Восстановление количества кластеров в наборах данных с шумовыми характеристиками с использованием коэффициентов масштабирования функций». Информационные науки . 324 : 126–145. arXiv : 1602.06989 . DOI : 10.1016 / j.ins.2015.06.039 .

[10] См., Например, «Поиск нужного количества кластеров в k-средних и электромагнитная кластеризация: перекрестная проверка v-кратности» . Электронный учебник статистики . StatSoft. 2010 . Проверено 3 мая 2010 .

[11] Can, F .; Озкарахан, EA (1990). «Концепции и эффективность методологии кластеризации на основе коэффициента покрытия для текстовых баз данных». ACM-транзакции в системах баз данных . 15 (4): 483. DOI : 10,1145 / 99935,99938 . hdl : 2374.MIA / 246 . особенно см. раздел 2.7.

[12] Хонархах, М; Каерс, Дж (2010). «Стохастическое моделирование паттернов с использованием дистанционного моделирования паттернов». Математические науки о Земле . 42 (5): 487–517. DOI : 10.1007 / s11004-010-9276-7 .

[1],