В кластерном анализе , то метод локтя является эвристическим используемым в определении количества кластеров в наборе данных . Метод состоит из построения объясненной вариации как функции количества кластеров и выбора изгиба кривой как количества используемых кластеров. Тот же метод можно использовать для выбора количества параметров в других моделях, управляемых данными, например количества основных компонентов для описания набора данных.
Этот метод восходит к предположению Роберта Л. Торндайка в 1953 г. [1]
Интуиция
Использование «изгиба» или « изгиба кривой » в качестве точки отсечки - обычная эвристика в математической оптимизации, позволяющая выбрать точку, в которой убывающая отдача больше не стоит дополнительных затрат. В кластеризации это означает, что нужно выбрать количество кластеров, чтобы добавление еще одного кластера не дало лучшего моделирования данных.
Интуиция заключается в том, что увеличение количества кластеров естественным образом улучшит соответствие (объяснит большее количество вариаций), поскольку есть больше параметров (больше кластеров) для использования, но в какой-то момент это перебор , и локоть отражает это . Например, для данных, которые на самом деле состоят из k помеченных групп - например, k точек, отобранных с шумом - кластеризация с более чем k кластерами «объяснит» большую часть вариации (поскольку она может использовать меньшие и более узкие кластеры), но это чрезмерная подгонка, поскольку она разделяет помеченные группы на несколько кластеров. Идея состоит в том, что первые кластеры добавят много информации (объяснят множество вариаций), поскольку данные фактически состоят из такого количества групп (поэтому эти кластеры необходимы), но как только количество кластеров превысит фактическое количество групп в data добавленная информация резко упадет, потому что она просто разделяет фактические группы. Если предположить, что это произойдет, на графике объясненной вариации в зависимости от кластеров будет резкий изгиб: быстро возрастающий до k (область недостаточной подгонки ), а затем медленный рост после k (область переоборудования).
На практике острого локтя может и не быть, и как эвристический метод такой «локоть» не всегда можно однозначно идентифицировать. [2]
Меры вариации
В методе локтя используются различные меры « объясненной вариации ». Чаще всего, Varia ние количественно определяется Varia NCE , а отношение используется отношение между группами дисперсии в общей дисперсии. В качестве альтернативы можно использовать отношение межгрупповой дисперсии к внутригрупповой дисперсии, которое представляет собой односторонний F- критерий ANOVA . [3]
Смотрите также
Рекомендации
- ↑ Роберт Л. Торндайк (декабрь 1953 г.). «Кто в семье?». Психометрика . 18 (4): 267–276. DOI : 10.1007 / BF02289263 .
- ^ См., Например, Кетчен младший, Дэвид Дж .; Шук, Кристофер Л. (1996). «Применение кластерного анализа в исследованиях стратегического управления: анализ и критика» . Журнал стратегического управления . 17 (6): 441–458. DOI : 10.1002 / (SICI) 1097-0266 (199606) 17: 6 <441 :: AID-SMJ819> 3.0.CO; 2-G .[ мертвая ссылка ]
- ^ См., Например, рисунок 6 в
- Гутте, Кирилл; Тофт, Питер; Роструп, Эгилл; Нильсен, Финн Оруп; Хансен, Ларс Кай (март 1999 г.). «О кластеризации временных рядов фМРТ». NeuroImage . 9 (3): 298–310. CiteSeerX 10.1.1.29.2679 . DOI : 10.1006 / nimg.1998.0391 . PMID 10075900 .