Кластерная гипотеза

В машинном обучении и поиске информации кластерная гипотеза представляет собой предположение о характере данных, обрабатываемых в этих областях, которое принимает различные формы. В информационном поиске говорится, что документы, сгруппированные вместе, «ведут себя одинаково в отношении соответствия информационным потребностям». ^[1] В терминах классификации говорится, что если точки находятся в одном кластере, они, вероятно, принадлежат к одному и тому же классу. ^[2] Может быть несколько кластеров, образующих один класс.

Кластерная гипотеза была впервые сформулирована ван Рейсбергеном ^[3] : «тесно связанные документы, как правило, имеют отношение к одним и тем же запросам». Таким образом, теоретически поисковая система может попытаться найти только соответствующий кластер для запроса, а затем разрешить пользователям просматривать этот кластер. Хотя эксперименты показали, что кластерная гипотеза как таковая верна, ее использование для поиска не привело к удовлетворительным результатам ^[4] .

Предположение о кластерах используется во многих алгоритмах машинного обучения, таких как алгоритм классификации k - ближайших соседей и алгоритм кластеризации k -средних . Поскольку в определении появляется слово «вероятно», нет четкой границы, по которой можно было бы различить, выполняется ли предположение или нет. Напротив, степень соответствия данных этому предположению может быть количественно измерена.

Предположение о кластерах эквивалентно предположению о разделении с низкой плотностью , которое гласит, что граница решения должна лежать в области с низкой плотностью. Чтобы доказать это, предположим, что граница решения пересекает один из кластеров. Тогда этот кластер будет содержать точки из двух разных классов, поэтому на этом кластере он нарушен.