Из Википедии, бесплатной энциклопедии
  (Перенаправлено с Medoids )
Перейти к навигации Перейти к поиску

Медоиды - это репрезентативные объекты набора данных или кластера в наборе данных, среднее отличие которых от всех объектов в кластере минимально. [1] Медоиды похожи по концепции на средства или центроиды , но медоиды всегда могут быть членами набора данных. Медоиды чаще всего используются для данных, когда невозможно определить среднее значение или центроид, например для графиков. Они также используются в контекстах, где центроид не является репрезентативным для набора данных, как на изображениях, трехмерных траекториях и экспрессии генов [2](где пока данные разрежены, медоида быть не обязательно). Они также интересны при желании найти представителя, использующего некоторое расстояние, отличное от квадрата евклидова расстояния (например, в рейтингах фильмов).

Для некоторых наборов данных может быть более одного медоида, как в случае с медианами. Распространенным применением medoid является алгоритм кластеризации k-medoids , который похож на алгоритм k-средних , но работает, когда среднее значение или центроид не определены. Этот алгоритм в основном работает следующим образом. Сначала случайным образом выбирается набор медоидов. Во-вторых, вычисляются расстояния до других точек. В-третьих, данные сгруппированы в соответствии с медоидом, на который они наиболее похожи. В-четвертых, набор медоидов оптимизируется с помощью итеративного процесса.

Обратите внимание, что медоид не эквивалентен медиане , геометрической медиане или центроиду . Медиана определяется только на 1-мерных данных, и это минимизирует только несходство к другим точкам для метрик , индуцированных нормой (таких , как Manhattan расстояние или евклидова расстояния ). Геометрическая медианный определена в любом измерении, но не обязательно является точкой внутри исходного набора данных.

Определение [ править ]

Позвольте быть набором точек в пространстве с функцией расстояния d. Медоид определяется как

Алгоритмы вычисления медоидов [ править ]

Из приведенного выше определения ясно, что медоид можно вычислить после вычисления всех попарных расстояний между точками в ансамбле. Это потребует оценки расстояния. В худшем случае невозможно вычислить medoid с меньшим количеством оценок расстояния. [3] [4] Однако существует множество подходов, которые позволяют нам вычислять медоиды точно или приблизительно за субквадратичное время при различных статистических моделях.

Если точки лежат на реальной линии, вычисление медианы сводится к вычислению медианы, что может быть выполнено с помощью алгоритма быстрого выбора Хоара. [5] Однако в реальных пространствах более высокой размерности алгоритм линейного времени не известен. RAND [6] - это алгоритм, который оценивает среднее расстояние от каждой точки до всех других точек путем выборки случайного подмножества других точек. Для аппроксимации медиоида с высокой вероятностью требуется вычисление всего расстояния , где - максимальное расстояние между двумя точками в ансамбле. Обратите внимание, что RAND - это алгоритм аппроксимации и, более того, не может быть известным априори.

RAND был использован TOPRANK [7], который использует оценки, полученные RAND, чтобы сосредоточиться на небольшом подмножестве точек-кандидатов, точно оценивает среднее расстояние до этих точек и выбирает минимальное из них. TOPRANK нуждается в вычислениях расстояний, чтобы найти точный медоид с высокой вероятностью в предположении распределения на средних расстояниях.

trimed [3] представляет алгоритм поиска медоида с оценками расстояния при предположении распределения по точкам. Алгоритм использует неравенство треугольника, чтобы сократить пространство поиска.

Meddit [4] использует связь вычисления medoid с многорукими бандитами и использует алгоритм с верхним доверительным интервалом, чтобы получить алгоритм, который оценивает расстояние при статистических допущениях по точкам.

Коррелированное последовательное сокращение вдвое [8] также использует методы многорукого бандита, улучшая Meddit . Используя корреляционную структуру в задаче, алгоритм может обеспечить резкое улучшение (обычно примерно на 1-2 порядка) как количества необходимых вычислений расстояния, так и времени настенных часов.

Реализации [ править ]

Реализацию RAND , TOPRANK и trimed можно найти здесь . Реализацию Meddit можно найти здесь и здесь . Реализацию коррелированного последовательного сокращения вдвое можно найти здесь .

См. Также [ править ]

  • k-medoids
  • алгоритм k-средних
  • Центроид

Ссылки [ править ]

  1. ^ Струйф, Аня; Хьюберт, Миа ; Руссей, Питер (1997). «Кластеризация в объектно-ориентированной среде» . Журнал статистического программного обеспечения . 1 (4): 1–30.
  2. ^ ван дер Лаан, Марк Дж .; Поллард, Кэтрин С .; Брайан, Дженнифер (2003). «Новое разделение вокруг алгоритма Medoids» . Журнал статистических вычислений и моделирования . Группа Тейлор и Фрэнсис. 73 (8): 575–584. DOI : 10.1080 / 0094965031000136012 .
  3. ^ a b Ньюлинг, Джеймс; И Флёре, Франсуа (2016); «Субквадратичный точный алгоритм medoid», в материалах 20-й Международной конференции по искусственному интеллекту и статистике , PMLR 54: 185-193, 2017 Доступно в Интернете .
  4. ^ а б Багария, Вивек; Каматх, Говинда М .; Нтранос, Василис; Чжан, Мартин Дж .; И Це, Дэвид Н. (2017); «Медоиды в почти линейном времени с помощью многоруких бандитов», препринт arXiv Доступен онлайн .
  5. ^ Хор, Чарльз Энтони Ричард (1961); «Алгоритм 65: найти», в сообщениях ACM , 4 (7), 321-322
  6. ^ Эппштейн, Дэвид ; И Ван, Джозеф (2006); «Быстрое приближение центральности», в Graph Algorithms and Applications , 5 , pp. 39-45
  7. Окамото, Кадзуя; Чен, Вэй; И Ли, Сян-Ян (2008); «Рейтинг центральности близости для крупномасштабных социальных сетей» , в Preparata, Franco P .; У, Сяодун; Инь, Цзяньпин (ред.); Frontiers in Algorithmics Workshop 2008 , Lecture Notes in Computer Science , 5059 , 186-195.
  8. ^ Baharav, Tavor Z .; И Це, Дэвид Н. (2019); «Сверхбыстрая идентификация медоидов с помощью коррелированного последовательного деления вдвое», в « Достижениях в системах обработки нейронной информации» , доступно в Интернете.