Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Пример геометрической медианы (желтого цвета) серии точек. Синим цветом обозначен Центр масс .

Геометрические медианная дискретного множество точек выборки в евклидове пространства является точкой минимизации суммы расстояний до точек выборки. Это обобщает медианное значение , которое имеет свойство минимизировать сумму расстояний для одномерных данных, и обеспечивает центральную тенденцию в более высоких измерениях. Он также известен как 1-медиана , [1] пространственная медиана , [2] евклидовой minisum точка , [2] или точка Торричелли . [3]

Геометрическая медианный является важной оценкой из места в статистике, [4] , где он также известен как L 1 оценку . [5] Это также стандартная проблема при размещении объекта , когда она моделирует проблему размещения объекта для минимизации затрат на транспортировку. [6]

Частный случай задачи для трех точек на плоскости (т. Е. M = 3 и n = 2 в приведенном ниже определении) иногда также известен как проблема Ферма; она возникает при построении минимальных деревьев Штейнера , изначально была поставлена ​​как проблема Пьером де Ферма и решена Евангелистой Торричелли . [7] Его решение теперь известно как точка Ферма треугольника, образованного тремя точками выборки. [8] Геометрическая медиана, в свою очередь, может быть обобщена на задачу минимизации суммы взвешенных расстояний, известную как проблема Вебера после Альфреда Вебера.Обсуждение проблемы в своей книге 1909 г. о местонахождении объекта. [2] Некоторые источники вместо этого называют проблему Вебера проблемой Ферма – Вебера [9], но другие используют это название для невзвешенной проблемы геометрической медианы. [10]

Весоловский (1993) дает обзор проблемы геометрической медианы. См. Обобщения проблемы на недискретные точечные множества в Fekete, Mitchell & Beurer (2005) .

Определение [ править ]

Формально для данного набора из m точек в каждой геометрическая медиана определяется как

Здесь arg min означает значение аргумента, которое минимизирует сумму. В данном случае это точка, от которой сумма всех евклидовых расстояний до точек минимальна.

Свойства [ править ]

  • В одномерном случае геометрическая медиана совпадает с медианой . Это связано с тем, что одномерная медиана также минимизирует сумму расстояний от точек. [11]
  • Геометрическая медиана уникальна, если точки не лежат на одной прямой . [12]
  • Геометрическая медиана эквивариантна для преобразований евклидова подобия , включая перенос и вращение . [5] [11] Это означает, что можно получить тот же результат либо путем преобразования геометрической медианы, либо путем применения того же преобразования к выборке данных и нахождения геометрической медианы преобразованных данных. Это свойство следует из того, что геометрическая медиана определяется только из попарных расстояний и не зависит от системы ортогональных декартовых координат.которым представлены данные выборки. Напротив, покомпонентная медиана для многомерного набора данных в общем случае не инвариантна относительно вращения и не зависит от выбора координат. [5]
  • Геометрическая медиана имеет точку разбивки 0,5. [5] То есть до половины выборочных данных могут быть произвольно повреждены, и медиана выборок по-прежнему будет обеспечивать надежную оценку местоположения неповрежденных данных.

Особые случаи [ править ]

  • Для 3 ( неколлинеарных ) точек, если любой угол треугольника, образованного этими точками, равен 120 ° или более, то геометрическая медиана - это точка в вершине этого угла. Если все углы меньше 120 °, геометрическая медиана - это точка внутри треугольника, которая образует угол 120 ° с каждыми тремя парами вершин треугольника. [11] Это также известно как точка Ферма треугольника, образованного тремя вершинами. (Если три точки коллинеарны, то геометрическая медиана - это точка между двумя другими точками, как в случае с одномерной медианой.)
  • Для 4 копланарных точек, если одна из четырех точек находится внутри треугольника, образованного другими тремя точками, то геометрическая медиана является этой точкой. В противном случае четыре точки образуют выпуклый четырехугольник, а геометрическая медиана - это точка пересечения диагоналей четырехугольника. Геометрическая медиана четырех компланарных точек совпадает с единственной точкой Радона для четырех точек. [13]

Вычисление [ править ]

Несмотря на то, что геометрическая медиана является простой для понимания концепцией, ее вычисление представляет собой проблему. Центроид или центр масс , определяется аналогично геометрической медианы , как минимизировать сумму квадратов расстояний до каждой точки, можно найти по простой формуле - ее координаты являются средними значениями координат точек - но она имеет Было показано, что для геометрической медианы не может существовать ни явная формула , ни точный алгоритм, включающий только арифметические операции и k- е корни. Следовательно, в рамках этой модели вычислений возможны только численные или символьные приближения к решению этой проблемы . [14]

Однако легко вычислить приближение к геометрической медиане с помощью итерационной процедуры, в которой каждый шаг дает более точное приближение. Процедуры этого типа могут быть выведены из того факта, что сумма расстояний до точек выборки является выпуклой функцией , поскольку расстояние до каждой точки выборки является выпуклой, а сумма выпуклых функций остается выпуклой. Следовательно, процедуры, уменьшающие сумму расстояний на каждом шаге, не могут попасть в локальный оптимум .

Один общий подход этого типа, называемый алгоритм Weiszfeld в после работы Эндре Weiszfeld , [15] является одной из форм итеративно повторно взвешенных наименьших квадратов . Этот алгоритм определяет набор весов, которые обратно пропорциональны расстояниям от текущей оценки до точек выборки, и создает новую оценку, которая является средневзвешенным значением выборки в соответствии с этими весами. То есть,

Этот метод сходится почти для всех начальных позиций, но может не сойтись, когда одна из его оценок попадает в одну из заданных точек. Его можно изменить для обработки этих случаев, чтобы он сходился для всех начальных точек. [12]

Bose, Maheshwari & Morin (2003) описывают более сложные процедуры геометрической оптимизации для поиска приблизительно оптимальных решений этой проблемы. Как показывают Nie, Parrilo & Sturmfels (2008) , проблема также может быть представлена ​​как полуопределенная программа .

Cohen et al. (2016) показывают, как вычислить геометрическую медиану с произвольной точностью за почти линейное время .

Характеристика геометрической медианы [ править ]

Если y отличен от всех данных точек x j , то y является геометрической медианой тогда и только тогда, когда она удовлетворяет:

Это эквивалентно:

который тесно связан с алгоритмом Вайсфельда.

В общем случае y является геометрической медианой тогда и только тогда, когда существуют векторы u j такие, что:

где для x jy ,

и для x j = y ,

Эквивалентная формулировка этого условия:

Это можно рассматривать как обобщение свойства медианы в том смысле, что любое разбиение точек, в частности, индуцированное любой гиперплоскостью, проходящей через y , имеет одинаковую и противоположную сумму положительных направлений от y с каждой стороны. В одномерном случае гиперплоскость - это сама точка y , а сумма направлений упрощается до (направленной) счетной меры.

Обобщения [ править ]

Геометрическая медиана может быть обобщена с евклидовых пространств на общие римановы многообразия (и даже метрические пространства ), используя ту же идею, которая используется для определения среднего Фреше на римановом многообразии. [16] Пусть - риманово многообразие с соответствующей функцией расстояния , пусть - веса, суммирующие до 1, и пусть - наблюдения из . Затем мы определяем взвешенную геометрическую медиану (или взвешенную медиану Фреше) точек данных как

.

Если все веса равны, мы просто говорим, что это геометрическая медиана.

См. Также [ править ]

  • Медоид
  • Абсолютное отклонение геометрической медианы

Примечания [ править ]

  1. ^ Более общая задача k- median требует расположения k центров кластеров, минимизируя сумму расстояний от каждой точки выборки до ближайшего к ней центра.
  2. ^ а б в Дрезнер и др. (2002)
  3. ^ Цислик (2006) .
  4. ^ Lawera & Thompson (1993) .
  5. ^ a b c d Lopuhaä & Rousseeuw (1991)
  6. ^ Eiselt & Marianov (2011) .
  7. ^ Краруп & Вайда (1997) .
  8. ^ Испания (1996) .
  9. ^ Brimberg (1995) .
  10. ^ Bose, Махешвари & Morin (2003) .
  11. ^ a b c Холдейн (1948)
  12. ^ a b Варди и Чжан (2000)
  13. ^ Цислик (2006) , стр. 6; Пластрия (2006) . Выпуклый случай был первоначально доказан Джованни Фаньяно .
  14. ^ Bajaj (1986) ; Баджадж (1988) . Ранее Cockayne & Melzak (1969) доказали, что точку Штейнера для 5 точек на плоскости нельзя построить с помощью линейки и циркуля.
  15. ^ Вайсфельд (1937) ; Кун (1973) ; Чандрасекаран и Тамир (1989) .
  16. ^ Флетчер, Венкатасубраманиан и Джоши (2009) .

Ссылки [ править ]

  • Баджадж, К. (1986). «Доказательство неразрешимости геометрических алгоритмов: применение факторизационных многочленов». Журнал символических вычислений . 2 : 99–102. DOI : 10.1016 / S0747-7171 (86) 80015-3 .
  • Баджадж, К. (1988). «Алгебраическая степень задач геометрической оптимизации» . Дискретная и вычислительная геометрия . 3 (2): 177–191. DOI : 10.1007 / BF02187906 .
  • Бозе, Просенджит ; Махешвари, Анил; Морен, Пат (2003). «Быстрые приближения для сумм расстояний, кластеризация и проблема Ферма – Вебера» . Вычислительная геометрия: теория и приложения . 24 (3): 135–146. DOI : 10.1016 / S0925-7721 (02) 00102-5 .
  • Бримберг, Дж. (1995). «Возвращение к проблеме местоположения Ферма-Вебера». Математическое программирование . 71 (1, сер. A): 71–76. DOI : 10.1007 / BF01592245 . Руководство по ремонту  1362958 . S2CID  206800756 .
  • Chandrasekaran, R .; Тамир, А. (1989). «Открытые вопросы, касающиеся алгоритма Вайсфельда для проблемы размещения Ферма-Вебера». Математическое программирование . Series A. 44 (1–3): 293–295. DOI : 10.1007 / BF01587094 . S2CID  43224801 .
  • Чеслик, Дитмар (2006). Кратчайшая возможность подключения: введение в приложения в филогении . Комбинаторная оптимизация. 17 . Springer. п. 3. ISBN 9780387235394.
  • Кокейн, EJ; Мелзак, З.А. (1969). «Евклидова конструктивность в задачах минимизации графов». Математический журнал . 42 (4): 206–208. DOI : 10.2307 / 2688541 . JSTOR  2688541 .
  • Коэн, Майкл; Ли, Инь Тат; Миллер, Гэри ; Пачоцкий, Якуб; Сидфорд, Аарон (2016). «Геометрическая медиана за почти линейное время» (PDF) . Proc. 48-й симпозиум по теории вычислений (STOC 2016) . Ассоциация вычислительной техники . arXiv : 1606.05225 . DOI : 10.1145 / 2897518.2897647 .
  • Дрезнер, Цви; Кламрот, Катрин ; Шебель, Анита ; Весоловский, Джордж О. (2002). «Проблема Вебера» . Расположение объекта: приложения и теория . Спрингер, Берлин. С. 1–36. ISBN 9783540213451. MR  1933966 .
  • Eiselt, HA; Марьянов, Владимир (2011). Основы анализа местоположения . Международная серия исследований по операциям и менеджменту. 155 . Springer. п. 6. ISBN 9781441975720.
  • Fekete, Sándor P .; Митчелл, Джозеф SB ; Бурер, Карин (2005). «О непрерывной проблеме Ферма-Вебера». Исследование операций . 53 (1): 61–76. arXiv : cs.CG/0310027 . DOI : 10.1287 / opre.1040.0137 . Кириллович  1121 .CS1 maint: ref=harv (link)
  • Флетчер, П. Томас; Венкатасубраманиан, Суреш; Джоши, Саранг (2009). «Геометрическая медиана на римановых многообразиях с приложением к оценке робастного атласа» . NeuroImage . 45 (1 приложение): s143 – s152. DOI : 10.1016 / j.neuroimage.2008.10.052 . PMC  2735114 . PMID  19056498 .
  • Холдейн, JBS (1948). «Примечание о медиане многомерного распределения». Биометрика . 35 (3–4): 414–417. DOI : 10.1093 / Biomet / 35.3-4.414 .
  • Краруп, Якоб; Вайда, Стивен (1997). «О геометрическом решении Торричелли проблемы Ферма». Журнал IMA по математике, применяемой в бизнесе и промышленности . 8 (3): 215–224. DOI : 10.1093 / imaman / 8.3.215 . Руководство по ремонту  1473041 .
  • Кун, Гарольд В. (1973). «Заметка по проблеме Ферма». Математическое программирование . 4 (1): 98–107. DOI : 10.1007 / BF01584648 . S2CID  22534094 .
  • Лавера, Мартин; Томпсон, Джеймс Р. (1993). «Некоторые проблемы оценивания и тестирования в многомерном статистическом управлении процессами» . Труды 38-й конференции по дизайну экспериментов . Отчет Исследовательского управления армии США. 93–2 . С. 99–126.
  • Lopuhaä, Hendrick P .; Rousseeuw, Питер Дж. (1991). «Точки разрушения аффинных эквивариантных оценок многомерных матриц расположения и ковариационных матриц» . Анналы статистики . 19 (1): 229–248. DOI : 10.1214 / AOS / 1176347978 . JSTOR  2241852 .CS1 maint: ref=harv (link)
  • Не, Цзяванг; Parrilo, Pablo A .; Штурмфельс, Бернд (2008). «Полуопределенное представление k -эллипса». В Dickenstein, A .; Schreyer, F.-O .; Sommese, AJ (ред.). Алгоритмы в алгебраической геометрии . Объемы IMA по математике и ее приложениям. 146 . Springer-Verlag. С. 117–132. arXiv : math / 0702005 . Bibcode : 2007math ...... 2005N . DOI : 10.1007 / 978-0-387-75155-9_7 . S2CID  16558095 .
  • Остреш Л. (1978). «Сходимость класса итерационных методов решения задачи Вебера». Исследование операций . 26 (4): 597–609. DOI : 10.1287 / opre.26.4.597 .CS1 maint: ref=harv (link)
  • Пластрия, Франк (2006). «Пересмотр четырехточечных проблем размещения Ферма. Новые доказательства и расширения старых результатов» (PDF) . IMA Journal of Management Mathematics . 17 (4): 387–396. DOI : 10,1093 / imaman / dpl007 . Zbl  1126.90046 ..
  • Испания, PG (1996). «Точка Ферма треугольника». Математический журнал . 69 (2): 131–133. DOI : 10.1080 / 0025570X.1996.11996409 . JSTOR  2690672? Origin = pubexport . Руководство по ремонту  1573157 .
  • Варди, Иегуда; Чжан, Цунь-Хуэй (2000). «Многомерный L 1 -средний и соответствующая глубина данных» . Труды Национальной академии наук Соединенных Штатов Америки . 97 (4): 1423–1426 (электронный). Bibcode : 2000PNAS ... 97.1423V . DOI : 10.1073 / pnas.97.4.1423 . Руководство по ремонту  1740461 . PMC  26449 . PMID  10677477 .
  • Вебер, Альфред (1909). Über den Standort der Industrien, Erster Teil: Reine Theorie des Standortes (на немецком языке). Тюбинген: Мор.
  • Весоловский, Г. (1993). «Проблема Вебера: история и перспективы». Геолокация . 1 : 5–23.
  • Вайсфельд, Э. (1937). «Sur le point pour lequel la somme des distance de n points donnes est минимум» . Математический журнал Тохоку (на французском языке). 43 : 355–386.Переведено на английский язык как Weiszfeld, E .; Пластрия, Франк (апрель 2008 г.). «В точке, для которой сумма расстояний до n заданных точек минимальна». Анналы исследований операций . 167 (1): 7–41. DOI : 10.1007 / s10479-008-0352-Z .