Геометрические медианная дискретного множество точек выборки в евклидове пространства является точкой минимизации суммы расстояний до точек выборки. Это обобщает медианное значение , которое имеет свойство минимизировать сумму расстояний для одномерных данных, и обеспечивает центральную тенденцию в более высоких измерениях. Он также известен как 1-медиана , [1] пространственная медиана , [2] евклидовой minisum точка , [2] или точка Торричелли . [3]
Геометрическая медианный является важной оценкой из места в статистике, [4] , где он также известен как L 1 оценку . [5] Это также стандартная проблема при размещении объекта , когда она моделирует проблему размещения объекта для минимизации затрат на транспортировку. [6]
Частный случай задачи для трех точек на плоскости (т. Е. M = 3 и n = 2 в приведенном ниже определении) иногда также известен как проблема Ферма; она возникает при построении минимальных деревьев Штейнера , изначально была поставлена как проблема Пьером де Ферма и решена Евангелистой Торричелли . [7] Его решение теперь известно как точка Ферма треугольника, образованного тремя точками выборки. [8] Геометрическая медиана, в свою очередь, может быть обобщена на задачу минимизации суммы взвешенных расстояний, известную как проблема Вебера после Альфреда Вебера.Обсуждение проблемы в своей книге 1909 г. о местонахождении объекта. [2] Некоторые источники вместо этого называют проблему Вебера проблемой Ферма – Вебера [9], но другие используют это название для невзвешенной проблемы геометрической медианы. [10]
Весоловский (1993) дает обзор проблемы геометрической медианы. См. Обобщения проблемы на недискретные точечные множества в Fekete, Mitchell & Beurer (2005) .
Определение [ править ]
Формально для данного набора из m точек в каждой геометрическая медиана определяется как
Здесь arg min означает значение аргумента, которое минимизирует сумму. В данном случае это точка, от которой сумма всех евклидовых расстояний до точек минимальна.
Свойства [ править ]
- В одномерном случае геометрическая медиана совпадает с медианой . Это связано с тем, что одномерная медиана также минимизирует сумму расстояний от точек. [11]
- Геометрическая медиана уникальна, если точки не лежат на одной прямой . [12]
- Геометрическая медиана эквивариантна для преобразований евклидова подобия , включая перенос и вращение . [5] [11] Это означает, что можно получить тот же результат либо путем преобразования геометрической медианы, либо путем применения того же преобразования к выборке данных и нахождения геометрической медианы преобразованных данных. Это свойство следует из того, что геометрическая медиана определяется только из попарных расстояний и не зависит от системы ортогональных декартовых координат.которым представлены данные выборки. Напротив, покомпонентная медиана для многомерного набора данных в общем случае не инвариантна относительно вращения и не зависит от выбора координат. [5]
- Геометрическая медиана имеет точку разбивки 0,5. [5] То есть до половины выборочных данных могут быть произвольно повреждены, и медиана выборок по-прежнему будет обеспечивать надежную оценку местоположения неповрежденных данных.
Особые случаи [ править ]
- Для 3 ( неколлинеарных ) точек, если любой угол треугольника, образованного этими точками, равен 120 ° или более, то геометрическая медиана - это точка в вершине этого угла. Если все углы меньше 120 °, геометрическая медиана - это точка внутри треугольника, которая образует угол 120 ° с каждыми тремя парами вершин треугольника. [11] Это также известно как точка Ферма треугольника, образованного тремя вершинами. (Если три точки коллинеарны, то геометрическая медиана - это точка между двумя другими точками, как в случае с одномерной медианой.)
- Для 4 копланарных точек, если одна из четырех точек находится внутри треугольника, образованного другими тремя точками, то геометрическая медиана является этой точкой. В противном случае четыре точки образуют выпуклый четырехугольник, а геометрическая медиана - это точка пересечения диагоналей четырехугольника. Геометрическая медиана четырех компланарных точек совпадает с единственной точкой Радона для четырех точек. [13]
Вычисление [ править ]
Несмотря на то, что геометрическая медиана является простой для понимания концепцией, ее вычисление представляет собой проблему. Центроид или центр масс , определяется аналогично геометрической медианы , как минимизировать сумму квадратов расстояний до каждой точки, можно найти по простой формуле - ее координаты являются средними значениями координат точек - но она имеет Было показано, что для геометрической медианы не может существовать ни явная формула , ни точный алгоритм, включающий только арифметические операции и k- е корни. Следовательно, в рамках этой модели вычислений возможны только численные или символьные приближения к решению этой проблемы . [14]
Однако легко вычислить приближение к геометрической медиане с помощью итерационной процедуры, в которой каждый шаг дает более точное приближение. Процедуры этого типа могут быть выведены из того факта, что сумма расстояний до точек выборки является выпуклой функцией , поскольку расстояние до каждой точки выборки является выпуклой, а сумма выпуклых функций остается выпуклой. Следовательно, процедуры, уменьшающие сумму расстояний на каждом шаге, не могут попасть в локальный оптимум .
Один общий подход этого типа, называемый алгоритм Weiszfeld в после работы Эндре Weiszfeld , [15] является одной из форм итеративно повторно взвешенных наименьших квадратов . Этот алгоритм определяет набор весов, которые обратно пропорциональны расстояниям от текущей оценки до точек выборки, и создает новую оценку, которая является средневзвешенным значением выборки в соответствии с этими весами. То есть,
Этот метод сходится почти для всех начальных позиций, но может не сойтись, когда одна из его оценок попадает в одну из заданных точек. Его можно изменить для обработки этих случаев, чтобы он сходился для всех начальных точек. [12]
Bose, Maheshwari & Morin (2003) описывают более сложные процедуры геометрической оптимизации для поиска приблизительно оптимальных решений этой проблемы. Как показывают Nie, Parrilo & Sturmfels (2008) , проблема также может быть представлена как полуопределенная программа .
Cohen et al. (2016) показывают, как вычислить геометрическую медиану с произвольной точностью за почти линейное время .
Характеристика геометрической медианы [ править ]
Если y отличен от всех данных точек x j , то y является геометрической медианой тогда и только тогда, когда она удовлетворяет:
Это эквивалентно:
который тесно связан с алгоритмом Вайсфельда.
В общем случае y является геометрической медианой тогда и только тогда, когда существуют векторы u j такие, что:
где для x j ≠ y ,
и для x j = y ,
Эквивалентная формулировка этого условия:
Это можно рассматривать как обобщение свойства медианы в том смысле, что любое разбиение точек, в частности, индуцированное любой гиперплоскостью, проходящей через y , имеет одинаковую и противоположную сумму положительных направлений от y с каждой стороны. В одномерном случае гиперплоскость - это сама точка y , а сумма направлений упрощается до (направленной) счетной меры.
Обобщения [ править ]
Геометрическая медиана может быть обобщена с евклидовых пространств на общие римановы многообразия (и даже метрические пространства ), используя ту же идею, которая используется для определения среднего Фреше на римановом многообразии. [16] Пусть - риманово многообразие с соответствующей функцией расстояния , пусть - веса, суммирующие до 1, и пусть - наблюдения из . Затем мы определяем взвешенную геометрическую медиану (или взвешенную медиану Фреше) точек данных как
- .
Если все веса равны, мы просто говорим, что это геометрическая медиана.
См. Также [ править ]
- Медоид
- Абсолютное отклонение геометрической медианы
Примечания [ править ]
- ^ Более общая задача k- median требует расположения k центров кластеров, минимизируя сумму расстояний от каждой точки выборки до ближайшего к ней центра.
- ^ а б в Дрезнер и др. (2002)
- ^ Цислик (2006) .
- ^ Lawera & Thompson (1993) .
- ^ a b c d Lopuhaä & Rousseeuw (1991)
- ^ Eiselt & Marianov (2011) .
- ^ Краруп & Вайда (1997) .
- ^ Испания (1996) .
- ^ Brimberg (1995) .
- ^ Bose, Махешвари & Morin (2003) .
- ^ a b c Холдейн (1948)
- ^ a b Варди и Чжан (2000)
- ^ Цислик (2006) , стр. 6; Пластрия (2006) . Выпуклый случай был первоначально доказан Джованни Фаньяно .
- ^ Bajaj (1986) ; Баджадж (1988) . Ранее Cockayne & Melzak (1969) доказали, что точку Штейнера для 5 точек на плоскости нельзя построить с помощью линейки и циркуля.
- ^ Вайсфельд (1937) ; Кун (1973) ; Чандрасекаран и Тамир (1989) .
- ^ Флетчер, Венкатасубраманиан и Джоши (2009) .
Ссылки [ править ]
- Баджадж, К. (1986). «Доказательство неразрешимости геометрических алгоритмов: применение факторизационных многочленов». Журнал символических вычислений . 2 : 99–102. DOI : 10.1016 / S0747-7171 (86) 80015-3 .
- Баджадж, К. (1988). «Алгебраическая степень задач геометрической оптимизации» . Дискретная и вычислительная геометрия . 3 (2): 177–191. DOI : 10.1007 / BF02187906 .
- Бозе, Просенджит ; Махешвари, Анил; Морен, Пат (2003). «Быстрые приближения для сумм расстояний, кластеризация и проблема Ферма – Вебера» . Вычислительная геометрия: теория и приложения . 24 (3): 135–146. DOI : 10.1016 / S0925-7721 (02) 00102-5 .
- Бримберг, Дж. (1995). «Возвращение к проблеме местоположения Ферма-Вебера». Математическое программирование . 71 (1, сер. A): 71–76. DOI : 10.1007 / BF01592245 . Руководство по ремонту 1362958 . S2CID 206800756 .
- Chandrasekaran, R .; Тамир, А. (1989). «Открытые вопросы, касающиеся алгоритма Вайсфельда для проблемы размещения Ферма-Вебера». Математическое программирование . Series A. 44 (1–3): 293–295. DOI : 10.1007 / BF01587094 . S2CID 43224801 .
- Чеслик, Дитмар (2006). Кратчайшая возможность подключения: введение в приложения в филогении . Комбинаторная оптимизация. 17 . Springer. п. 3. ISBN 9780387235394.
- Кокейн, EJ; Мелзак, З.А. (1969). «Евклидова конструктивность в задачах минимизации графов». Математический журнал . 42 (4): 206–208. DOI : 10.2307 / 2688541 . JSTOR 2688541 .
- Коэн, Майкл; Ли, Инь Тат; Миллер, Гэри ; Пачоцкий, Якуб; Сидфорд, Аарон (2016). «Геометрическая медиана за почти линейное время» (PDF) . Proc. 48-й симпозиум по теории вычислений (STOC 2016) . Ассоциация вычислительной техники . arXiv : 1606.05225 . DOI : 10.1145 / 2897518.2897647 .
- Дрезнер, Цви; Кламрот, Катрин ; Шебель, Анита ; Весоловский, Джордж О. (2002). «Проблема Вебера» . Расположение объекта: приложения и теория . Спрингер, Берлин. С. 1–36. ISBN 9783540213451. MR 1933966 .
- Eiselt, HA; Марьянов, Владимир (2011). Основы анализа местоположения . Международная серия исследований по операциям и менеджменту. 155 . Springer. п. 6. ISBN 9781441975720.
- Fekete, Sándor P .; Митчелл, Джозеф SB ; Бурер, Карин (2005). «О непрерывной проблеме Ферма-Вебера». Исследование операций . 53 (1): 61–76. arXiv : cs.CG/0310027 . DOI : 10.1287 / opre.1040.0137 . Кириллович 1121 .CS1 maint: ref=harv (link)
- Флетчер, П. Томас; Венкатасубраманиан, Суреш; Джоши, Саранг (2009). «Геометрическая медиана на римановых многообразиях с приложением к оценке робастного атласа» . NeuroImage . 45 (1 приложение): s143 – s152. DOI : 10.1016 / j.neuroimage.2008.10.052 . PMC 2735114 . PMID 19056498 .
- Холдейн, JBS (1948). «Примечание о медиане многомерного распределения». Биометрика . 35 (3–4): 414–417. DOI : 10.1093 / Biomet / 35.3-4.414 .
- Краруп, Якоб; Вайда, Стивен (1997). «О геометрическом решении Торричелли проблемы Ферма». Журнал IMA по математике, применяемой в бизнесе и промышленности . 8 (3): 215–224. DOI : 10.1093 / imaman / 8.3.215 . Руководство по ремонту 1473041 .
- Кун, Гарольд В. (1973). «Заметка по проблеме Ферма». Математическое программирование . 4 (1): 98–107. DOI : 10.1007 / BF01584648 . S2CID 22534094 .
- Лавера, Мартин; Томпсон, Джеймс Р. (1993). «Некоторые проблемы оценивания и тестирования в многомерном статистическом управлении процессами» . Труды 38-й конференции по дизайну экспериментов . Отчет Исследовательского управления армии США. 93–2 . С. 99–126.
- Lopuhaä, Hendrick P .; Rousseeuw, Питер Дж. (1991). «Точки разрушения аффинных эквивариантных оценок многомерных матриц расположения и ковариационных матриц» . Анналы статистики . 19 (1): 229–248. DOI : 10.1214 / AOS / 1176347978 . JSTOR 2241852 .CS1 maint: ref=harv (link)
- Не, Цзяванг; Parrilo, Pablo A .; Штурмфельс, Бернд (2008). «Полуопределенное представление k -эллипса». В Dickenstein, A .; Schreyer, F.-O .; Sommese, AJ (ред.). Алгоритмы в алгебраической геометрии . Объемы IMA по математике и ее приложениям. 146 . Springer-Verlag. С. 117–132. arXiv : math / 0702005 . Bibcode : 2007math ...... 2005N . DOI : 10.1007 / 978-0-387-75155-9_7 . S2CID 16558095 .
- Остреш Л. (1978). «Сходимость класса итерационных методов решения задачи Вебера». Исследование операций . 26 (4): 597–609. DOI : 10.1287 / opre.26.4.597 .CS1 maint: ref=harv (link)
- Пластрия, Франк (2006). «Пересмотр четырехточечных проблем размещения Ферма. Новые доказательства и расширения старых результатов» (PDF) . IMA Journal of Management Mathematics . 17 (4): 387–396. DOI : 10,1093 / imaman / dpl007 . Zbl 1126.90046 ..
- Испания, PG (1996). «Точка Ферма треугольника». Математический журнал . 69 (2): 131–133. DOI : 10.1080 / 0025570X.1996.11996409 . JSTOR 2690672? Origin = pubexport . Руководство по ремонту 1573157 .
- Варди, Иегуда; Чжан, Цунь-Хуэй (2000). «Многомерный L 1 -средний и соответствующая глубина данных» . Труды Национальной академии наук Соединенных Штатов Америки . 97 (4): 1423–1426 (электронный). Bibcode : 2000PNAS ... 97.1423V . DOI : 10.1073 / pnas.97.4.1423 . Руководство по ремонту 1740461 . PMC 26449 . PMID 10677477 .
- Вебер, Альфред (1909). Über den Standort der Industrien, Erster Teil: Reine Theorie des Standortes (на немецком языке). Тюбинген: Мор.
- Весоловский, Г. (1993). «Проблема Вебера: история и перспективы». Геолокация . 1 : 5–23.
- Вайсфельд, Э. (1937). «Sur le point pour lequel la somme des distance de n points donnes est минимум» . Математический журнал Тохоку (на французском языке). 43 : 355–386.Переведено на английский язык как Weiszfeld, E .; Пластрия, Франк (апрель 2008 г.). «В точке, для которой сумма расстояний до n заданных точек минимальна». Анналы исследований операций . 167 (1): 7–41. DOI : 10.1007 / s10479-008-0352-Z .