Геометрическая медиана

Пример геометрической медианы (желтого цвета) серии точек. Синим цветом обозначен Центр масс .

Геометрические медианная дискретного множество точек выборки в евклидове пространства является точкой минимизации суммы расстояний до точек выборки. Это обобщает медианное значение , которое имеет свойство минимизировать сумму расстояний для одномерных данных, и обеспечивает центральную тенденцию в более высоких измерениях. Он также известен как 1-медиана , ^[1] пространственная медиана , ^[2] евклидовой minisum точка , ^[2] или точка Торричелли . ^[3]

Геометрическая медианный является важной оценкой из места в статистике, ^[4] , где он также известен как L ₁ оценку . ^[5] Это также стандартная проблема при размещении объекта , когда она моделирует проблему размещения объекта для минимизации затрат на транспортировку. ^[6]

Частный случай задачи для трех точек на плоскости (т. Е. M = 3 и n = 2 в приведенном ниже определении) иногда также известен как проблема Ферма; она возникает при построении минимальных деревьев Штейнера , изначально была поставлена как проблема Пьером де Ферма и решена Евангелистой Торричелли . ^[7] Его решение теперь известно как точка Ферма треугольника, образованного тремя точками выборки. ^[8] Геометрическая медиана, в свою очередь, может быть обобщена на задачу минимизации суммы взвешенных расстояний, известную как проблема Вебера после Альфреда Вебера.Обсуждение проблемы в своей книге 1909 г. о местонахождении объекта. ^[2] Некоторые источники вместо этого называют проблему Вебера проблемой Ферма – Вебера ^[9], но другие используют это название для невзвешенной проблемы геометрической медианы. ^[10]

Весоловский (1993) дает обзор проблемы геометрической медианы. См. Обобщения проблемы на недискретные точечные множества в Fekete, Mitchell & Beurer (2005) .

Определение [ править ]

Формально для данного набора из m точек в каждой геометрическая медиана определяется как ${\ displaystyle x_ {1}, x_ {2}, \ dots, x_ {m} \,}$ ${\ displaystyle x_ {i} \ in \ mathbb {R} ^ {n}}$

{\underset {y\in \mathbb {R} ^{n}}{\operatorname {arg\,min} }}\sum _{i=1}^{m}\left\|x_{i}-y\right\|_{2}

Здесь arg min означает значение аргумента, которое минимизирует сумму. В данном случае это точка, от которой сумма всех евклидовых расстояний до точек минимальна. $y$ $y$ $x_{i}$

Свойства [ править ]

В одномерном случае геометрическая медиана совпадает с медианой . Это связано с тем, что одномерная медиана также минимизирует сумму расстояний от точек. ^[11]
Геометрическая медиана уникальна, если точки не лежат на одной прямой . ^[12]
Геометрическая медиана эквивариантна для преобразований евклидова подобия , включая перенос и вращение . ^[5]^[11] Это означает, что можно получить тот же результат либо путем преобразования геометрической медианы, либо путем применения того же преобразования к выборке данных и нахождения геометрической медианы преобразованных данных. Это свойство следует из того, что геометрическая медиана определяется только из попарных расстояний и не зависит от системы ортогональных декартовых координат.которым представлены данные выборки. Напротив, покомпонентная медиана для многомерного набора данных в общем случае не инвариантна относительно вращения и не зависит от выбора координат. ^[5]
Геометрическая медиана имеет точку разбивки 0,5. ^[5] То есть до половины выборочных данных могут быть произвольно повреждены, и медиана выборок по-прежнему будет обеспечивать надежную оценку местоположения неповрежденных данных.

Особые случаи [ править ]

Для 3 ( неколлинеарных ) точек, если любой угол треугольника, образованного этими точками, равен 120 ° или более, то геометрическая медиана - это точка в вершине этого угла. Если все углы меньше 120 °, геометрическая медиана - это точка внутри треугольника, которая образует угол 120 ° с каждыми тремя парами вершин треугольника. ^[11] Это также известно как точка Ферма треугольника, образованного тремя вершинами. (Если три точки коллинеарны, то геометрическая медиана - это точка между двумя другими точками, как в случае с одномерной медианой.)
Для 4 копланарных точек, если одна из четырех точек находится внутри треугольника, образованного другими тремя точками, то геометрическая медиана является этой точкой. В противном случае четыре точки образуют выпуклый четырехугольник, а геометрическая медиана - это точка пересечения диагоналей четырехугольника. Геометрическая медиана четырех компланарных точек совпадает с единственной точкой Радона для четырех точек. ^[13]

Вычисление [ править ]

Несмотря на то, что геометрическая медиана является простой для понимания концепцией, ее вычисление представляет собой проблему. Центроид или центр масс , определяется аналогично геометрической медианы , как минимизировать сумму квадратов расстояний до каждой точки, можно найти по простой формуле - ее координаты являются средними значениями координат точек - но она имеет Было показано, что для геометрической медианы не может существовать ни явная формула , ни точный алгоритм, включающий только арифметические операции и k- е корни. Следовательно, в рамках этой модели вычислений возможны только численные или символьные приближения к решению этой проблемы . ^[14]

Однако легко вычислить приближение к геометрической медиане с помощью итерационной процедуры, в которой каждый шаг дает более точное приближение. Процедуры этого типа могут быть выведены из того факта, что сумма расстояний до точек выборки является выпуклой функцией , поскольку расстояние до каждой точки выборки является выпуклой, а сумма выпуклых функций остается выпуклой. Следовательно, процедуры, уменьшающие сумму расстояний на каждом шаге, не могут попасть в локальный оптимум .

Один общий подход этого типа, называемый алгоритм Weiszfeld в после работы Эндре Weiszfeld , ^[15] является одной из форм итеративно повторно взвешенных наименьших квадратов . Этот алгоритм определяет набор весов, которые обратно пропорциональны расстояниям от текущей оценки до точек выборки, и создает новую оценку, которая является средневзвешенным значением выборки в соответствии с этими весами. То есть,

\left.y_{i+1}=\left(\sum _{j=1}^{m}{\frac {x_{j}}{\|x_{j}-y_{i}\|}}\right)\right/\left(\sum _{j=1}^{m}{\frac {1}{\|x_{j}-y_{i}\|}}\right).

Этот метод сходится почти для всех начальных позиций, но может не сойтись, когда одна из его оценок попадает в одну из заданных точек. Его можно изменить для обработки этих случаев, чтобы он сходился для всех начальных точек. ^[12]

Bose, Maheshwari & Morin (2003) описывают более сложные процедуры геометрической оптимизации для поиска приблизительно оптимальных решений этой проблемы. Как показывают Nie, Parrilo & Sturmfels (2008) , проблема также может быть представлена как полуопределенная программа .

Cohen et al. (2016) показывают, как вычислить геометрическую медиану с произвольной точностью за почти линейное время .

Характеристика геометрической медианы [ править ]

Если y отличен от всех данных точек x _j , то y является геометрической медианой тогда и только тогда, когда она удовлетворяет:

0=\sum _{j=1}^{m}{\frac {x_{j}-y}{\left\|x_{j}-y\right\|}}.

Это эквивалентно:

\left.y=\left(\sum _{j=1}^{m}{\frac {x_{j}}{\|x_{j}-y\|}}\right)\right/\left(\sum _{j=1}^{m}{\frac {1}{\|x_{j}-y\|}}\right),

который тесно связан с алгоритмом Вайсфельда.

В общем случае y является геометрической медианой тогда и только тогда, когда существуют векторы u _j такие, что:

0=\sum _{j=1}^{m}u_{j}

где для x _j ≠ y ,

u_{j}={\frac {x_{j}-y}{\left\|x_{j}-y\right\|}}

и для x _j = y ,

\|u_{j}\|\leq 1.

Эквивалентная формулировка этого условия:

\sum _{1\leq j\leq m,x_{j}\neq y}{\frac {x_{j}-y}{\left\|x_{j}-y\right\|}}\leq \left|\{\,j\mid 1\leq j\leq m,x_{j}=y\,\}\right|.

Это можно рассматривать как обобщение свойства медианы в том смысле, что любое разбиение точек, в частности, индуцированное любой гиперплоскостью, проходящей через y , имеет одинаковую и противоположную сумму положительных направлений от y с каждой стороны. В одномерном случае гиперплоскость - это сама точка y , а сумма направлений упрощается до (направленной) счетной меры.

Обобщения [ править ]

Геометрическая медиана может быть обобщена с евклидовых пространств на общие римановы многообразия (и даже метрические пространства ), используя ту же идею, которая используется для определения среднего Фреше на римановом многообразии. ^[16] Пусть - риманово многообразие с соответствующей функцией расстояния , пусть - веса, суммирующие до 1, и пусть - наблюдения из . Затем мы определяем взвешенную геометрическую медиану (или взвешенную медиану Фреше) точек данных как $M$ $d(\cdot ,\cdot )$ $w_{1},\ldots ,w_{n}$ $n$ $x_{1},\ldots ,x_{n}$ $n$ $M$ $m$

m={\underset {x\in M}{\operatorname {arg\,min} }}\sum _{i=1}^{n}w_{i}d(x,x_{i})

.

Если все веса равны, мы просто говорим, что это геометрическая медиана. $m$

См. Также [ править ]

Медоид
Абсолютное отклонение геометрической медианы

Примечания [ править ]

^ Более общая задача k- median требует расположения k центров кластеров, минимизируя сумму расстояний от каждой точки выборки до ближайшего к ней центра.
^ а б в Дрезнер и др. (2002)
^ Цислик (2006) .
^ Lawera & Thompson (1993) .
^ a b c d Lopuhaä & Rousseeuw (1991)
^ Eiselt & Marianov (2011) .
^ Краруп & Вайда (1997) .
^ Испания (1996) .
^ Brimberg (1995) .
^ Bose, Махешвари & Morin (2003) .
^ a b c Холдейн (1948)
^ a b Варди и Чжан (2000)
^ Цислик (2006) , стр. 6; Пластрия (2006) . Выпуклый случай был первоначально доказан Джованни Фаньяно .
^ Bajaj (1986) ; Баджадж (1988) . Ранее Cockayne & Melzak (1969) доказали, что точку Штейнера для 5 точек на плоскости нельзя построить с помощью линейки и циркуля.
^ Вайсфельд (1937) ; Кун (1973) ; Чандрасекаран и Тамир (1989) .
^ Флетчер, Венкатасубраманиан и Джоши (2009) .

Ссылки [ править ]

Баджадж, К. (1986). «Доказательство неразрешимости геометрических алгоритмов: применение факторизационных многочленов». Журнал символических вычислений . 2 : 99–102. DOI : 10.1016 / S0747-7171 (86) 80015-3 .
Баджадж, К. (1988). «Алгебраическая степень задач геометрической оптимизации» . Дискретная и вычислительная геометрия . 3 (2): 177–191. DOI : 10.1007 / BF02187906 .
Бозе, Просенджит ; Махешвари, Анил; Морен, Пат (2003). «Быстрые приближения для сумм расстояний, кластеризация и проблема Ферма – Вебера» . Вычислительная геометрия: теория и приложения . 24 (3): 135–146. DOI : 10.1016 / S0925-7721 (02) 00102-5 .
Бримберг, Дж. (1995). «Возвращение к проблеме местоположения Ферма-Вебера». Математическое программирование . 71 (1, сер. A): 71–76. DOI : 10.1007 / BF01592245 . Руководство по ремонту 1362958 . S2CID 206800756 .
Chandrasekaran, R .; Тамир, А. (1989). «Открытые вопросы, касающиеся алгоритма Вайсфельда для проблемы размещения Ферма-Вебера». Математическое программирование . Series A. 44 (1–3): 293–295. DOI : 10.1007 / BF01587094 . S2CID 43224801 .
Чеслик, Дитмар (2006). Кратчайшая возможность подключения: введение в приложения в филогении . Комбинаторная оптимизация. 17 . Springer. п. 3. ISBN 9780387235394.
Кокейн, EJ; Мелзак, З.А. (1969). «Евклидова конструктивность в задачах минимизации графов». Математический журнал . 42 (4): 206–208. DOI : 10.2307 / 2688541 . JSTOR 2688541 .
Коэн, Майкл; Ли, Инь Тат; Миллер, Гэри ; Пачоцкий, Якуб; Сидфорд, Аарон (2016). «Геометрическая медиана за почти линейное время» (PDF) . Proc. 48-й симпозиум по теории вычислений (STOC 2016) . Ассоциация вычислительной техники . arXiv : 1606.05225 . DOI : 10.1145 / 2897518.2897647 .
Дрезнер, Цви; Кламрот, Катрин ; Шебель, Анита ; Весоловский, Джордж О. (2002). «Проблема Вебера» . Расположение объекта: приложения и теория . Спрингер, Берлин. С. 1–36. ISBN 9783540213451. MR 1933966 .
Eiselt, HA; Марьянов, Владимир (2011). Основы анализа местоположения . Международная серия исследований по операциям и менеджменту. 155 . Springer. п. 6. ISBN 9781441975720.
Fekete, Sándor P .; Митчелл, Джозеф SB ; Бурер, Карин (2005). «О непрерывной проблеме Ферма-Вебера». Исследование операций . 53 (1): 61–76. arXiv : cs.CG/0310027 . DOI : 10.1287 / opre.1040.0137 . Кириллович 1121 .CS1 maint: ref=harv (link)
Флетчер, П. Томас; Венкатасубраманиан, Суреш; Джоши, Саранг (2009). «Геометрическая медиана на римановых многообразиях с приложением к оценке робастного атласа» . NeuroImage . 45 (1 приложение): s143 – s152. DOI : 10.1016 / j.neuroimage.2008.10.052 . PMC 2735114 . PMID 19056498 .
Холдейн, JBS (1948). «Примечание о медиане многомерного распределения». Биометрика . 35 (3–4): 414–417. DOI : 10.1093 / Biomet / 35.3-4.414 .
Краруп, Якоб; Вайда, Стивен (1997). «О геометрическом решении Торричелли проблемы Ферма». Журнал IMA по математике, применяемой в бизнесе и промышленности . 8 (3): 215–224. DOI : 10.1093 / imaman / 8.3.215 . Руководство по ремонту 1473041 .
Кун, Гарольд В. (1973). «Заметка по проблеме Ферма». Математическое программирование . 4 (1): 98–107. DOI : 10.1007 / BF01584648 . S2CID 22534094 .
Лавера, Мартин; Томпсон, Джеймс Р. (1993). «Некоторые проблемы оценивания и тестирования в многомерном статистическом управлении процессами» . Труды 38-й конференции по дизайну экспериментов . Отчет Исследовательского управления армии США. 93–2 . С. 99–126.
Lopuhaä, Hendrick P .; Rousseeuw, Питер Дж. (1991). «Точки разрушения аффинных эквивариантных оценок многомерных матриц расположения и ковариационных матриц» . Анналы статистики . 19 (1): 229–248. DOI : 10.1214 / AOS / 1176347978 . JSTOR 2241852 .CS1 maint: ref=harv (link)
Не, Цзяванг; Parrilo, Pablo A .; Штурмфельс, Бернд (2008). «Полуопределенное представление $k$ -эллипса». В Dickenstein, A .; Schreyer, F.-O .; Sommese, AJ (ред.). Алгоритмы в алгебраической геометрии . Объемы IMA по математике и ее приложениям. 146 . Springer-Verlag. С. 117–132. arXiv : math / 0702005 . Bibcode : 2007math ...... 2005N . DOI : 10.1007 / 978-0-387-75155-9_7 . S2CID 16558095 .
Остреш Л. (1978). «Сходимость класса итерационных методов решения задачи Вебера». Исследование операций . 26 (4): 597–609. DOI : 10.1287 / opre.26.4.597 .CS1 maint: ref=harv (link)
Пластрия, Франк (2006). «Пересмотр четырехточечных проблем размещения Ферма. Новые доказательства и расширения старых результатов» (PDF) . IMA Journal of Management Mathematics . 17 (4): 387–396. DOI : 10,1093 / imaman / dpl007 . Zbl 1126.90046 ..
Испания, PG (1996). «Точка Ферма треугольника». Математический журнал . 69 (2): 131–133. DOI : 10.1080 / 0025570X.1996.11996409 . JSTOR 2690672? Origin = pubexport . Руководство по ремонту 1573157 .
Варди, Иегуда; Чжан, Цунь-Хуэй (2000). «Многомерный L 1 -средний и соответствующая глубина данных» . Труды Национальной академии наук Соединенных Штатов Америки . 97 (4): 1423–1426 (электронный). Bibcode : 2000PNAS ... 97.1423V . DOI : 10.1073 / pnas.97.4.1423 . Руководство по ремонту 1740461 . PMC 26449 . PMID 10677477 .
Вебер, Альфред (1909). Über den Standort der Industrien, Erster Teil: Reine Theorie des Standortes (на немецком языке). Тюбинген: Мор.
Весоловский, Г. (1993). «Проблема Вебера: история и перспективы». Геолокация . 1 : 5–23.
Вайсфельд, Э. (1937). «Sur le point pour lequel la somme des distance de n points donnes est минимум» . Математический журнал Тохоку (на французском языке). 43 : 355–386.Переведено на английский язык как Weiszfeld, E .; Пластрия, Франк (апрель 2008 г.). «В точке, для которой сумма расстояний до $n$ заданных точек минимальна». Анналы исследований операций . 167 (1): 7–41. DOI : 10.1007 / s10479-008-0352-Z .

[1] Более общая задача k- median требует расположения k центров кластеров, минимизируя сумму расстояний от каждой точки выборки до ближайшего к ней центра.

[dksw-2] а б в Дрезнер и др. (2002)

[FOOTNOTECieslik2006-3] Цислик (2006) .

[FOOTNOTELaweraThompson1993-4] Lawera & Thompson (1993) .

[lr-5] Lopuhaä & Rousseeuw (1991)

[FOOTNOTEEiseltMarianov2011-6] Eiselt & Marianov (2011) .

[FOOTNOTEKrarupVajda1997-7] Краруп & Вайда (1997) .

[FOOTNOTESpain1996-8] Испания (1996) .

[FOOTNOTEBrimberg1995-9] Brimberg (1995) .

[FOOTNOTEBoseMaheshwariMorin2003-10] Bose, Махешвари & Morin (2003) .

[haldane-11] Холдейн (1948)

[vz-12] Варди и Чжан (2000)

[13] Цислик (2006) , стр. 6; Пластрия (2006) . Выпуклый случай был первоначально доказан Джованни Фаньяно .

[14] Bajaj (1986) ; Баджадж (1988) . Ранее Cockayne & Melzak (1969) доказали, что точку Штейнера для 5 точек на плоскости нельзя построить с помощью линейки и циркуля.

[15] Вайсфельд (1937) ; Кун (1973) ; Чандрасекаран и Тамир (1989) .

[FOOTNOTEFletcherVenkatasubramanianJoshi2009-16] Флетчер, Венкатасубраманиан и Джоши (2009) .

[1]