Геометрический центр: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
Содержимое удалено Содержимое добавлено
Перевод с английского статьи "Geometric median"
(нет различий)

Версия от 16:53, 26 июня 2017

Геометрический центр дискретного множества точек евклидова пространства (говоря статистическим языком — выборки) — это точка, в которой минимизируется сумма расстояний до точек множества. Геометрический центр обобщает медиану в математической статистике, которая минимизирует расстояния в одномерной выборке данных. Таким образом, геометрический центр отражает центральную тенденциию в пространствах высокой размерности. Понятие известно также по названиями 1-медиана [1], пространственная медиана [2], или точка Торричелли [3].

Геометрический центр является важной оценочной фуекцией сдвига в статистике [4], в которой это понятие известно как оценка L1 [5]. Поиск геометрического центра является также стандартной задачей при размещении объектов, где моделируется расположение объектов (производства или потребления) с целью минимизации транспортных расходов [6]

Специальный случай задачи для трёх точек на плоскости (то есть, m=3 и n=2 в терминах, описанных ниже) иногда описывается как задача Ферма. Она возникает при построении минимальных деревьев Штейнера и впервые была поставлена как задача Пьером Ферма, а решил её Эванджелиста Торричелли [7]. Решение этой задачи известно теперь как точка Ферма треугольника, образованного тремя точками [8]. В свою очередь, поиск геометрического центра можно обобщить до задачи минимизации суммы взвешенных расстояний. Эта задача известна как задача Вебера, поскольку Альфред Вебер обсуждал эту задачу в книге 1909-го года по вопросам размещения объектов [2]. Некоторые источники вместо этого используют название задача Ферма – Вебера[9], но некоторые источники используют то же название для невзвешенной задачи [10]

Весоловский [11] дал обозрение задачи геометрического центра. Смотрите статью Фекете, Мичела и Бойера [12] с обсуждением обобщения задачи для случая недискретных множеств.

Определение

Формально, если задано множество, содержащее m точек , где все , геометрический центр определяется как

Геометрический центр

Заметьте, что здесь arg min означает значение аргумента , на котором достигается минимальная сумма. Это точка , для которой сумма всех евклидовых расстояний до минимально.

Свойства

  • Для случая одномерного пространства геометрический центр совпадает с медианой. Это потому, что одномерная медиана минимизирует сумму расстояний до точек [13].
  • Геометрический центр является единственным для всех случаев, когда точки не коллинеарны [14].
  • Геометрический центр эквивариантен[англ.] для евклидового подобия, параллельного переноса и поворота [5][13]. Это означает, что получим один и тот же результат, если найти образ центра при преобразовании, либо, применив то же преобразование ко всем точкам выборки, а затем уже найдя геометрический центр. Это свойство вытекает из факта, что геометрический центр определяется лишь исходя из попарных расстояний и не зависит от системы ортогональных декартовых координат. Для контраста, покомпонентная медиана для многомерных данных при вращении, в общем случае, не является инвариантом и зависит от выбора координат [5].
  • Геометрический центр имеет точку срыва 0,5 [5]. То есть, до половины данных выборки могут быть недостоверными, но геометрический центр выборки остаётся устойчивой оценкой положения неиспорченных данных.

Специальные случаи

  • Для 3 (неколлинеарных) точек, если какой-либо из углов треугольника с вершинами в этих точках составляет 120° или больше, то геометрический центр — это вершина этого угла. Если все углы меньше 120°, геометрический центр — это точка внутри треугольника, которая составляет угол 120° с любой парой вершин треугольника [13]. Эта точка известна как точка Ферма треугольника. (если три точки коллинеарны, то геометрический центр лежит на отрезке между точками.)
  • Для 4 копланарных точек, если одна из четырёх точек лежит внутри треугольника, образованного тремя другими точками, геометрическим местом будет эта внутренняя точка. В противном случае четыре точки образуют выпуклый четырёхугольник и геометрическим центром служит точка пересечения диагоналей четырёхугольника. Геометрический центр четырёх копланарных точек — это то же самое, что и единственная точка Радона для четырёх точек [15].

Вычисление

Несмотря на то, что понятие геометрического центра является простым для понимания, его вычисление вызывает трудности. Центроид треугольника или центр масс, определяемый аналогично геометрическому центру как минимизация суммы квадратов расстояний до каждой точки, может быть получен с помощью простых формул — его координаты являются средним арифметическим координат точек. Однако, такой простой формулы для геометрического центра не известно. Даже было показано, что не существует ни явной формулы[англ.], ни точного алгоритма, использующего только арифметические операции и операции извлечения корней. Таким образом, существуют только аппроксимации к решения данной задачи [16]

Однако, можно вычислить приближение к геометрическому центру, используя итеративную процедуру, в которой каждый шаг даёт более точное приближение. Процедуры этого типа могут получены из того факта, что сумма расстояний до точек выборки является выпуклой функцией, поскольку расстояние до каждой точки выборки является выпуклой функцией, а сумма выпуклых функций также является выпуклой функцией. Таким образом, процедура уменьшения суммы расстояний не может попасть в локальный оптимум[англ.].

Одним из подходов такого рода — алгоритм Вайсфельда (Андре Вайсфельд[англ.]) [17][18][19] является видом итерационного взвешенного метода наименьших квадратов[англ.] с меняющимися весами. Этот алгоритм задаёт множество весов, которые обратно пропорциональны расстояниям до текущего приближения, и вычисляет новое приближение, являющееся средним взвешенным точек выборки согласно этим весам. То есть,

Метод сходится почти со всех начальных положений, но может завершиться неудачей, если приближение оказывается в одной из точек выборки. Алгоритм можно модифицировать таким образом, что он будет сходиться для всех начальных точек [14].

Бозе, Магешвари и Морин [10] описали более изощрённую процедуру оптимизации для поиска приблизительного оптимального решения данной задачи. Как показали Не, Паррило и Стармфилс [20] показали, что задачу можно представить как задачу полуопределённого программирования.

Коэн, Ли, Миллер и Пачоки [21] показали как вычислить геометрический центр с произвольной точностью за почти линейное время.

Описание геометрического центра

Если точка y отлична от всех заданных точек выборки xj, то y является геометрическим центром тогда и только тогда, когда

Это эквивалентно

что тесно связано с алгоритмом Вайсфельда.

В общем случае y является геометрическим центром тогда и только тогда, когда существуют вектора uj, такие что

где для xjy,

а для xj=y,

Эквивалентная формулировка этого условия

Обобщения

Геометрический центр можно обобщить от евклидовых пространств до общих римановых многообразий (и даже метрических пространств) используя ту же идею, что используется для определения среднего Фреше[англ.] на римановых многообразиях [22]. Пусть — риманово многообразие с функцией расстояния , пусть весов, в сумме дающих 1, и пусть наблюдений из . Тогда мы определяем взвешенный геометрический центр (или взвешенное среднее Фреше) точек данных

.

Если все веса равны мы говорим, что является геометрическим центром.

Примечания

  1. Более общая задача о k-медиане задаёт вопрос о положении k центров, минимизирующих сумму расстояний от каждой точки множества до ближайшего центра.
  2. 1 2 Drezner, Klamroth, Schöbel, Wesolowsky, 2002.
  3. Cieslik, 2006.
  4. Lawera, Thompson, 1993.
  5. 1 2 3 4 Lopuhaä, Rousseeuw, 1991.
  6. Eiselt, Marianov, 2011.
  7. Krarup, Vajda, 1997.
  8. Spain, 1996.
  9. Brimberg, 1995.
  10. 1 2 Bose, Maheshwari, Morin, 2003.
  11. Wesolowsky, 1993.
  12. Fekete, Mitchell, Beurer, 2005.
  13. 1 2 3 Haldane, 1948.
  14. 1 2 Vardi, Zhang, 2000.
  15. Cieslik, 2006;Plastria, 2006. Выпуклый случай первым доказал Джованни Фаньяно[англ.].
  16. Bajaj, 1986; Bajaj, 1988. Ранее Кокейн и Мельцак Cockayne, Melzak, 1969 доказали, что точка Штейнера для 5 точек на плоскости не может быть построена с помощью циркуля и линейки
  17. Weiszfeld, 1937.
  18. Kuhn, 1973.
  19. Chandrasekaran, Tamir, 1989.
  20. Nie, Parrilo, Sturmfels, 2008.
  21. Cohen, Lee, Miller, Pachocki, Sidford, 2016.
  22. Fletcher, Venkatasubramanian, Joshi, 2009.

Литература

  • Chandrajit Bajaj. Proving geometric algorithms nonsolvability: An application of factoring polynomials // Journal of Symbolic Computation. — 1986. — Т. 2. — С. 99–102. — doi:10.1016/S0747-7171(86)80015-3.
  • The algebraic degree of geometric optimization problems // Discrete and Computational Geometry. — 1988. — Т. 3. — С. 177–191. — doi:10.1007/BF02187906.
  • Fast approximations for sums of distances, clustering and the Fermat–Weber problem // Computational Geometry: Theory and Applications. — 2003. — Т. 24, вып. 3. — С. 135–146. — doi:10.1016/S0925-7721(02)00102-5.
  • J. Brimberg. The Fermat–Weber location problem revisited // Mathematical Programming. — 1995. — Т. 71, вып. 1, Ser. A. — С. 71–76. — doi:10.1007/BF01592245.
  • R. Chandrasekaran, A. Tamir. Open questions concerning Weiszfeld's algorithm for the Fermat-Weber location problem // Mathematical Programming. — 1989. — Т. 44. — С. 293–295. — doi:10.1007/BF01587094.
  • Dietmar Cieslik. Shortest Connectivity: An Introduction with Applications in Phylogeny. — Springer, 2006. — Т. 17. — ISBN 9780387235394.
  • E. J. Cockayne, Z. A. Melzak. Euclidean constructability in graph minimization problems // Mathematics Magazine. — 1969. — Т. 42, вып. 4. — С. 206–208. — doi:10.2307/2688541. — JSTOR 2688541.
  • Michael Cohen, Yin Tat Lee, Gary Miller, Jakub Pachocki, Aaron Sidford. Geometric median in nearly linear time // Proc. 48th Symposium on Theory of Computing (STOC 2016). — Association for Computing Machinery, 2016.
  • Zvi Drezner, Kathrin Klamroth, Anita Schöbel, George O. Wesolowsky. The Weber problem // Facility Location: Applications and Theory. — Springer, Berlin, 2002. — С. 1–36.
  • H. A. Eiselt, Vladimir Marianov. Foundations of Location Analysis. — Springer, 2011. — Т. 155. — С. 6. — (International Series in Operations Research & Management Science). — ISBN 9781441975720.
  • Sándor P. Fekete, Joseph S. B. Mitchell, Karin Beurer. On the continuous Fermat-Weber problem // Operations Research. — 2005. — Т. 53, вып. 1. — С. 61–76. — doi:10.1287/opre.1040.0137. — arXiv:cs.CG/0310027.
  • P. Thomas Fletcher, Suresh Venkatasubramanian, Sarang Joshi. The geometric median on Riemannian manifolds with application to robust atlas estimation // NeuroImage. — 2009. — Т. 45, вып. 1 Suppl. — С. s143–s152. — doi:10.1016/j.neuroimage.2008.10.052. — PMID 19056498. — PMC 2735114.
  • J. B. S. Haldane. Note on the median of a multivariate distribution // Biometrika. — 1948. — Т. 35, вып. 3–4. — С. 414–417. — doi:10.1093/biomet/35.3-4.414.
  • Jakob Krarup, Steven Vajda. On Torricelli's geometrical solution to a problem of Fermat // IMA Journal of Mathematics Applied in Business and Industry. — 1997. — Т. 8, вып. 3. — С. 215–224. — doi:10.1093/imaman/8.3.215.
  • Harold W. Kuhn. A note on Fermat's problem // Mathematical Programming. — 1973. — Т. 4, вып. 1. — С. 98–107. — doi:10.1007/BF01584648.
  • Martin Lawera, James R. Thompson. Some problems of estimation and testing in multivariate statistical process control // Proceedings of the 38th Conference on the Design of Experiments. — 1993. — Т. 93-2. — С. 99–126.
  • Hendrick P. Lopuhaä, Peter J. Rousseeuw. Breakdown points of affine equivariant estimators of multivariate location and covariance matrices // Annals of Statistics. — 1991. — Т. 19, вып. 1. — С. 229–248. — doi:10.1214/aos/1176347978. — JSTOR 2241852.
  • Jiawang Nie, Pablo A. Parrilo, Bernd Sturmfels. Algorithms in Algebraic Geometry / A. Dickenstein, F.-O. Schreyer, A.J. Sommese. — Springer-Verlag, 2008. — Т. 146. — С. 117–132. — (IMA Volumes in Mathematics and its Applications).
  • L. Ostresh. Convergence of a Class of Iterative Methods for Solving Weber Location Problem // Operations Research. — 1978. — Т. 26, вып. 4. — С. 597–609. — doi:10.1287/opre.26.4.597.
  • Frank Plastria. Four-point Fermat location problems revisited. New proofs and extensions of old results // IMA Journal of Management Mathematics. — 2006. — Т. 17, вып. 4. — С. 387–396. — doi:10.1093/imaman/dpl007.
  • P. G. Spain. The Fermat Point of a Triangle // Mathematics Magazine. — 1996. — Т. 69, вып. 2. — С. 131–133. — JSTOR 2690672?origin=pubexport.
  • Yehuda Vardi, Cun-Hui Zhang. The multivariate L1-median and associated data depth // Proceedings of the National Academy of Sciences of the United States of America. — 2000. — Т. 97, вып. 4. — С. 1423–1426 (electronic). — doi:10.1073/pnas.97.4.1423.
  • Alfred Weber. Über den Standort der Industrien, Erster Teil: Reine Theorie des Standortes. — Tübingen: Mohr, 1909.
  • G. Wesolowsky. The Weber problem: History and perspective // Location Science. — 1993. — Т. 1. — С. 5–23.
  • E. Weiszfeld. Sur le point pour lequel la somme des distances de n points donnes est minimum // Tohoku Mathematical Journal. — 1937. — Т. 43. — С. 355–386.