Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Проклятие размерности относится к различным явлениям , которые возникают при анализе и организации данных в многомерных пространствах , которые не встречаются в маломерных условиях , например, трехмерного физического пространства повседневного опыта. Выражение было придумано Ричардом Э. Беллманом при рассмотрении задач динамического программирования . [1] [2]

Проклятые в измерениях явления происходят в таких областях, как численный анализ , выборка , комбинаторика , машинное обучение , интеллектуальный анализ данных и базы данных . Общая тема этих проблем заключается в том, что при увеличении размерности объем пространства увеличивается так быстро, что доступные данные становятся разреженными. Такая разреженность проблематична для любого метода, требующего статистической значимости.. Чтобы получить статистически обоснованный и надежный результат, объем данных, необходимых для подтверждения результата, часто растет экспоненциально с увеличением размерности. Кроме того, организация и поиск данных часто основываются на обнаружении областей, в которых объекты образуют группы со схожими свойствами; Однако в данных большой размерности все объекты кажутся разреженными и непохожими во многих отношениях, что не позволяет использовать общие стратегии организации данных.

Домены [ править ]

Комбинаторика [ править ]

В некоторых задачах каждая переменная может принимать одно из нескольких дискретных значений, или диапазон возможных значений делится, чтобы дать конечное число возможностей. Взяв переменные вместе, необходимо рассмотреть огромное количество комбинаций значений. Этот эффект также известен как комбинаторный взрыв . Даже в простейшем случае двоичных переменных количество возможных комбинаций уже экспоненциально по размерности. Наивно, что каждое дополнительное измерение удваивает усилия, необходимые для опробования всех комбинаций.

Выборка [ править ]

Существует экспоненциальное увеличение объема, связанное с добавлением дополнительных измерений в математическое пространство . Например, 10 2 = 100 равномерно распределенных точек выборки достаточно для выборки единичного интервала («одномерный куб») с не более чем 10 -2 = 0,01 расстоянием между точками; эквивалентная выборка 10-мерного единичного гиперкуба с решеткой, имеющей интервал 10 -2 = 0,01 между соседними точками, потребует 10 20 = [(10 2 ) 10 ] точек выборки. В общем, с интервалом 10 −n 10-мерный гиперкуб оказывается множителем 10 n (10-1) = [(10n ) 10 / (10 n )] «больше», чем одномерный гиперкуб, который представляет собой единичный интервал. В приведенном выше примере n = 2: при использовании расстояния выборки 0,01 10-мерный гиперкуб оказывается на 10 18 "больше", чем единичный интервал. Этот эффект представляет собой комбинацию задач комбинаторики, описанных выше, и задач функции расстояния, описанных ниже.

Оптимизация [ править ]

При решении задач динамической оптимизации с помощью численной обратной индукции целевая функция должна вычисляться для каждой комбинации значений. Это серьезное препятствие, когда размерность «переменной состояния» велика. [3]

Машинное обучение [ править ]

В задачах машинного обучения, которые включают изучение «естественного состояния» из конечного числа выборок данных в многомерном пространстве признаков, где каждая функция имеет диапазон возможных значений, обычно требуется огромное количество обучающих данных, чтобы гарантировать что есть несколько образцов с каждой комбинацией значений.

Типичное практическое правило состоит в том, что для каждого измерения в представлении должно быть не менее 5 обучающих примеров. [4] В машинном обучении и постольку , поскольку предсказание производительность обеспокоена, проклятие размерности используется взаимозаменяемо с вспучиванием явлением , [4] , который также известен как Hughes явление . [5] Этот феномен утверждает, что при фиксированном количестве обучающих выборок средняя (ожидаемая) предсказательная сила классификатора или регрессора сначала увеличивается по мере увеличения количества используемых измерений или функций, но за пределами определенной размерности она начинает ухудшаться, а не улучшаться. стабильно. [6] [7] [8]

Тем не менее, в контексте простого классификатора ( линейный дискриминантный анализ в многомерной гауссовской модели в предположении общеизвестной ковариационной матрицы) Zollanvari et al. [9]как аналитически, так и эмпирически показали, что до тех пор, пока относительная кумулятивная эффективность дополнительного набора функций (по отношению к функциям, которые уже являются частью классификатора) больше (или меньше), чем размер этого дополнительного набора функций, ожидаемая ошибка классификатор, построенный с использованием этих дополнительных функций, будет меньше (или больше), чем ожидаемая ошибка классификатора, построенного без них. Другими словами, как размер дополнительных функций, так и их (относительный) кумулятивный дискриминационный эффект важны для наблюдения за уменьшением или увеличением средней прогностической способности.

Функции расстояния [ править ]

Когда такая мера, как евклидово расстояние , определяется с использованием многих координат, разница в расстояниях между разными парами выборок незначительна.

Один из способов проиллюстрировать «необъятность» многомерного евклидова пространства - это сравнить пропорцию вписанной гиперсферы с радиусом и размерностью и гиперкуба с ребрами длины . Объем такой сферы равен , где - гамма-функция , а объем куба равен . По мере увеличения размера пространства гиперсфера становится незначительным объемом по сравнению с объемом гиперкуба. Это можно ясно увидеть , сравнив пропорции, когда размерность уходит в бесконечность: Γ {\displaystyle \Gamma }

как .

Кроме того, расстояние между центром и углами равно , которое неограниченно увеличивается при фиксированном r. В этом смысле почти все многомерное пространство «далеко» от центра. В больших измерениях объем d- мерного единичного гиперкуба (с координатами вершин ) сосредоточен около сферы с радиусом для большой размерности d . Действительно, для каждой координаты среднее значение в кубе равно

.

Дисперсия для равномерного распределения в кубе равна

Следовательно, квадрат расстояния от начала координат имеет среднее значение d / 3 и дисперсию 4 d / 45. Для больших d распределение близко к нормальному распределению со средним значением 1/3 и стандартным отклонением согласно центральной предельной теореме . Таким образом, в больших измерениях и «середина» гиперкуба, и углы пусты, а весь объем сосредоточен около сферы «промежуточного» радиуса .

Это также помогает понять распределение хи-квадрат . Действительно, (нецентральное) распределение хи-квадрат, связанное со случайной точкой в ​​интервале [-1, 1], такое же, как распределение квадрата длины случайной точки в d- кубе. По закону больших чисел это распределение концентрируется в узкой полосе примерно в d, умноженной на квадрат стандартного отклонения (σ 2 ) исходного вывода. Это освещает распределение хи-квадрат, а также показывает, что большая часть объема d- куба концентрируется около поверхности сферы радиуса .

Дальнейшее развитие этого явления состоит в следующем. Любое фиксированное распределение на индуцирует распределение продуктов по точкам в д . Для любого фиксированного n оказывается, что минимальное и максимальное расстояние между случайной контрольной точкой Q и списком из n случайных точек данных P 1 , ..., P n становятся неразличимыми по сравнению с минимальным расстоянием: [10]

.

Это часто упоминается как функции расстояния, теряющие свою полезность (например, для критерия ближайшего соседа в алгоритмах сравнения функций) в больших измерениях. Однако недавние исследования показали , что это только трюм в искусственном сценарии , когда одномерные распределения являются независимыми и одинаково распределенными . [11] Когда атрибуты коррелированы, данные могут упроститься и обеспечить более высокий контраст на расстоянии, и было обнаружено, что отношение сигнал / шум играет важную роль, поэтому следует использовать выбор характеристик . [11]

Поиск ближайшего соседа [ править ]

Эффект усложняет поиск ближайшего соседа в многомерном пространстве. Невозможно быстро отклонить кандидатов, используя разницу в одной координате в качестве нижней границы расстояния, основанного на всех измерениях. [12] [13]

Однако недавно было замечено, что простое количество измерений не обязательно приводит к трудностям [14], поскольку соответствующие дополнительные измерения также могут увеличивать контраст. Кроме того, для итогового ранжирования по-прежнему полезно различать близких и дальних соседей. Однако несоответствующие ("шумовые") размеры уменьшают контраст описанным выше способом. В анализе временных рядов , где данные по своей природе являются многомерными, функции расстояния также работают надежно, пока отношение сигнал / шум достаточно велико. [15]

k - классификация ближайшего соседа [ править ]

Другой эффект высокой размерности на функции расстояния касается графиков k- ближайших соседей ( k -NN), построенных из набора данных с использованием функции расстояния. По мере увеличения размерности неравномерное распределение орграфа k -NN становится искаженным с пиком справа из-за появления непропорционального количества узлов , то есть точек данных, которые появляются во многих других списках k -NN других точки данных, чем в среднем. Это явление может существенно повлиять на различные методы классификации (включая k-NN классификатор ), полуобучаемое обучение и кластеризация , [16] , и это также влияет на поиск информации . [17]

Обнаружение аномалий [ править ]

В обзоре 2012 года Zimek et al. выявили следующие проблемы при поиске аномалий в данных большой размерности: [11]

  1. Концентрация очков и расстояний: производные значения, такие как расстояния, становятся численно подобными
  2. Нерелевантные атрибуты: в данных большой размерности значительное количество атрибутов может быть неактуальным.
  3. Определение наборов ссылок: для локальных методов наборы ссылок часто основаны на ближайшем соседе.
  4. Несравнимые оценки для разных размерностей: разные подпространства дают несравнимые оценки
  5. Интерпретируемость оценок: оценки часто больше не передают смысловое значение
  6. Пространство экспоненциального поиска: пространство поиска больше не может систематически сканироваться
  7. Предвзятость отслеживания данных : учитывая большое пространство поиска, для любого желаемого значения может быть найдена гипотеза
  8. Концентрация: одни объекты чаще встречаются в списках соседей, чем другие.

Многие из проанализированных специализированных методов решают ту или иную из этих проблем, но остается много открытых исследовательских вопросов.

Благословение размерности [ править ]

Удивительно, но несмотря на ожидаемые трудности "проклятия размерности", эвристика здравого смысла, основанная на самых простых методах, "может давать результаты, которые почти наверняка оптимальны" для задач большой размерности. [18] Термин «благословение размерности» был введен в конце 1990-х годов. [18] Донохо в своем «Манифесте тысячелетия» ясно объяснил, почему «благословение размерности» ляжет в основу будущего интеллектуального анализа данных. [19] Эффекты благословения размерности были обнаружены во многих приложениях и нашли свою основу в концентрации явлений меры . [20]Одним из примеров благословения феномена размерности является линейная отделимость случайной точки от большого конечного случайного множества с высокой вероятностью, даже если это множество экспоненциально велико: количество элементов в этом случайном множестве может экспоненциально расти вместе с размерностью. Более того, этот линейный функционал можно выбрать в виде простейшего линейного дискриминанта Фишера . Эта теорема отделимости была доказана для широкого класса распределений вероятностей: общих равномерно логарифмически вогнутых распределений, распределений произведений в кубе и многих других семейств (недавно рассмотренных в [20] ).

«Благословение размерности и проклятие размерности - две стороны одной медали». [21] Например, типичное свойство по существу многомерных распределений вероятностей в многомерном пространстве: квадрат расстояния от случайных точек до выбранной точки с высокой вероятностью близок к среднему (или среднему) квадрату расстояния. . Это свойство значительно упрощает ожидаемую геометрию данных и индексацию данных большой размерности (благословение), [22], но, в то же время, делает поиск подобия в больших измерениях трудным и даже бесполезным (проклятие). [23]

Zimek et al. [11] отметили, что хотя типичные формализации проклятия размерности влияют на данные iid , иметь данные, разделенные по каждому атрибуту, становится проще даже в больших измерениях, и утверждали, что отношение сигнал / шум имеет значение: данные становятся проще с каждым атрибутом. атрибут, который добавляет сигнал, и еще сложнее с атрибутами, которые только добавляют шум (несущественная ошибка) к данным. В частности, для неконтролируемого анализа данных этот эффект известен как заболачивание.

См. Также [ править ]

  • Уравнение беллмана
  • Кластеризация многомерных данных
  • Концентрация меры
  • Уменьшение размеров
  • Уменьшение заказа на модель
  • Динамическое программирование
  • Преобразования, связанные с Фурье
  • Линейный метод наименьших квадратов
  • Многолинейный PCA
  • Мультилинейное подпространственное обучение
  • Анализ главных компонентов
  • Разложение по сингулярным числам

Ссылки [ править ]

  1. ^ Беллман, Ричард Эрнест; Rand Corporation (1957). Динамическое программирование . Издательство Принстонского университета. п. ix. ISBN 978-0-691-07951-6.,
    Переиздано: Беллман, Ричард Эрнест (2003). Динамическое программирование . Courier Dover Publications. ISBN 978-0-486-42809-3.
  2. ^ Беллман, Ричард Эрнест (1961). Процессы адаптивного управления: экскурсия . Издательство Принстонского университета.
  3. ^ Тейлор, С. Роберт (1993). «Динамическое программирование и проклятия размерности» . Приложения динамического программирования к проблемам принятия решений в сельском хозяйстве . Westview Press. С. 1–10. ISBN 0-8133-8641-1.
  4. ^ a b Кутроумбас, Константинос; Теодоридис, Сергиос (2008). Распознавание образов (4-е изд.). Берлингтон. ISBN 978-1-59749-272-0. Проверено 8 января 2018 .
  5. Перейти ↑ Hughes, GF (январь 1968 г.). «О средней точности статистических распознавателей образов». IEEE Transactions по теории информации . 14 (1): 55–63. DOI : 10.1109 / TIT.1968.1054102 . S2CID 206729491 . 
  6. Перейти ↑ Trunk, GV (июль 1979 г.). «Проблема размерности: простой пример». IEEE Transactions по анализу шаблонов и машинному анализу . ПАМИ-1 (3): 306–307. DOI : 10.1109 / TPAMI.1979.4766926 . PMID 21868861 . 
  7. ^ Б. Чандрасекаран; А. К. Джайн (1974). «Сложность квантования и независимые измерения». Транзакции IEEE на компьютерах . 23 (8): 102–106. DOI : 10.1109 / TC.1974.223789 .
  8. Перейти ↑ McLachlan, GJ (2004). Дискриминантный анализ и статистическое распознавание образов . Wiley Interscience. ISBN 978-0-471-69115-0. Руководство по ремонту  1190469 .
  9. ^ А. Золланвари; А. П. Джеймс; Р. Самени (2020). «Теоретический анализ явления пика в классификации». Журнал классификации . 37 : 421–434. DOI : 10.1007 / s00357-019-09327-3 .
  10. ^ Бейер, К .; Goldstein, J .; Ramakrishnan, R .; Вал, У. (1999). Когда имеет значение «ближайший сосед»? . Proc. 7-я Международная конференция по теории баз данных - ICDT'99 . LNCS. 1540 . С. 217–235. DOI : 10.1007 / 3-540-49257-7_15 . ISBN 978-3-540-65452-0.
  11. ^ a b c d Zimek, A .; Schubert, E .; Кригель, Х.-П. (2012). «Обзор неконтролируемого обнаружения выбросов в многомерных числовых данных». Статистический анализ и интеллектуальный анализ данных . 5 (5): 363–387. DOI : 10.1002 / sam.11161 .
  12. ^ Маримонт, РБ; Шапиро, МБ (1979). «Поиски ближайшего соседа и проклятие размерности» . IMA J Appl Math . 24 (1): 59–70. DOI : 10.1093 / имамата / 24.1.59 .
  13. ^ Чавес, Эдгар; Наварро, Гонсало; Баеза-Йейтс, Рикардо; Маррокин, Хосе Луис (2001). «Поиск в метрических пространствах». ACM Computing Surveys . 33 (3): 273–321. CiteSeerX 10.1.1.100.7845 . DOI : 10.1145 / 502807.502808 . 
  14. ^ Houle, ME; Кригель, HP ; Kröger, P .; Schubert, E .; Зимек, А. (2010). Могут ли расстояния между общими соседями победить проклятие размерности? (PDF) . Управление научно-статистической базой данных. Конспект лекций по информатике. 6187 . п. 482. DOI : 10.1007 / 978-3-642-13818-8_34 . ISBN  978-3-642-13817-1.
  15. ^ Бернекер, Т .; Houle, ME; Кригель, HP ; Kröger, P .; Renz, M .; Schubert, E .; Зимек, А. (2011). Качество ранжирования сходства во временных рядах . Симпозиум по пространственным и временным базам данных. Конспект лекций по информатике. 6849 . п. 422. DOI : 10.1007 / 978-3-642-22922-0_25 . ISBN 978-3-642-22921-3.
  16. ^ Радованович, Милош; Нанопулос, Александрос; Иванович, Мирьяна (2010). «Хабы в космосе: популярные ближайшие соседи в данных большой размерности» (PDF) . Журнал исследований в области машинного обучения . 11 : 2487–2531.
  17. ^ Радованович, М .; Nanopoulos, A .; Иванович, М. (2010). О существовании упорных результатов в моделях векторных пространств . 33-я международная конференция ACM SIGIR по исследованиям и разработкам в области информационного поиска - SIGIR '10. п. 186. DOI : 10,1145 / 1835449,1835482 . ISBN 9781450301534.
  18. ^ a b Кайнен, Пол К. (1997), «Использование геометрических аномалий большой размерности: когда сложность упрощает вычисления», в Kárný, M .; Warwick, К. (ред.), Компьютерные Интенсивные методы в контроле и обработки сигналов ., Стр 283-294, DOI : 10.1007 / 978-1-4612-1996-5_18
  19. ^ Донохо, Дэвид Л. (2000), «Анализ многомерных данных: проклятия и благословения размерности», приглашенная лекция на «Математических вызовах 21 века», Национальное собрание AMS, Лос-Анджелес, Калифорния, США, 6-12 августа. , 2000 , CiteSeerX 10.1.1.329.3392 
  20. ^ a b Горбань Александр Н .; Макаров Валерий А .; Тюкин, Иван Юрьевич (2020). «Многомерный мозг в многомерном мире: благословение многомерности» . Энтропия . 22 (1): 82. arXiv : 2001.04959 . Bibcode : 2020Entrp..22 ... 82G . DOI : 10.3390 / e22010082 .
  21. ^ Горбань, Александр Н .; Тюкин, Иван Юрьевич (2018). «Благо размерности: математические основы статистической физики данных» . Фил. Пер. R. Soc. . 376 (2118): 20170237. arXiv : 1801.03421 . Bibcode : 2018RSPTA.37670237G . DOI : 10,1098 / rsta.2017.0237 . PMC 5869543 . PMID 29555807 .  
  22. ^ Хехт-Нильсен, Роберт (1994), «Векторы контекста: общие представления приблизительного значения, самоорганизующиеся из необработанных данных», в Zurada, JM; Marks, RJ; Робинсон, CJ (ред.), Вычислительный интеллект: подражание жизни; Труды Всемирного конгресса по вычислительному интеллекту, нейронным сетям; 1994; Орландо; Флорида , Пискатауэй, Нью-Джерси: IEEE Press, стр. 43–56, ISBN 0780311043
  23. Пестов, Владимир (2013). «Подвержен ли проклятие размерности k-NN классификатору в больших измерениях?» . Comput. Математика. Прил . 65 (10): 43–56. DOI : 10.1016 / j.camwa.2012.09.011 .