Снижение размерности

Уменьшение размерности или уменьшение размерности - это преобразование данных из пространства большой размерности в пространство низкой размерности, так что представление низкой размерности сохраняет некоторые значимые свойства исходных данных, в идеале близкие к их внутреннему измерению . Работа в объемных пространствах может быть нежелательной по многим причинам; необработанные данные часто являются разреженными из-за проклятия размерности , а анализ данных обычно сложно поддается вычислению . Снижение размерности часто встречается в областях, которые имеют дело с большим количеством наблюдений и / или большим количеством переменных, таких как обработка сигналов , распознавание речи., нейроинформатика и биоинформатика . ^[1]

Методы обычно делятся на линейные и нелинейные. ^[1] подходы также может быть разделены на отбор признаков и выделение признаков . ^[2] Снижение размерности может использоваться для уменьшения шума , визуализации данных , кластерного анализа или в качестве промежуточного шага для облегчения других анализов.

Выбор функции

Подходы к выбору функций пытаются найти подмножество входных переменных (также называемых функциями или атрибутами). Этими тремя стратегиями являются: стратегия фильтрации (например, получение информации ), стратегия оболочки (например, поиск, основанный на точности) и встроенная стратегия (выбранные функции добавляются или удаляются при построении модели на основе ошибок прогнозирования).

Анализ данных, такой как регрессия или классификация, может быть выполнен в сокращенном пространстве более точно, чем в исходном пространстве. ^[3]

Проекция функций

Проекция признаков (также называемая извлечением признаков) преобразует данные из пространства большой размерности в пространство меньшего размера. Преобразование данных может быть линейным, как в анализе главных компонентов (PCA), но также существует множество методов нелинейного уменьшения размерности . ^[4]^[5] Для многомерных данных тензорное представление может использоваться для уменьшения размерности посредством обучения полилинейному подпространству . ^[6]

Анализ главных компонентов (PCA)

Основной линейный метод уменьшения размерности, анализ главных компонентов, выполняет линейное отображение данных в пространство более низкой размерности таким образом, чтобы дисперсия данных в представлении низкой размерности была максимальной. На практике создается ковариационная (а иногда и корреляционная ) матрица данных и вычисляются собственные векторы на этой матрице. Собственные векторы, которые соответствуют наибольшим собственным значениям (главные компоненты), теперь могут использоваться для восстановления значительной части дисперсии исходных данных. Более того, первые несколько собственных векторов часто можно интерпретировать с точки зрения крупномасштабного физического поведения системы, потому что они часто вносят большую часть энергии системы, особенно в низкоразмерных системах. Тем не менее, это необходимо доказывать в каждом конкретном случае, поскольку не все системы демонстрируют такое поведение. Исходное пространство (с размерностью числа точек) было уменьшено (с потерей данных, но, надеюсь, с сохранением наиболее важной дисперсии) до пространства, охватываемого несколькими собственными векторами. ^{[ необходима цитата ]}

Неотрицательная матричная факторизация (NMF)

NMF разлагает неотрицательную матрицу на произведение двух неотрицательных, что является многообещающим инструментом в областях, где существуют только неотрицательные сигналы ^[7]^[8], таких как астрономия. ^[9]^[10] NMF хорошо известен со времен правила мультипликативного обновления Lee & Seung ^[7], которое постоянно развивается: включение неопределенностей, ^[9] учет недостающих данных и параллельные вычисления, ^[11] последовательные конструкция ^[11], которая приводит к стабильности и линейности NMF, ^[10], а также другие обновления, включая обработку недостающих данных при цифровой обработке изображений . ^[12]

Благодаря стабильной компонентной основе во время строительства и процессу линейного моделирования, последовательный NMF ^[11] может сохранять поток при прямом отображении околозвездных структур в астромонии ^[10] как один из методов обнаружения экзопланет , особенно для прямого изображение околозвездных дисков . По сравнению с PCA, NMF не удаляет среднее значение матриц, что приводит к нефизическим неотрицательным потокам, поэтому NMF может сохранять больше информации, чем PCA, как продемонстрировали Ren et al. ^[10]

Ядро PCA

Анализ главных компонентов может применяться нелинейным образом с помощью трюка с ядром . Результирующий метод позволяет создавать нелинейные сопоставления, которые максимизируют дисперсию данных. Полученный метод получил название ядра PCA .

Графическое ядро PCA

Другие известные нелинейные методы включают методы обучения многообразию , такие как Isomap , локально линейное вложение (LLE), ^[13] Hessian LLE, лапласовские собственные карты и методы, основанные на анализе касательного пространства. ^[14]^[15] Эти методы создают низкоразмерное представление данных с использованием функции стоимости, которая сохраняет локальные свойства данных, и может рассматриваться как определение ядра на основе графов для ядра PCA.

Совсем недавно были предложены методы, которые вместо определения фиксированного ядра пытаются изучить ядро с помощью полуопределенного программирования . Наиболее ярким примером такой техники является развертывание максимальной дисперсии (MVU). Центральная идея MVU состоит в том, чтобы точно сохранить все попарные расстояния между ближайшими соседями (во внутреннем пространстве продукта), при этом максимизируя расстояния между точками, которые не являются ближайшими соседями.

Альтернативный подход к сохранению соседства заключается в минимизации функции стоимости, которая измеряет различия между расстояниями во входном и выходном пространствах. Важные примеры таких методов включают: классическое многомерное масштабирование , которое идентично PCA; Isomap , использующий геодезические расстояния в пространстве данных; карты распространения , в которых используются расстояния распространения в пространстве данных; t-распределенное стохастическое вложение соседей (t-SNE), которое минимизирует расхождение между распределениями по парам точек; и криволинейный компонентный анализ.

Другой подход к уменьшению нелинейной размерности заключается в использовании автоэнкодеров , особого вида нейронных сетей с прямой связью со скрытым слоем узкого горла. ^[16] Обучение глубинных кодировщиков обычно выполняется с использованием жадного послойного предварительного обучения (например, с использованием стека ограниченных машин Больцмана ), за которым следует этап точной настройки на основе обратного распространения ошибки .

Линейный дискриминантный анализ (LDA)

Линейный дискриминантный анализ (LDA) - это обобщение линейного дискриминанта Фишера, метода, используемого в статистике, распознавании образов и машинном обучении для поиска линейной комбинации функций, которая характеризует или разделяет два или более классов объектов или событий.

Обобщенный дискриминантный анализ (GDA)

GDA занимается нелинейным дискриминантным анализом с использованием оператора функции ядра. Теория, лежащая в основе, близка к машинам опорных векторов (SVM), поскольку метод GDA обеспечивает отображение входных векторов в многомерное пространство признаков. ^[17]^[18] Подобно LDA, цель GDA состоит в том, чтобы найти проекцию для функций в пространство более низкой размерности, максимизируя отношение разброса между классами к разбросу внутри класса.

Автоэнкодер

Автоэнкодеры могут использоваться для изучения нелинейных функций уменьшения размерности и кодирования вместе с обратной функцией от кодирования к исходному представлению.

t-SNE

T-распределенное стохастическое соседнее вложение (t-SNE) - это метод нелинейного уменьшения размерности, полезный для визуализации многомерных наборов данных. Его не рекомендуется использовать в анализе, таком как кластеризация или обнаружение выбросов, поскольку он не обязательно хорошо сохраняет плотности или расстояния. ^[19]

UMAP

Аппроксимация и проекция однородного многообразия (UMAP) - это метод нелинейного уменьшения размерности. Визуально он похож на t-SNE, но предполагает, что данные равномерно распределены на локально связном римановом многообразии и что риманова метрика локально постоянна или приблизительно локально постоянна.

Уменьшение размеров

Для наборов данных большой размерности (т.е. с числом измерений более 10) уменьшение размерности обычно выполняется до применения алгоритма K-ближайших соседей (k-NN), чтобы избежать последствий проклятия размерности . ^[20]

Извлечение признаков и уменьшение размерности могут быть объединены за один этап с использованием методов анализа главных компонентов (PCA), линейного дискриминантного анализа (LDA), канонического корреляционного анализа (CCA) или неотрицательной матричной факторизации (NMF) в качестве этапа предварительной обработки. путем кластеризации с помощью K-NN по векторам признаков в пространстве уменьшенной размерности. В машинном обучении этот процесс также называется низкоразмерным встраиванием . ^[21]

Для очень-многомерных наборов данных (например , при выполнении поиска сходства на живых видеопотоки, данных ДНК или высокие размерных временные рядах ) работает быстро приблизительные К-НН поиска с помощью локальности чувствительного хэширования , случайного выступа , ^[22] «эскизов» ^{[ 23]} или другие методы поиска подобия высокой размерности из набора инструментов VLDB могут быть единственно возможным вариантом.

Приложения

Техника уменьшения размерности, которая иногда используется в нейробиологии, представляет собой максимально информативные измерения , ^{[ цитата необходима ],} которая находит низкоразмерное представление набора данных, так что сохраняется как можно больше информации об исходных данных.

Смотрите также

Поиск ближайшего соседа
MinHash
Сбор информации в деревьях решений
Полуопределенное вложение
Многофакторное снижение размерности
Мультилинейное подпространственное обучение
Многолинейный PCA
Случайная проекция
Разложение по сингулярным числам
Скрытый семантический анализ
Семантическое отображение
Тензорскетч
Топологический анализ данных
Хеширование с учетом местоположения
Достаточное уменьшение размеров
Преобразование данных (статистика)
Взвешенный корреляционный сетевой анализ
Оптимизация гиперпараметров
Аппроксимация матрицы CUR
Модель конверта
Нелинейное уменьшение размерности
Картирование Саммона
Лемма Джонсона – Линденштраусса.
Выравнивание местного касательного пространства

Заметки

^ а б ван дер Маатен, Лоренс; Постма, Эрик; ван ден Херик, Яап (26 октября 2009 г.). «Снижение размерности: сравнительный обзор» (PDF) . J Mach Learn Res . 10 : 66–71.
^ Pudil, P .; Нововичова, J. (1998). «Новые методы выбора подмножества признаков с учетом проблемных знаний». В Лю, Хуань; Мотода, Хироши (ред.). Извлечение, построение и выбор признаков . п. 101. DOI : 10.1007 / 978-1-4615-5725-8_7 . ISBN 978-1-4613-7622-4.
^ Рико-Сулайес, Антонио (2017). «Снижение размерности векторного пространства в автоматической классификации авторства» . Revista Ingeniería Electrónica, Automática y Comunicaciones . 38 (3): 26–35.
^ Самет, Х. (2006) Основы многомерных и метрических структур данных . Морган Кауфманн. ISBN 0-12-369446-9
^ C. Дин, X. Хе, Х. Чжа, HD Саймон, Адаптивное уменьшение размерности для кластеризации данных большой размерности , Труды Международной конференции по интеллектуальному анализу данных, 2002
^ Лу, Хайпин; Plataniotis, KN; Венецанопулос, АН (2011). «Обзор мультилинейного обучения подпространству тензорных данных» (PDF) . Распознавание образов . 44 (7): 1540–1551. DOI : 10.1016 / j.patcog.2011.01.004 .
^ а б Дэниел Д. Ли и Х. Себастьян Сын (1999). «Изучение частей предметов по неотрицательной матричной факторизации». Природа . 401 (6755): 788–791. Bibcode : 1999Natur.401..788L . DOI : 10.1038 / 44565 . PMID 10548103 . S2CID 4428232 .
^ Дэниел Д. Ли и Х. Себастьян Сын (2001). Алгоритмы неотрицательной матричной факторизации (PDF) . Достижения в системах обработки нейронной информации 13: Материалы конференции 2000 года. MIT Press . С. 556–562.
^ а б Blanton, Michael R .; Роуис, Сэм (2007). «К-поправки и фильтры преобразования в ультрафиолетовом, оптическом и ближнем инфракрасном диапазонах». Астрономический журнал . 133 (2): 734–754. arXiv : astro-ph / 0606170 . Bibcode : 2007AJ .... 133..734B . DOI : 10.1086 / 510127 . S2CID 18561804 .
^ а б в г Рен, Бин; Пуэйо, Лоран; Zhu, Guangtun B .; Дюшен, Гаспар (2018). «Неотрицательная матричная факторизация: надежное извлечение расширенных структур». Астрофизический журнал . 852 (2): 104. arXiv : 1712.10317 . Bibcode : 2018ApJ ... 852..104R . DOI : 10.3847 / 1538-4357 / aaa1f2 . S2CID 3966513 .
^ а б в Чжу, Гуантун Б. (19 декабря 2016 г.). «Неотрицательная матричная факторизация (NMF) с гетероскедастическими неопределенностями и отсутствующими данными». arXiv : 1612.06037 [ astro-ph.IM ].
^ Рен, Бин; Пуэйо, Лоран; Чен, Кристина; Шоке, Элоди; Дебес, Джон Х .; Дюшен, Гаспар; Менар, Франсуа; Перрин, Маршалл Д. (2020). «Использование данных для разделения сигналов в высококонтрастной визуализации». Астрофизический журнал . 892 (2): 74. arXiv : 2001.00563 . Bibcode : 2020ApJ ... 892 ... 74R . DOI : 10,3847 / 1538-4357 / ab7024 . S2CID 209531731 .
^ Roweis, ST; Саул, LK (2000). «Снижение нелинейной размерности локально линейным вложением». Наука . 290 (5500): 2323–2326. Bibcode : 2000Sci ... 290.2323R . CiteSeerX 10.1.1.111.3313 . DOI : 10.1126 / science.290.5500.2323 . PMID 11125150 .
^ Чжан, Чжэньюэ; Чжа, Хунюань (2004). «Главные многообразия и уменьшение нелинейной размерности за счет совмещения касательного пространства». Журнал СИАМ по научным вычислениям . 26 (1): 313–338. DOI : 10.1137 / s1064827502419154 .
^ Бенхио, Йошуа; Монперрус, Мартин; Ларошель, Хьюго (2006). «Нелокальная оценка структуры многообразия» . Нейронные вычисления . 18 (10): 2509–2528. CiteSeerX 10.1.1.116.4230 . DOI : 10.1162 / neco.2006.18.10.2509 . PMID 16907635 . S2CID 1416595 .
^ Хунбинг Ху, Стивен А. Захориан, (2010) «Методы уменьшения размерности для фонетического распознавания HMM», ICASSP 2010, Даллас, Техас
^ Baudat, G .; Ануар, Ф. (2000). «Обобщенный дискриминантный анализ с использованием подхода ядра». Нейронные вычисления . 12 (10): 2385–2404. CiteSeerX 10.1.1.412.760 . DOI : 10.1162 / 089976600300014980 . PMID 11032039 . S2CID 7036341 .
^ Хагигхат, Мохаммад; Зоноуз, Саман; Абдель-Мотталеб, Мохамед (2015). «CloudID: надежная облачная биометрическая идентификация для разных предприятий». Экспертные системы с приложениями . 42 (21): 7905–7916. DOI : 10.1016 / j.eswa.2015.06.025 .
^ Шуберт, Эрих; Герц, Майкл (2017). Бикс, Кристиан; Борутта, Феликс; Крегер, Пер; Зейдл, Томас (ред.). «Внутреннее t-стохастическое соседнее вложение для визуализации и обнаружения выбросов» . Поиск сходства и приложения . Конспект лекций по информатике. Чам: Издательство Springer International. 10609 : 188–203. DOI : 10.1007 / 978-3-319-68474-1_13 . ISBN 978-3-319-68474-1.
^ Кевин Бейер, Джонатан Гольдштейн, Рагху Рамакришнан, Ури Шафт (1999) «Когда имеет смысл« ближайший сосед »?» . Теория баз данных - ICDT99 , 217–235.
^ Шоу, Б .; Джебара, Т. (2009). «Встраивание с сохранением структуры» (PDF) . Материалы 26-й ежегодной международной конференции по машинному обучению - ICML '09 . п. 1. CiteSeerX 10.1.1.161.451 . DOI : 10.1145 / 1553374.1553494 . ISBN 9781605585161. S2CID 8522279 .
^ Bingham, E .; Маннила, Х. (2001). «Случайная проекция при уменьшении размерности». Материалы седьмой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных - KDD '01 . п. 245. DOI : 10,1145 / 502512,502546 . ISBN 978-1581133912. S2CID 1854295 .
^ Shasha, D High (2004) Открытие производительности во временных рядах Берлин: Springer. ISBN 0-387-00857-8

Внешние ссылки

Специальный выпуск JMLR о выборе переменных и функций
Эластичные КАРТЫ
Локально линейное вложение
Визуальное сравнение различных методов уменьшения размерности
Глобальная геометрическая основа для уменьшения нелинейной размерности

[dr_review-1] а б ван дер Маатен, Лоренс; Постма, Эрик; ван ден Херик, Яап (26 октября 2009 г.). «Снижение размерности: сравнительный обзор» (PDF) . J Mach Learn Res . 10 : 66–71.

[2] Pudil, P .; Нововичова, J. (1998). «Новые методы выбора подмножества признаков с учетом проблемных знаний». В Лю, Хуань; Мотода, Хироши (ред.). Извлечение, построение и выбор признаков . п. 101. DOI : 10.1007 / 978-1-4615-5725-8_7 . ISBN 978-1-4613-7622-4.

[3] Рико-Сулайес, Антонио (2017). «Снижение размерности векторного пространства в автоматической классификации авторства» . Revista Ingeniería Electrónica, Automática y Comunicaciones . 38 (3): 26–35.

[4] Самет, Х. (2006) Основы многомерных и метрических структур данных . Морган Кауфманн. ISBN 0-12-369446-9

[5] C. Дин, X. Хе, Х. Чжа, HD Саймон, Адаптивное уменьшение размерности для кластеризации данных большой размерности , Труды Международной конференции по интеллектуальному анализу данных, 2002

[MSLsurvey-6] Лу, Хайпин; Plataniotis, KN; Венецанопулос, АН (2011). «Обзор мультилинейного обучения подпространству тензорных данных» (PDF) . Распознавание образов . 44 (7): 1540–1551. DOI : 10.1016 / j.patcog.2011.01.004 .

[lee-seung-7] а б Дэниел Д. Ли и Х. Себастьян Сын (1999). «Изучение частей предметов по неотрицательной матричной факторизации». Природа . 401 (6755): 788–791. Bibcode : 1999Natur.401..788L . DOI : 10.1038 / 44565 . PMID 10548103 . S2CID 4428232 .

[lee2001algorithms-8] Дэниел Д. Ли и Х. Себастьян Сын (2001). Алгоритмы неотрицательной матричной факторизации (PDF) . Достижения в системах обработки нейронной информации 13: Материалы конференции 2000 года. MIT Press . С. 556–562.

[blantonRoweis07-9] а б Blanton, Michael R .; Роуис, Сэм (2007). «К-поправки и фильтры преобразования в ультрафиолетовом, оптическом и ближнем инфракрасном диапазонах». Астрономический журнал . 133 (2): 734–754. arXiv : astro-ph / 0606170 . Bibcode : 2007AJ .... 133..734B . DOI : 10.1086 / 510127 . S2CID 18561804 .

[ren18-10] а б в г Рен, Бин; Пуэйо, Лоран; Zhu, Guangtun B .; Дюшен, Гаспар (2018). «Неотрицательная матричная факторизация: надежное извлечение расширенных структур». Астрофизический журнал . 852 (2): 104. arXiv : 1712.10317 . Bibcode : 2018ApJ ... 852..104R . DOI : 10.3847 / 1538-4357 / aaa1f2 . S2CID 3966513 .

[zhu16-11] а б в Чжу, Гуантун Б. (19 декабря 2016 г.). «Неотрицательная матричная факторизация (NMF) с гетероскедастическими неопределенностями и отсутствующими данными». arXiv : 1612.06037 [ astro-ph.IM ].

[ren20-12] Рен, Бин; Пуэйо, Лоран; Чен, Кристина; Шоке, Элоди; Дебес, Джон Х .; Дюшен, Гаспар; Менар, Франсуа; Перрин, Маршалл Д. (2020). «Использование данных для разделения сигналов в высококонтрастной визуализации». Астрофизический журнал . 892 (2): 74. arXiv : 2001.00563 . Bibcode : 2020ApJ ... 892 ... 74R . DOI : 10,3847 / 1538-4357 / ab7024 . S2CID 209531731 .

[13] Roweis, ST; Саул, LK (2000). «Снижение нелинейной размерности локально линейным вложением». Наука . 290 (5500): 2323–2326. Bibcode : 2000Sci ... 290.2323R . CiteSeerX 10.1.1.111.3313 . DOI : 10.1126 / science.290.5500.2323 . PMID 11125150 .

[14] Чжан, Чжэньюэ; Чжа, Хунюань (2004). «Главные многообразия и уменьшение нелинейной размерности за счет совмещения касательного пространства». Журнал СИАМ по научным вычислениям . 26 (1): 313–338. DOI : 10.1137 / s1064827502419154 .

[15] Бенхио, Йошуа; Монперрус, Мартин; Ларошель, Хьюго (2006). «Нелокальная оценка структуры многообразия» . Нейронные вычисления . 18 (10): 2509–2528. CiteSeerX 10.1.1.116.4230 . DOI : 10.1162 / neco.2006.18.10.2509 . PMID 16907635 . S2CID 1416595 .

[16] Хунбинг Ху, Стивен А. Захориан, (2010) «Методы уменьшения размерности для фонетического распознавания HMM», ICASSP 2010, Даллас, Техас

[gda-17] Baudat, G .; Ануар, Ф. (2000). «Обобщенный дискриминантный анализ с использованием подхода ядра». Нейронные вычисления . 12 (10): 2385–2404. CiteSeerX 10.1.1.412.760 . DOI : 10.1162 / 089976600300014980 . PMID 11032039 . S2CID 7036341 .

[cloudid-18] Хагигхат, Мохаммад; Зоноуз, Саман; Абдель-Мотталеб, Мохамед (2015). «CloudID: надежная облачная биометрическая идентификация для разных предприятий». Экспертные системы с приложениями . 42 (21): 7905–7916. DOI : 10.1016 / j.eswa.2015.06.025 .

[19] Шуберт, Эрих; Герц, Майкл (2017). Бикс, Кристиан; Борутта, Феликс; Крегер, Пер; Зейдл, Томас (ред.). «Внутреннее t-стохастическое соседнее вложение для визуализации и обнаружения выбросов» . Поиск сходства и приложения . Конспект лекций по информатике. Чам: Издательство Springer International. 10609 : 188–203. DOI : 10.1007 / 978-3-319-68474-1_13 . ISBN 978-3-319-68474-1.

[20] Кевин Бейер, Джонатан Гольдштейн, Рагху Рамакришнан, Ури Шафт (1999) «Когда имеет смысл« ближайший сосед »?» . Теория баз данных - ICDT99 , 217–235.

[21] Шоу, Б .; Джебара, Т. (2009). «Встраивание с сохранением структуры» (PDF) . Материалы 26-й ежегодной международной конференции по машинному обучению - ICML '09 . п. 1. CiteSeerX 10.1.1.161.451 . DOI : 10.1145 / 1553374.1553494 . ISBN 9781605585161. S2CID 8522279 .

[22] Bingham, E .; Маннила, Х. (2001). «Случайная проекция при уменьшении размерности». Материалы седьмой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных - KDD '01 . п. 245. DOI : 10,1145 / 502512,502546 . ISBN 978-1581133912. S2CID 1854295 .

[23] Shasha, D High (2004) Открытие производительности во временных рядах Берлин: Springer. ISBN 0-387-00857-8

[1]