Нелинейное уменьшение размерности


Из Википедии, свободной энциклопедии
Перейти к навигации Перейти к поиску

Многомерные данные, то есть данные, для представления которых требуется более двух или трех измерений, могут быть трудны для интерпретации . Один из подходов к упрощению состоит в том, чтобы предположить, что интересующие данные находятся в пространстве с меньшими размерностями. Если интересующие данные имеют достаточно низкую размерность, данные можно визуализировать в низкоразмерном пространстве.

Вверху слева: 3D-набор данных из 1000 точек в спиральной полосе (она же швейцарский рулет ) с прямоугольным отверстием посередине. Вверху справа: исходный 2D-коллектор, использованный для создания набора 3D-данных. Внизу слева и справа: 2D-восстановление коллектора соответственно с использованием алгоритмов LLE и Hessian LLE , реализованных с помощью инструментария модульной обработки данных.

Ниже приводится сводка некоторых известных методов нелинейного уменьшения размерности . [1] [2] Многие из этих нелинейных методов уменьшения размерности связаны с линейными методами, перечисленными ниже . Нелинейные методы можно разделить на две группы: те, которые обеспечивают отображение (либо из многомерного пространства в низкоразмерное вложение, либо наоборот), и те, которые просто дают визуализацию.

Связанные методы линейной декомпозиции

  • Анализ независимых компонентов (ICA)
  • Анализ главных компонентов (PCA) - также называемый теоремой Карунена – Лоэва  - KLT
  • Разложение по сингулярным числам (SVD)
  • Факторный анализ

Приложения NLDR

Рассмотрим набор данных, представленный в виде матрицы (или таблицы базы данных), где каждая строка представляет собой набор атрибутов (или функций, или измерений), описывающих конкретный экземпляр чего-либо. Если количество атрибутов велико, то пространство уникальных возможных строк экспоненциально велико. Таким образом, чем больше размерность, тем сложнее становится выборка пространства. Это вызывает много проблем. Алгоритмы, работающие с многомерными данными, как правило, имеют очень высокую временную сложность. Многие алгоритмы машинного обучения, например, борются с многомерными данными. Сокращение данных до меньшего числа измерений часто делает алгоритмы анализа более эффективными и может помочь алгоритмам машинного обучения делать более точные прогнозы.

Люди часто испытывают трудности с пониманием данных в больших измерениях. Таким образом, сведение данных к небольшому количеству измерений полезно для целей визуализации.

График двумерных точек, полученных в результате использования алгоритма NLDR. В этом случае Manifold Sculpting используется для сведения данных всего к двум измерениям (вращение и масштабирование).

Представления данных с уменьшенной размерностью часто называют «внутренними переменными». Это описание подразумевает, что это значения, из которых были получены данные. Например, рассмотрим набор данных, содержащий изображения буквы «А», которые были масштабированы и повернуты в разной степени. Каждое изображение имеет размер 32x32 пикселя. Каждое изображение может быть представлено в виде вектора значений 1024 пикселей. Каждая строка является выборкой на двумерном многообразии в 1024-мерном пространстве ( пространство Хэмминга ).). Внутренняя размерность равна двум, потому что две переменные (вращение и масштаб) менялись для получения данных. Информация о форме или внешнем виде буквы «А» не является частью внутренних переменных, поскольку она одинакова во всех случаях. Нелинейное уменьшение размерности отбрасывает коррелированную информацию (буква «А») и восстанавливает только изменяющуюся информацию (поворот и масштаб). На изображении справа показаны образцы изображений из этого набора данных (для экономии места показаны не все входные изображения) и график двумерных точек, полученный в результате использования алгоритма NLDR (в этом случае использовалось моделирование коллектора) чтобы свести данные только к двум измерениям.

PCA (алгоритм уменьшения линейной размерности) используется для уменьшения этого же набора данных до двух измерений, результирующие значения не так хорошо организованы.

Для сравнения, если анализ основных компонентов , который представляет собой алгоритм уменьшения линейной размерности, используется для преобразования того же набора данных в два измерения, результирующие значения не так хорошо организованы. Это демонстрирует, что многомерные векторы (каждый из которых представляет букву «А»), которые выбирают это многообразие, изменяются нелинейным образом.

Поэтому должно быть очевидно, что NLDR имеет несколько приложений в области компьютерного зрения. Например, рассмотрим робота, который использует камеру для навигации в закрытой статической среде. Изображения, полученные этой камерой, можно рассматривать как образцы многообразия в многомерном пространстве, а внутренние переменные этого многообразия будут представлять положение и ориентацию робота.

Инвариантные многообразия представляют общий интерес для понижения порядка модели в динамических системах . В частности, если в фазовом пространстве есть притягивающее инвариантное многообразие, близкие траектории будут сходиться к нему и оставаться на нем бесконечно, что делает его кандидатом на уменьшение размерности динамической системы. Хотя существование таких многообразий в общем случае не гарантируется, теория спектральных подмногообразий (ССМ) дает условия существования уникальных притягивающих инвариантных объектов в широком классе динамических систем. [3] Активные исследования в области NLDR направлены на раскрытие многообразия наблюдений, связанных с динамическими системами, для разработки методов моделирования. [4]

Некоторые из наиболее известных методов нелинейного уменьшения размерности перечислены ниже.

Важные понятия

Отображение Саммона

Картирование Саммона — один из первых и самых популярных методов NLDR.

Аппроксимация главной кривой одномерным SOM ( прерывистая линия с красными квадратами, 20 узлов). Первая главная компонента представлена ​​синей прямой линией. Точки данных — это маленькие серые кружки. Для PCA необъяснимая доля дисперсии в этом примере составляет 23,23%, для SOM — 6,86%. [5]

Самоорганизующаяся карта

Самоорганизующаяся карта (SOM, также называемая картой Кохонена ) и ее вероятностный вариант генеративного топографического картографирования (GTM) используют точечное представление во встроенном пространстве для формирования модели скрытых переменных на основе нелинейного отображения из встроенного пространства в высокомерное пространство. [6] Эти методы связаны с работой с сетями плотности , которые также основаны на той же вероятностной модели.

Анализ основных компонентов ядра

Возможно, наиболее широко используемым алгоритмом уменьшения размерности является ядро PCA . [7] PCA начинается с вычисления ковариационной матрицы матрицы

Затем он проецирует данные на первые k собственных векторов этой матрицы. Для сравнения, KPCA начинается с вычисления ковариационной матрицы данных после преобразования в многомерное пространство.

Затем он проецирует преобразованные данные на первые k собственных векторов этой матрицы, как и PCA. Он использует трюк ядра, чтобы исключить большую часть вычислений, так что весь процесс может быть выполнен без фактического вычисления . Конечно надо выбирать такой, чтобы ему было известно соответствующее ядро. К сожалению, найти хорошее ядро ​​для данной задачи непросто, поэтому KPCA не дает хороших результатов при некоторых проблемах при использовании стандартных ядер. Например, известно, что эти ядра плохо работают на коллекторе швейцарских валков . Однако некоторые другие методы, которые хорошо работают в таких условиях (например, лапласовские собственные карты, LLE), можно рассматривать как частные случаи PCA ядра путем построения матрицы ядра, зависящей от данных. [8]

KPCA имеет внутреннюю модель, поэтому ее можно использовать для сопоставления точек с ее встраиванием, которые не были доступны во время обучения.

Главные кривые и многообразия

Применение основных кривых: Нелинейный индекс качества жизни. [9] Точки представляют данные 171 страны ООН в 4-мерном пространстве, образованном значениями 4 показателей: валовой продукт на душу населения , продолжительность жизни , младенческая смертность , заболеваемость туберкулезом . Различные формы и цвета соответствуют различным географическим положениям. Красная жирная линия представляет собой основную кривую , аппроксимирующую набор данных. Эта главная кривая была получена методом упругой карты . Программное обеспечение доступно для бесплатного некоммерческого использования. [10] [11]

Основные кривые и многообразия дают естественную геометрическую основу для нелинейного уменьшения размерности и расширяют геометрическую интерпретацию PCA за счет явного построения вложенного многообразия и кодирования с использованием стандартной геометрической проекции на многообразие. Первоначально этот подход был предложен Тревором Хасти в его диссертации 1984 г. [12] , которую он официально представил в 1989 г. [13] Эта идея исследовалась многими авторами. [14]Как определить «простоту» многообразия, зависит от проблемы, однако обычно она измеряется внутренней размерностью и / или гладкостью многообразия. Обычно главное многообразие определяется как решение задачи оптимизации. Целевая функция включает в себя качество аппроксимации данных и некоторые штрафные условия за искривление многообразия. Популярные начальные приближения генерируются линейным PCA и SOM Кохонена.

Лапласовы собственные карты

Лапласовы собственные карты используют спектральные методы для уменьшения размерности. [15] Этот метод основан на основном предположении, что данные лежат в многообразии низкой размерности в многомерном пространстве. [16] Этот алгоритм не может встраивать точки вне выборки, но для добавления этой возможности существуют методы, основанные на регуляризации гильбертова пространства воспроизводящего ядра . [17] Такие методы можно применять и к другим алгоритмам нелинейного уменьшения размерности.

Традиционные методы, такие как анализ основных компонентов, не учитывают внутреннюю геометрию данных. Лапласианские собственные карты строят граф на основе информации о окрестности набора данных. Каждая точка данных служит узлом на графике, а связность между узлами определяется близостью соседних точек (например, с использованием алгоритма k-ближайших соседей ). Сгенерированный таким образом граф можно рассматривать как дискретную аппроксимацию маломерного многообразия в многомерном пространстве. Минимизация функции стоимости на основе графика гарантирует, что точки, близкие друг к другу на многообразии, отображаются близко друг к другу в малоразмерном пространстве, сохраняя локальные расстояния. Собственные функции оператора Лапласа–Бельтрамина многообразии служат размерностями вложения, так как при мягких условиях этот оператор имеет счетный спектр, который является базисом для функций, суммируемых с квадратом на многообразии (ср . ряды Фурье на многообразии единичной окружности). Попытки поставить собственные карты Лапласа на прочную теоретическую основу увенчались некоторым успехом, поскольку при определенных неограничительных предположениях было показано, что графовая матрица Лапласа сходится к оператору Лапласа – Бельтрами по мере того, как количество точек стремится к бесконечности. [16]

Изомап

Isomap [18] представляет собой комбинацию алгоритма Флойда-Уоршалла с классическим многомерным масштабированием . Классическое многомерное масштабирование (MDS) берет матрицу попарных расстояний между всеми точками и вычисляет позицию для каждой точки. Isomap предполагает, что попарные расстояния известны только между соседними точками, и использует алгоритм Флойда-Уоршалла для вычисления попарных расстояний между всеми остальными точками. Это эффективно оценивает полную матрицу попарных геодезических расстояний между всеми точками. Затем Isomap использует классическую MDS для вычисления положений всех точек с уменьшенной размерностью. Landmark-Isomap — это вариант этого алгоритма, который использует ориентиры для увеличения скорости за счет некоторой точности.

При обучении многообразия предполагается, что входные данные отбираются из многообразия низкой размерности , которое встроено в векторное пространство более высокой размерности. Основная интуиция, стоящая за MVU, заключается в использовании локальной линейности многообразий и создании отображения, сохраняющего локальные окрестности в каждой точке лежащего в основе многообразия.

Локально-линейное вложение

Локально-линейное встраивание (LLE) [19] было представлено примерно в то же время, что и Isomap. Он имеет несколько преимуществ по сравнению с Isomap, в том числе более быструю оптимизацию при использовании разреженной матрицы.алгоритмы и лучшие результаты со многими проблемами. LLE также начинается с поиска набора ближайших соседей каждой точки. Затем он вычисляет набор весов для каждой точки, который лучше всего описывает точку как линейную комбинацию ее соседей. Наконец, он использует метод оптимизации на основе собственных векторов для поиска низкоразмерного вложения точек, так что каждая точка по-прежнему описывается одной и той же линейной комбинацией своих соседей. LLE, как правило, плохо справляется с неравномерной плотностью выборки, потому что нет фиксированной единицы, предотвращающей дрейф весов, поскольку разные регионы различаются по плотности выборки. LLE не имеет внутренней модели.

LLE вычисляет барицентрические координаты точки X i на основе ее соседей X j . Исходная точка восстанавливается линейной комбинацией ее соседей, заданной матрицей весов W ij . Ошибка реконструкции задается функцией стоимости E ( W ).

Веса W ij относятся к сумме вклада точки X j при восстановлении точки X i . Функция стоимости минимизируется при двух ограничениях: (а) каждая точка данных X i восстанавливается только из своих соседей, таким образом принуждая W ij к нулю, если точка X j не является соседом точки X i и (b) сумма каждой строки весовой матрицы равно 1.

Исходные точки данных собираются в D -мерном пространстве, и цель алгоритма состоит в том, чтобы уменьшить размерность до d так, чтобы D >> d . Те же самые веса W ij , которые реконструируют i -ю точку данных в D - мерном пространстве, будут использоваться для реконструкции той же точки в более низком d - мерном пространстве. На основе этой идеи создается карта сохранения окрестностей. Каждая точка X i в D - мерном пространстве отображается в точку Y i в d - мерном пространстве путем минимизации функции стоимости

В этой функции стоимости, в отличие от предыдущей, веса W ij остаются фиксированными, а минимизация выполняется в точках Y i для оптимизации координат. Эта проблема минимизации может быть решена путем решения разреженной задачи N X N собственных значений ( где N — количество точек данных), чьи нижние d ненулевых собственных векторов обеспечивают ортогональный набор координат. Обычно точки данных восстанавливаются из K ближайших соседей, измеренных с помощью евклидова расстояния . Для такой реализации алгоритм имеет только один свободный параметр K, который можно выбрать путем перекрестной проверки.

Гессе Локально-линейное вложение (Гессиан LLE)

Как и LLE, гессианский LLE также основан на методах разреженных матриц. [20] Он имеет тенденцию давать результаты гораздо более высокого качества, чем LLE. К сожалению, он имеет очень высокую вычислительную сложность, поэтому он не очень подходит для многообразий с большой выборкой. У него нет внутренней модели.

Модифицированное локально-линейное вложение (MLLE)

Модифицированный LLE (MLLE) [21] — это еще один вариант LLE, который использует несколько весов в каждой окрестности для решения проблемы кондиционирования матрицы локальных весов, которая приводит к искажениям в картах LLE. Грубо говоря, множественные веса являются локальной ортогональной проекцией исходных весов, созданных LLE. Создатели этого регуляризованного варианта также являются авторами локального выравнивания касательного пространства (LTSA), которое подразумевается в формулировке MLLE при понимании того, что глобальная оптимизация ортогональных проекций каждого весового вектора, по сути, выравнивает локальные касательные пространства. каждой точки данных. Теоретические и эмпирические последствия правильного применения этого алгоритма имеют далеко идущие последствия. [22]

Выравнивание локального касательного пространства

LTSA [23] основан на интуитивном предположении, что когда многообразие правильно развернуто, все касательные гиперплоскости к многообразию выровняются. Он начинается с вычисления k ближайших соседей каждой точки. Он вычисляет касательное пространство в каждой точке, вычисляя d -первые главные компоненты в каждой локальной окрестности. Затем он оптимизируется, чтобы найти вложение, которое выравнивает касательные пространства.

Максимальная дисперсия разворачивается

Развертывание максимальной дисперсии , Isomap и локально-линейное вложение имеют общую интуицию, основанную на представлении о том, что если многообразие правильно развернуто, то дисперсия по точкам максимальна. Его начальный шаг, как и Isomap и Locally Linear Embedding, заключается в поиске k ближайших соседей каждой точки. Затем он пытается решить проблему максимизации расстояния между всеми несоседними точками, ограниченного таким образом, чтобы расстояния между соседними точками сохранялись. Основным вкладом этого алгоритма является метод представления этой проблемы как полуопределенной задачи программирования. К сожалению, решатели полуопределенного программирования требуют больших вычислительных затрат. Как и у локально-линейного встраивания, у него нет внутренней модели.

Автоэнкодеры

Автоэнкодер — это нейронная сеть с прямой связью , обученная аппроксимировать функцию идентичности. То есть его обучают отображать из вектора значений в тот же вектор. При использовании в целях уменьшения размерности один из скрытых слоев в сети может содержать только небольшое количество сетевых элементов. Таким образом, сеть должна научиться кодировать вектор в небольшое количество измерений, а затем декодировать его обратно в исходное пространство. Таким образом, первая половина сети представляет собой модель, которая отображает пространство высокой размерности в пространство низкой размерности, а вторая половина отображает пространство низкой размерности в пространство высокой размерности. Хотя идея автоэнкодеров довольно стара, обучение глубоких автоэнкодеров стало возможным только недавно благодаря использованию ограниченных машин Больцмана .и сложенные автоэнкодеры шумоподавления. С автоэнкодерами связан алгоритм NeuroScale , который использует стресс-функции, вдохновленные многомерным масштабированием и отображениями Саммона (см. выше), для изучения нелинейного отображения многомерного пространства во встроенное. Отображения в NeuroScale основаны на сетях радиальных базисных функций . Другое использование нейронной сети для уменьшения размерности — изучение касательных плоскостей в данных. [24]

Модели скрытых переменных гауссовского процесса

Модели латентных переменных гауссовского процесса (GPLVM) [25] представляют собой вероятностные методы уменьшения размерности, которые используют гауссовские процессы (GP) для нахождения нелинейного вложения данных высокой размерности с меньшей размерностью. Они являются расширением вероятностной формулировки PCA. Модель определяется вероятностно, затем скрытые переменные маргинализируются, а параметры получаются путем максимизации правдоподобия. Подобно PCA ядра, они используют функцию ядра для формирования нелинейного отображения (в форме гауссовского процесса ).). Однако в GPLVM отображение выполняется из встроенного (скрытого) пространства в пространство данных (например, сети плотности и GTM), тогда как в PCA ядра оно осуществляется в противоположном направлении. Первоначально он был предложен для визуализации многомерных данных, но был расширен для построения общей модели многообразия между двумя пространствами наблюдения. GPLVM и ее многочисленные варианты были предложены специально для моделирования движения человека, например, GPLVM с обратными ограничениями, динамическая модель GP (GPDM), сбалансированная GPDM (B-GPDM) и GPDM с топологическими ограничениями. Чтобы зафиксировать эффект связи многообразий позы и походки в анализе походки, было предложено многослойное совместное многообразие походка-поза. [26]

t-распределенное стохастическое встраивание соседей

широко используется t-распределенное стохастическое встраивание соседей (t-SNE) [27] . Это один из семейства стохастических методов встраивания соседей. Алгоритм вычисляет вероятность того, что пары точек данных в многомерном пространстве связаны, а затем выбирает низкоразмерные вложения, которые дают аналогичное распределение.

Другие алгоритмы

Карта реляционной перспективы

Карта реляционной перспективы представляет собой алгоритм многомерного масштабирования . Алгоритм находит конфигурацию точек данных на многообразии путем моделирования динамической системы с несколькими частицами на замкнутом многообразии, где точки данных сопоставляются с частицами, а расстояния (или различия) между точками данных представляют силу отталкивания. По мере того, как многообразие постепенно увеличивается в размерах, система из нескольких частиц постепенно остывает и сходится к конфигурации, которая отражает информацию о расстоянии до точек данных.

Карта реляционной перспективы была вдохновлена ​​физической моделью, в которой положительно заряженные частицы свободно перемещаются по поверхности шара. Руководствуясь кулоновской силой между частицами, минимальная энергетическая конфигурация частиц будет отражать силу сил отталкивания между частицами.

Карта реляционной перспективы была введена в [28] . Алгоритм сначала использовал плоский тор в качестве многообразия изображения, затем он был расширен (в программном обеспечении VisuMap для использования других типов замкнутых многообразий, таких как сфера , проективное пространство и Клейна ). бутылка , как коллекторы изображений.

Карты заражения

Карты заражения используют несколько заражений в сети для отображения узлов в виде облака точек. [29] В случае модели глобальных каскадов скорость распространения можно регулировать с помощью порогового параметра . Для карты заразы эквивалентно Isomap алгоритма.

Анализ криволинейных компонентов

Анализ криволинейных компонентов (CCA) ищет конфигурацию точек в выходном пространстве, которая максимально сохраняет исходные расстояния, фокусируясь на небольших расстояниях в выходном пространстве (в отличие от отображения Саммона, которое фокусируется на небольших расстояниях в исходном пространстве). [30]

Следует отметить, что CCA, как алгоритм итеративного обучения, фактически начинает с фокусировки на больших расстояниях (как алгоритм Саммона), а затем постепенно переключает внимание на малые расстояния. Информация о малом расстоянии перезапишет информацию о большом расстоянии, если необходимо найти компромисс между ними.

Функция напряжения CCA связана с суммой правых дивергенций Брегмана. [31]

Анализ криволинейного расстояния

CDA [30] обучает самоорганизующуюся нейронную сеть подгонке под многообразие и стремится сохранить геодезические расстояния при его встраивании. Он основан на анализе криволинейных компонентов (который расширил картографию Саммона), но вместо этого использует геодезические расстояния.

Диффеоморфное уменьшение размерности

Diffeomorphic Dimensionality Reduction или Diffeomap [32] изучает гладкое диффеоморфное отображение, которое переносит данные в линейное подпространство меньшей размерности. Методы решают для гладкого индексированного по времени векторного поля, так что потоки вдоль поля, которые начинаются в точках данных, заканчиваются в линейном подпространстве меньшей размерности, тем самым пытаясь сохранить попарные различия как при прямом, так и при обратном отображении.

Выравнивание коллектора

Выравнивание коллекторов использует преимущество предположения, что разрозненные наборы данных, созданные схожими процессами генерации, будут иметь сходное базовое представление коллекторов. Путем изучения проекций из каждого исходного пространства на общее многообразие восстанавливаются соответствия, и знания из одной области могут быть перенесены в другую. Большинство методов многообразного выравнивания рассматривают только два набора данных, но эта концепция распространяется на произвольное количество исходных наборов данных. [33]

Карты распространения

Карты диффузии используют взаимосвязь между диффузией тепла и случайным блужданием ( цепь Маркова ); проводится аналогия между оператором диффузии на многообразии и марковской переходной матрицей, оперирующей функциями, заданными на графе, узлы которого были выбраны из многообразия. [34] В частности, пусть набор данных представлен . Основное предположение карты диффузии состоит в том, что многомерные данные лежат на низкоразмерном многообразии размерности . Пусть X представляет набор данных и представляет распределение точек данных на X . Далее определим ядрокоторое представляет некоторое понятие близости точек в X . Ядро обладает следующими свойствами [35]

k симметричен

k сохраняет положительность

Таким образом, можно думать об отдельных точках данных как о узлах графа, а о ядре k — как об определяющем своего рода родстве на этом графе. Граф симметричен по построению, так как ядро ​​симметрично. Здесь легко видеть, что по набору ( X , k ) можно построить обратимую цепь Маркова . Этот метод является общим для множества областей и известен как лапласиан графа.

Например, граф K = ( X , E ) может быть построен с использованием ядра Гаусса.

В приведенном выше уравнении обозначает, что это ближайший сосед . Правильно, геодезическое расстояние следует использовать для фактического измерения расстояний на многообразии . Поскольку точная структура многообразия недоступна, для ближайших соседей геодезическое расстояние аппроксимируется евклидовым расстоянием. Выбор модулирует наше представление о близости в том смысле, что если то и если то . Первое означает, что произошла очень небольшая диффузия, а второе означает, что процесс диффузии почти завершен. Различные стратегии для выбора можно найти в [36] .

Чтобы точно представить марковскую матрицу, она должна быть нормализована соответствующей матрицей степени :

теперь представляет собой цепь Маркова. есть вероятность перехода от к за один временной шаг. Точно так же вероятность перехода от к за t временных шагов определяется как . Вот матрица , умноженная сама на себя t раз.

Матрица Маркова составляет некоторое понятие локальной геометрии набора данных X . Основное различие между картами диффузии и анализом главных компонентов заключается в том, что в картах диффузии учитываются только локальные особенности данных, а не корреляции всего набора данных.

определяет случайное блуждание по набору данных, что означает, что ядро ​​фиксирует некоторую локальную геометрию набора данных. Цепь Маркова определяет быстрое и медленное направления распространения через значения ядра. По мере того, как блуждание распространяется вперед во времени, информация о локальной геометрии агрегируется так же, как и локальные переходы (определяемые дифференциальными уравнениями) динамической системы. [35] Метафора диффузии возникает из определения семейства диффузионных расстояний { }

Для фиксированного t определяет расстояние между любыми двумя точками набора данных на основе связности путей: значение будет тем меньше, чем больше путей соединяют x с y , и наоборот. Поскольку количество включает в себя сумму всех путей длины t, оно гораздо более устойчиво к шуму в данных, чем геодезическое расстояние. учитывает все отношения между точками x и y при вычислении расстояния и служит лучшим понятием близости, чем просто евклидово расстояние или даже геодезическое расстояние.

Локальное многомерное масштабирование

Локальное многомерное масштабирование выполняет многомерное масштабирование в локальных областях, а затем использует выпуклую оптимизацию, чтобы совместить все части вместе. [37]

Нелинейный PCA

Нелинейный PCA (NLPCA) использует обратное распространение для обучения многослойного персептрона (MLP) подгонке к коллектору. [38] В отличие от типичного обучения MLP, которое обновляет только веса, NLPCA обновляет как веса, так и входные данные. То есть и веса, и входные данные рассматриваются как скрытые значения. После обучения скрытые входные данные представляют собой низкоразмерное представление наблюдаемых векторов, и MLP отображает это низкоразмерное представление в многомерное пространство наблюдения.

Многомерное масштабирование на основе данных

Data-Driven High Dimensional Scaling (DD-HDS) [39] тесно связан с картированием Саммона и анализом криволинейных компонентов, за исключением того, что (1) он одновременно наказывает ложные соседства и разрывы, фокусируясь на небольших расстояниях как в исходном, так и в выходном пространстве, и что (2) он учитывает явление концентрации меры , адаптируя весовую функцию к распределению расстояний.

Многообразие лепки

Manifold Sculpting [40] использует градуированную оптимизацию для поиска встраивания. Как и другие алгоритмы, он вычисляет k ближайших соседей и пытается найти вложение, которое сохраняет отношения в локальных окрестностях. Он медленно масштабирует дисперсию из более высоких измерений, одновременно корректируя точки в более низких измерениях, чтобы сохранить эти отношения. Если скорость масштабирования мала, он может найти очень точные вложения. Он может похвастаться более высокой эмпирической точностью, чем другие алгоритмы с рядом проблем. Его также можно использовать для уточнения результатов других алгоритмов многообразного обучения. Однако он изо всех сил пытается развернуть некоторые многообразия, если не используется очень низкая скорость масштабирования. У него нет модели.

RankVisu

RankVisu [41] предназначен для сохранения ранга соседства, а не расстояния. RankVisu особенно полезен при выполнении сложных задач (когда невозможно удовлетворительно сохранить расстояние). Действительно, ранг соседства менее информативен, чем расстояние (ранги можно вывести из расстояний, но расстояния нельзя вывести из рангов), и поэтому его сохранение легче.

Топологически ограниченное изометрическое вложение

Топологически ограниченное изометрическое вложение (TCIE) [42] — это алгоритм, основанный на аппроксимации геодезических расстояний после фильтрации геодезических, несовместимых с евклидовой метрикой. Направленный на исправление искажений, возникающих при использовании Isomap для отображения невыпуклых по своей сути данных, TCIE использует MDS методом наименьших квадратов веса для получения более точного отображения. Алгоритм TCIE сначала обнаруживает возможные граничные точки в данных, а во время вычисления геодезической длины помечает несовместимые геодезические, которым присваивается небольшой вес в последующей взвешенной мажорации напряжений .

Аппроксимация и проекция равномерного многообразия

Аппроксимация и проекция равномерного многообразия (UMAP) - это метод нелинейного уменьшения размерности. [43] Визуально он похож на t-SNE, но предполагает, что данные равномерно распределены на локально связном римановом многообразии и что риманова метрика локально постоянна или приблизительно локально постоянна. [44]

Методы, основанные на матрицах близости

Метод, основанный на матрицах близости, представляет собой метод, в котором данные представляются алгоритму в виде матрицы подобия или матрицы расстояний . Все эти методы относятся к более широкому классу метрического многомерного масштабирования . Различия, как правило, связаны с различиями в том, как вычисляются данные о близости; например, Isomap , локально линейные вложения , развертывание максимальной дисперсии и отображение Сэммона (которое на самом деле не является отображением) являются примерами методов метрического многомерного масштабирования.

Смотрите также

  • Гипотеза многообразия
  • Спектральное подмногообразие
  • Теорема Такена
  • Теорема вложения Уитни
  • Дискриминантный анализ
  • Эластичная карта
  • Особенности обучения
  • Растущая самоорганизующаяся карта (ВШМ)
  • Самоорганизующаяся карта (SOM)

использованная литература

  1. ^ Лоуренс, Нил Д. (2012). «Объединяющая вероятностная перспектива уменьшения спектральной размерности: идеи и новые модели» . Журнал исследований машинного обучения . 13 (май): 1609–1638 гг. архив : 1010.4830 . Бибкод : 2010arXiv1010.4830L .
  2. ^ Джон А. Ли, Мишель Верлейсен, Нелинейное уменьшение размерности, Springer, 2007.
  3. ^ Халлер, Г. и Понсиоен, С., Нелинейные нормальные режимы и спектральные подмногообразия: существование, уникальность и использование в редукции модели , In Nonlinear Dynamics 86 , стр. 1493–153, 2016 г.
  4. ^ Гашлер, М. и Мартинес, Т., Уменьшение временной нелинейной размерности , В материалах Международной объединенной конференции по нейронным сетям IJCNN'11 , стр. 1959–1966, 2011
  5. Иллюстрация подготовлена ​​с использованием бесплатного программного обеспечения: EM Mirkes, Анализ основных компонентов и самоорганизующиеся карты: апплет . Университет Лестера, 2011 г.
  6. ^ Инь, Худжун; Изучение нелинейных главных многообразий с помощью самоорганизующихся карт , А. Н. Горбань, Б. Кегль, Д. С. Вунш и А. Зиновьев (ред.), Основные многообразия для визуализации данных и уменьшения размерности , Конспект лекций по информатике и инженерии (LNCSE), об. 58, Берлин, Германия: Springer, 2007, гл. 3, стр. 68-95. ISBN 978-3-540-73749-0 
  7. ^ Б. Шёлькопф, А. Смола, К.-Р. Мюллер , Нелинейный компонентный анализ как проблема собственных значений ядра. Neural Computation 10(5):1299-1319, 1998, MIT Press Cambridge, MA, USA, doi:10.1162/089976698300017467
  8. ^ Джихун Хэм, Дэниел Д. Ли, Себастьян Мика, Бернхард Шёлькопф. Ядерный взгляд на уменьшение размерности многообразий. Материалы 21-й Международной конференции по машинному обучению, Банф, Канада, 2004 г. doi: 10.1145/1015330.1015417.
  9. ^ Горбань, А.Н.; Зиновьев, А. (2010). «Главные многообразия и графы на практике: от молекулярной биологии к динамическим системам». Международный журнал нейронных систем . 20 (3): 219–232. архив : 1001.1122 . doi : 10.1142/S0129065710002383 . PMID 20556849 . S2CID 2170982 .  
  10. ^ А. Зиновьев, ViDaExpert - инструмент визуализации многомерных данных (бесплатно для некоммерческого использования). Институт Кюри , Париж.
  11. ^ А. Зиновьев, обзор ViDaExpert , IHES ( Институт высших научных исследований ), Бюрес-сюр-Иветт, Иль-де-Франс.
  12. ^ Хасти, Т. (ноябрь 1984 г.). Основные кривые и поверхности (PDF) (докторская диссертация). Стэнфордский центр линейных ускорителей, Стэнфордский университет.
  13. ^ Хасти, Т .; Штутцле, В. (июнь 1989 г.). «Основные кривые» (PDF) . Журнал Американской статистической ассоциации . 84 (406): 502–506. дои : 10.1080/01621459.1989.10478797 .
  14. ^ Горбань, А.Н .; Кегль, Б.; Вунш, округ Колумбия; Зиновьев, А., ред. (2007). Основные многообразия для визуализации данных и уменьшения размерности . Конспекты лекций по информатике и технике (LNCSE). Том. 58. Берлин – Гейдельберг – Нью-Йорк: Springer. ISBN 978-3-540-73749-0. |volume=имеет лишний текст ( помощь )
  15. ^ Белкин, Михаил; Нийоги, Партха (2001). «Лапласианские собственные карты и спектральные методы для встраивания и кластеризации». Достижения в области нейронных систем обработки информации . Массачусетский технологический институт Пресс. 14 : 586–691.
  16. ^ a b Белкин, Михаил (август 2003 г.). Проблемы обучения на многообразиях (кандидатская диссертация). Департамент математики Чикагского университета.Код Matlab для лапласовских собственных карт можно найти в алгоритмах на сайте Ohio-state.edu.
  17. ^ Бенжио, Йошуа; и другие. (2004). «Расширения вне выборки для LLE, Isomap, MDS, Eigenmaps и Spectral Clustering» (PDF) . Достижения в области нейронных систем обработки информации .
  18. ^ Дж. Б. Тененбаум, В. де Сильва, Дж. К. Лэнгфорд, Глобальная геометрическая структура для нелинейного уменьшения размерности , Science 290, (2000), 2319–2323.
  19. ^ С. Т. Ровейс и Л. К. Сол, Нелинейное уменьшение размерности с помощью локально линейного встраивания , Science Vol 290, 22 декабря 2000 г., 2323–2326.
  20. ^ Донохо, Д .; Граймс, К. (2003). «Собственные карты Гессе: методы локально-линейного вложения для многомерных данных» . Proc Natl Acad Sci USA . 100 (10): 5591–5596. doi : 10.1073/pnas.1031596100 . ПМС 156245 . PMID 16576753 .  
  21. ^ З. Чжан и Дж. Ван, «MLLE: модифицированное локально-линейное вложение с использованием нескольких весов» http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.70.382
  22. ^ Сидху, Гаган (2019). «Локально-линейное встраивание и выбор функций фМРТ в психиатрической классификации» . Журнал IEEE трансляционной инженерии в области здравоохранения и медицины . 7 : 1–11. Arxiv : 1908,06319 . doi : 10.1109/JTEHM.2019.2936348 . PMC 6726465 . PMID 31497410 . S2CID 201832756 .   
  23. ^ Чжан, Чжэньюэ; Хунъюань Чжа (2005). «Главные многообразия и нелинейное уменьшение размеров посредством локального выравнивания касательного пространства». Журнал SIAM по научным вычислениям . 26 (1): 313–338. CiteSeerX 10.1.1.211.9957 . doi : 10.1137/s1064827502419154 . 
  24. ^ Бенжио, Йошуа; Монперрус, Мартин; Ларошель, Хьюго (октябрь 2006 г.). «Нелокальная оценка структуры коллектора» (PDF) . Нейронные вычисления . 18 (10): 2509–2528. doi : 10.1162/neco.2006.18.10.2509 . ISSN 0899-7667 . PMID 16907635 . S2CID 1416595 .    
  25. ^ Н. Лоуренс, Вероятностный нелинейный анализ главных компонентов с моделями скрытых переменных гауссовского процесса , Journal of Machine Learning Research 6 (ноябрь): 1783–1816, 2005.
  26. ^ М. Дин, Г. Фан, Многослойные совместные коллекторы походки-позы для моделирования движения человека , Транзакции IEEE по кибернетике, том: 45, выпуск: 11, ноябрь 2015 г.
  27. ^ ван дер Маатен, LJP; Хинтон, GE (ноябрь 2008 г.). «Визуализация многомерных данных с использованием t-SNE» (PDF) . Журнал исследований машинного обучения . 9 : 2579–2605.
  28. ^ Джеймс X. Ли, Визуализация многомерных данных с помощью карты реляционной перспективы , Визуализация информации (2004) 3, 49–59
  29. ^ Тейлор, Д .; Климм, Ф .; Харрингтон, HA; Крамар, М .; Мичайков, К .; Портер, Массачусетс; Муха, П.Дж. (2015). «Анализ топологических данных карт заражения для изучения процессов распространения в сетях» . Связь с природой . 6 : 7723. doi : 10.1038/ncomms8723 . ПВК 4566922 . PMID 26194875 .  
  30. ^ a b Демартинес, П .; Эро, Дж. (1997). «Анализ криволинейных компонентов: самоорганизующаяся нейронная сеть для нелинейного отображения наборов данных» (PDF) . Транзакции IEEE в нейронных сетях . 8 (1): 148–154. дои : 10.1109/72.554199 . PMID 18255618 .  
  31. ^ Сун, Цзиган; Кроу, Малькольм; Файф, Колин (2010). «Анализ криволинейных компонентов и расходимости Брегмана» (PDF) . Европейский симпозиум по искусственным нейронным сетям (Esann) . Д-сторонние публикации. стр. 81–86.
  32. ↑ Кристиан Вальдер и Бернхард Шёлькопф, Уменьшение диффеоморфной размерности , Достижения в системах обработки нейронной информации 22, 2009, стр. 1713–1720, MIT Press
  33. ^ Ван, Чанг; Махадеван, Шридхар (июль 2008 г.). Выравнивание коллектора с использованием анализа Прокруста (PDF) . 25-я Международная конференция по машинному обучению. стр. 1120–1127.
  34. Лафон, Стефан (май 2004 г.). Диффузионные карты и геометрические гармоники (кандидатская диссертация). Йельский университет .
  35. ^ б Койфман, Рональд Р . ; Лафон, Стефан (19 июня 2006 г.). «Диффузионные карты». Наука .
  36. ^ Бах, Б. (2008). Диффузионные карты: приложения и анализ (магистерская диссертация). Оксфордский университет.
  37. ^ Венна, Дж.; Каски, С. (2006). «Локальное многомерное масштабирование». Нейронные сети . 19 (6–7): 889–899. doi : 10.1016/j.neunet.2006.05.014 . PMID 16787737 . 
  38. ^ Шольц, М .; Каплан, Ф .; Гай, CL; Копка, Дж.; Селбиг, Дж. (2005). «Нелинейный PCA: подход с недостающими данными» . Биоинформатика . Издательство Оксфордского университета. 21 (20): 3887–3895. doi : 10.1093/биоинформатика/bti634 . PMID 16109748 . 
  39. ^ С. Леспинатс, М. Верлейсен, А. Гирон, Б. Фертил, DD-HDS: инструмент для визуализации и исследования многомерных данных, IEEE Transactions on Neural Networks 18 (5) (2007) 1265–1279.
  40. ^ Гашлер, М. и Вентура, Д. и Мартинес, Т., Итеративное нелинейное уменьшение размерности с многообразием скульптуры , Ин Платт, Дж. К. и Коллер, Д. и Сингер, Ю. и Ровейс, С., редактор, Достижения в Системы обработки нейронной информации 20, стр. 513–520, MIT Press, Кембридж, Массачусетс, 2008 г.
  41. ^ Леспинатс С., Фертиль Б., Вильмен П. и Эро Дж., Ранквизу: Картирование из сети соседства , Neurocomputing, vol. 72 (13–15), стр. 2964–2978, 2009.
  42. ^ Росман Г., Бронштейн М.М., Бронштейн А.М. и Киммел Р., Нелинейное уменьшение размерности с помощью топологически ограниченного изометрического встраивания , Международный журнал компьютерного зрения, том 89, номер 1, 56–68, 2010 г.
  43. ^ Макиннес, Леланд; Хили, Джон; Мелвилл, Джеймс (07 декабря 2018 г.). «Аппроксимация и проекция равномерного многообразия для уменьшения размерности». архив : 1802.03426 .
  44. ^ «UMAP: унифицированное приближение и проекция коллектора для уменьшения размеров - документация umap 0.3» . umap-learn.readthedocs.io . Проверено 4 мая 2019 г. .

внешняя ссылка

  • Изомап
  • Генеративное топографическое картографирование
  • Диссертация Майка Типпинга
  • Модель скрытой переменной Гаусса
  • Локально-линейное вложение
  • Карта реляционной перспективы
  • Waffles — это библиотека C++ с открытым исходным кодом, содержащая реализации LLE, Manifold Sculpting и некоторых других алгоритмов обучения множеству.
  • Домашняя страница DD-HDS
  • Домашняя страница RankVisu
  • Краткий обзор диффузионных карт
  • Нелинейный PCA с помощью нейронных сетей автоэнкодера
Получено с " https://en.wikipedia.org/w/index.php?title=Nonlinear_Dimensionity_reduction&oldid=1064031569 "