Из Википедии, бесплатной энциклопедии
  (Перенаправлен из Manifold обучения )
Перейти к навигации Перейти к поиску

Данные высокой размерности , то есть данные, для представления которых требуется более двух или трех измерений, могут быть трудными для интерпретации . Один из подходов к упрощению состоит в том, чтобы предположить, что интересующие данные находятся в пространстве меньшей размерности. Если интересующие данные имеют достаточно низкую размерность, данные могут быть визуализированы в низкоразмерном пространстве.

Вверху слева: набор 3D-данных из 1000 точек в спиралевидной полосе (также известной как швейцарский рулет ) с прямоугольным отверстием посередине. Вверху справа: исходный 2D-коллектор, используемый для создания набора 3D-данных. Внизу слева и справа: 2D-восстановления коллектора соответственно с использованием алгоритмов LLE и Hessian LLE , реализованных с помощью инструментария модульной обработки данных.

Ниже приводится краткое изложение некоторых известных методов нелинейного уменьшения размерности . [1] [2] Многие из этих методов уменьшения нелинейной размерности относятся к линейным методам, перечисленным ниже . Нелинейные методы можно в общих чертах разделить на две группы: те, которые обеспечивают отображение (либо из многомерного пространства в низкоразмерное встраивание, либо наоборот), и те, которые просто дают визуализацию.

Связанные методы линейной декомпозиции [ править ]

  • Независимый компонентный анализ (ICA).
  • Анализ главных компонент (PCA) (также называемый теоремой Карунена – Лоэва  - KLT).
  • Разложение по сингулярным числам (SVD).
  • Факторный анализ .

Приложения NLDR [ править ]

Рассмотрим набор данных, представленный в виде матрицы (или таблицы базы данных), так что каждая строка представляет набор атрибутов (или функций или измерений), которые описывают конкретный экземпляр чего-либо. Если количество атрибутов велико, то пространство уникальных возможных строк экспоненциально велико. Таким образом, чем больше размерность, тем сложнее становится отсчет пространства. Это вызывает множество проблем. Алгоритмы, работающие с многомерными данными, обычно имеют очень высокую временную сложность. Например, многие алгоритмы машинного обучения борются с многомерными данными. Сокращение данных до меньшего числа измерений часто делает алгоритмы анализа более эффективными и может помочь алгоритмам машинного обучения делать более точные прогнозы.

Люди часто испытывают трудности с пониманием данных в больших измерениях. Таким образом, сокращение данных до небольшого количества измерений полезно для целей визуализации.

График двумерных точек, полученных в результате использования алгоритма NLDR. В этом случае Manifold Sculpting используется для сокращения данных до двух измерений (вращение и масштаб).

Представления данных с уменьшенной размерностью часто называют «внутренними переменными». Это описание подразумевает, что это значения, из которых были получены данные. Например, рассмотрим набор данных, содержащий изображения буквы «А», которая была масштабирована и повернута на разную величину. Каждое изображение имеет размер 32x32 пикселя. Каждое изображение может быть представлено как вектор из 1024 значений пикселей. Каждая строка является образцом на двумерном многообразии в 1024-мерном пространстве ( пространство Хэмминга). Внутренняя размерность равна двум, потому что две переменные (поворот и масштаб) были изменены для получения данных. Информация о форме или внешнем виде буквы «А» не является частью внутренних переменных, потому что она одинакова во всех случаях. Нелинейное уменьшение размерности отбросит коррелированную информацию (буква «А») и восстановит только изменяющуюся информацию (поворот и масштаб). На изображении справа показаны образцы изображений из этого набора данных (для экономии места показаны не все входные изображения) и график двумерных точек, полученных в результате использования алгоритма NLDR (в данном случае использовалось скульптурное моделирование манифольда) чтобы сократить данные до двух измерений.

PCA (алгоритм уменьшения линейной размерности) используется для сокращения этого же набора данных до двух измерений, итоговые значения не так хорошо организованы.

Для сравнения: если анализ главных компонентов , который представляет собой алгоритм уменьшения линейной размерности, используется для сокращения этого же набора данных до двух измерений, результирующие значения не так хорошо организованы. Это демонстрирует, что многомерные векторы (каждый из которых представляет букву «А»), образующие это многообразие, изменяются нелинейным образом.

Таким образом, должно быть очевидно, что NLDR имеет несколько приложений в области компьютерного зрения. Например, рассмотрим робота, который использует камеру для навигации в замкнутой статической среде. Изображения, полученные этой камерой, можно рассматривать как образцы на многообразии в многомерном пространстве, а внутренние переменные этого многообразия будут представлять положение и ориентацию робота. Эта утилита не ограничивается роботами. Динамические системы , более общий класс систем, который включает роботов, определяются в терминах многообразия. Активные исследования в области NLDR направлены на раскрытие многообразия наблюдений, связанных с динамическими системами, для разработки методов моделирования таких систем и обеспечения их автономной работы. [3]

Некоторые из наиболее известных методов нелинейного уменьшения размерности перечислены ниже.

Важные понятия [ править ]

Карта Саммона [ править ]

Отображение Сэммона является одним из первых и наиболее популярных методов NLDR.

Аппроксимация главной кривой одномерным ПОВ ( ломаная линия с красными квадратами, 20 узлов). Первый главный компонент представлен синей прямой линией. Точки данных - это маленькие серые кружки. Для PCA доля необъяснимой дисперсии в этом примере составляет 23,23%, для SOM - 6,86%. [4]

Самоорганизующаяся карта [ править ]

Самоорганизующаяся карта (SOM, называемая также Кохонена картой ) и его вероятностного вариант генеративное топографическое картирование (GTM) использовать представление точки во встроенном пространстве для формирования скрытой модели переменной , основанную на нелинейное отображение из встроенного пространства к многомерное пространство. [5] Эти методы относятся к работе с плотными сетями , которые также основаны на той же вероятностной модели.

Анализ основных компонентов ядра [ править ]

Возможно, наиболее широко используемым алгоритмом уменьшения размерности является ядерный PCA . [6] PCA начинается с вычисления ковариационной матрицы матрицы

Затем он проецирует данные на первые k собственных векторов этой матрицы. Для сравнения, KPCA начинается с вычисления ковариационной матрицы данных после преобразования в многомерное пространство,

Затем он проецирует преобразованные данные на первые k собственных векторов этой матрицы, как и PCA. Он использует трюк с ядром, чтобы убрать большую часть вычислений, так что весь процесс может быть выполнен без фактических вычислений . Конечно, необходимо выбрать такое, чтобы у него было известное соответствующее ядро. К сожалению, найти хорошее ядро ​​для данной проблемы нетривиально, поэтому KPCA не дает хороших результатов с некоторыми проблемами при использовании стандартных ядер. Например, известно, что эти зерна плохо работают на манифольде для швейцарских валков . Однако некоторые другие методы, которые хорошо работают в таких условиях (например, собственные лапласовские карты, LLE), можно рассматривать как частные случаи ядра PCA, создавая зависимую от данных матрицу ядра. [7]

У KPCA есть внутренняя модель, поэтому ее можно использовать для сопоставления точек на ее встраивании, которые не были доступны во время обучения.

Основные кривые и многообразия [ править ]

Применение основных кривых: Нелинейный индекс качества жизни. [8] Точки представляют данные по 171 стране ООН в 4-х мерном пространстве, образованном значениями 4 показателей: валовой продукт на душу населения , продолжительность жизни , младенческая смертность , заболеваемость туберкулезом . Разные формы и цвета соответствуют разным географическим местам. Красная жирная линия представляет основную кривую , аппроксимирующую набор данных. Эта основная кривая была построена методом упругой карты . Программное обеспечение доступно для бесплатного некоммерческого использования. [9] [10]

Главные кривые и многообразия дают естественную геометрическую основу для нелинейного уменьшения размерности и расширяют геометрическую интерпретацию PCA путем явного построения вложенного многообразия и кодирования с использованием стандартной геометрической проекции на многообразие. Этот подход был предложен Тревором Хасти в его диссертации (1984) [11] и развит многими авторами. [12]Как определить «простоту» многообразия зависит от проблемы, однако она обычно измеряется внутренней размерностью и / или гладкостью многообразия. Обычно главное многообразие определяется как решение задачи оптимизации. Целевая функция включает в себя качество аппроксимации данных и некоторые штрафные члены за изгиб многообразия. Популярные начальные приближения генерируются линейным PCA и SOM Кохонена.

Собственные карты лапласа [ править ]

Собственные карты Лапласа используют спектральные методы для уменьшения размерности. [13] Этот метод основан на основном предположении, что данные лежат в низкоразмерном многообразии в многомерном пространстве. [14] Этот алгоритм не может встраивать точки вне выборки, но для добавления этой возможности существуют методы, основанные на регуляризации гильбертова пространства воспроизводящего ядра . [15] Такие методы могут быть применены и к другим алгоритмам уменьшения нелинейной размерности.

Традиционные методы, такие как анализ главных компонентов, не учитывают внутреннюю геометрию данных. Собственные карты Лапласа строят граф на основе информации о соседстве набора данных. Каждая точка данных служит узлом на графе, а связь между узлами регулируется близостью соседних точек (например, с использованием алгоритма k-ближайшего соседа ). Сгенерированный таким образом граф можно рассматривать как дискретное приближение низкоразмерного многообразия в многомерном пространстве. Минимизация функции стоимости на основе графика гарантирует, что точки, близкие друг к другу на многообразии, отображаются близко друг к другу в низкоразмерном пространстве с сохранением локальных расстояний. Собственные функции оператора Лапласа – Бельтрамина многообразии служат измерениями вложения, так как при мягких условиях этот оператор имеет счетный спектр, который является базисом для квадратично интегрируемых функций на многообразии (сравните с рядами Фурье на многообразии единичной окружности). Попытки разместить собственные карты Лапласа на твердой теоретической основе увенчались некоторым успехом, поскольку при определенных неограничивающих предположениях матрица Лапласа графа сходится к оператору Лапласа – Бельтрами, когда число точек стремится к бесконечности. [14]

В приложениях классификации низкоразмерные коллекторы могут использоваться для моделирования классов данных, которые могут быть определены из наборов наблюдаемых экземпляров. Каждый наблюдаемый экземпляр можно описать двумя независимыми факторами, называемыми «контент» и «стиль», где «контент» - это инвариантный фактор, связанный с сущностью класса, а «стиль» выражает вариации в этом классе между экземплярами. [16] К сожалению, лапласовские собственные карты могут не дать связного представления интересующего класса, когда обучающие данные состоят из экземпляров, значительно различающихся по стилю. [17]В случае классов, которые представлены многомерными последовательностями, были предложены структурные лапласианские собственные карты для преодоления этой проблемы путем добавления дополнительных ограничений в граф информации о соседстве лапласовских собственных карт, чтобы лучше отразить внутреннюю структуру класса. [18] Более конкретно, граф используется для кодирования как последовательной структуры многомерных последовательностей, так и, чтобы минимизировать стилистические вариации, близости между точками данных различных последовательностей или даже внутри последовательности, если она содержит повторы. Используя динамическое преобразование времени , близость обнаруживается путем нахождения соответствий между и внутри секций многомерных последовательностей, которые демонстрируют высокое сходство. Эксперименты по распознаванию активности по зрению, приложения для классификации ориентации объектов и восстановления трехмерных поз человека продемонстрировали дополнительную ценность структурных лапласовских собственных карт при работе с многомерными данными последовательности. [18] Расширение структурных лапласовских собственных карт, обобщенных лапласовских собственных карт привело к созданию многообразий, в которых одно из измерений конкретно представляет вариации стиля. Это оказалось особенно полезным в таких приложениях, как отслеживание сочлененного тела человека и извлечение силуэта. [19]

Isomap [ править ]

Isomap [20] представляет собой комбинацию алгоритма Флойда – Уоршалла с классическим многомерным масштабированием . Классическое многомерное масштабирование (MDS) берет матрицу попарных расстояний между всеми точками и вычисляет положение для каждой точки. Isomap предполагает, что попарные расстояния известны только между соседними точками, и использует алгоритм Флойда – Уоршалла для вычисления попарных расстояний между всеми другими точками. Это эффективно оценивает полную матрицу попарных геодезических расстояний между всеми точками. Затем Isomap использует классическую MDS для вычисления положений всех точек в уменьшенном масштабе. Landmark-Isomap - это вариант этого алгоритма, который использует ориентиры для увеличения скорости за счет некоторой точности.

При обучении многообразию предполагается, что входные данные отбираются из многообразия низкой размерности , которое встроено в векторное пространство более высокой размерности. Основная интуиция MVU состоит в том, чтобы использовать локальную линейность многообразий и создать отображение, которое сохраняет локальные окрестности в каждой точке лежащего в основе многообразия.

Локально-линейное встраивание [ править ]

Локально-линейное вложение (LLE) [21] было представлено примерно в то же время, что и Isomap. Он имеет несколько преимуществ по сравнению с Isomap, в том числе более быструю оптимизацию при реализации с использованием разреженной матрицы.алгоритмы и лучшие результаты со многими проблемами. LLE также начинается с поиска набора ближайших соседей каждой точки. Затем он вычисляет набор весов для каждой точки, который лучше всего описывает точку как линейную комбинацию ее соседей. Наконец, он использует метод оптимизации на основе собственных векторов, чтобы найти низкоразмерное вложение точек, так что каждая точка по-прежнему описывается той же линейной комбинацией своих соседей. LLE имеет тенденцию плохо справляться с неоднородной плотностью образцов, потому что не существует фиксированной единицы измерения, предотвращающей смещение весов, поскольку различные области различаются по плотности образца. LLE не имеет внутренней модели.

LLE вычисляет барицентрические координаты точки X i на основе ее соседей X j . Исходная точка восстанавливается линейной комбинацией, заданной весовой матрицей W ij , ее соседей. Ошибка восстановления определяется функцией стоимости E ( W ).

Веса W ij относятся к сумме вклада, которую имеет точка X j при восстановлении точки X i . Функция стоимости минимизируется при двух ограничениях: (a) Каждая точка данных X i восстанавливается только по своим соседям, таким образом, принудительно устанавливая W ij равным нулю, если точка X j не является соседом точки X i, и (b) сумма каждой строки весовой матрицы равно 1.

Исходные точки данных собираются в D- мерном пространстве, и цель алгоритма - уменьшить размерность до d , чтобы D >> d . Те же веса W ij, которые восстанавливают i- ю точку данных в D- мерном пространстве, будут использоваться для восстановления той же точки в нижнем d- мерном пространстве. На основе этой идеи создается карта сохранения окрестностей. Каждая точка X i в D- мерном пространстве отображается на точку Y i в d- мерном пространстве путем минимизации функции стоимости

В этой функции затрат, в отличие от предыдущей, веса W ij сохраняются фиксированными, а минимизация выполняется в точках Y i для оптимизации координат. Эта проблема минимизации может быть решена путем решения разреженной задачи на собственные значения N X N ( N - количество точек данных), нижние d ненулевых собственных векторов которой обеспечивают ортогональный набор координат. Обычно точки данных восстанавливаются по K ближайшим соседям, измеренным с помощью евклидова расстояния . Для такой реализации в алгоритме есть только один свободный параметр K, который можно выбрать путем перекрестной проверки.

Гессенское локально-линейное вложение (Hessian LLE) [ править ]

Как и LLE, Hessian LLE также основан на методах разреженных матриц. [22] Он имеет тенденцию давать результаты гораздо более высокого качества, чем LLE. К сожалению, он имеет очень дорогостоящую вычислительную сложность, поэтому он не очень хорошо подходит для сильно дискретизированных многообразий. У него нет внутренней модели.

Модифицированное локально-линейное встраивание (MLLE) [ править ]

Модифицированный LLE (MLLE) [23] - это еще один вариант LLE, который использует несколько весов в каждой окрестности для решения проблемы согласования локальной весовой матрицы, которая приводит к искажениям в картах LLE. Грубо говоря, множественные веса - это локальная ортогональная проекция исходных весов, созданных LLE. Создатели этого регуляризованного варианта также являются авторами Local Tangent Space Alignment (LTSA), которое подразумевается в формулировке MLLE, когда понимается, что глобальная оптимизация ортогональных проекций каждого вектора весов, по сути, выравнивает локальные касательные пространства. каждой точки данных. Теоретические и эмпирические выводы из правильного применения этого алгоритма имеют далеко идущие последствия. [24]

Выравнивание местного касательного пространства [ править ]

LTSA [25] основан на интуиции, что при правильном развертывании коллектора все касательные гиперплоскости к нему будут выровнены. Он начинается с вычисления k ближайших соседей каждой точки. Он вычисляет касательное пространство в каждой точке, вычисляя d- первые главные компоненты в каждой локальной окрестности. Затем он оптимизируется, чтобы найти вложение, выравнивающее касательные пространства.

Развертывание максимальной дисперсии [ править ]

Развертывание с максимальной дисперсией , изокарта и локально-линейное вложение разделяют общую интуицию, основанную на представлении о том, что если многообразие правильно развернуто, то дисперсия по точкам максимальна. Его начальный шаг, такой как Isomap и Local Linear Embedding, - это нахождение k- ближайших соседей каждой точки. Затем он пытается решить проблему максимального увеличения расстояния между всеми несоседними точками, ограниченного таким образом, чтобы расстояния между соседними точками сохранялись. Основным вкладом этого алгоритма является метод представления этой проблемы как задачи полуопределенного программирования. К сожалению, решатели полуопределенного программирования требуют больших вычислительных затрат. Как и локально линейное встраивание, у него нет внутренней модели.

Автоэнкодеры [ править ]

Автоассоциатор является опережающей нейронной сетью , которая обучается приблизительно тождественная функция. То есть он обучен отображать из вектора значений в тот же вектор. При использовании для уменьшения размерности один из скрытых слоев в сети ограничен, чтобы содержать только небольшое количество сетевых устройств. Таким образом, сеть должна научиться кодировать вектор в небольшое количество измерений, а затем декодировать его обратно в исходное пространство. Таким образом, первая половина сети представляет собой модель, которая отображает пространство высокой размерности в пространство низкой размерности, а вторая половина карты отображает пространство низкой размерности в пространство высокой размерности. Хотя идея автоэнкодеров довольно старая, обучение глубоких автоэнкодеров стало возможным только недавно благодаря использованию ограниченных машин Больцмана.и составные автокодеры шумоподавления. С автоэнкодерами связан алгоритм NeuroScale , который использует функции напряжения, вдохновленные многомерным масштабированием и отображениями Сэммона (см. Выше), чтобы изучить нелинейное отображение многомерного пространства во встроенное пространство. Отображения в NeuroScale основаны на радиальных базисных функциональных сетях . Другое использование нейронной сети для уменьшения размерности - научить ее изучать касательные плоскости в данных. [26]

Гауссовские модели скрытых переменных процесса [ править ]

Модели со скрытыми переменными гауссовских процессов (GPLVM) [27] - это вероятностные методы уменьшения размерности, которые используют гауссовские процессы (GP) для поиска нелинейного вложения низкоразмерных данных большой размерности. Они являются расширением вероятностной формулировки PCA. Модель определяется вероятностно, затем скрытые переменные маргинализируются, а параметры получаются путем максимизации правдоподобия. Как и ядро ​​PCA, они используют функцию ядра для формирования нелинейного отображения (в форме гауссовского процесса). Однако в GPLVM отображение выполняется из встроенного (скрытого) пространства в пространство данных (например, сети плотности и GTM), тогда как в ядре PCA оно происходит в противоположном направлении. Первоначально он был предложен для визуализации данных большой размерности, но был расширен для построения общей модели многообразия между двумя пространствами наблюдения. GPLVM и множество его вариантов были предложены специально для моделирования движения человека, например GPLVM с обратными ограничениями, динамическая модель GP (GPDM), сбалансированный GPDM (B-GPDM) и GPDM с топологическими ограничениями. Чтобы уловить эффект связи многообразий позы и походки в анализе походки, было предложено многослойное объединенное многообразие позы и походки. [28]

t-распределенное стохастическое вложение соседей [ править ]

t-распределенное стохастическое вложение соседей (t-SNE) [29] широко используется. Это один из семейства методов стохастического вложения соседей. Алгоритм вычисляет вероятность того, что пары точек данных в многомерном пространстве связаны, а затем выбирает низкоразмерные вложения, которые производят подобное распределение.

Другие алгоритмы [ править ]

Карта реляционной перспективы [ править ]

Карта реляционной перспективы - это алгоритм многомерного масштабирования . Алгоритм находит конфигурацию точек данных на многообразии путем моделирования многочастичной динамической системы на замкнутом многообразии, где точки данных отображаются на частицы, а расстояния (или несходство) между точками данных представляют собой силу отталкивания. По мере того, как коллектор постепенно увеличивается в размере, многочастичная система постепенно остывает и сходится к конфигурации, которая отражает информацию о расстоянии между точками данных.

Карта реляционной перспективы была вдохновлена ​​физической моделью, в которой положительно заряженные частицы свободно перемещаются по поверхности шара. Управляемая кулоновской силой между частицами, минимальная энергетическая конфигурация частиц будет отражать силу сил отталкивания между частицами.

Карта реляционной перспективы была представлена ​​в [30] . Алгоритм сначала использовал плоский тор как многообразие изображений, затем он был расширен (в программном обеспечении VisuMap для использования других типов замкнутых многообразий, таких как сфера , проективное пространство и Клейн). бутылка , как коллекторы изображения.

Карты заражения [ править ]

Карты заражения используют несколько заражений в сети для отображения узлов в виде облака точек. [31] В случае модели глобальных каскадов скорость распространения может быть скорректирована с помощью порогового параметра . Для заражения карта эквивалентна алгоритму Isomap .

Анализ криволинейных компонентов [ править ]

Анализ криволинейных компонентов (CCA) ищет конфигурацию точек в выходном пространстве, которая сохраняет исходные расстояния в максимально возможной степени, фокусируясь на малых расстояниях в выходном пространстве (в противоположность картированию Саммона, которое фокусируется на малых расстояниях в исходном пространстве). [32]

Следует отметить, что CCA, как алгоритм итеративного обучения, фактически начинается с фокусировки на больших расстояниях (например, алгоритм Сэммона), а затем постепенно меняет фокус на небольшие расстояния. Информация о небольшом расстоянии перезапишет информацию о большом расстоянии, если между ними придется пойти на компромисс.

Функция напряжения ОСА связана с суммой правых расхождений Брегмана. [33]

Анализ криволинейных расстояний [ править ]

CDA [32] обучает самоорганизующуюся нейронную сеть, чтобы она соответствовала многообразию, и стремится сохранить геодезические расстояния при ее вложении. Он основан на анализе криволинейных компонентов (который расширил отображение Сэммона), но вместо этого использует геодезические расстояния.

Диффеоморфное уменьшение размерности [ править ]

Диффеоморфна Размерность Снижение или Diffeomap [34] узнает гладкую диффеоморфное отображение , которое транспортирует данные на меньшей размерности линейного подпространства. Методы решают для сглаженного индексированного по времени векторного поля, так что потоки вдоль поля, которые начинаются в точках данных, заканчиваются в линейном подпространстве меньшей размерности, тем самым пытаясь сохранить попарные различия как при прямом, так и при обратном отображении.

Выравнивание коллектора [ править ]

Выравнивание коллектора использует преимущество предположения, что разрозненные наборы данных, созданные аналогичными процессами генерации, будут совместно использовать аналогичное базовое представление коллектора. Изучая проекции из каждого исходного пространства в общее многообразие, восстанавливаются соответствия, и знания из одной области могут быть перенесены в другую. Большинство методик множественного выравнивания рассматривают только два набора данных, но эта концепция распространяется на произвольно множество исходных наборов данных. [35]

Карты диффузии [ править ]

Карты диффузии используют взаимосвязь между диффузией тепла и случайным блужданием ( цепь Маркова ); проводится аналогия между оператором диффузии на многообразии и марковской переходной матрицей, оперирующей функциями, определенными на графе, узлы которого были взяты из многообразия. [36] В частности, пусть набор данных представлен как . Основное предположение диффузионной карты состоит в том, что многомерные данные лежат на низкоразмерном многообразии размерностей . Пусть X представляет набор данных и представляют собой распределение точек данных на X . Далее определим ядрокоторая представляет собой некоторое представление о родстве точек в X . Ядро обладает следующими свойствами [37]

k симметричный

k сохраняет положительность

Таким образом, можно думать об отдельных точках данных как об узлах графа, а о ядре k как об определении некоторого родства на этом графе. Граф симметричен по построению, так как ядро ​​симметрично. Здесь легко увидеть, что по набору ( X , k ) можно построить обратимую цепь Маркова . Этот метод является общим для множества полей и известен как лапласиан графа.

Например, граф K = ( X , E ) может быть построен с использованием гауссова ядра.

В приведенном выше уравнении означает, что это ближайший сосед . Правильно, геодезическое расстояние должно использоваться для фактического измерения расстояний на коллекторе . Поскольку точная структура многообразия недоступна, для ближайших соседей геодезическое расстояние аппроксимируется евклидовым расстоянием. Выбор модулирует наше представление о близости в том смысле, что если, то и если, то . Первое означает, что произошла очень небольшая диффузия, в то время как второе подразумевает, что процесс диффузии почти завершен. Различные стратегии выбора можно найти в [38]

Чтобы точно представить матрицу Маркова, она должна быть нормализована соответствующей матрицей степени :

теперь представляет собой цепь Маркова. вероятность перехода от к за один временной шаг. Точно так же вероятность перехода от к временным шагам через t определяется выражением . Вот матрица, умноженная на себя t раз.

Матрица Маркова представляет собой некоторое представление о локальной геометрии множества данных X . Основное различие между диффузионными картами и анализом главных компонентов заключается в том, что на диффузионных картах учитываются только локальные особенности данных, а не корреляция всего набора данных.

определяет случайное блуждание по набору данных, что означает, что ядро ​​фиксирует некоторую локальную геометрию набора данных. Цепь Маркова определяет быстрое и медленное направления распространения значений ядра. По мере того, как блуждание распространяется вперед во времени, информация о локальной геометрии агрегируется так же, как локальные переходы (определяемые дифференциальными уравнениями) динамической системы. [37] Метафора диффузии возникает из определения семейной диффузной дистанции { }

Для фиксированного t определяет расстояние между любыми двумя точками набора данных на основе связности пути: значение будет тем меньше, чем больше путей соединяют x с y, и наоборот. Поскольку величина включает в себя сумму всех путей длиной t, она намного более устойчива к шуму в данных, чем геодезическое расстояние. учитывает все отношения между точками x и y при вычислении расстояния и служит лучшим понятием близости, чем просто евклидово расстояние или даже геодезическое расстояние.

Локальное многомерное масштабирование [ править ]

Локальное многомерное масштабирование выполняет многомерное масштабирование в локальных регионах, а затем использует выпуклую оптимизацию, чтобы подогнать все части вместе. [39]

Нелинейный PCA [ править ]

Нелинейный PCA (NLPCA) использует обратное распространение, чтобы обучить многослойный перцептрон (MLP) приспособиться к коллектору. [40] В отличие от типичного обучения MLP, при котором обновляются только веса, NLPCA обновляет как веса, так и входные данные. То есть и веса, и входные данные рассматриваются как скрытые значения. После обучения скрытые входные данные представляют собой низкоразмерное представление наблюдаемых векторов, а MLP отображает это низкоразмерное представление в многомерное пространство наблюдения.

Управляемое данными многомерное масштабирование [ править ]

Data-Driven High Dimensional Scaling (DD-HDS) [41] тесно связано с картированием Sammon и анализом криволинейных компонентов, за исключением того, что (1) оно одновременно штрафует ложные окрестности и разрывы, фокусируясь на малых расстояниях как в исходном, так и в выходном пространстве, и что (2) он учитывает явление концентрации меры , адаптируя весовую функцию к распределению расстояний.

Скульптура манифольдов [ править ]

Manifold Sculpting [42] использует постепенную оптимизацию для нахождения вложения. Как и другие алгоритмы, он вычисляет k ближайших соседей и пытается найти вложение, которое сохраняет отношения в локальных окрестностях. Он медленно масштабирует дисперсию из более высоких измерений, одновременно корректируя точки в более низких измерениях, чтобы сохранить эти отношения. Если скорость масштабирования мала, можно найти очень точные вложения. Он может похвастаться более высокой эмпирической точностью, чем другие алгоритмы с несколькими проблемами. Его также можно использовать для уточнения результатов других разнообразных алгоритмов обучения. Однако он изо всех сил пытается развернуть некоторые коллекторы, если не используется очень низкая скорость масштабирования. У него нет модели.

RankVisu [ править ]

RankVisu [43] предназначен для сохранения ранга соседства, а не расстояния. RankVisu особенно полезен в сложных задачах (когда невозможно добиться удовлетворительного сохранения расстояния). Действительно, ранг соседства менее информативен, чем расстояние (ранги могут быть выведены из расстояний, но расстояния не могут быть выведены из рангов), и, таким образом, его сохранение легче.

Топологически ограниченное изометрическое вложение [ править ]

Топологически ограниченное изометрическое вложение (TCIE) [44] - это алгоритм, основанный на приближении геодезических расстояний после фильтрации геодезических, несовместимых с евклидовой метрикой. Направленный на исправление искажений, вызванных использованием Isomap для отображения изначально невыпуклых данных, TCIE использует MDS взвешенных наименьших квадратов для получения более точного отображения. Алгоритм TCIE сначала обнаруживает возможные граничные точки в данных, и во время вычисления геодезической длины отмечает несогласованные геодезические, чтобы им был придан небольшой вес во взвешенном мажоризации стресса, который следует далее.

Аппроксимация и проекция равномерного многообразия [ править ]

Аппроксимация и проекция однородного многообразия (UMAP) - это метод нелинейного уменьшения размерности. [45] Визуально он похож на t-SNE, но предполагает, что данные равномерно распределены на локально связном римановом многообразии и что риманова метрика локально постоянна или приблизительно локально постоянна. [46]

Методы, основанные на матрицах близости [ править ]

Метод, основанный на матрицах близости, - это метод, при котором данные представляются алгоритму в форме матрицы подобия или матрицы расстояний . Все эти методы подпадают под более широкий класс метрического многомерного масштабирования . Вариации, как правило, заключаются в различиях в способах вычисления данных о близости; например, Isomap , локально линейные вложения , развертывание с максимальной дисперсией и отображение Сэммона (которое на самом деле не является отображением) являются примерами методов метрического многомерного масштабирования.

См. Также [ править ]

  • Дискриминантный анализ
  • Эластичная карта
  • Особенности обучения
  • Растущая самоорганизующаяся карта (ВШМ)
  • Самоорганизующаяся карта (SOM)
  • Теорема взятого
  • Теорема вложения Уитни

Ссылки [ править ]

  1. Перейти ↑ Lawrence, Neil D (2012). «Единая вероятностная перспектива для уменьшения спектральной размерности: идеи и новые модели» . Журнал исследований в области машинного обучения . 13 (май): 1609–1638. arXiv : 1010,4830 . Bibcode : 2010arXiv1010.4830L .
  2. ^ Джон А. Ли, Мишель Верлейсен, Нелинейное уменьшение размерности, Springer, 2007.
  3. ^ Gashler, М. и Мартинес, Т., Temporal Нелинейной Размерность Снижение , в Труды Международной совместной конференции по нейронным сетям IJCNN'11 , стр. 1959-1966, 2011
  4. ^ Иллюстрация подготовлена ​​с использованием бесплатного программного обеспечения: EM Mirkes, « Анализ главных компонентов» и «Самоорганизующиеся карты»: апплет . Университет Лестера, 2011 г.
  5. ^ Инь, Худжунь; Изучение нелинейных главных многообразий с помощью самоорганизующихся карт , в А. Н. Горбань, Б. Кегль, Д. К. Вунш и А. Зиновьев (ред.), Основные многообразия для визуализации данных и уменьшения размерности , Лекционные заметки по информатике и инженерии (LNCSE), т. 58, Берлин, Германия: Springer, 2007, гл. 3. С. 68-95. ISBN 978-3-540-73749-0 
  6. ^ Б. Шёлкопф, А. Смола, К.-Р. Мюллер, Нелинейный компонентный анализ как проблема собственных значений ядра. Нейронные вычисления 10 (5): 1299-1319, 1998, MIT Press, Кембридж, Массачусетс, США, DOI: 10,1162 / 089976698300017467
  7. ^ Jihun Ham, Daniel D. Lee, Себастьян Mika, Бернхард Скекопф. Ядровый взгляд на уменьшение размерности многообразий. Материалы 21-й Международной конференции по машинному обучению, Банф, Канада, 2004 г. doi: 10.1145 / 1015330.1015417
  8. ^ Горбань, АН; Зиновьев, А. (2010). «Основные многообразия и графы на практике: от молекулярной биологии к динамическим системам». Международный журнал нейронных систем . 20 (3): 219–232. arXiv : 1001.1122 . DOI : 10.1142 / S0129065710002383 . PMID 20556849 . S2CID 2170982 .  
  9. ^ А. Зиновьев, ViDaExpert - Средство визуализации многомерных данных (бесплатно для некоммерческого использования). Институт Кюри , Париж.
  10. ^ А. Зиновьев, Обзор ViDaExpert , IHES ( Institut des Hautes Études Scientifiques ), Бюрес-сюр-Иветт, Иль-де-Франс.
  11. ^ Гесте, Т. (ноябрь 1984). Основные кривые и поверхности (PDF) (докторская диссертация). Стэнфордский центр линейных ускорителей, Стэнфордский университет.
  12. ^ Горбань, АН ; Kégl, B .; Вунш, округ Колумбия; Зиновьев А., ред. (2007). Основные многообразия для визуализации данных и уменьшения размерности . Конспект лекций по информатике и инженерии (LNCSE). Vol. 58. Берлин - Гейдельберг - Нью-Йорк: Спрингер. ISBN 978-3-540-73749-0. |volume= has extra text (help)
  13. ^ Белкин, Михаил; Нийоги, Партха (2001). "Собственные карты Лапласа и спектральные методы для вложения и кластеризации". Достижения в системах обработки нейронной информации . MIT Press. 14 : 586–691.
  14. ^ Б Белкин, Михаил (август 2003). Проблемы обучения на многообразиях (кандидатская диссертация). Департамент математики Чикагского университета.Код Matlab для лапласовских собственных карт можно найти в алгоритмах на Ohio-state.edu
  15. ^ Бенжио, Йошуа; и другие. (2004). «Расширения вне выборки для LLE, Isomap, MDS, собственных карт и спектральной кластеризации» (PDF) . Достижения в системах обработки нейронной информации .
  16. ^ Tenenbaum, J .; Фриман, В. (2000). «Разделение стиля и содержания с помощью билинейных моделей». Нейронные вычисления . 12 (6): 1247–1283. DOI : 10.1162 / 089976600300015349 . PMID 10935711 . S2CID 9492646 .  
  17. ^ Левандовски, М .; Martinez-del Rincon, J .; Макрис, Д .; Небель, Ж.-К. (2010). «Временное расширение лапласовских собственных карт для неконтролируемого уменьшения размерности временных рядов» . Труды Международной конференции по распознаванию образов (ICPR) .
  18. ^ a b Левандовски, М .; Макрис, Д .; Веластин, С.А. Небель, Ж.-К. (2014). "Структурные лапласовские собственные карты для моделирования множеств многомерных последовательностей". IEEE Transactions по кибернетике . 44 (6): 936–949. DOI : 10.1109 / TCYB.2013.2277664 . PMID 24144690 . S2CID 110014 .  
  19. ^ Мартинес-дель-Ринкон, Дж .; Левандовски, М .; Nebel, J.-C .; Макрис, Д. (2014). «Обобщенные лапласовские собственные карты для моделирования и отслеживания движений человека». IEEE Transactions по кибернетике . 44 (9): 1646–1660. DOI : 10.1109 / TCYB.2013.2291497 . PMID 25137692 . S2CID 22681962 .  
  20. ^ Дж. Б. Тененбаум, В. де Сильва, Дж. К. Лэнгфорд, Глобальная геометрическая основа для уменьшения нелинейной размерности , Science 290, (2000), 2319–2323.
  21. ^ ST Roweis и LK Савл, Нелинейная Размерность Уменьшение локально линейной Погружение , Science Vol 290, 22 декабря 2000, 2323-2326.
  22. ^ Донохо, Д .; Граймс, К. (2003). «Собственные карты Гессе: методы локально линейного вложения для данных большой размерности» . Proc Natl Acad Sci USA . 100 (10): 5591–5596. DOI : 10.1073 / pnas.1031596100 . PMC 156245 . PMID 16576753 .  
  23. ^ З. Чжан и Дж. Ван, «MLLE: модифицированное локально линейное вложение с использованием множественных весов» http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.70.382
  24. ^ Сидх, Gagan (2019). «Локально линейное внедрение и выбор функций фМРТ в психиатрической классификации» . Журнал IEEE по трансляционной инженерии в области здравоохранения и медицины . 7 : 1–11. arXiv : 1908.06319 . DOI : 10,1109 / JTEHM.2019.2936348 . PMC 6726465 . PMID 31497410 . S2CID 201832756 .   
  25. ^ Чжан, Чжэньюэ; Хунюань Чжа (2005). «Основные многообразия и уменьшение нелинейной размерности с помощью локального выравнивания касательного пространства». Журнал СИАМ по научным вычислениям . 26 (1): 313–338. CiteSeerX 10.1.1.211.9957 . DOI : 10.1137 / s1064827502419154 . 
  26. ^ Бенжио, Йошуа; Монперрус, Мартин; Ларошель, Хьюго (октябрь 2006 г.). "Нелокальная оценка структуры многообразия" (PDF) . Нейронные вычисления . 18 (10): 2509–2528. DOI : 10.1162 / neco.2006.18.10.2509 . ISSN 0899-7667 . PMID 16907635 . S2CID 1416595 .    
  27. ^ Н. Лоуренс, Вероятностный нелинейный анализ главных компонентов с гауссовскими моделями скрытых переменных , Journal of Machine Learning Research 6 (ноябрь): 1783–1816, 2005.
  28. ^ М. Дин, Г. Фан, Многослойные совместные многообразия позы походки для моделирования движения походки человека , IEEE Transactions on Cybernetics, Volume: 45, Issue: 11, Nov 2015.
  29. ^ ван дер Маатен, ЛДП; Хинтон, GE (ноябрь 2008 г.). «Визуализация многомерных данных с помощью t-SNE» (PDF) . Журнал исследований в области машинного обучения . 9 : 2579–2605.
  30. ^ Джеймс X. Ли, Визуализация многомерных данных с помощью реляционной карты перспективы , Информационная визуализация (2004) 3, 49–59
  31. ^ Тейлор, Д .; Климм, Ф .; Харрингтон, штат Вашингтон; Kramár, M .; Mischaikow, K .; Портер, Массачусетс; Муха, П.Дж. (2015). «Анализ топологических данных карт заражения для изучения процессов распространения в сетях» . Nature Communications . 6 : 7723. DOI : 10.1038 / ncomms8723 . PMC 4566922 . PMID 26194875 .  
  32. ^ a b Demartines, P .; Эро, Ж. (1997). «Анализ криволинейных компонентов: самоорганизующаяся нейронная сеть для нелинейного отображения наборов данных» (PDF) . IEEE-транзакции в нейронных сетях . 8 (1): 148–154. DOI : 10.1109 / 72.554199 . PMID 18255618 .  
  33. ^ Солнце, Джиган; Кроу, Малькольм; Файф, Колин (2010). «Анализ криволинейных компонент и расходимости Брегмана» (PDF) . Европейский симпозиум по искусственным нейронным сетям (Esann) . d-сторонние публикации. С. 81–86.
  34. ^ Кристиан Вальдер и Бернхард Шёлкопф, Диффеоморфное уменьшение размерности , Достижения в системах обработки нейронной информации 22, 2009, стр. 1713–1720, MIT Press
  35. ^ Ван, Чанг; Махадеван, Шридхар (июль 2008 г.). Выравнивание коллектора с использованием Procrustes Analysis (PDF) . 25-я Международная конференция по машинному обучению. С. 1120–1127.
  36. ^ Лафон, Стефан (май 2004 г.). Карты диффузии и геометрические гармоники (кандидатская диссертация). Йельский университет .
  37. ^ a b Coifman, Ronald R .; Лафон, Стефан (19 июня 2006 г.). «Карты диффузии». Наука .
  38. ^ Ба, B. (2008). Карты диффузии: приложения и анализ (магистерская диссертация). Оксфордский университет.
  39. ^ Venna, J .; Каски, С. (2006). «Локальное многомерное масштабирование». Нейронные сети . 19 (6–7): 889–899. DOI : 10.1016 / j.neunet.2006.05.014 . PMID 16787737 . 
  40. ^ Scholz, M .; Каплан, Ф .; Гай, CL; Kopka, J .; Селбиг, Дж. (2005). «Нелинейный PCA: подход с отсутствием данных» . Биоинформатика . Издательство Оксфордского университета. 21 (20): 3887–3895. DOI : 10.1093 / биоинформатики / bti634 . PMID 16109748 . 
  41. ^ С. Леспинац, М. Верлейсен, А. Хирон, Б. Фертил, DD-HDS: инструмент для визуализации и исследования многомерных данных, IEEE Transactions on Neural Networks 18 (5) (2007) 1265–1279.
  42. ^ Gashler, М. и Вентура, Д. и Мартинес, Т., Итеративный Нелинейный уменьшения размерности с Manifold ваяния , В Platt, JC и Koller, Д. и Зингера, Y. и Roweis, S., редактор, прогресс в Системы обработки нейронной информации 20, стр. 513–520, MIT Press, Кембридж, Массачусетс, 2008
  43. ^ Lespinats С., Fertil Б., Villemain П. и Эро J., Rankvisu: Mapping из окрестностей сети , Нейрокомпьютинг, т. 72 (13–15), стр. 2964–2978, 2009.
  44. ^ Росман Г., Бронштейн М.М., Бронштейн А.М., Киммел Р., Уменьшение нелинейной размерности с помощью топологически ограниченного изометрического вложения , Международный журнал компьютерного зрения, Том 89, номер 1, 56–68, 2010
  45. ^ Макиннес, Лиланд; Хили, Джон; Мелвилл, Джеймс (2018-12-07). «Приближение и проекция равномерного многообразия для уменьшения размерности». arXiv : 1802.03426 .
  46. ^ «UMAP: аппроксимация и проекция однородного многообразия для уменьшения размерности - документация umap 0.3» . umap-learn.readthedocs.io . Проверено 4 мая 2019 .

Внешние ссылки [ править ]

  • Isomap
  • Генеративное топографическое картографирование
  • Тезис Майка Типпинга
  • Модель со скрытыми переменными гауссовского процесса
  • Локально линейное вложение
  • Карта реляционной перспективы
  • Waffles - это библиотека C ++ с открытым исходным кодом, содержащая реализации LLE, Manifold Sculpting и некоторых других алгоритмов обучения многообразию.
  • Домашняя страница DD-HDS
  • Домашняя страница RankVisu
  • Краткий обзор Diffusion Maps
  • Нелинейный PCA нейронными сетями автоэнкодера