Из Википедии, бесплатной энциклопедии
  (Перенаправлено из анализа основных компонентов )
Перейти к навигации Перейти к поиску
PCA многомерного распределения Гаусса с центром в точке (1,3) со стандартным отклонением 3 примерно в направлении (0,866, 0,5) и 1 в ортогональном направлении. Векторы Указаны собственные векторы по ковариационной матрицы , масштабированного квадратному корню из соответствующего собственного значения и сдвинуты , так что их хвосты на среднее.

В основных компонентах из набора точек в реальном р -пространстве представляют собой последовательность векторов направления , где вектор является направлением линии , которая наилучшим образом соответствует данным, будучи ортогонален к первому векторам. Здесь наиболее подходящей линией считается линия, которая минимизирует средний квадрат расстояния от точек до линии . Эти направления составляют ортонормированную основу, в которой различные индивидуальные измерения данных линейно некоррелированы . Анализ главных компонентов ( PCA ) - это процесс вычисления основных компонентов и их использования для изменения базы данных, иногда с использованием только нескольких первых основных компонентов и игнорированием остальных.

PCA используется для исследовательского анализа данных и для создания прогнозных моделей . Он обычно используется для уменьшения размерности путем проецирования каждой точки данных только на несколько первых основных компонентов для получения данных более низкой размерности, сохраняя при этом как можно большую вариацию данных. Первый главный компонент может быть эквивалентно определен как направление, которое максимизирует дисперсию прогнозируемых данных. Главный компонент можно принять как направление, ортогональное первым главным компонентам, которое максимизирует дисперсию проецируемых данных.

Из либо цель, можно показать , что основные компоненты являются собственными векторами из Дейты ковариационной матрицы . Таким образом, главные компоненты часто вычисляются путем собственного разложения ковариационной матрицы данных или разложения по сингулярным значениям матрицы данных. PCA - это простейший из истинных многомерных анализов на основе собственных векторов, который тесно связан с факторным анализом . Факторный анализ обычно включает в себя более специфичные для предметной области предположения о базовой структуре и решает собственные векторы немного другой матрицы. PCA также связан с каноническим корреляционным анализом (CCA) . CCA определяет системы координат, которые оптимально описывают кросс-ковариациюмежду двумя наборами данных, в то время как PCA определяет новую ортогональную систему координат, которая оптимально описывает дисперсию в одном наборе данных. [1] [2] [3] [4] Также были предложены робастные и основанные на L1-норме варианты стандартного PCA. [5] [6] [4]

История [ править ]

ППШ был изобретен в 1901 году Карла Пирсона , [7] в качестве аналога теоремы главной оси в механике; Позже он был независимо разработан и назван Гарольдом Хотеллингом в 1930-х годах. [8] В зависимости от области применения его также называют дискретным преобразованием Карунена – Лоэва (KLT) в обработке сигналов , преобразованием Хотеллинга в многомерном контроле качества, правильным ортогональным разложением (POD) в машиностроении, разложением по сингулярным значениям (SVD). ) X (изобретен в последней четверти XIX века [9] ),разложение по собственным значениям (EVD) X T X в линейной алгебре, факторный анализ (обсуждение различий между PCA и факторным анализом см. в главе 7 « Анализ главных компонент» Джоллиффа ), [10] Теорема Эккарта – Юнга (Харман, 1960) , или эмпирические ортогональные функции (ЭОФ) в метеорологической науке, эмпирическое разложение собственных функций (Сирович, 1987), эмпирический компонентный анализ (Лоренц, 1956), квазигармонические режимы (Брукс и др., 1988), спектральное разложение в шуме и вибрации и эмпирическое разложение. модальный анализ в структурной динамике.

Интуиция [ править ]

PCA можно рассматривать как подгонку p -мерного эллипсоида к данным, где каждая ось эллипсоида представляет главный компонент. Если какая-то ось эллипсоида мала, то отклонение по этой оси также невелико.

Чтобы найти оси эллипсоида, мы должны сначала вычесть среднее значение каждой переменной из набора данных, чтобы центрировать данные вокруг начала координат. Затем мы вычисляем ковариационную матрицуданных и вычислить собственные значения и соответствующие собственные векторы этой ковариационной матрицы. Затем мы должны нормализовать каждый из ортогональных собственных векторов, чтобы превратить их в единичные векторы. Как только это будет сделано, каждый из взаимно ортогональных единичных собственных векторов можно интерпретировать как ось эллипсоида, подогнанного к данным. Такой выбор базиса преобразует нашу ковариационную матрицу в диагонализованную форму с диагональными элементами, представляющими дисперсию каждой оси. Долю дисперсии, которую представляет каждый собственный вектор, можно вычислить путем деления собственного значения, соответствующего этому собственному вектору, на сумму всех собственных значений.

Подробности [ править ]

PCA определяется как ортогональное линейное преобразование, которое преобразует данные в новую систему координат, так что наибольшая дисперсия некоторой скалярной проекции данных приходится на первую координату (называемую первым главным компонентом), а вторая наибольшая дисперсия на вторая координата и т. д. [10] [ необходима страница ]

Рассмотрим данные матрицы , X , с столбцам нулевого эмпирического среднего (выборочного среднего каждого столбца была сдвинута к нулю), где каждый из п строк представляет собой другое повторение эксперимента, и каждый из р столбцов дает особый вид функции (скажем, результаты с определенного датчика).

Математически, преобразование определяется набором размеров из р - мерных векторов весовых коэффициентов или коэффициентов , которые отображают каждый вектор - строку из X к новому вектору основных компонента баллов , определяется

таким образом , что отдельные переменные из т рассмотренные над данными набора последовательно наследует максимально возможного отклонения от X , с каждым вектором коэффициентов ш ограничена , чтобы быть единичным вектором (где , как правило , выбирают так, чтобы быть меньше , чем для уменьшения размерности).

Первый компонент [ править ]

Таким образом, чтобы максимизировать дисперсию, первый вектор весов w (1) должен удовлетворять

Точно так же запись этого в матричной форме дает

Поскольку w (1) был определен как единичный вектор, он эквивалентно также удовлетворяет

Максимизируемое количество можно определить как коэффициент Рэлея . Стандартный результат для положительной полуопределенной матрицы, такой как X T X, состоит в том, что максимально возможное значение частного является наибольшим собственным значением матрицы, которое возникает, когда w является соответствующим собственным вектором .

Когда w (1) найден, первый главный компонент вектора данных x ( i ) может быть затем задан как оценка t 1 ( i ) = x ( i )w (1) в преобразованных координатах или как соответствующий вектор в исходных переменных, { x ( i )w (1) } w (1) .

Дополнительные компоненты [ править ]

К - й компонент может быть найден путем вычитания первого K  - 1 основных компонентов от X :

а затем найти вектор весов, который извлекает максимальную дисперсию из этой новой матрицы данных

Оказывается, это дает оставшиеся собственные векторы X T X с максимальными значениями для величины в скобках, заданными их соответствующими собственными значениями. Таким образом, весовые векторы являются собственными векторами X T X .

К - го главного компонента вектор данных х ( я ) , следовательно , может быть задан как оценка т к ( я ) = х ( я )ш ( к ) в трансформированных координатах, или в виде соответствующего вектора в пространстве исходных переменных, { x ( i )w ( k ) } w ( k ) , где w ( k ) - kй собственный вектор X T X .

Таким образом, полное разложение X на главные компоненты можно представить в виде

где W представляет собой P матрицу с размерностью р матрица весов, столбцы которой являются собственными векторами X T X . Транспонирование W иногда называют трансформацией побеления или образования сфер . Столбцы W, умноженные на квадратный корень из соответствующих собственных значений, то есть собственные векторы, увеличенные на дисперсии, называются нагрузками в PCA или в факторном анализе.

Ковариации [ править ]

Х Т Х сам по себе может быть признано пропорционально эмпирической выборкой ковариационной матрицы из набора данных Х Т . [10] : 30–31

Выборочная ковариация Q между двумя различными главными компонентами в наборе данных определяется следующим образом:

где свойство собственных значений w ( k ) использовалось для перехода от строки 2 к строке 3. Однако собственные векторы w ( j ) и w ( k ), соответствующие собственным значениям симметричной матрицы, ортогональны (если собственные значения разные), или могут быть ортогонализированы (если векторы имеют одинаковое повторяющееся значение). Следовательно, продукт в последней строке равен нулю; нет выборочной ковариации между различными главными компонентами в наборе данных.

Другой способ охарактеризовать преобразование главных компонентов - это преобразование в координаты, которые диагонализируют ковариационную матрицу эмпирической выборки.

В матричной форме эмпирическая ковариационная матрица для исходных переменных может быть записана

Матрица эмпирической ковариации между главными компонентами становится

где Λ диагональная матрица собственных значений Х ( к ) из X T X . λ (k) равно сумме квадратов по набору данных, связанному с каждым компонентом k , то есть λ ( k ) = Σ i t k 2 ( i ) = Σ i ( x ( i )w ( k ) ) 2 .

Снижение размерности [ править ]

Преобразование T = X W отображает вектор данных x ( i ) из исходного пространства p переменных в новое пространство p переменных, которые не коррелированы по набору данных. Однако не все основные компоненты нужно сохранять. Сохранение только первых L главных компонентов, созданных с использованием только первых L собственных векторов, дает усеченное преобразование

где матрица T L теперь имеет n строк, но только L столбцов. Другими словами, PCA изучает линейное преобразование, в котором столбцы матрицы W размера p × L образуют ортогональный базис для L признаков (компонентов представления t ), которые декоррелированы. [11] Благодаря построению всех преобразованных матриц данных только с L столбцами, эта матрица оценок максимизирует дисперсию в исходных данных, которые были сохранены, при минимизации общей квадратичной ошибки восстановления или .

Диаграмма рассеяния анализа основных компонентов гаплотипов Y-STR, рассчитанная на основе значений количества повторов для 37 STR-маркеров Y-хромосомы от 354 человек. PCA успешно обнаружил линейные комбинации различных маркеров, которые разделяют разные кластеры, соответствующие разным линиям генетического происхождения Y-хромосомы индивидов.

Такое уменьшение размерности может быть очень полезным шагом для визуализации и обработки наборов данных большой размерности, сохраняя при этом как можно большую дисперсию в наборе данных. Например, если выбрать L  = 2 и оставить только первые два основных компонента, то двумерная плоскость будет обнаружена в многомерном наборе данных, в котором данные наиболее распространены, поэтому, если данные содержат кластерыони тоже могут быть наиболее разбросанными и, следовательно, наиболее заметными для отображения на двухмерной диаграмме; тогда как если два направления через данные (или две исходные переменные) выбраны случайным образом, кластеры могут быть намного меньше разнесены друг от друга и фактически могут иметь гораздо большую вероятность существенно перекрывать друг друга, делая их неразличимыми.

Аналогичным образом, в регрессионном анализе , чем больше разрешенных объясняющих переменных , тем выше вероятность переобучения модели, приводя к выводам, которые не могут быть обобщены на другие наборы данных. Один из подходов, особенно при наличии сильной корреляции между различными возможными независимыми переменными, состоит в том, чтобы свести их к нескольким главным компонентам, а затем запустить регрессию против них, метод, называемый регрессией главных компонентов .

Снижение размерности также может быть целесообразным, когда переменные в наборе данных зашумлены. Если каждый столбец набора данных содержит независимый одинаково распределенный гауссовский шум, то столбцы T также будут содержать аналогично одинаково распределенный гауссовский шум (такое распределение инвариантно под влиянием матрицы W , которую можно рассматривать как многомерный вращение координатных осей). Однако, поскольку большая часть общей дисперсии сосредоточена в нескольких первых основных компонентах по сравнению с той же дисперсией шума, пропорциональное влияние шума меньше - первые несколько компонентов достигают более высокого отношения сигнал / шум.. Таким образом, PCA может иметь эффект концентрации большей части сигнала в нескольких первых основных компонентах, которые могут быть эффективно захвачены путем уменьшения размерности; в то время как в более поздних основных компонентах может преобладать шум, и поэтому они могут быть утилизированы без больших потерь. Если набор данных не слишком велик, значимость основных компонентов можно проверить с помощью параметрической начальной загрузки , чтобы определить, сколько основных компонентов следует сохранить. [12]

Разложение по сингулярным числам [ править ]

Преобразование главных компонентов также может быть связано с другой матричной факторизацией, разложением по сингулярным значениям (SVD) X ,

Здесь Σ - это прямоугольная диагональная матрица размером n x p положительных чисел σ ( k ) , называемая сингулярными значениями X ; U представляет собой N матрицу с размерностью п матрица, столбцы которой являются ортогональными единичными векторами длины п называется левые сингулярные векторы X ; и W представляет собой P матрицу с размерностью р , столбцы которой являются ортогональными единичными векторами длиной р и называются правые сингулярные векторы X .

В терминах этой факторизации матрица X T X может быть записана

где квадратная диагональная матрица с сингулярными значениями X и лишними нулями, отрубленными, что удовлетворяет . Сравнение с собственным вектором факторизации X T X устанавливает , что правые сингулярные векторы W из X эквивалентны собственных векторов X T X , в то время сингулярных значений сг ( к ) из равны квадратного корня из собственных значений Х ( к ) из X T X .

Используя разложение по сингулярным числам, матрицу оценок T можно записать

поэтому каждый столбец T задается одним из левых сингулярных векторов X, умноженным на соответствующее сингулярное значение. Эта форма также полярное разложение на Т .

Существуют эффективные алгоритмы для вычисления SVD X без необходимости формировать матрицу X T X , поэтому вычисление SVD теперь является стандартным способом расчета анализа главных компонентов на основе матрицы данных [ необходима цитата ] , если только несколько компонентов не являются требуется.

Как и в случае собственного-разложения, усеченный п × L оценка матрицы Т Ь можно получить, рассматривая только первую L крупнейшие сингулярные значения и их сингулярные векторы:

Усечение матрицы M или T с использованием усеченного разложения по сингулярным числам таким образом дает усеченную матрицу, которая является ближайшей возможной матрицей ранга L к исходной матрице в смысле разницы между двумя, имеющими наименьшую возможную норму Фробениуса. , результат, известный как теорема Эккарта – Юнга [1936].

Дальнейшие соображения [ править ]

Учитывая набор точек в евклидовом пространстве , первый главный компонент соответствует линии, которая проходит через многомерное среднее и минимизирует сумму квадратов расстояний между точками от прямой. Второй главный компонент соответствует той же концепции после того, как вся корреляция с первым главным компонентом была вычтена из баллов. Сингулярные значения (в Σ ) - это квадратные корни из собственных значений матрицы X T X. Каждое собственное значение пропорционально части «дисперсии» (точнее, суммы квадратов расстояний между точками от их многомерного среднего), которая связана с каждым собственным вектором. Сумма всех собственных значений равна сумме квадратов расстояний между точками от их многомерного среднего. PCA по существу вращает набор точек вокруг их среднего, чтобы выровнять с основными компонентами. Это перемещает как можно большую часть дисперсии (с использованием ортогонального преобразования) в первые несколько измерений. Значения в остальных измерениях, следовательно, имеют тенденцию быть небольшими и могут быть отброшены с минимальной потерей информации (см. Ниже ). PCA часто используется таким образом для уменьшения размерности.. PCA отличается тем, что является оптимальным ортогональным преобразованием для сохранения подпространства, которое имеет наибольшую «дисперсию» (как определено выше). Это преимущество, однако, достигается за счет более высоких вычислительных требований по сравнению, например, и, когда это применимо, с дискретным косинусным преобразованием и, в частности, с DCT-II, который просто известен как «DCT». Методы нелинейного уменьшения размерности обычно более требовательны к вычислениям, чем PCA.

PCA чувствителен к масштабированию переменных. Если у нас всего две переменные, и у них одинаковая выборочная дисперсияи положительно коррелированы, то PCA повлечет за собой поворот на 45 °, и «веса» (они являются косинусами вращения) для двух переменных по отношению к главному компоненту будут равны. Но если мы умножим все значения первой переменной на 100, то первый главный компонент будет почти таким же, как эта переменная, с небольшим вкладом от другой переменной, тогда как второй компонент будет почти выровнен со второй исходной переменной. Это означает, что всякий раз, когда разные переменные имеют разные единицы измерения (например, температуру и массу), PCA является несколько произвольным методом анализа. (Иные результаты были бы получены, если, например, использовать градусы Фаренгейта, а не Цельсия.) Первоначальная статья Пирсона была озаглавлена ​​«О линиях и плоскостях, наиболее близких к системам точек в пространстве» - «in space »подразумевает физическое евклидово пространство, где такие проблемы не возникают. Один из способов сделать PCA менее произвольным - использовать переменные, масштабированные так, чтобы иметь единичную дисперсию, путем стандартизации данных и, следовательно, использования матрицы автокорреляции вместо матрицы автоковариации в качестве является основой для PCA, однако это сжимает (или расширяет) флуктуации во всех измерениях пространства сигналов до единичной дисперсии.

Среднее вычитание (также известное как «среднее центрирование») необходимо для выполнения классического PCA, чтобы гарантировать, что первый главный компонент описывает направление максимальной дисперсии. Если вычитание среднего не выполняется, первый главный компонент может вместо этого более или менее соответствовать среднему значению данных. Для нахождения основы, которая минимизирует среднеквадратическую ошибку аппроксимации данных, необходимо нулевое среднее значение . [13]

Среднее центрирование не требуется при выполнении анализа главных компонентов на корреляционной матрице, поскольку данные уже центрированы после вычисления корреляций. Корреляции выводятся из перекрестного произведения двух стандартных оценок (Z-оценок) или статистических моментов (отсюда и название: корреляция продукта-момента Пирсона ). Также см. Статью Кромри и Фостер-Джонсон (1998) о «Центрирование среднего в умеренной регрессии: много шума из ничего».

PCA - популярный основной метод распознавания образов . Однако он не оптимизирован для разделения классов. [14] Однако он использовался для количественной оценки расстояния между двумя или более классами путем вычисления центра масс для каждого класса в пространстве главных компонентов и сообщения евклидова расстояния между центрами масс двух или более классов. [15] линейный дискриминантный анализ является альтернативой , которая оптимизирована для класса разделимости.

Таблица символов и сокращений [ править ]

Свойства и ограничения PCA [ править ]

Свойства [ править ]

Некоторые свойства PCA включают: [10] [ требуется страница ]

Свойство 1 : Для любого целогод, 1 ≤Qр, рассмотрим ортогональноелинейное преобразование
где - q-элементный вектор, - матрица ( q × p ), и пусть будет - ковариационная матрица дисперсии для . Тогда след , обозначенный , максимизируется взятием , где состоит из первых q столбцов, является транспонированием .
Свойство 2 : снова рассмотримортонормированное преобразование
с и определено, как и раньше. Затем минимизируется, выбирая где состоит из последних q столбцов .

Статистическое значение этого свойства состоит в том, что последние несколько ПК не являются просто неструктурированными остатками после удаления важных ПК. Поскольку эти последние ПК имеют минимально возможные отклонения, они полезны сами по себе. Они могут помочь обнаружить неожиданные почти постоянные линейные отношения между элементами x , а также могут быть полезны в регрессии , при выборе подмножества переменных из x и при обнаружении выбросов.

Свойство 3 : (Спектральное разложение Σ )

Прежде чем мы рассмотрим его использование, мы сначала рассмотрим диагональные элементы,

Тогда, возможно, основным статистическим следствием результата является то, что мы можем не только разложить комбинированные дисперсии всех элементов x на убывающие вклады, причитающиеся каждому ПК, но мы также можем разложить всю ковариационную матрицу на вклады от каждого ПК. Хотя это и не строго убывает, элементы будут иметь тенденцию становиться меньше по мере увеличения, а не возрастает для увеличения , в то время как элементы имеют тенденцию оставаться примерно такого же размера из - за ограничений , нормализации: .

Ограничения [ править ]

Как отмечалось выше, результаты PCA зависят от масштабирования переменных. Это можно исправить, масштабируя каждый объект по его стандартному отклонению, так что в итоге получаются безразмерные объекты с единичной дисперсией. [16]

Применимость PCA, как описано выше, ограничена некоторыми (неявными) предположениями [17], сделанными при его выводе. В частности, PCA может фиксировать линейные корреляции между функциями, но не работает, когда это предположение нарушается (см. Рисунок 6a в ссылке). В некоторых случаях преобразования координат могут восстановить предположение о линейности, и затем можно будет применить PCA (см. PCA ядра ).

Еще одно ограничение - это процесс удаления среднего до построения ковариационной матрицы для PCA. В таких областях, как астрономия, все сигналы неотрицательны, и процесс удаления среднего приведет к тому, что среднее значение некоторых астрофизических воздействий будет равно нулю, что, следовательно, создаст нефизические отрицательные потоки [18], и для этого необходимо выполнить прямое моделирование. восстановить истинную величину сигналов. [19] В качестве альтернативного метода факторизация неотрицательной матрицы фокусируется только на неотрицательных элементах в матрицах, что хорошо подходит для астрофизических наблюдений. [20] [21] [22] Подробнее см. Связь между PCA и неотрицательной матричной факторизацией .

PCA и теория информации [ править ]

Снижение размерности, как правило, приводит к потере информации. Уменьшение размерности на основе PCA имеет тенденцию минимизировать эту потерю информации при определенных моделях сигнала и шума.

В предположении, что

то есть, что вектор данных представляет собой сумму желаемого несущего информацию сигнала и шумового сигнала, можно показать, что PCA может быть оптимальным для уменьшения размерности с теоретико-информационной точки зрения.

В частности, Линскер показал, что если является гауссовым и является гауссовским шумом с ковариационной матрицей, пропорциональной единичной матрице, PCA максимизирует взаимную информацию между желаемой информацией и выходными данными с уменьшенной размерностью . [23]

Если шум по-прежнему гауссовский и имеет ковариационную матрицу, пропорциональную единичной матрице (то есть компоненты вектора равны iid ), но несущий информацию сигнал не является гауссовым (что является обычным сценарием), PCA по крайней мере минимизирует верхнюю границу потери информации , которая определяется как [24] [25]

Оптимальность PCA также сохраняется, если шум iid и по крайней мере более гауссовский (с точки зрения расходимости Кульбака – Лейблера ), чем несущий информацию сигнал . [26] В общем, даже если описанная выше модель сигнала верна, PCA теряет свою теоретико-информационную оптимальность, как только шум становится зависимым.

Вычисление PCA с использованием метода ковариации [ править ]

Ниже приводится подробное описание PCA с использованием метода ковариации (см. Также здесь ) в отличие от метода корреляции. [27]

Цель состоит в том, чтобы превратить данное множество данных X размерности р в качестве альтернативного набора данных Y меньшего размера L . Эквивалентно, мы ищем матрицу Y , где Y - преобразование Карунена – Лоэва (KLT) матрицы X :

Организуйте набор данных [ править ]

Предположим, у вас есть данные, содержащие набор наблюдений за переменными p , и вы хотите сократить данные, чтобы каждое наблюдение можно было описать только L переменными, L < p . Предположим далее, что данные организованы как набор из n векторов данных, каждый из которых представляет одно сгруппированное наблюдение p переменных.

  • Запишите как векторы-строки, каждый из которых имеет p столбцов.
  • Поместите векторы-строки в одну матрицу X размером n × p .

Рассчитайте эмпирическое среднее [ править ]

  • Найдите эмпирическое среднее значение по каждому столбцу j = 1, ...,  p .
  • Поместите вычисленные средние значения в вектор эмпирических средних u размером p × 1.

Рассчитайте отклонения от среднего [ править ]

Среднее вычитание является неотъемлемой частью решения по поиску базиса главных компонент, который минимизирует среднеквадратичную ошибку аппроксимации данных. [28] Таким образом, мы продолжаем центрировать данные следующим образом:

  • Вычитание эмпирического среднего вектора из каждой строки матрицы данных X .
  • Сохраните данные с вычитанием среднего значения в матрице B размера n × p .
где h - вектор-столбец n × 1 всех единиц:

В некоторых приложениях каждая переменная (столбец B ) также может быть масштабирована, чтобы иметь дисперсию, равную 1 (см. Z-оценку ). [29] Этот шаг влияет на вычисленные главные компоненты, но делает их независимыми от единиц, используемых для измерения различных переменных.

Найдите ковариационную матрицу [ править ]

  • Найдите эмпирическую ковариационную матрицу C размера p × p из матрицы B :
где - сопряженный оператор транспонирования . Если B полностью состоит из действительных чисел, что имеет место во многих приложениях, «сопряженное транспонирование» такое же, как и обычное транспонирование .
  • Причина использования n - 1 вместо n для вычисления ковариации - это поправка Бесселя .

Найдите собственные векторы и собственные значения ковариационной матрицы [ править ]

  • Вычислить матрицу V из собственных векторов , которые диагонализуют ковариационную матрицу C :
где D представляет собой диагональную матрицу из собственных значений из C . Этот шаг обычно включает использование компьютерного алгоритма для вычисления собственных векторов и собственных значений . Эти алгоритмы легко доступны в качестве подкомпонентов большинства систем матричной алгебры , таких как SAS , [30] R , MATLAB , [31] [32] Mathematica , [33] SciPy , IDL ( интерактивный язык данных ) или GNU Octave как а также OpenCV .
  • Матрица D примет форму диагональной матрицы размера p × p , где
- j- е собственное значение ковариационной матрицы C , а
  • Матрица V , а также размерности р × р , содержит р векторы - столбцы, каждый из которых длины р , которые представляют р собственных векторов ковариационной матрицы С .
  • Собственные значения и собственные векторы упорядочены и объединены в пары. J - е собственное значение соответствует J - го собственного вектора.
  • Матрица V обозначает матрицу правых собственных векторов (в отличие от левых собственных векторов). В общем, матрица правых собственных векторов не обязательно должна быть (сопряженной) транспонированной матрицей левых собственных векторов.

Переставьте собственные векторы и собственные значения [ править ]

  • Отсортируйте столбцы матрицы собственных векторов V и матрицы собственных значений D в порядке убывания собственного значения.
  • Обязательно поддерживайте правильные пары между столбцами в каждой матрице.

Вычислить совокупное энергосодержание для каждого собственного вектора [ править ]

  • Собственные значения представляют собой распределение энергии исходных данных [ требуется пояснение ] между каждым из собственных векторов, где собственные векторы формируют основу для данных. Совокупное содержание энергии g для j- го собственного вектора представляет собой сумму содержания энергии по всем собственным значениям от 1 до j :
[ необходима цитата ]

Выберите подмножество собственных векторов в качестве базисных векторов [ править ]

  • Сохраните первые L столбцов V как матрицу W размера p × L :
куда
  • С помощью вектора г в качестве руководства при выборе соответствующего значения для L . Цель состоит в том, чтобы выбрать как можно меньшее значение L при достижении достаточно высокого значения g в процентах. Например, вы можете выбрать L так, чтобы совокупная энергия g была выше определенного порога, например 90 процентов. В этом случае выберите наименьшее значение L так , чтобы

Спроецируйте данные на новую основу [ править ]

  • Спроецированные точки данных - это строки матрицы

То есть первый столбец - это проекция точек данных на первый главный компонент, второй столбец - это проекция на второй главный компонент и т. Д.

Получение PCA методом ковариации [ править ]

Пусть X будет d -мерным случайным вектором, выраженным как вектор-столбец. Без ограничения общности предположим, что X имеет нулевое среднее.

Мы хотим найти в d × d ортонормированной матрица преобразования P так , что PX имеет диагональную матрицу ковариации (то есть, PX является случайным вектор со всеми его различными компонентами попарно некоррелированным).

Быстрое вычисление, предполагающее унитарную доходность:

Следовательно, выполняется тогда и только тогда, когда их можно диагонализовать с помощью .

Это очень конструктивно, поскольку cov ( X ) гарантированно является неотрицательно определенной матрицей и, следовательно, гарантированно диагонализируется некоторой унитарной матрицей.

Вычисление без ковариации [ править ]

В практических реализациях, особенно с данными большой размерности (большие p ), метод наивной ковариации используется редко, потому что он неэффективен из-за больших вычислительных затрат и затрат памяти на явное определение ковариационной матрицы. Бесковариационный подход позволяет избежать np 2 операций явного вычисления и сохранения ковариационной матрицы X T X , вместо этого используя один из безматричных методов , например, на основе функции, оценивающей произведение X T (X r) за счет от 2 ира операций.

Итерационные вычисления [ править ]

Один из способов эффективного вычисления первого главного компонента [34] показан в следующем псевдокоде для матрицы данных X с нулевым средним значением без вычисления ее ковариационной матрицы.

r = случайный вектор длины p
сделать c раз:  s = 0 (вектор длины p )  для каждого выхода строки при
возврате     

Этот алгоритм степенной итерации просто вычисляет вектор X T (X r) , нормализует и помещает результат обратно в r . Собственный аппроксимируются г T (X T X) R , который является Рэлей фактором на единичном вектор г для ковариационной матрицы X T X . Если наибольшее сингулярное значение хорошо отделено от следующего по величине, вектор r приближается к первому главному компоненту X за число итераций c , которое мало по сравнению с p, общей стоимостью 2кнп . Мощности итерация сходимость может быть ускорена без заметного ущерба небольшой стоимости за итерации с использованием более сложными нематричными метод , такие как Ланцош алгоритм или локально Оптимальное Блок предварительно сопряженный градиент ( LOBPCG метод).

Последующие главные компоненты могут быть вычислены один за другим с помощью дефляции или одновременно как блок. В первом подходе неточности в уже вычисленных приближенных главных компонентах аддитивно влияют на точность вычисляемых впоследствии главных компонентов, тем самым увеличивая ошибку с каждым новым вычислением. Последний подход в методе блока питания заменяет единичные векторы г и ев с блок-векторами, матрицами R и S . Каждый столбец R аппроксимирует одну из ведущих главных компонент, в то время как все столбцы повторяются одновременно. Основной расчет - это оценка продукта X T (XR) . Реализовано, например, вLOBPCG , эффективная блокировка, исключает накопление ошибок, позволяет использовать высокоуровневые функции произведения матрица-матрица BLAS и, как правило, приводит к более быстрой сходимости по сравнению с методом однократной обработки одного вектора.

Метод НИПАЛ [ править ]

Нелинейный итерационный метод частичных наименьших квадратов (NIPALS) представляет собой вариант классической итерации по мощности с дефляцией матрицы путем вычитания, реализованной для вычисления первых нескольких компонентов в анализе главных компонентов или частичных наименьших квадратов . Для очень многомерных наборов данных, например, созданных в * омических науках (например, геномика , метаболомика ), обычно необходимо вычислить только несколько первых компьютеров. В нелинейные итерационные частичных наименьших квадратов (NIPALS) алгоритм обновления итерационные приближения ведущих счетов и нагрузок т 1 и г 1 T со стороны мощности итерацииумножение на каждой итерации на X слева и справа, то есть исключается вычисление ковариационной матрицы, как и в безматричной реализации степенных итераций к X T X , на основе функции, оценивающей произведение X Т (Х г) = ((Х г) Т Х) Т .

Сглаживание матрицы путем вычитания выполняется путем вычитания внешнего произведения t 1 r 1 T из X, оставляя спущенную остаточную матрицу, используемую для вычисления последующих ведущих PC. [35] Для больших матриц данных или матриц, которые имеют высокую степень коллинеарности столбцов, NIPALS страдает от потери ортогональности ПК из -за ошибок округления машинной точности, накопленных в каждой итерации, и дефляции матрицы путем вычитания. [36] Грама-Шмидта алгоритм повторно ортогонализации применяется к обоим оценки и нагрузок на каждом шаге итерации , чтобы устранить эту потерю ортогональности. [37]Опора NIPALS на однократное умножение не может использовать преимущества высокоуровневого BLAS и приводит к медленной сходимости для кластеризованных ведущих сингулярных значений - оба эти недостатка устраняются в более сложных безматричных блочных решателях, таких как локально оптимальный блочный предварительно обусловленный сопряженный градиент ( LOBPCG ) метод.

Онлайн / последовательная оценка [ править ]

В ситуации «онлайн» или «потоковой передачи», когда данные поступают по частям, а не хранятся в одном пакете, полезно сделать оценку прогноза PCA, который может обновляться последовательно. Это можно сделать эффективно, но требуются другие алгоритмы. [38]

PCA и качественные переменные [ править ]

В PCA обычно мы хотим ввести качественные переменные в качестве дополнительных элементов. Например, многие количественные переменные были измерены на растениях. Для этих растений доступны некоторые качественные переменные, например, вид, к которому растение принадлежит. Эти данные были подвергнуты PCA для количественных переменных. При анализе результатов естественно связать главные компоненты с видами качественных переменных . Для этого получены следующие результаты.

  • Идентификация на факторных планах разных видов, например, с использованием разных цветов.
  • Изображение на факторных планах центров тяжести растений, принадлежащих к одному виду.
  • Для каждого центра тяжести и каждой оси значение p, чтобы судить о значимости разницы между центром тяжести и исходной точкой.

Эти результаты представляют собой то, что называется введением качественной переменной в качестве дополнительного элемента . Эта процедура подробно описана в работах Husson, Lê & Pagès 2009 и Pagès 2013. Немногие программы предлагают эту возможность «автоматически». Это случай SPAD, который исторически, вслед за работой Людовика Лебарта , был первым, кто предложил этот вариант, и пакет R FactoMineR .

Приложения [ править ]

Количественные финансы [ править ]

В количественных финансах , основной компонент анализ может быть непосредственно применен к управлению рисками в процентном ставке производных портфелей. [39] Торговля множественными своп-инструментами, которые обычно являются функцией 30–500 других рыночных котируемых своп-инструментов, обычно сводится к 3 или 4 основным компонентам, представляющим динамику процентных ставок на макроуровне. Преобразование рисков в факторные нагрузки (или множители) обеспечивает оценки и понимание, выходящие за рамки простого коллективного просмотра рисков для отдельных 30–500 сегментов.

PCA также применялся к портфелям акций аналогичным образом [40] как для портфельного риска, так и для доходности от риска . Одно из приложений - снизить риск портфеля, когда стратегии распределения применяются к «основным портфелям», а не к базовым акциям. [41] Второй - повысить доходность портфеля, используя основные компоненты для выбора акций с потенциалом роста. [ необходима цитата ]

Неврология [ править ]

Вариант анализа основных компонентов используется в нейробиологии для определения специфических свойств стимула, которые увеличивают вероятность создания нейроном потенциала действия . [42] Этот метод известен как ковариационный анализ, инициируемый всплесками . В типичном приложении экспериментатор представляет процесс белого шума в качестве стимула (обычно либо как сенсорный ввод для испытуемого, либо как токвводится непосредственно в нейрон) и записывает последовательность потенциалов действия или всплесков, создаваемых нейроном в результате. Предположительно, определенные особенности стимула повышают вероятность спайк-нейрона. Для того , чтобы извлечь эти функции, экспериментатор вычисляет ковариационную матрицу из спайка-триггерным ансамбля , множество всех раздражителей (определенно и дискретизируется над конечным временным окном, обычно порядка 100 мса) , что непосредственно предшествовал шип. Собственные векторы разности между ковариационной матрицей, запускаемой спайком, и ковариационной матрицей предшествующего ансамбля стимулов (набор всех стимулов, определенных в одном временном окне одинаковой длины), затем указывают направления в пространстве.стимулов, по которым дисперсия вызванного спайком ансамбля больше всего отличалась от дисперсии предшествующего ансамбля стимулов. В частности, собственные векторы с наибольшими положительными собственными значениями соответствуют направлениям, вдоль которых дисперсия инициированного всплесками ансамбля показала наибольшее положительное изменение по сравнению с дисперсией предыдущего. Поскольку это были направления, в которых изменение стимула приводило к всплеску, они часто являются хорошим приближением искомых релевантных характеристик стимула.

В неврологии PCA также используется, чтобы отличить нейрон от формы его потенциала действия. Сортировка спайков - важная процедура, потому что методы внеклеточной записи часто улавливают сигналы от более чем одного нейрона. При сортировке спайков сначала используется PCA для уменьшения размерности пространства форм волны потенциала действия, а затем выполняется кластерный анализ, чтобы связать определенные потенциалы действия с отдельными нейронами.

PCA как метод уменьшения размеров особенно подходит для обнаружения скоординированных действий больших нейронных ансамблей. Его использовали для определения коллективных переменных, то есть параметров порядка , во время фазовых переходов в мозге. [43]

Связь с другими методами [ править ]

Анализ корреспонденции [ править ]

Анализ соответствия (CA) был разработан Жан-Полем Бенцекри [44] и концептуально аналогичен PCA, но масштабирует данные (которые должны быть неотрицательными) так, чтобы строки и столбцы обрабатывались одинаково. Это традиционно применяется к таблицам непредвиденных обстоятельств . CA разлагает статистику хи-квадрат, связанную с этой таблицей, на ортогональные множители. [45] Поскольку CA является описательной техникой, ее можно применять к таблицам, для которых подходит статистика хи-квадрат или нет. Доступно несколько вариантов CA, включая анализ соответствий с исключенным трендом и анализ канонических соответствий . Одно специальное расширение -анализ множественных соответствий , который можно рассматривать как аналог анализа главных компонентов для категориальных данных. [46]

Факторный анализ [ править ]

Анализ главных компонентов создает переменные, которые представляют собой линейные комбинации исходных переменных. Новые переменные обладают тем свойством, что все переменные ортогональны. Преобразование PCA может быть полезным на этапе предварительной обработки перед кластеризацией. PCA - это подход, ориентированный на дисперсию, направленный на воспроизведение общей дисперсии переменной, в которой компоненты отражают как общую, так и уникальную дисперсию переменной. PCA обычно предпочтительнее для целей сокращения данных (то есть перевода пространства переменных в оптимальное пространство факторов), но не тогда, когда целью является обнаружение скрытой конструкции или факторов.

Факторный анализ аналогичен анализу главных компонентов, поскольку факторный анализ также включает линейные комбинации переменных. В отличие от PCA, факторный анализ - это подход, ориентированный на корреляцию, стремящийся воспроизвести взаимные корреляции между переменными, в которых факторы «представляют собой общую дисперсию переменных, исключая уникальную дисперсию». [47] С точки зрения корреляционной матрицы это соответствует сосредоточению внимания на объяснении недиагональных членов (то есть общей ковариации), в то время как PCA фокусируется на объяснении терминов, которые находятся на диагонали. Однако, как побочный результат, при попытке воспроизвести недиагональные члены PCA также имеет тенденцию относительно хорошо соответствовать недиагональным корреляциям. [10] : 158Результаты, полученные с помощью PCA и факторного анализа, очень похожи в большинстве ситуаций, но это не всегда так, и есть некоторые проблемы, при которых результаты значительно отличаются. Факторный анализ обычно используется, когда целью исследования является обнаружение структуры данных (то есть скрытых конструкций или факторов) или причинного моделирования . Если факторная модель сформулирована неправильно или предположения не выполняются, то факторный анализ даст ошибочные результаты. [48]

K- означает кластеризацию [ править ]

Утверждалось, что упрощенное решение кластеризации k- средних , определяемое индикаторами кластера, задается главными компонентами, а подпространство PCA, охватываемое основными направлениями, идентично подпространству центроида кластера. [49] [50] Однако то, что PCA является полезным ослаблением кластеризации k- средних, не было новым результатом [51], и несложно обнаружить контрпримеры к утверждению, что подпространство центроида кластера охватывает основные направления. [52]

Неотрицательная матричная факторизация [ править ]

Графики фракционной остаточной дисперсии (FRV) для PCA и NMF; [22] для PCA теоретические значения являются вкладом от остаточных собственных значений. Для сравнения, кривые FRV для PCA достигают плоского плато, где эффективно не улавливается никакой сигнал; в то время как кривые NMF FRV непрерывно снижаются, что указывает на лучшую способность захвата сигнала. Кривые FRV для NMF также сходятся к более высоким уровням, чем PCA, что указывает на свойство NMF с меньшей переобученностью.

Факторизация неотрицательной матрицы (NMF) - это метод уменьшения размерности, при котором используются только неотрицательные элементы в матрицах, что, следовательно, является многообещающим методом в астрономии [20] [21] [22] в том смысле, что астрофизические сигналы являются неотрицательный. Компоненты PCA ортогональны друг другу, в то время как компоненты NMF все неотрицательны и поэтому составляют неортогональный базис.

В PCA вклад каждого компонента оценивается на основе величины его соответствующего собственного значения, что эквивалентно дробной остаточной дисперсии (FRV) при анализе эмпирических данных. [18] Для NMF его компоненты ранжируются только на основе эмпирических кривых FRV. [22] Графики остаточных дробных собственных значений, то есть как функция количества компонентов с учетом общего количества компонентов, для PCA есть плоское плато, на котором не собираются данные для удаления квазистатического шума, а затем кривые быстро падают, поскольку индикация чрезмерной подгонки и фиксирует случайный шум. [18] Кривые FRV для NMF непрерывно убывают [22], когда компоненты NMF строятся последовательно., [21], указывающий на непрерывный захват квазистатического шума; затем сходятся к более высоким уровням, чем PCA, [22], указывая на меньшую переобученность NMF.

Обобщения [ править ]

Sparse PCA [ править ]

Особым недостатком PCA является то, что главные компоненты обычно представляют собой линейные комбинации всех входных переменных. Редкий PCA преодолевает этот недостаток, находя линейные комбинации, содержащие всего несколько входных переменных. Он расширяет классический метод анализа главных компонентов (PCA) для уменьшения размерности данных, добавляя ограничение разреженности для входных переменных. Было предложено несколько подходов, в том числе

  • структура регрессии, [53]
  • фреймворк выпуклой релаксации / полуопределенного программирования, [54]
  • структура обобщенного степенного метода [55]
  • альтернативная система максимизации [56]
  • жадный поиск вперед-назад и точные методы, использующие методы ветвей и границ, [57]
  • Рамки байесовских формулировок. [58]

Методологические и теоретические разработки Sparse PCA, а также его приложения в научных исследованиях были недавно рассмотрены в обзорной статье. [59]

Нелинейный PCA [ править ]

Сравнение линейных PCA и нелинейных главных многообразий [60] для визуализации данных микрочипа рака молочной железы : a) Конфигурация узлов и двухмерной главной поверхности в линейном трехмерном многообразии PCA. Набор данных изогнут и не может быть адекватно отображен на главной двумерной плоскости; б) Распределение во внутренних 2D нелинейных координатах главной поверхности (ELMap2D) вместе с оценкой плотности точек; c) То же, что и b), но для линейного 2D-коллектора PCA (PCA2D). «Базальный» подтип рака молочной железы более адекватно визуализируется с помощью ELMap2D, и некоторые особенности распределения становятся лучше разрешенными по сравнению с PCA2D. Главные многообразия образуются упругими отображениямиалгоритм. Данные доступны для публичного конкурса. [61] Программное обеспечение доступно для бесплатного некоммерческого использования. [62]

Большинство современных методов нелинейного уменьшения размерности находят свои теоретические и алгоритмические корни в PCA или K-средних. Первоначальная идея Пирсона заключалась в том, чтобы взять прямую линию (или плоскость), которая будет «наилучшим образом соответствовать» набору точек данных. Главные кривые и многообразия [63] дают естественную геометрическую основу для обобщения PCA и расширяют геометрическую интерпретацию PCA путем явного построения вложенного многообразия для аппроксимации данных и кодирования с использованием стандартной геометрической проекции на многообразие, как это показано на рис. См. Также алгоритм упругой карты и основной геодезический анализ.. Другое популярное обобщение - это PCA ядра , которое соответствует PCA, выполняемому в гильбертовом пространстве воспроизводящего ядра, связанном с положительно определенным ядром.

В полилинейном обучении подпространства , [64] РС обобщен на полилинейную PCA (MPCA) , который извлекает особенность непосредственно из тензора представлений. MPCA решается путем итеративного выполнения PCA в каждом режиме тензора. MPCA применяется для распознавания лиц, походки и т. Д. MPCA дополнительно расширен до некоррелированного MPCA, неотрицательного MPCA и надежного MPCA.

N- сторонний анализ главных компонентов может выполняться с помощью таких моделей, как разложение Такера , PARAFAC , многофакторный анализ, коинерционный анализ, STATIS и DISTATIS.

Надежный PCA [ править ]

Хотя PCA находит математически оптимальный метод (например, минимизирует квадратичную ошибку), он по-прежнему чувствителен к выбросам в данных, которые приводят к большим ошибкам, чего метод пытается избежать в первую очередь. Поэтому распространенной практикой является удаление выбросов перед вычислением PCA. Однако в некоторых случаях выбросы бывает трудно идентифицировать. Например, в алгоритмах интеллектуального анализа данных , таких как корреляционная кластеризация , назначение точек кластерам и выбросам заранее не известно. Недавно предложенное обобщение PCA [65] на основе взвешенного PCA повышает надежность за счет присвоения различных весов объектам данных на основе их предполагаемой релевантности.

На основе рецептур L1-нормы ( L1-PCA ) также были предложены резко устойчивые к выбросам варианты PCA . [5] [3]

Робастный анализ главных компонент (RPCA) посредством разложения на низкоранговые и разреженные матрицы - это модификация PCA, которая хорошо работает в отношении сильно искаженных наблюдений. [66] [67] [68]

Подобные техники [ править ]

Независимый компонентный анализ [ править ]

Независимый компонентный анализ (ICA) направлен на решение тех же проблем, что и анализ главных компонентов, но находит аддитивно разделяемые компоненты, а не последовательные приближения.

Анализ сетевых компонентов [ править ]

Учитывая матрицу , он пытается разложить ее на две матрицы так, чтобы . Ключевое отличие от таких методов, как PCA и ICA, состоит в том, что некоторые записи ограничены равными 0. Здесь это называется регуляторным уровнем. Хотя в общем случае такое разложение может иметь несколько решений, они доказывают, что при выполнении следующих условий:

  1. имеет полный ранг столбца
  2. Каждый столбец должен иметь как минимум нули, где - количество столбцов (или, альтернативно, количество строк ). Обоснованием этого критерия является то, что если узел удаляется из уровня регулирования вместе со всеми подключенными к нему выходными узлами, результат все равно должен характеризоваться матрицей связности с полным рангом столбца.
  3. должен иметь полный ранг строки.

то разложение единственно с точностью до умножения на скаляр. [69]

Компонентный анализ дискриминантного анализа [ править ]

Дискриминантный анализ основных компонентов (DAPC) - это многомерный метод, используемый для идентификации и описания кластеров генетически связанных людей. Генетическая изменчивость делится на две составляющие: вариации между группами и внутри групп, и она максимизирует первую. Линейные дискриминанты - это линейные комбинации аллелей, которые лучше всего разделяют кластеры. Следовательно, аллели, которые больше всего способствуют этой дискриминации, - это те, которые наиболее заметно различаются в разных группах. Вклад аллелей в группы, идентифицированные DAPC, может позволить идентифицировать области генома, вызывающие генетическое расхождение между группами [70]. В DAPC данные сначала преобразуются с использованием анализа главных компонентов (PCA), а затем кластеры идентифицируются с помощью дискриминантного анализа ( DA).

DAPC может быть реализован на R с использованием пакета Adegenet. (подробнее: https://adegenet.r-forge.r-project.org/ )

Программное обеспечение / исходный код [ править ]

  • ALGLIB - библиотека C ++ и C #, реализующая PCA и усеченный PCA
  • Analytica - встроенная функция EigenDecomp вычисляет главные компоненты.
  • ELKI - включает PCA для проектирования, включая надежные варианты PCA, а также алгоритмы кластеризации на основе PCA .
  • Gretl - анализ главных компонент может выполняться либо с помощью pcaкоманды, либо с помощью princomp()функции.
  • Джулия - поддерживает PCA с помощью pcaфункции в пакете MultivariateStats.
  • KNIME - программное обеспечение узловой компоновки на основе Java для анализа, в котором узлы, называемые PCA, PCA compute, PCA Apply, PCA inverse, делают это легко.
  • Mathematica - реализует анализ главных компонентов с помощью команды PrincipalComponents, используя методы ковариации и корреляции.
  • MathPHP - математическая библиотека PHP с поддержкой PCA.
  • MATLAB Statistics Toolbox - функции princompи pca(R2012b) дают главные компоненты, в то время как функция pcaresдает остатки и восстановленную матрицу для приближения PCA низкого ранга.
  • Matplotlib - библиотека Python имеет пакет PCA в модуле .mlab.
  • mlpack - обеспечивает реализацию анализа главных компонентов на C ++ .
  • Библиотека NAG - анализ основных компонентов осуществляется с помощью g03aaпроцедуры (доступной в обеих версиях библиотеки на языке Fortran).
  • NMath - собственная числовая библиотека, содержащая PCA для .NET Framework .
  • GNU Octave - Свободная программная вычислительная среда, в основном совместимая с MATLAB, функция princompдает главный компонент.
  • OpenCV
  • Oracle Database 12c - реализуется с помощью DBMS_DATA_MINING.SVDS_SCORING_MODEуказания значения параметраSVDS_SCORING_PCA
  • Orange (программное обеспечение) - интегрирует PCA в среду визуального программирования. PCA отображает осыпную диаграмму (степень объясненной дисперсии), где пользователь может интерактивно выбрать количество основных компонентов.
  • Origin - содержит PCA в его версии Pro.
  • Qlucore - коммерческое программное обеспечение для анализа многомерных данных с мгновенным ответом с использованием PCA.
  • R - бесплатный статистический пакет, функции princompи prcompмогут быть использованы для анализа главных компонент; prcompиспользует разложение по сингулярным числам, которое обычно дает лучшую численную точность. Некоторые пакеты, реализующие PCA в R, включают в себя, но не ограничиваются ими: ade4, vegan, ExPosition, dimRed, и FactoMineR.
  • SAS - фирменное программное обеспечение; например, см. [71]
  • Scikit-learn - библиотека Python для машинного обучения, которая содержит PCA, Probabilistic PCA, Kernel PCA, Sparse PCA и другие методы в модуле декомпозиции.
  • Weka - Java-библиотека для машинного обучения, которая содержит модули для вычисления основных компонентов.

См. Также [ править ]

  • Анализ соответствия (для таблиц непредвиденных обстоятельств)
  • Анализ множественных соответствий (для качественных переменных)
  • Факторный анализ смешанных данных (для количественных и качественных переменных)
  • Каноническая корреляция
  • Аппроксимация матрицы CUR (может заменить приближение SVD низкого ранга)
  • Анализ соответствия без тренда
  • Разложение динамического режима
  • Eigenface
  • Исследовательский факторный анализ (Викиверситет)
  • Факториальный код
  • Функциональный анализ главных компонентов
  • Анализ геометрических данных
  • Независимый компонентный анализ
  • Ядро PCA
  • Анализ главных компонент L1-нормы
  • Аппроксимация низкого ранга
  • Разложение матрицы
  • Факторизация неотрицательной матрицы
  • Нелинейное уменьшение размерности
  • Правило Оджи
  • Модель распределения точек (PCA применяется к морфометрии и компьютерному зрению)
  • Анализ главных компонентов (Викиучебники)
  • Регрессия главных компонентов
  • Анализ сингулярного спектра
  • Разложение по сингулярным числам
  • Редкий PCA
  • Преобразование кодирования
  • Взвешенный метод наименьших квадратов

Ссылки [ править ]

  1. ^ Barnett, TP & R. Preisendorfer. (1987). «Истоки и уровни месячных и сезонных прогнозов температуры приземного воздуха в США, определенные с помощью канонического корреляционного анализа» . Ежемесячный обзор погоды . 115 (9): 1825. Bibcode : 1987MWRv..115.1825B . DOI : 10,1175 / 1520-0493 (1987) 115 <+1825: oaloma> 2.0.co; 2 .
  2. ^ Сюй, Даниэль; Какаде, Шам М .; Чжан, Тонг (2008). Спектральный алгоритм обучения скрытых марковских моделей . arXiv : 0811.4413 . Bibcode : 2008arXiv0811.4413H .
  3. ^ a b Markopoulos, Panos P .; Кунду, Сандипан; Чамадия, Шубхам; Падос, Димитрис А. (15 августа 2017 г.). «Эффективный анализ основных компонентов нормы L1 с помощью перестановки битов». Транзакции IEEE по обработке сигналов . 65 (16): 4252–4264. arXiv : 1610.01959 . Bibcode : 2017ITSP ... 65.4252M . DOI : 10.1109 / TSP.2017.2708023 . S2CID 7931130 . 
  4. ^ a b Chachlakis, Dimitris G .; Пратер-Беннетт, Эшли; Маркопулос, Панос П. (22 ноября 2019 г.). «L1-норма Tucker Tensor Decomposition» . Доступ IEEE . 7 : 178454–178465. arXiv : 1904.06455 . DOI : 10,1109 / ACCESS.2019.2955134 .
  5. ^ a b Markopoulos, Panos P .; Каристинос, Джордж Н .; Падос, Димитрис А. (октябрь 2014 г.). «Оптимальные алгоритмы обработки сигналов L1-подпространства». Транзакции IEEE по обработке сигналов . 62 (19): 5046–5058. arXiv : 1405,6785 . Bibcode : 2014ITSP ... 62.5046M . DOI : 10.1109 / TSP.2014.2338077 . S2CID 1494171 . 
  6. ^ Канаде, Т .; Кэ, Кифа (июнь 2005 г.). Надежная факторизация нормы L1 при наличии выбросов и отсутствующих данных с помощью альтернативного выпуклого программирования . Конференция компьютерного общества IEEE 2005 года по компьютерному зрению и распознаванию образов (CVPR'05) . 1 . IEEE. п. 739. CiteSeerX 10.1.1.63.4605 . DOI : 10,1109 / CVPR.2005.309 . ISBN  978-0-7695-2372-9. S2CID  17144854 .
  7. ^ Пирсон, К. (1901). «На прямых и плоскостях, наиболее приближенных к системам точек в пространстве» . Философский журнал . 2 (11): 559–572. DOI : 10.1080 / 14786440109462720 .
  8. ^ Hotelling, H. (1933). Анализ комплекса статистических переменных на главные компоненты. Журнал педагогической психологии , 24 , 417–441 и 498–520. Хотеллинг, H (1936). «Отношения между двумя наборами переменных». Биометрика . 28 (3/4): 321–377. DOI : 10.2307 / 2333955 . JSTOR 2333955 .
     
  9. ^ Стюарт, GW (1993). «О ранней истории разложения сингулярного значения». SIAM Обзор . 35 (4): 551–566. DOI : 10.1137 / 1035134 .
  10. ^ а б в г д Джоллифф, ИТ (2002). Анализ главных компонентов . Серии Спрингера в статистике. Нью-Йорк: Springer-Verlag. DOI : 10.1007 / b98835 . ISBN 978-0-387-95442-4.
  11. ^ Bengio, Y .; и другие. (2013). «Репрезентативное обучение: обзор и новые перспективы». IEEE Transactions по анализу шаблонов и машинному анализу . 35 (8): 1798–1828. arXiv : 1206,5538 . DOI : 10.1109 / TPAMI.2013.50 . PMID 23787338 . S2CID 393948 .  
  12. ^ Forkman J., Жосс, J., Piepho, HP (2019). «Проверка гипотез для анализа главных компонентов при стандартизации переменных» . Журнал сельскохозяйственной, биологической и экологической статистики . 24 (2): 289–308. DOI : 10.1007 / s13253-019-00355-5 .CS1 maint: multiple names: authors list (link)
  13. AA Miranda, YA Le Borgne и G. Bontempi. Новые маршруты от минимальной ошибки аппроксимации к основным компонентам , том 27, номер 3 / июнь 2008 г., Neural Processing Letters, Springer
  14. ^ Фукунага, Keinosuke (1990). Введение в статистическое распознавание образов . Эльзевир. ISBN 978-0-12-269851-4.
  15. ^ Ализаде, Elaheh; Lyons, Samanthe M; Замок, Иордания M; Прасад, Ашок (2016). «Измерение систематических изменений формы инвазивных раковых клеток с использованием моментов Зернике» . Интегративная биология . 8 (11): 1183–1193. DOI : 10.1039 / C6IB00100A . PMID 27735002 . 
  16. ^ Лезник, М; Тофаллис, К. 2005 Оценка инвариантных главных компонентов с помощью диагональной регрессии.
  17. ^ Джонатон Шленс, Учебное пособие по анализу главных компонентов.
  18. ^ a b c Суммер, Реми; Пуэйо, Лоран; Ларкин, Джеймс (2012). «Обнаружение и характеристика экзопланет и дисков с использованием проекций на собственные изображения Карунена-Лоэва». Письма в астрофизический журнал . 755 (2): L28. arXiv : 1207.4197 . Bibcode : 2012ApJ ... 755L..28S . DOI : 10.1088 / 2041-8205 / 755/2 / L28 . S2CID 51088743 . 
  19. ^ Пуэйо, Лоран (2016). «Обнаружение и характеристика экзопланет с использованием проекций на собственные изображения Карунена Лоэва: прямое моделирование». Астрофизический журнал . 824 (2): 117. arXiv : 1604.06097 . Bibcode : 2016ApJ ... 824..117P . DOI : 10,3847 / 0004-637X / 824 / 2/117 . S2CID 118349503 . 
  20. ^ a b Blanton, Майкл Р .; Роуис, Сэм (2007). «К-коррекция и фильтрация преобразований в ультрафиолетовом, оптическом и ближнем инфракрасном диапазонах». Астрономический журнал . 133 (2): 734–754. arXiv : astro-ph / 0606170 . Bibcode : 2007AJ .... 133..734B . DOI : 10.1086 / 510127 . S2CID 18561804 . 
  21. ^ a b c Чжу, Гуантун Б. (19 декабря 2016 г.). «Неотрицательная матричная факторизация (NMF) с гетероскедастическими неопределенностями и отсутствующими данными». arXiv : 1612.06037 [ astro-ph.IM ].
  22. ^ a b c d e f Рен, Бин; Пуэйо, Лоран; Zhu, Guangtun B .; Дюшен, Гаспар (2018). «Неотрицательная матричная факторизация: надежное извлечение расширенных структур». Астрофизический журнал . 852 (2): 104. arXiv : 1712.10317 . Bibcode : 2018ApJ ... 852..104R . DOI : 10.3847 / 1538-4357 / aaa1f2 . S2CID 3966513 . 
  23. ^ Линскер, Ральф (март 1988). «Самоорганизация в перцептивной сети». Компьютер IEEE . 21 (3): 105–117. DOI : 10,1109 / 2,36 . S2CID 1527671 . 
  24. ^ Деко и Обрадович (1996). Теоретико-информационный подход к нейронным вычислениям . Нью-Йорк, штат Нью-Йорк: Спрингер. ISBN 9781461240167.
  25. ^ Пламбли, Марк (1991). Теория информации и нейронные сети без учителя .Техническое примечание
  26. ^ Гейгер, Бернхард; Кубин, Гернот (январь 2013 г.). «Улучшение сигнала как минимизация потери соответствующей информации». Proc. ITG Conf. О системах, коммуникации и кодировании . arXiv : 1205,6935 . Bibcode : 2012arXiv1205.6935G .
  27. ^ «Справочник по инженерной статистике, раздел 6.5.5.2» . Проверено 19 января 2015 года .
  28. ^ А. Миранда, Y.-A. Ле Борн и Дж. Бонтемпи. Новые маршруты от минимальной ошибки аппроксимации к основным компонентам , том 27, номер 3 / июнь 2008 г., Neural Processing Letters, Springer
  29. ^ Абди. Х. и Уильямс, LJ (2010). "Анализ главных компонентов". Междисциплинарные обзоры Wiley: вычислительная статистика . 2 (4): 433–459. arXiv : 1108,4372 . DOI : 10.1002 / wics.101 .
  30. ^ «Руководство пользователя SAS / STAT (R) 9.3» .
  31. ^ функция eig документация Matlab
  32. ^ Программное обеспечение для распознавания лиц на основе MATLAB PCA
  33. ^ Функция собственных значений Документация по системе Mathematica
  34. ^ Роуис, Сэм. «Алгоритмы EM для PCA и SPCA». Достижения в системах обработки нейронной информации. Эд. Майкл И. Джордан, Майкл Дж. Кернс и Сара А. Солла, MIT Press, 1998.
  35. ^ Гелади, Пол; Ковальски, Брюс (1986). «Регрессия частичных наименьших квадратов: Учебное пособие». Analytica Chimica Acta . 185 : 1–17. DOI : 10.1016 / 0003-2670 (86) 80028-9 .
  36. Перейти ↑ Kramer, R. (1998). Хемометрические методы количественного анализа . Нью-Йорк: CRC Press. ISBN 9780203909805.
  37. ^ Andrecut, М. (2009). «Параллельная реализация итеративных алгоритмов PCA на GPU». Журнал вычислительной биологии . 16 (11): 1593–1599. arXiv : 0811.1081 . DOI : 10,1089 / cmb.2008.0221 . PMID 19772385 . S2CID 1362603 .  
  38. ^ Вармут, МК; Кузьмин, Д. (2008). «Рандомизированные онлайн-алгоритмы PCA с границами сожаления, логарифмическими по измерению» (PDF) . Журнал исследований в области машинного обучения . 9 : 2287–2320.
  39. ^ Ценообразование и хеджирование производных процентных ставок: Практическое руководство по свопам , JHM Darbyshire, 2016, ISBN 978-0995455511 
  40. ^ Джорджия Пазини (2017); Анализ основных компонентов для управления портфелем акций . Международный журнал чистой и прикладной математики . Том 115 № 1 2017, 153–167
  41. ^ Либин Ян. Применение анализа основных компонентов к управлению портфелем акций . Департамент экономики и финансов Кентерберийского университета , январь 2015 г.
  42. ^ Brenner, N., Bialek, W., и де Рюйтер ван Steveninck, RR (2000).
  43. ^ Jirsa, Виктор; Фридрих, Р. Хакен, Герман; Келсо, Скотт (1994). «Теоретическая модель фазовых переходов в мозгу человека». Биологическая кибернетика . 71 (1): 27–35. DOI : 10.1007 / bf00198909 . PMID 8054384 . S2CID 5155075 .  
  44. ^ Benzécri, Ж.-П. (1973). L'Analyse des Données. Том II. L'Analyse des Correspondances . Париж, Франция: Dunod.
  45. ^ Гринакр, Майкл (1983). Теория и приложения анализа соответствий . Лондон: Academic Press. ISBN 978-0-12-299050-2.
  46. ^ Ле Ру; Бриджит и Анри Руане (2004). Анализ геометрических данных, от анализа корреспонденции до анализа структурированных данных . Дордрехт: Клувер. ISBN 9781402022357.
  47. ^ Тимоти А. Браун. Подтверждающий факторный анализ для методологии прикладных исследований в социальных науках . Гилфорд Пресс, 2006
  48. ^ Meglen, RR (1991). «Изучение больших баз данных: хемометрический подход с использованием анализа главных компонентов». Журнал хемометрики . 5 (3): 163–179. DOI : 10.1002 / cem.1180050305 . S2CID 120886184 . 
  49. ^ Х. Жа; К. Дин; М. Гу; X. Он; HD Саймон (декабрь 2001 г.). «Спектральная релаксация для кластеризации K-средних» (PDF) . Системы обработки нейронной информации, том 14 (NIPS 2001) : 1057–1064.
  50. ^ Крис Динг; Сяофэн Хэ (июль 2004 г.). «К-означает кластеризацию с помощью анализа главных компонентов» (PDF) . Proc. Международной конф. Машинное обучение (ICML 2004) : 225–232.
  51. ^ Drineas, P .; А. Фриз; Р. Каннан; С. Вемпала; В. Винай (2004). «Кластеризация больших графов с помощью разложения по сингулярным числам» (PDF) . Машинное обучение . 56 (1–3): 9–33. DOI : 10.1023 / B: mach.0000033113.59016.96 . S2CID 5892850 . Проверено 2 августа 2012 .  
  52. ^ Коэн, М .; С. Старший; К. Муско; К. Муско; М. Персу (2014). Снижение размерности для кластеризации k-средних и приближения низкого ранга (Приложение B) . arXiv : 1410.6801 . Bibcode : 2014arXiv1410.6801C .
  53. ^ Хуэй Цзоу; Тревор Хасти; Роберт Тибширани (2006). «Разреженный анализ главных компонент» (PDF) . Журнал вычислительной и графической статистики . 15 (2): 262–286. CiteSeerX 10.1.1.62.580 . DOI : 10.1198 / 106186006x113430 . S2CID 5730904 .   
  54. ^ Александр д'Аспремон; Лоран Эль-Гауи; Майкл И. Джордан; Герт Р.Г. Ланкриет (2007). «Прямая формулировка разреженного PCA с использованием полуопределенного программирования» (PDF) . SIAM Обзор . 49 (3): 434–448. arXiv : cs / 0406021 . DOI : 10.1137 / 050645506 . S2CID 5490061 .  
  55. ^ Мишель Журни; Юрий Нестеров; Питер Рихтарик; Родольф Гробница (2010). "Обобщенный степенной метод для разреженного анализа главных компонент" (PDF) . Журнал исследований в области машинного обучения . 11 : 517–553. arXiv : 0811.4724 . Bibcode : 2008arXiv0811.4724J . Документ для обсуждения CORE 2008/70.
  56. ^ Питер Ричтарик; Мартин Такач; С. Дамла Ахипасаоглу (2012). «Альтернативная максимизация: унифицирующая структура для 8 разреженных формулировок PCA и эффективных параллельных кодов». arXiv : 1212.4137 [ stat.ML ].
  57. ^ Бабак Могхаддам; Яир Вайс; Шай Авидан (2005). «Спектральные границы для разреженного PCA: точные и жадные алгоритмы» (PDF) . Достижения в системах обработки нейронной информации . 18 . MIT Press.
  58. ^ Юэ Гуань; Дженнифер Ди (2009). "Разреженный вероятностный анализ главных компонент" (PDF) . Журнал исследовательского семинара и конференции по машинному обучению . 5 : 185.
  59. ^ Хуэй Цзоу; Линчжоу Сюэ (2018). «Выборочный обзор разреженного анализа главных компонентов» . Труды IEEE . 106 (8): 1311–1320. DOI : 10.1109 / JPROC.2018.2846588 .
  60. ^ А. Н. Горбань , А. Ю. Зиновьев, Основные графы и многообразия , В: Справочник по исследованиям приложений и тенденций машинного обучения: алгоритмы, методы и методы, Olivas ES et al. Справочник по информационным наукам, IGI Global: Hershey, PA, USA, 2009. 28–59.
  61. ^ Wang, Y .; Klijn, JG; Zhang, Y .; Sieuwerts, AM; Смотрите, депутат; Ян, Ф .; Талантов, Д .; Тиммерманс, М .; Meijer-van Gelder, ME; Yu, J .; и другие. (2005). «Профили экспрессии генов для прогнозирования отдаленных метастазов первичного рака молочной железы, отрицательного по лимфатическим узлам». Ланцет . 365 (9460): 671–679. DOI : 10.1016 / S0140-6736 (05) 17947-1 . PMID 15721472 . S2CID 16358549 .   Данные онлайн
  62. ^ Зиновьев, А. "ViDaExpert - средство визуализации многомерных данных" . Institut Curie . Париж. (бесплатно для некоммерческого использования)
  63. ^ А. Н. Горбан, Б. Кегль, Д. К. Вунш, А. Зиновьев (ред.), Основные многообразия для визуализации данных и уменьшения размерности , LNCSE 58, Springer, Берлин - Гейдельберг - Нью-Йорк, 2007. ISBN 978-3-540-73749 -0 
  64. ^ Лу, Хайпин; Plataniotis, KN; Венецанопулос, АН (2011). «Обзор мультилинейного обучения подпространству тензорных данных» (PDF) . Распознавание образов . 44 (7): 1540–1551. DOI : 10.1016 / j.patcog.2011.01.004 .
  65. ^ Kriegel, HP; Kröger, P .; Schubert, E .; Зимек, А. (2008). Общая схема повышения устойчивости алгоритмов корреляционной кластеризации на основе PCA . Управление научно-статистической базой данных . Конспект лекций по информатике. 5069 . С. 418–435. CiteSeerX 10.1.1.144.4864 . DOI : 10.1007 / 978-3-540-69497-7_27 . ISBN  978-3-540-69476-2.
  66. ^ Эммануэль Дж. Кандес; Сяодун Ли; Йи Ма; Джон Райт (2011). «Надежный анализ главных компонентов?». Журнал ACM . 58 (3): 11. arXiv : 0912.3599 . DOI : 10.1145 / 1970392.1970395 . S2CID 7128002 . 
  67. ^ Т. Bouwmans; Э. Захза (2014). «Надежный PCA через поиск основных компонентов: обзор для сравнительной оценки в области видеонаблюдения». Компьютерное зрение и понимание изображений . 122 : 22–34. DOI : 10.1016 / j.cviu.2013.11.009 .
  68. ^ Т. Bouwmans; А. Собрал; С. Джавед; С. Юнг; Э. Захза (2015). «Разложение на низкоранговые и аддитивные матрицы для разделения фона / переднего плана: обзор для сравнительной оценки с крупномасштабным набором данных». Обзор компьютерных наук . 23 : 1–71. arXiv : 1511.01245 . Bibcode : 2015arXiv151101245B . DOI : 10.1016 / j.cosrev.2016.11.001 . S2CID 10420698 . 
  69. ^ Ляо, JC; Boscolo, R .; Ян, Я.-Л .; Тран, LM; Sabatti, C .; Ройчоудхури, В. П. (2003). «Сетевой компонентный анализ: реконструкция регуляторных сигналов в биологических системах» . Труды Национальной академии наук . 100 (26): 15522–15527. Bibcode : 2003PNAS..10015522L . DOI : 10.1073 / pnas.2136632100 . PMC 307600 . PMID 14673099 .  
  70. ^ Ляо, Т .; Jombart, S .; Devillard, F .; Баллу (2010). «Дискриминантный анализ основных компонентов: новый метод анализа генетически структурированных популяций». BMC Genetics : 11:94. PMID 20950446 . 
  71. ^ "Анализ главных компонентов" . Институт цифровых исследований и образования . UCLA . Проверено 29 мая 2018 .

Дальнейшее чтение [ править ]

  • Джексон, Дж. Э. (1991). Руководство пользователя по основным компонентам (Wiley).
  • Джоллифф, ИТ (1986). Анализ главных компонентов . Серии Спрингера в статистике. Springer-Verlag. С.  487 . CiteSeerX  10.1.1.149.8828 . DOI : 10.1007 / b98835 . ISBN 978-0-387-95442-4.
  • Джоллифф, ИТ (2002). Анализ главных компонентов . Серии Спрингера в статистике. Нью-Йорк: Springer-Verlag. DOI : 10.1007 / b98835 . ISBN 978-0-387-95442-4.
  • Юссон Франсуа, Ле Себастьян и Паж Жером (2009). Исследовательский Многофакторный анализ по примеру Используя R . Chapman & Hall / CRC The R Series, Лондон. 224стр. ISBN 978-2-7535-0938-2 
  • Паж Жером (2014). Множественный фактор Анализ с помощью примера , используя R . Chapman & Hall / CRC The R Series London 272 p.

Внешние ссылки [ править ]

  • Видео Копенгагенского университета от Расмуса Бро на YouTube
  • Видео Стэнфордского университета Эндрю Нг на YouTube
  • Учебное пособие по анализу основных компонентов
  • Введение в анализ основных компонентов на YouTube для непрофессионала (видео продолжительностью менее 100 секунд).
  • StatQuest: анализ основных компонентов (PCA) четко объяснен на YouTube
  • См. Также список реализаций программного обеспечения.