Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
PCA многомерного распределения Гаусса с центром в точке (1,3) со стандартным отклонением 3 примерно в направлении (0,866, 0,5) и 1 в ортогональном направлении. Векторы Указаны собственные векторы по ковариационной матрицы , масштабированного квадратному корню из соответствующего собственного значения и сдвинуты , так что их хвосты на среднее.

В основных компонентах из набора точек в реальном р -пространстве представляют собой последовательность векторов направления , где вектор является направлением линии , которая наилучшим образом соответствует данным, будучи ортогонален к первому векторам. Здесь наиболее подходящая линия определяется как линия, минимизирующая средний квадрат расстояния от точек до линии . Эти направления составляют ортонормированный базис, в котором различные индивидуальные измерения данных линейно некоррелированы . Анализ главных компонентов ( PCA ) - это процесс вычисления основных компонентов и их использования для изменения базы данных, иногда с использованием только нескольких первых основных компонентов и игнорированием остальных.

PCA используется для исследовательского анализа данных и для создания прогнозных моделей . Он обычно используется для уменьшения размерности путем проецирования каждой точки данных только на несколько первых основных компонентов для получения данных более низкой размерности, сохраняя при этом как можно больше вариаций данных. Первый главный компонент может быть эквивалентно определен как направление, которое максимизирует дисперсию прогнозируемых данных. Главный компонент может быть взят как направление, ортогональное первым главным компонентам, которое максимизирует дисперсию проецируемых данных.

Из либо цель, можно показать , что основные компоненты являются собственными векторами из Дейты ковариационной матрицы . Таким образом, главные компоненты часто вычисляются путем собственного разложения ковариационной матрицы данных или разложения матрицы данных по сингулярным числам . PCA - это простейший из истинных многомерных анализов на основе собственных векторов, который тесно связан с факторным анализом . Факторный анализ обычно включает в себя более специфичные для предметной области предположения о базовой структуре и решает собственные векторы немного другой матрицы. PCA также связан с каноническим корреляционным анализом (CCA) . CCA определяет системы координат, которые оптимально описывают кросс-ковариациюмежду двумя наборами данных, в то время как PCA определяет новую ортогональную систему координат, которая оптимально описывает дисперсию в одном наборе данных. [1] [2] [3] [4] Также были предложены робастные и основанные на L1-норме варианты стандартного PCA. [5] [6] [4]

История [ править ]

ППШ был изобретен в 1901 году Карла Пирсона , [7] в качестве аналога теоремы главной оси в механике; Позже он был независимо разработан и назван Гарольдом Хотеллингом в 1930-х годах. [8] В зависимости от области применения его также называют дискретным преобразованием Карунена – Лоэва (KLT) в обработке сигналов , преобразованием Хотеллинга в многомерном контроле качества, правильным ортогональным разложением (POD) в машиностроении, разложением по сингулярным значениям (SVD). ) X (изобретен в последней четверти XIX века [9] ),разложение по собственным значениям (EVD) X T X в линейной алгебре, факторный анализ (обсуждение различий между PCA и факторным анализом см. в главе 7 « Анализ главных компонент» Джоллиффа ), [10] Теорема Эккарта – Юнга (Harman, 1960) , или эмпирические ортогональные функции (ЭОФ) в метеорологической науке, эмпирическое разложение собственных функций (Сирович, 1987), анализ эмпирических компонентов (Лоренц, 1956), квазигармонические моды (Брукс и др., 1988), спектральное разложение в шуме и вибрации и эмпирическое модальный анализ в структурной динамике.

Интуиция [ править ]

PCA можно рассматривать как подгонку p -мерного эллипсоида к данным, где каждая ось эллипсоида представляет главный компонент. Если какая-то ось эллипсоида мала, то отклонение по этой оси также невелико.

Чтобы найти оси эллипсоида, мы должны сначала вычесть среднее значение каждой переменной из набора данных, чтобы центрировать данные вокруг начала координат. Затем мы вычисляем ковариационную матрицуданных и вычислить собственные значения и соответствующие собственные векторы этой ковариационной матрицы. Затем мы должны нормализовать каждый из ортогональных собственных векторов, чтобы превратить их в единичные векторы. Как только это будет сделано, каждый из взаимно ортогональных единичных собственных векторов можно интерпретировать как ось эллипсоида, подогнанного к данным. Такой выбор базиса преобразует нашу ковариационную матрицу в диагонализованную форму с диагональными элементами, представляющими дисперсию каждой оси. Пропорцию дисперсии, которую представляет каждый собственный вектор, можно вычислить путем деления собственного значения, соответствующего этому собственному вектору, на сумму всех собственных значений.

Подробности [ править ]

PCA определяется как ортогональное линейное преобразование, которое преобразует данные в новую систему координат, так что наибольшая дисперсия некоторой скалярной проекции данных приходится на первую координату (называемую первым главным компонентом), а вторая наибольшая дисперсия на вторая координата и так далее. [10] [ необходима страница ]

Рассмотрим данные матрицы , X , с столбцам нулевого эмпирического среднего (выборочного среднего каждого столбца была сдвинута к нулю), где каждый из п строк представляет собой другое повторение эксперимента, и каждый из р столбцов дает особый вид функции (скажем, результаты с определенного датчика).

Математически, преобразование определяется набором размеров из р - мерных векторов весовых коэффициентов или коэффициентов , которые отображают каждый вектор - строку из X к новому вектору основных компонента баллов , определяется

таким образом , что отдельные переменные из т рассмотренные над данными набора последовательно наследует максимально возможного отклонения от X , с каждым вектором коэффициентов ш ограничена , чтобы быть единичным вектором (где , как правило , выбирают так, чтобы быть меньше , чем для уменьшения размерности).

Первый компонент [ править ]

Таким образом, чтобы максимизировать дисперсию, первый вектор весов w (1) должен удовлетворять

Аналогично, запись этого в матричной форме дает

Поскольку w (1) был определен как единичный вектор, он эквивалентно также удовлетворяет

Максимизируемое количество можно определить как фактор Рэлея . Стандартный результат для положительной полуопределенной матрицы, такой как X T X, состоит в том, что максимально возможное значение частного является наибольшим собственным значением матрицы, которое имеет место, когда w является соответствующим собственным вектором .

Когда w (1) найден, первый главный компонент вектора данных x ( i ) может быть затем задан как оценка t 1 ( i ) = x ( i )w (1) в преобразованных координатах, или как соответствующий вектор в исходных переменных, { x ( i )w (1) } w (1) .

Дополнительные компоненты [ править ]

К - й компонент может быть найден путем вычитания первого K  - 1 основных компонентов от X :

а затем находим вектор весов, который извлекает максимальную дисперсию из этой новой матрицы данных

Оказывается, это дает оставшиеся собственные векторы X T X с максимальными значениями для величины в скобках, заданными их соответствующими собственными значениями. Таким образом, весовые векторы являются собственными векторами X T X .

К - го главного компонента вектор данных х ( я ) , следовательно , может быть задан как оценка т к ( я ) = х ( я )ш ( к ) в трансформированных координатах, или в виде соответствующего вектора в пространстве исходных переменных: { x ( i )w ( k ) } w ( k ) , где w ( k ) - kй собственный вектор X T X .

Таким образом, полное разложение X на главные компоненты можно представить как

где W представляет собой P матрицу с размерностью р матрица весов, столбцы которой являются собственными векторами X T X . Транспонирование W иногда называют трансформацией побеления или образования сфер . Столбцы W, умноженные на квадратный корень из соответствующих собственных значений, то есть собственные векторы, увеличенные на дисперсии, называются нагрузками в PCA или в факторном анализе.

Ковариации [ править ]

Х Т Х сам по себе может быть признано пропорционально эмпирической выборкой ковариационной матрицы из набора данных Х Т . [10] : 30–31

Выборочная ковариация Q между двумя различными главными компонентами набора данных определяется следующим образом:

где свойство собственных значений w ( k ) использовалось для перехода от строки 2 к строке 3. Однако собственные векторы w ( j ) и w ( k ), соответствующие собственным значениям симметричной матрицы, ортогональны (если собственные значения разные), или могут быть ортогонализированы (если векторы имеют одинаковое повторяющееся значение). Следовательно, продукт в последней строке равен нулю; нет выборочной ковариации между различными главными компонентами в наборе данных.

Таким образом, другой способ охарактеризовать преобразование основных компонентов - это преобразование в координаты, которые диагонализируют ковариационную матрицу эмпирической выборки.

В матричной форме эмпирическая ковариационная матрица для исходных переменных может быть записана

Матрица эмпирической ковариации между главными компонентами становится

где Λ диагональная матрица собственных значений Х ( к ) из X T X . λ (k) равно сумме квадратов по набору данных, связанному с каждым компонентом k , то есть λ ( k ) = Σ i t k 2 ( i ) = Σ i ( x ( i )w ( k ) ) 2 .

Снижение размерности [ править ]

Преобразование T = X W отображает вектор данных x ( i ) из исходного пространства p переменных в новое пространство p переменных, которые не коррелированы в наборе данных. Однако не все основные компоненты необходимо сохранять. Сохранение только первых L главных компонентов, созданных с использованием только первых L собственных векторов, дает усеченное преобразование

где матрица T L теперь имеет n строк, но только L столбцов. Другими словами, PCA изучает линейное преобразование, в котором столбцы матрицы W размера p × L образуют ортогональный базис для L признаков (компонентов представления t ), которые декоррелированы. [11] Благодаря построению всех матриц преобразованных данных только с L столбцами, эта матрица оценок максимизирует дисперсию в исходных данных, которые были сохранены, при минимизации общей квадратичной ошибки восстановления или .

Диаграмма рассеяния анализа основных компонентов гаплотипов Y-STR, рассчитанная на основе значений количества повторов для 37 STR-маркеров Y-хромосомы от 354 человек. PCA успешно обнаружил линейные комбинации различных маркеров, которые разделяют разные кластеры, соответствующие различным линиям генетического происхождения Y-хромосомы людей.

Такое уменьшение размерности может быть очень полезным шагом для визуализации и обработки многомерных наборов данных, сохраняя при этом как можно большую вариацию в наборе данных. Например, если выбрать L  = 2 и оставить только первые два основных компонента, то двумерная плоскость будет найдена в наборе данных большой размерности, в котором данные наиболее распространены, поэтому, если данные содержат кластерыони также могут быть наиболее разбросанными и, следовательно, наиболее заметными для отображения на двумерной диаграмме; тогда как если два направления через данные (или две исходные переменные) выбираются случайным образом, кластеры могут быть гораздо меньше разнесены друг от друга и фактически могут иметь гораздо большую вероятность существенно перекрывать друг друга, делая их неразличимыми.

Аналогичным образом, в регрессионном анализе , чем больше разрешенных объясняющих переменных , тем больше вероятность переобучения модели, приводя к выводам, которые не могут быть обобщены на другие наборы данных. Один из подходов, особенно при наличии сильной корреляции между различными возможными независимыми переменными, состоит в том, чтобы свести их к нескольким главным компонентам, а затем запустить регрессию против них, метод, называемый регрессией главных компонентов .

Уменьшение размерности также может быть целесообразным, когда переменные в наборе данных зашумлены. Если каждый столбец набора данных содержит независимый одинаково распределенный гауссовский шум, то столбцы T также будут содержать одинаково одинаково распределенный гауссовский шум (такое распределение инвариантно под действием матрицы W , которую можно рассматривать как многомерный поворот осей координат). Однако, когда большая часть общей дисперсии сосредоточена в нескольких первых основных компонентах по сравнению с той же дисперсией шума, пропорциональный эффект шума меньше - первые несколько компонентов достигают более высокого отношения сигнал / шум.. Таким образом, PCA может иметь эффект концентрации большей части сигнала в нескольких первых основных компонентах, которые могут быть эффективно захвачены путем уменьшения размерности; в то время как в более поздних основных компонентах может преобладать шум, и поэтому они удаляются без больших потерь. Если набор данных не слишком велик, значимость основных компонентов можно проверить с помощью параметрической начальной загрузки , чтобы определить, сколько основных компонентов следует сохранить. [12]

Разложение по сингулярным числам [ править ]

Преобразование главных компонентов также может быть связано с другой матричной факторизацией, разложением по сингулярным значениям (SVD) X ,

Здесь Σ - прямоугольная диагональная матрица размером n x p положительных чисел σ ( k ) , называемая сингулярными значениями X ; U представляет собой N матрицу с размерностью п матрица, столбцы которой являются ортогональными единичными векторами длины п называется левые сингулярные векторы X ; и W представляет собой P матрицу с размерностью р , столбцы которой являются ортогональными единичными векторами длиной р и называются правые сингулярные векторы X .

В терминах этой факторизации матрица X T X может быть записана

где - квадратная диагональная матрица с сингулярными значениями X и лишними нулями, отрубленными, что удовлетворяет . Сравнение с собственным вектором факторизации X T X устанавливает , что правые сингулярные векторы W из X эквивалентны собственных векторов X T X , в то время сингулярных значений сг ( к ) из равны квадратного корня из собственных значений Х ( к ) из X T X .

Используя разложение по сингулярным числам, матрицу оценок T можно записать

поэтому каждый столбец T задается одним из левых сингулярных векторов X, умноженным на соответствующее сингулярное значение. Эта форма также полярное разложение на Т .

Существуют эффективные алгоритмы для вычисления SVD X без необходимости формировать матрицу X T X , поэтому вычисление SVD теперь является стандартным способом вычисления анализа главных компонентов на основе матрицы данных [ необходима цитата ] , если только несколько компонентов не являются требуется.

Как и в случае собственного-разложения, усеченный п × L оценка матрицы Т Ь можно получить, рассматривая только первую L крупнейшие сингулярные значения и их сингулярные векторы:

Усечение матрицы M или T с использованием усеченного разложения по сингулярным значениям таким образом дает усеченную матрицу, которая является ближайшей возможной матрицей ранга L к исходной матрице в смысле разницы между двумя, имеющими наименьшую возможную норму Фробениуса , результат, известный как теорема Эккарта – Юнга [1936].

Дальнейшие соображения [ править ]

Учитывая набор точек в евклидовом пространстве , первый главный компонент соответствует линии, которая проходит через многомерное среднее и минимизирует сумму квадратов расстояний между точками от прямой. Второй главный компонент соответствует той же концепции после того, как вся корреляция с первым главным компонентом была вычтена из точек. Сингулярные значения (в Σ ) - это квадратные корни из собственных значений матрицы X T X. Каждое собственное значение пропорционально части "дисперсии" (точнее, суммы квадратов расстояний между точками от их многомерного среднего), которая связана с каждым собственным вектором. Сумма всех собственных значений равна сумме квадратов расстояний между точками от их многомерного среднего. PCA по существу вращает набор точек вокруг их среднего значения, чтобы выровняться с основными компонентами. Это перемещает как можно большую часть дисперсии (с использованием ортогонального преобразования) в первые несколько измерений. Следовательно, значения в остальных измерениях обычно малы и могут быть отброшены с минимальной потерей информации (см. Ниже ). PCA часто используется таким образом для уменьшения размерности.. PCA отличается тем, что является оптимальным ортогональным преобразованием для сохранения подпространства, которое имеет наибольшую «дисперсию» (как определено выше). Это преимущество, однако, достигается за счет более высоких вычислительных требований по сравнению, например, и, когда это применимо, с дискретным косинусным преобразованием и, в частности, с DCT-II, который просто известен как «DCT». Методы нелинейного уменьшения размерности обычно более требовательны к вычислениям, чем PCA.

PCA чувствителен к масштабированию переменных. Если у нас всего две переменные, и у них одинаковая выборочная дисперсияи положительно коррелированы, то PCA повлечет за собой поворот на 45 °, и «веса» (они являются косинусами вращения) для двух переменных по отношению к главному компоненту будут равны. Но если мы умножим все значения первой переменной на 100, то первый главный компонент будет почти таким же, как эта переменная, с небольшим вкладом от другой переменной, тогда как второй компонент будет почти выровнен со второй исходной переменной. Это означает, что всякий раз, когда разные переменные имеют разные единицы измерения (например, температуру и массу), PCA является несколько произвольным методом анализа. (Иные результаты были бы получены, если бы, например, использовали градусы Фаренгейта, а не Цельсия.) Первоначальная статья Пирсона называлась «О линиях и плоскостях, наиболее близких к системам точек в пространстве» - «в пространстве »подразумевает физическое евклидово пространство, где такие проблемы не возникают. Один из способов сделать PCA менее произвольным - использовать переменные, масштабированные так, чтобы иметь единичную дисперсию, путем стандартизации данных и, следовательно, использования матрицы автокорреляции вместо матрицы автоковариации в качестве является основой для PCA, однако это сжимает (или расширяет) флуктуации во всех измерениях пространства сигналов до единичной дисперсии.

Среднее вычитание (также известное как «среднее центрирование») необходимо для выполнения классического PCA, чтобы гарантировать, что первый главный компонент описывает направление максимальной дисперсии. Если вычитание среднего не выполняется, первый главный компонент может вместо этого более или менее соответствовать среднему значению данных. Для нахождения базиса, который минимизирует среднеквадратичную ошибку аппроксимации данных, необходимо нулевое среднее значение . [13]

Центрирование среднего значения не требуется при выполнении анализа главных компонентов на корреляционной матрице, так как данные уже центрированы после вычисления корреляций. Корреляции выводятся из перекрестного произведения двух стандартных оценок (Z-оценок) или статистических моментов (отсюда и название: корреляция продукта Пирсона и момента ). Также см. Статью Кромри и Фостер-Джонсон (1998) «Центрирование среднего в умеренной регрессии: много шума из ничего».

PCA - популярный основной метод распознавания образов . Однако он не оптимизирован для разделения классов. [14] Однако он использовался для количественной оценки расстояния между двумя или более классами путем вычисления центра масс для каждого класса в пространстве главных компонентов и сообщения евклидова расстояния между центрами масс двух или более классов. [15] линейный дискриминантный анализ является альтернативой , которая оптимизирована для класса разделимости.

Таблица символов и сокращений [ править ]

Свойства и ограничения PCA [ править ]

Свойства [ править ]

Некоторые свойства PCA включают: [10] [ требуется страница ]

Свойство 1 : Для любого целогод, 1 ≤Qр, рассмотрим ортогональноелинейное преобразование
где - q-элементный вектор, - матрица ( q × p ), и пусть будет - ковариационная матрица дисперсии для . Тогда след , обозначенный , максимизируется взятием , где состоит из первых q столбцов, является транспонированием .
Свойство 2 : снова рассмотримортонормированное преобразование
с и определяется, как и раньше. Затем сводится к минимуму, выбирая где состоит из последних q столбцов .

Статистическое значение этого свойства состоит в том, что последние несколько ПК не являются просто неструктурированными остатками после удаления важных ПК. Поскольку эти последние ПК имеют минимально возможные отклонения, они полезны сами по себе. Они могут помочь обнаружить неожиданные близкие к постоянным линейные отношения между элементами x , а также могут быть полезны в регрессии , при выборе подмножества переменных из x и при обнаружении выбросов.

Свойство 3 : (Спектральное разложение Σ )

Прежде чем мы рассмотрим его использование, мы сначала рассмотрим диагональные элементы,

Тогда, возможно, основным статистическим следствием результата является то, что мы можем не только разложить комбинированные дисперсии всех элементов x на убывающие вклады, причитающиеся каждому ПК, но мы также можем разложить всю ковариационную матрицу на вклады от каждого ПК. Хотя это и не строго убывает, элементы будут иметь тенденцию становиться меньше по мере увеличения, а не возрастает для увеличения , в то время как элементы имеют тенденцию оставаться примерно такого же размера из - за ограничений , нормализации: .

Ограничения [ править ]

Как отмечалось выше, результаты PCA зависят от масштабирования переменных. Это можно исправить, масштабируя каждый объект по его стандартному отклонению, так что в итоге получаются безразмерные объекты с единичной дисперсией. [16]

Применимость PCA, как описано выше, ограничена некоторыми (неявными) предположениями [17], сделанными при его выводе. В частности, PCA может фиксировать линейные корреляции между функциями, но не работает, когда это предположение нарушается (см. Рисунок 6a в ссылке). В некоторых случаях преобразования координат могут восстановить предположение о линейности, и затем можно будет применить PCA (см. PCA ядра ).

Еще одно ограничение - это процесс удаления среднего до построения ковариационной матрицы для PCA. В таких областях, как астрономия, все сигналы неотрицательны, и процесс удаления среднего значения приведет к тому, что среднее значение некоторых астрофизических воздействий будет равно нулю, что, следовательно, создаст нефизические отрицательные потоки [18], и для этого необходимо выполнить прямое моделирование. восстановить истинную величину сигналов. [19] В качестве альтернативного метода факторизация неотрицательной матрицы фокусируется только на неотрицательных элементах в матрицах, что хорошо подходит для астрофизических наблюдений. [20] [21] [22] Подробнее см. Связь между PCA и неотрицательной матричной факторизацией .

PCA и теория информации [ править ]

Снижение размерности, как правило, приводит к потере информации. Уменьшение размерности на основе PCA имеет тенденцию минимизировать эту потерю информации при определенных моделях сигнала и шума.

В предположении, что

то есть, что вектор данных представляет собой сумму желаемого несущего информацию сигнала и шумового сигнала, можно показать, что PCA может быть оптимальным для уменьшения размерности с теоретико-информационной точки зрения.

В частности, Линскер показал, что если это гауссовский шум и гауссовский шум с ковариационной матрицей, пропорциональной единичной матрице, PCA максимизирует взаимную информацию между желаемой информацией и выходными данными с уменьшенной размерностью . [23]

Если шум по-прежнему гауссовский и имеет ковариационную матрицу, пропорциональную единичной матрице (то есть компоненты вектора - iid ), но несущий информацию сигнал не является гауссовым (что является обычным сценарием), PCA по крайней мере минимизирует верхнюю границу потери информации , которая определяется как [24] [25]

Оптимальность PCA также сохраняется, если шум iid и по крайней мере более гауссовский (с точки зрения расхождения Кульбака – Лейблера ), чем несущий информацию сигнал . [26] В общем, даже если описанная выше модель сигнала верна, PCA теряет свою теоретико-информационную оптимальность, как только шум становится зависимым.

Вычисление PCA с использованием метода ковариации [ править ]

Ниже приводится подробное описание PCA с использованием метода ковариации (см. Также здесь ) в отличие от метода корреляции. [27]

Цель состоит в том, чтобы превратить данное множество данных X размерности р в качестве альтернативного набора данных Y меньшего размера L . Эквивалентно, мы ищем матрицу Y , где Y - преобразование Карунена – Лоэва (KLT) матрицы X :

Организуйте набор данных [ править ]

Предположим, у вас есть данные, содержащие набор наблюдений для переменных p , и вы хотите сократить данные, чтобы каждое наблюдение можно было описать только L переменными, L < p . Предположим далее, что данные организованы как набор из n векторов данных, каждый из которых представляет собой сгруппированное наблюдение p переменных.

  • Запишите как векторы-строки, каждый из которых имеет p столбцов.
  • Поместите векторы-строки в одну матрицу X размеров n × p .

Рассчитайте эмпирическое среднее [ править ]

  • Найдите эмпирическое среднее значение по каждому столбцу j = 1, ...,  p .
  • Поместите вычисленные средние значения в вектор эмпирических средних u размером p × 1.

Рассчитайте отклонения от среднего [ править ]

Среднее вычитание является неотъемлемой частью решения по поиску базиса главных компонент, который минимизирует среднеквадратичную ошибку аппроксимации данных. [28] Таким образом, мы продолжаем центрировать данные следующим образом:

  • Вычитание эмпирического среднего вектора из каждой строки матрицы данных X .
  • Сохраните данные с вычитанием среднего значения в матрице B размера n × p .
где h - вектор-столбец n × 1 всех единиц:

В некоторых приложениях каждая переменная (столбец B ) может также масштабироваться, чтобы иметь дисперсию, равную 1 (см. Z-оценку ). [29] Этот шаг влияет на вычисляемые главные компоненты, но делает их независимыми от единиц, используемых для измерения различных переменных.

Найдите ковариационную матрицу [ править ]

  • Найдите эмпирическую ковариационную матрицу C размера p × p из матрицы B :
где - сопряженный оператор транспонирования . Если B полностью состоит из действительных чисел, что имеет место во многих приложениях, «сопряженное транспонирование» такое же, как и обычное транспонирование .
  • Причина использования n - 1 вместо n для вычисления ковариации - это поправка Бесселя .

Найдите собственные векторы и собственные значения ковариационной матрицы [ править ]

  • Вычислить матрицу V из собственных векторов , которые диагонализуют ковариационную матрицу C :
где D представляет собой диагональную матрицу из собственных значений из C . Этот шаг обычно включает использование компьютерного алгоритма для вычисления собственных векторов и собственных значений . Эти алгоритмы легко доступны в качестве подкомпонентов большинства систем матричной алгебры , таких как SAS , [30] R , MATLAB , [31] [32] Mathematica , [33] SciPy , IDL ( интерактивный язык данных ) или GNU Octave как а также OpenCV .
  • Матрица D примет форму диагональной матрицы размера p × p , где
- j- е собственное значение ковариационной матрицы C , а
  • Матрица V , а также размерности р × р , содержит р векторы - столбцы, каждый из которых длины р , которые представляют р собственных векторов ковариационной матрицы С .
  • Собственные значения и собственные векторы упорядочены и объединены в пары. J - е собственное значение соответствует J - го собственного вектора.
  • Матрица V обозначает матрицу правых собственных векторов (в отличие от левых собственных векторов). В общем, матрица правых собственных векторов не обязательно должна быть (сопряженной) транспонированной матрицей левых собственных векторов.

Переставьте собственные векторы и собственные значения [ править ]

  • Отсортируйте столбцы матрицы собственных векторов V и матрицы собственных значений D в порядке убывания собственного значения.
  • Убедитесь, что между столбцами каждой матрицы установлены правильные пары.

Вычислите совокупное содержание энергии для каждого собственного вектора [ править ]

  • Собственные значения представляют собой распределение энергии исходных данных [ требуется пояснение ] между каждым из собственных векторов, где собственные векторы формируют основу для данных. Совокупное содержание энергии g для j- го собственного вектора представляет собой сумму содержания энергии по всем собственным значениям от 1 до j :
[ необходима цитата ]

Выберите подмножество собственных векторов в качестве базисных векторов [ править ]

  • Сохраните первые L столбцов V как матрицу W размера p × L :
куда
  • С помощью вектора г в качестве руководства при выборе соответствующего значения для L . Цель состоит в том, чтобы выбрать как можно меньшее значение L при достижении достаточно высокого значения g в процентах. Например, вы можете выбрать L так, чтобы совокупная энергия g была выше определенного порога, например 90 процентов. В этом случае выберите наименьшее значение L так , чтобы

Спроецируйте данные на новую основу [ править ]

  • Спроецированные точки данных - это строки матрицы

То есть, первый столбец - это проекция точек данных на первый главный компонент, второй столбец - это проекция на второй главный компонент и т. Д.

Получение PCA с использованием метода ковариации [ править ]

Пусть X будет d -мерным случайным вектором, выраженным как вектор-столбец. Без ограничения общности предположим, что X имеет нулевое среднее.

Мы хотим найти в d × d ортонормированной матрица преобразования P так , что PX имеет диагональную матрицу ковариации (то есть, PX является случайным вектор со всеми его различными компонентами попарно некоррелированным).

Быстрое вычисление, предполагающее унитарную доходность:

Следовательно, выполняется тогда и только тогда, когда их можно диагонализовать с помощью .

Это очень конструктивно, так как cov ( X ) гарантированно является неотрицательно определенной матрицей и, следовательно, гарантированно диагонализируется некоторой унитарной матрицей.

Вычисление без ковариации [ править ]

В практических реализациях, особенно с данными большой размерности (большое p ), метод наивной ковариации используется редко, потому что он неэффективен из-за больших вычислительных затрат и затрат памяти на явное определение ковариационной матрицы. Бесковариационный подход позволяет избежать np 2 операций явного вычисления и сохранения ковариационной матрицы X T X , вместо этого используя один из безматричных методов , например, основанный на функции, оценивающей произведение X T (X r) за счет от 2 ира операций.

Итерационные вычисления [ править ]

Один из способов эффективного вычисления первого главного компонента [34] показан в следующем псевдокоде для матрицы данных X с нулевым средним значением без вычисления ее ковариационной матрицы.

r = случайный вектор длины p
сделать c раз:  s = 0 (вектор длины p )  для каждого выхода строки при
возврате     

Этот алгоритм степенной итерации просто вычисляет вектор X T (X r) , нормализует и помещает результат обратно в r . Собственный аппроксимируются г T (X T X) R , который является Рэлей фактором на единичном вектор г для ковариационной матрицы X T X . Если наибольшее сингулярное значение хорошо отделено от следующего по величине, вектор r приближается к первому главному компоненту X за число итераций c , которое мало по сравнению с p, общей стоимостью 2кнп . Мощности итерация сходимость может быть ускорена без заметного ущерба небольшой стоимости за итерации с использованием более сложными нематричными метод , такие как Ланцош алгоритм или локально Оптимальное Блок предварительно сопряженный градиент ( LOBPCG метод).

Последующие главные компоненты могут вычисляться один за другим посредством дефляции или одновременно как блок. В первом подходе неточности в уже вычисленных приближенных главных компонентах аддитивно влияют на точность вычисляемых впоследствии главных компонентов, тем самым увеличивая ошибку с каждым новым вычислением. Последний подход в методе блока питания заменяет единичные векторы г и ев с блок-векторами, матрицами R и S . Каждый столбец R аппроксимирует одну из главных главных компонент, в то время как все столбцы повторяются одновременно. Основной расчет - оценка продукта X T (XR) . Реализовано, например, вLOBPCG , эффективная блокировка, исключает накопление ошибок, позволяет использовать высокоуровневые функции произведения матрица-матрица BLAS и, как правило, приводит к более быстрой сходимости по сравнению с методом «один за одним» для одного вектора.

Метод NIPALS [ править ]

Нелинейный итерационный метод частичных наименьших квадратов (NIPALS) представляет собой вариант классической итерации по мощности с дефляцией матрицы путем вычитания, реализованной для вычисления первых нескольких компонентов в анализе главных компонент или частичных наименьших квадратов . Для очень многомерных наборов данных, например, созданных в * омических науках (например, геномика , метаболомика ), обычно необходимо вычислить только первые несколько компьютеров. В нелинейные итерационные частичных наименьших квадратов (NIPALS) алгоритм обновления итерационные приближения ведущих счетов и нагрузок т 1 и г 1 T со стороны мощности итерацииумножение на каждой итерации на X слева и справа, то есть исключается вычисление ковариационной матрицы, как и в безматричной реализации степенных итераций к X T X , на основе функции, оценивающей произведение X Т (Х г) = ((Х г) Т Х) Т .

Сглаживание матрицы путем вычитания выполняется путем вычитания внешнего произведения t 1 r 1 T из X, оставляя спущенную остаточную матрицу, используемую для вычисления последующих ведущих PC. [35] Для больших матриц данных или матриц с высокой степенью коллинеарности столбцов, NIPALS страдает от потери ортогональности ПК из -за ошибок округления машинной точности, накопленных в каждой итерации, и дефляции матрицы путем вычитания. [36] Грама-Шмидта алгоритм повторно ортогонализации применяется к обоим оценки и нагрузок на каждом шаге итерации , чтобы устранить эту потерю ортогональности. [37]Опора NIPALS на однократное умножение не может использовать преимущества высокоуровневого BLAS и приводит к медленной сходимости для кластеризованных ведущих сингулярных значений - оба эти недостатка устраняются в более сложных безматричных блочных решателях, таких как локально оптимальный блочный предварительно обусловленный сопряженный градиент ( LOBPCG ) метод.

Онлайн / последовательная оценка [ править ]

В ситуации «онлайн» или «потоковой передачи», когда данные поступают по частям, а не хранятся в одном пакете, полезно сделать оценку прогноза PCA, который можно обновлять последовательно. Это можно сделать эффективно, но требуются другие алгоритмы. [38]

PCA и качественные переменные [ править ]

В PCA обычно мы хотим ввести качественные переменные в качестве дополнительных элементов. Например, многие количественные переменные были измерены на растениях. Для этих растений доступны некоторые качественные переменные, например, вид, к которому растение принадлежит. Эти данные были подвергнуты PCA для количественных переменных. При анализе результатов естественно связать главные компоненты с видами качественных переменных . Для этого получены следующие результаты.

  • Идентификация на факторных планах разных видов, например, с использованием разных цветов.
  • Изображение на факторных планах центров тяжести растений, принадлежащих к одному виду.
  • Для каждого центра тяжести и каждой оси значение p, чтобы судить о значимости разницы между центром тяжести и исходной точкой.

Эти результаты представляют собой то, что называется введением качественной переменной в качестве дополнительного элемента . Эта процедура подробно описана в работах Husson, Lê & Pagès 2009 и Pagès 2013. Немногие программы предлагают эту опцию «автоматическим» способом. Это случай SPAD, который исторически, вслед за работой Людовика Лебарта , был первым, кто предложил этот вариант, и пакет R FactoMineR .

Приложения [ править ]

Количественные финансы [ править ]

В количественных финансах , основной компонент анализ может быть непосредственно применен к управлению рисками в процентном ставке производных портфелей. [39] Торговля множественными своп-инструментами, которые обычно являются функцией 30–500 других рыночных котируемых своп-инструментов, обычно сводится к 3 или 4 основным компонентам, представляющим динамику процентных ставок на макроуровне. Преобразование рисков в факторные нагрузки (или множители) обеспечивает оценки и понимание, выходящие за рамки простого коллективного просмотра рисков для отдельных 30–500 сегментов.

PCA также применялся к портфелям акций аналогичным образом [40] как для портфельного риска, так и для доходности риска . Одно из приложений - снизить риск портфеля, когда стратегии распределения применяются к «основным портфелям», а не к базовым акциям. [41] Второй - повысить доходность портфеля, используя основные компоненты для выбора акций с потенциалом роста. [ необходима цитата ]

Неврология [ править ]

Вариант анализа основных компонентов используется в нейробиологии для определения специфических свойств стимула, которые увеличивают вероятность создания нейроном потенциала действия . [42] Этот метод известен как ковариационный анализ, инициируемый всплесками . В типичном приложении экспериментатор представляет процесс белого шума в качестве стимула (обычно либо как сенсорный ввод для испытуемого, либо как токвводится непосредственно в нейрон) и записывает последовательность потенциалов действия или всплесков, создаваемых нейроном в результате. Предположительно, определенные особенности стимула повышают вероятность спайк нейрона. Для того , чтобы извлечь эти функции, экспериментатор вычисляет ковариационную матрицу из спайка-триггерным ансамбля , множество всех раздражителей (определенно и дискретизируется над конечным временным окном, обычно порядка 100 мса) , что непосредственно предшествовал шип. Собственные векторы разности между ковариационной матрицей, инициируемой спайком, и ковариационной матрицей предшествующего ансамбля стимулов (набор всех стимулов, определенных в одном временном окне с одинаковой длиной), затем указывают направления в пространстве.стимулов, по которым дисперсия инициированного спайком ансамбля больше всего отличалась от дисперсии предшествующего ансамбля стимулов. В частности, собственные векторы с наибольшими положительными собственными значениями соответствуют направлениям, вдоль которых дисперсия инициированного всплесками ансамбля показала наибольшее положительное изменение по сравнению с дисперсией предыдущего. Поскольку это были направления, в которых изменение стимула приводило к всплеску, они часто являются хорошим приближением искомых соответствующих характеристик стимула.

В неврологии PCA также используется для определения идентичности нейрона по форме его потенциала действия. Сортировка спайков - важная процедура, потому что методы внеклеточной записи часто улавливают сигналы от более чем одного нейрона. При сортировке спайков сначала используется PCA, чтобы уменьшить размерность пространства форм волны потенциала действия, а затем выполнять кластерный анализ, чтобы связать определенные потенциалы действия с отдельными нейронами.

PCA как метод уменьшения размеров особенно подходит для обнаружения скоординированных действий больших нейронных ансамблей. Его использовали для определения коллективных переменных, то есть параметров порядка , во время фазовых переходов в мозге. [43]

Связь с другими методами [ править ]

Анализ корреспонденции [ править ]

Анализ соответствия (CA) был разработан Жан-Полем Бенцекри [44] и концептуально аналогичен PCA, но масштабирует данные (которые должны быть неотрицательными) так, чтобы строки и столбцы обрабатывались одинаково. Это традиционно применяется к таблицам непредвиденных обстоятельств . CA разлагает статистику хи-квадрат, связанную с этой таблицей, на ортогональные множители. [45] Поскольку CA - это описательный метод, он может применяться к таблицам, для которых подходит статистика хи-квадрат. Доступно несколько вариантов CA, включая анализ соответствий с исключенным трендом и анализ канонических соответствий . Одно специальное расширение -анализ множественных соответствий , который можно рассматривать как аналог анализа главных компонентов для категориальных данных. [46]

Факторный анализ [ править ]

Анализ главных компонентов создает переменные, которые представляют собой линейные комбинации исходных переменных. Новые переменные обладают тем свойством, что все переменные ортогональны. Преобразование PCA может быть полезно на этапе предварительной обработки перед кластеризацией. PCA - это подход, ориентированный на дисперсию, направленный на воспроизведение общей дисперсии переменной, в которой компоненты отражают как общую, так и уникальную дисперсию переменной. PCA обычно предпочтительнее для целей сокращения данных (то есть перевода пространства переменных в оптимальное пространство факторов), но не тогда, когда целью является обнаружение скрытой конструкции или факторов.

Факторный анализ аналогичен анализу главных компонентов, поскольку факторный анализ также включает линейные комбинации переменных. В отличие от PCA, факторный анализ - это подход, ориентированный на корреляцию, стремящийся воспроизвести взаимные корреляции между переменными, в котором факторы «представляют собой общую дисперсию переменных, исключая уникальную дисперсию». [47] В терминах корреляционной матрицы это соответствует сосредоточению внимания на объяснении недиагональных членов (то есть общей ковариации), в то время как PCA фокусируется на объяснении терминов, которые находятся на диагонали. Однако, как побочный результат, при попытке воспроизвести недиагональные члены PCA также имеет тенденцию относительно хорошо соответствовать недиагональным корреляциям. [10] : 158Результаты, полученные с помощью PCA и факторного анализа, очень похожи в большинстве ситуаций, но это не всегда так, и есть некоторые проблемы, когда результаты существенно отличаются. Факторный анализ обычно используется, когда целью исследования является обнаружение структуры данных (то есть скрытых конструкций или факторов) или причинного моделирования . Если факторная модель сформулирована неправильно или предположения не выполняются, то факторный анализ даст ошибочные результаты. [48]

K- означает кластеризацию [ править ]

Утверждалось, что ослабленное решение кластеризации k- средних , определяемое индикаторами кластера, задается главными компонентами, а подпространство PCA, охватываемое основными направлениями, идентично подпространству центроида кластера. [49] [50] Однако то, что PCA является полезным ослаблением кластеризации k- средних, не было новым результатом, [51] и несложно обнаружить контрпримеры к утверждению, что подпространство центроида кластера охватывает основные направления. [52]

Неотрицательная матричная факторизация [ править ]

Графики фракционной остаточной дисперсии (FRV) для PCA и NMF; [22] для PCA теоретические значения представляют собой вклад остаточных собственных значений. Для сравнения, кривые FRV для PCA достигают плоского плато, на котором эффективно не фиксируется никакой сигнал; в то время как кривые NMF FRV непрерывно снижаются, что указывает на лучшую способность захвата сигнала. Кривые FRV для NMF также сходятся к более высоким уровням, чем PCA, что указывает на свойство NMF с меньшей переобученностью.

Факторизация неотрицательной матрицы (NMF) - это метод уменьшения размерности, при котором используются только неотрицательные элементы в матрицах, что, следовательно, является многообещающим методом в астрономии [20] [21] [22] в том смысле, что астрофизические сигналы являются неотрицательный. Компоненты PCA ортогональны друг другу, в то время как компоненты NMF все неотрицательны и, следовательно, создают неортогональный базис.

В PCA вклад каждого компонента оценивается на основе величины его соответствующего собственного значения, что эквивалентно дробной остаточной дисперсии (FRV) при анализе эмпирических данных. [18] Для NMF его компоненты ранжируются только на основе эмпирических кривых FRV. [22] Графики остаточных дробных собственных значений, то есть как функция количества компонентов с учетом общего количества компонентов, для PCA есть плоское плато, на котором не собираются данные для удаления квазистатического шума, затем кривые быстро падают, поскольку индикация переоборудования и фиксирует случайный шум. [18] Кривые FRV для NMF непрерывно убывают [22], когда компоненты NMF строятся последовательно., [21], указывающий на непрерывный захват квазистатического шума; затем сходятся к более высоким уровням, чем PCA, [22], указывая на меньшую переобученность NMF.

Обобщения [ править ]

Sparse PCA [ править ]

Особым недостатком PCA является то, что главные компоненты обычно представляют собой линейные комбинации всех входных переменных. Редкий PCA преодолевает этот недостаток, находя линейные комбинации, содержащие всего несколько входных переменных. Он расширяет классический метод анализа главных компонент (PCA) для уменьшения размерности данных, добавляя ограничение разреженности для входных переменных. Было предложено несколько подходов, в том числе

  • структура регрессии, [53]
  • фреймворк выпуклой релаксации / полуопределенного программирования, [54]
  • структура обобщенного степенного метода [55]
  • альтернативная система максимизации [56]
  • жадный поиск вперед-назад и точные методы с использованием методов ветвей и границ, [57]
  • Рамки байесовских формулировок. [58]

Методологические и теоретические разработки Sparse PCA, а также его приложения в научных исследованиях были недавно рассмотрены в обзорной статье. [59]

Нелинейный PCA [ править ]

Сравнение линейных PCA и нелинейных главных многообразий [60] для визуализации данных микрочипа рака груди : a) Конфигурация узлов и двухмерной главной поверхности в линейном трехмерном многообразии PCA. Набор данных изогнут и не может быть адекватно отображен на главной двумерной плоскости; б) Распределение во внутренних 2D нелинейных координатах главной поверхности (ELMap2D) вместе с оценкой плотности точек; c) То же, что и b), но для линейного 2D-коллектора PCA (PCA2D). «Базальный» подтип рака молочной железы более адекватно визуализируется с помощью ELMap2D, и некоторые особенности распределения становятся лучше разрешенными по сравнению с PCA2D. Главные многообразия образуются упругими отображениямиалгоритм. Данные доступны для публичного конкурса. [61] Программное обеспечение доступно для бесплатного некоммерческого использования. [62]

Большинство современных методов нелинейного уменьшения размерности имеют свои теоретические и алгоритмические корни в PCA или K-средних. Первоначальная идея Пирсона заключалась в том, чтобы взять прямую линию (или плоскость), которая будет «наилучшим образом соответствовать» набору точек данных. Главные кривые и многообразия [63] дают естественную геометрическую основу для обобщения PCA и расширяют геометрическую интерпретацию PCA путем явного построения вложенного многообразия для аппроксимации данных и кодирования с использованием стандартной геометрической проекции на многообразие, как это показано на рис. См. Также алгоритм упругой карты и основной геодезический анализ.. Другое популярное обобщение - PCA ядра , которое соответствует PCA, выполняемому в гильбертовом пространстве воспроизводящего ядра, связанном с положительно определенным ядром.

В полилинейном обучении подпространства , [64] РС обобщен на полилинейную PCA (MPCA) , который извлекает особенность непосредственно из тензора представлений. MPCA решается путем итеративного выполнения PCA в каждом режиме тензора. MPCA применялся для распознавания лиц, походки и т. Д. MPCA был расширен до некоррелированного MPCA, неотрицательного MPCA и надежного MPCA.

N- ходовой анализ главных компонентов может быть выполнен с помощью таких моделей, как разложение Такера , PARAFAC , многофакторный анализ, коинерционный анализ, STATIS и DISTATIS.

Надежный PCA [ править ]

Хотя PCA находит математически оптимальный метод (например, минимизирует квадратичную ошибку), он по-прежнему чувствителен к выбросам в данных, которые вызывают большие ошибки, чего метод пытается избежать в первую очередь. Поэтому распространенной практикой является удаление выбросов перед вычислением PCA. Однако в некоторых случаях выбросы бывает трудно идентифицировать. Например, в алгоритмах интеллектуального анализа данных , таких как корреляционная кластеризация , назначение точек кластерам и выбросам заранее не известно. Недавно предложенное обобщение PCA [65] на основе взвешенного PCA увеличивает надежность за счет присвоения различных весов объектам данных на основе их предполагаемой релевантности.

На основе рецептур L1-нормы ( L1-PCA ) также были предложены резко устойчивые варианты PCA . [5] [3]

Робастный анализ главных компонент (RPCA) посредством разложения на низкоранговые и разреженные матрицы - это модификация PCA, которая хорошо работает в отношении сильно искаженных наблюдений. [66] [67] [68]

Подобные техники [ править ]

Независимый компонентный анализ [ править ]

Независимый компонентный анализ (ICA) направлен на те же проблемы, что и анализ главных компонентов, но находит аддитивно разделяемые компоненты, а не последовательные приближения.

Анализ сетевых компонентов [ править ]

Учитывая матрицу , он пытается разложить ее на две матрицы так, чтобы . Ключевое отличие от таких методов, как PCA и ICA, состоит в том, что некоторые записи ограничиваются нулем. Здесь это называется регуляторным уровнем. Хотя в общем случае такое разложение может иметь несколько решений, они доказывают, что если выполняются следующие условия:

  1. имеет полный ранг столбца
  2. Каждый столбец должен иметь как минимум нули, где - количество столбцов (или, альтернативно, количество строк ). Обоснованием этого критерия является то, что если узел удаляется из уровня регулирования вместе со всеми подключенными к нему выходными узлами, результат все равно должен характеризоваться матрицей связности с полным рангом столбца.
  3. должен иметь полный ранг строки.

то разложение единственно с точностью до умножения на скаляр. [69]

Программное обеспечение / исходный код [ править ]

  • ALGLIB - библиотека C ++ и C #, реализующая PCA и усеченный PCA
  • Analytica - встроенная функция EigenDecomp вычисляет главные компоненты.
  • ELKI - включает PCA для проектирования, включая надежные варианты PCA, а также алгоритмы кластеризации на основе PCA .
  • Gretl - анализ главных компонент может выполняться либо через pcaкоманду, либо через princomp()функцию.
  • Юлия - Поддерживает PCA с помощью pcaфункции в пакете MultivariateStats
  • KNIME - программное обеспечение узловой компоновки на основе Java для анализа, в котором узлы, называемые PCA, PCA compute, PCA Apply, PCA inverse, делают это легко.
  • Mathematica - реализует анализ главных компонентов с помощью команды PrincipalComponents, используя методы ковариации и корреляции.
  • MathPHP - математическая библиотека PHP с поддержкой PCA.
  • MATLAB Statistics Toolbox - Функции princompи pca(R2012b) дают главные компоненты, в то время как функция pcaresдает остатки и восстановленную матрицу для приближения PCA низкого ранга.
  • Matplotlib - библиотека Python имеет пакет PCA в модуле .mlab.
  • mlpack - обеспечивает реализацию анализа главных компонентов на C ++ .
  • Библиотека NAG - анализ основных компонентов осуществляется с помощью g03aaпроцедуры (доступной в обеих версиях библиотеки на языке Fortran).
  • NMath - Собственная числовая библиотека, содержащая PCA для .NET Framework .
  • GNU Octave - Свободная программная вычислительная среда, в основном совместимая с MATLAB, функция princompдает главный компонент.
  • OpenCV
  • Oracle Database 12c - реализуется с помощью DBMS_DATA_MINING.SVDS_SCORING_MODEуказания значения параметраSVDS_SCORING_PCA
  • Orange (программное обеспечение) - интегрирует PCA в среду визуального программирования. PCA отображает диаграмму осыпи (степень объясненной дисперсии), где пользователь может интерактивно выбрать количество основных компонентов.
  • Origin - содержит PCA в его версии Pro.
  • Qlucore - коммерческое программное обеспечение для анализа многомерных данных с мгновенным ответом с использованием PCA.
  • R - бесплатный статистический пакет, функции princompи prcompмогут использоваться для анализа главных компонент; prcompиспользует разложение по сингулярным числам, которое обычно дает лучшую численную точность. Некоторые пакеты, реализующие PCA в R, включают в себя, но не ограничиваются ими: ade4, vegan, ExPosition, dimRed, и FactoMineR.
  • SAS - фирменное программное обеспечение; например, см. [70]
  • Scikit-learn - библиотека Python для машинного обучения, которая содержит PCA, Probabilistic PCA, Kernel PCA, Sparse PCA и другие методы в модуле декомпозиции.
  • Weka - Java-библиотека для машинного обучения, которая содержит модули для вычисления основных компонентов.

См. Также [ править ]

  • Анализ соответствия (для таблиц непредвиденных обстоятельств)
  • Анализ множественных соответствий (для качественных переменных)
  • Факторный анализ смешанных данных (для количественных и качественных переменных)
  • Каноническая корреляция
  • Аппроксимация матрицы CUR (может заменить приближение SVD низкого ранга)
  • Анализ соответствия без тренда
  • Разложение динамического режима
  • Eigenface
  • Исследовательский факторный анализ (Викиверситет)
  • Факториальный код
  • Функциональный анализ главных компонентов
  • Анализ геометрических данных
  • Независимый компонентный анализ
  • Ядро PCA
  • Анализ главных компонент L1-нормы
  • Приближение низкого ранга
  • Разложение матрицы
  • Неотрицательная матричная факторизация
  • Нелинейное уменьшение размерности
  • Правило Оджи
  • Модель распределения точек (PCA применяется для морфометрии и компьютерного зрения)
  • Анализ главных компонентов (Wikibooks)
  • Регрессия главных компонентов
  • Анализ сингулярного спектра
  • Разложение по сингулярным числам
  • Редкий PCA
  • Преобразование кодирования
  • Взвешенный метод наименьших квадратов

Ссылки [ править ]

  1. ^ Barnett, TP и Р. Preisendorfer. (1987). «Истоки и уровни месячных и сезонных прогнозов температуры приземного воздуха в США, определенные с помощью канонического корреляционного анализа» . Ежемесячный обзор погоды . 115 (9): 1825. Bibcode : 1987MWRv..115.1825B . DOI : 10,1175 / 1520-0493 (1987) 115 <тысяча восемьсот двадцать пять: oaloma> 2.0.co; 2 .
  2. Сюй, Даниэль; Kakade, Sham M .; Чжан, Тонг (2008). Спектральный алгоритм обучения скрытых марковских моделей . arXiv : 0811.4413 . Bibcode : 2008arXiv0811.4413H .
  3. ^ a b Markopoulos, Panos P .; Кунду, Сандипан; Чамадия, Шубхам; Падос, Димитрис А. (15 августа 2017 г.). «Эффективный анализ основных компонентов L1-нормы с помощью перестановки битов». Транзакции IEEE по обработке сигналов . 65 (16): 4252–4264. arXiv : 1610.01959 . Bibcode : 2017ITSP ... 65.4252M . DOI : 10.1109 / TSP.2017.2708023 . S2CID 7931130 . 
  4. ^ a b Chachlakis, Dimitris G .; Пратер-Беннетт, Эшли; Маркопулос, Панос П. (22 ноября 2019 г.). "L1-норма Tucker Tensor Decomposition" . Доступ IEEE . 7 : 178454–178465. arXiv : 1904.06455 . DOI : 10,1109 / ACCESS.2019.2955134 .
  5. ^ a b Markopoulos, Panos P .; Каристинос, Джордж Н .; Падос, Димитрис А. (октябрь 2014 г.). «Оптимальные алгоритмы обработки сигналов L1-подпространства». Транзакции IEEE по обработке сигналов . 62 (19): 5046–5058. arXiv : 1405,6785 . Bibcode : 2014ITSP ... 62.5046M . DOI : 10.1109 / TSP.2014.2338077 . S2CID 1494171 . 
  6. ^ Канаде, Т .; Кэ, Кифа (июнь 2005 г.). Надежная факторизация нормы L1 при наличии выбросов и отсутствующих данных с помощью альтернативного выпуклого программирования . Конференция компьютерного общества IEEE 2005 года по компьютерному зрению и распознаванию образов (CVPR'05) . 1 . IEEE. п. 739. CiteSeerX 10.1.1.63.4605 . DOI : 10,1109 / CVPR.2005.309 . ISBN  978-0-7695-2372-9. S2CID  17144854 .
  7. ^ Пирсон, К. (1901). «На прямых и плоскостях, наиболее подходящих к системам точек в пространстве» . Философский журнал . 2 (11): 559–572. DOI : 10.1080 / 14786440109462720 .
  8. ^ Hotelling, H. (1933). Анализ комплекса статистических переменных на главные компоненты. Журнал педагогической психологии , 24 , 417–441 и 498–520. Хотеллинг, H (1936). «Отношения между двумя наборами переменных». Биометрика . 28 (3/4): 321–377. DOI : 10.2307 / 2333955 . JSTOR 2333955 .
     
  9. ^ Стюарт, GW (1993). «О ранней истории разложения сингулярного значения». SIAM Обзор . 35 (4): 551–566. DOI : 10.1137 / 1035134 .
  10. ^ а б в г д Джоллифф, ИТ (2002). Анализ главных компонентов . Серии Спрингера в статистике. Нью-Йорк: Springer-Verlag. DOI : 10.1007 / b98835 . ISBN 978-0-387-95442-4.
  11. ^ Bengio, Y .; и другие. (2013). «Репрезентативное обучение: обзор и новые перспективы». IEEE Transactions по анализу шаблонов и машинному анализу . 35 (8): 1798–1828. arXiv : 1206,5538 . DOI : 10.1109 / TPAMI.2013.50 . PMID 23787338 . S2CID 393948 .  
  12. ^ Forkman J., Жосс, J., Piepho, HP (2019). «Проверка гипотез для анализа главных компонент при стандартизации переменных» . Журнал сельскохозяйственной, биологической и экологической статистики . 24 (2): 289–308. DOI : 10.1007 / s13253-019-00355-5 .CS1 maint: multiple names: authors list (link)
  13. AA Miranda, YA Le Borgne и G. Bontempi. Новые маршруты от минимальной ошибки аппроксимации до главных компонентов , Том 27, номер 3 / июнь 2008 г., Neural Processing Letters, Springer
  14. ^ Фукунага, Keinosuke (1990). Введение в статистическое распознавание образов . Эльзевир. ISBN 978-0-12-269851-4.
  15. ^ Ализаде, Elaheh; Lyons, Samanthe M; Замок, Иордания M; Прасад, Ашок (2016). «Измерение систематических изменений формы инвазивных раковых клеток с использованием моментов Зернике» . Интегративная биология . 8 (11): 1183–1193. DOI : 10.1039 / C6IB00100A . PMID 27735002 . 
  16. ^ Лезник, М; Тофаллис, К. 2005 Оценка инвариантных главных компонентов с помощью диагональной регрессии.
  17. ^ Джонатон Шленс, Учебное пособие по анализу главных компонентов.
  18. ^ a b c Суммер, Реми; Пуэйо, Лоран; Ларкин, Джеймс (2012). «Обнаружение и характеризация экзопланет и дисков с использованием проекций на собственные изображения Карунена-Лоэва». Письма в астрофизический журнал . 755 (2): L28. arXiv : 1207.4197 . Bibcode : 2012ApJ ... 755L..28S . DOI : 10.1088 / 2041-8205 / 755/2 / L28 . S2CID 51088743 . 
  19. ^ Пуэйо, Лоран (2016). «Обнаружение и характеристика экзопланет с использованием проекций на собственные изображения Карунена Лоэва: прямое моделирование». Астрофизический журнал . 824 (2): 117. arXiv : 1604.06097 . Полномочный код : 2016ApJ ... 824..117P . DOI : 10,3847 / 0004-637X / 824 / 2/117 . S2CID 118349503 . 
  20. ^ a b Blanton, Майкл Р .; Роуис, Сэм (2007). «К-поправки и фильтры преобразования в ультрафиолетовом, оптическом и ближнем инфракрасном диапазонах». Астрономический журнал . 133 (2): 734–754. arXiv : astro-ph / 0606170 . Bibcode : 2007AJ .... 133..734B . DOI : 10.1086 / 510127 . S2CID 18561804 . 
  21. ^ a b c Чжу, Гуантун Б. (19 декабря 2016 г.). «Неотрицательная матричная факторизация (NMF) с гетероскедастическими неопределенностями и отсутствующими данными». arXiv : 1612.06037 [ astro-ph.IM ].
  22. ^ a b c d e f Рен, Бин; Пуэйо, Лоран; Zhu, Guangtun B .; Дюшен, Гаспар (2018). «Неотрицательная матричная факторизация: надежное извлечение расширенных структур». Астрофизический журнал . 852 (2): 104. arXiv : 1712.10317 . Bibcode : 2018ApJ ... 852..104R . DOI : 10.3847 / 1538-4357 / aaa1f2 . S2CID 3966513 . 
  23. ^ Linsker, Ральф (март 1988). «Самоорганизация в перцептивной сети». Компьютер IEEE . 21 (3): 105–117. DOI : 10,1109 / 2,36 . S2CID 1527671 . 
  24. Перейти ↑ Deco & Obradovic (1996). Теоретико-информационный подход к нейронным вычислениям . Нью-Йорк, штат Нью-Йорк: Спрингер. ISBN 9781461240167.
  25. ^ Пламбли, Марк (1991). Теория информации и нейронные сети без учителя .Техническое примечание
  26. ^ Гейгер, Бернхард; Кубин, Гернот (январь 2013 г.). «Повышение качества сигнала как минимизация потери соответствующей информации». Proc. ITG Conf. О системах, коммуникации и кодировании . arXiv : 1205,6935 . Bibcode : 2012arXiv1205.6935G .
  27. ^ «Справочник по инженерной статистике, раздел 6.5.5.2» . Проверено 19 января 2015 .
  28. ^ А. Миранда, Y.-A. Ле Борн и Дж. Бонтемпи. Новые маршруты от минимальной ошибки аппроксимации до главных компонентов , Том 27, номер 3 / июнь 2008 г., Neural Processing Letters, Springer
  29. ^ Абди. Х. и Уильямс, LJ (2010). "Анализ главных компонентов". Междисциплинарные обзоры Wiley: вычислительная статистика . 2 (4): 433–459. arXiv : 1108,4372 . DOI : 10.1002 / wics.101 .
  30. ^ "Руководство пользователя SAS / STAT (R) 9.3" .
  31. ^ функция eig документация Matlab
  32. ^ Программное обеспечение для распознавания лиц на основе MATLAB PCA
  33. ^ Функция собственных значений Документация по системе Mathematica
  34. ^ Роуис, Сэм. «Алгоритмы EM для PCA и SPCA». Достижения в системах обработки нейронной информации. Эд. Майкл И. Джордан, Майкл Дж. Кернс и Сара А. Солла, MIT Press, 1998.
  35. ^ Гелади, Пол; Ковальски, Брюс (1986). «Регрессия частичных наименьших квадратов: Учебное пособие». Analytica Chimica Acta . 185 : 1–17. DOI : 10.1016 / 0003-2670 (86) 80028-9 .
  36. Перейти ↑ Kramer, R. (1998). Хемометрические методы количественного анализа . Нью-Йорк: CRC Press. ISBN 9780203909805.
  37. ^ Andrecut, М. (2009). "Параллельная реализация итеративных алгоритмов PCA на GPU". Журнал вычислительной биологии . 16 (11): 1593–1599. arXiv : 0811.1081 . DOI : 10,1089 / cmb.2008.0221 . PMID 19772385 . S2CID 1362603 .  
  38. ^ Вармут, МК; Кузьмин, Д. (2008). «Рандомизированные онлайн-алгоритмы PCA с границами сожаления, логарифмическими по размерности» (PDF) . Журнал исследований в области машинного обучения . 9 : 2287–2320.
  39. ^ Ценообразование и хеджирование производных процентных ставок: Практическое руководство по свопам , JHM Darbyshire, 2016, ISBN 978-0995455511 
  40. ^ Джорджия Пазини (2017); Анализ основных компонентов для управления портфелем акций . Международный журнал чистой и прикладной математики . Том 115 № 1 2017, 153–167
  41. ^ Либин Ян. Применение анализа основных компонентов к управлению портфелем акций . Департамент экономики и финансов Кентерберийского университета , январь 2015 г.
  42. ^ Brenner, N., Bialek, W., и де Рюйтер ван Steveninck, RR (2000).
  43. ^ Jirsa, Виктор; Фридрих, Р. Хакен, Герман; Келсо, Скотт (1994). «Теоретическая модель фазовых переходов в мозгу человека». Биологическая кибернетика . 71 (1): 27–35. DOI : 10.1007 / bf00198909 . PMID 8054384 . S2CID 5155075 .  
  44. ^ Benzécri, J.-P. (1973). L'Analyse des Données. Том II. L'Analyse des Correspondances . Париж, Франция: Dunod.
  45. ^ Гринакр, Майкл (1983). Теория и приложения анализа соответствий . Лондон: Academic Press. ISBN 978-0-12-299050-2.
  46. ^ Ле Ру; Брижит и Анри Руане (2004). Анализ геометрических данных, от анализа соответствий до анализа структурированных данных . Дордрехт: Клувер. ISBN 9781402022357.
  47. ^ Тимоти А. Браун. Подтверждающий факторный анализ для методологии прикладных исследований в социальных науках . Гилфорд Пресс, 2006
  48. ^ Meglen, RR (1991). «Изучение больших баз данных: хемометрический подход с использованием анализа главных компонентов». Журнал хемометрики . 5 (3): 163–179. DOI : 10.1002 / cem.1180050305 . S2CID 120886184 . 
  49. ^ Х. Жа; К. Дин; М. Гу; X. Он; HD Саймон (декабрь 2001 г.). «Спектральная релаксация для кластеризации K-средних» (PDF) . Системы обработки нейронной информации, том 14 (NIPS 2001) : 1057–1064.
  50. ^ Крис Динг; Сяофэн Хэ (июль 2004 г.). «К-означает кластеризацию с помощью анализа главных компонентов» (PDF) . Proc. Международной конф. Машинное обучение (ICML 2004) : 225–232.
  51. ^ Drineas, P .; А. Фриз; Р. Каннан; С. Вемпала; В. Винай (2004). «Кластеризация больших графов с помощью разложения по сингулярным числам» (PDF) . Машинное обучение . 56 (1–3): 9–33. DOI : 10.1023 / B: mach.0000033113.59016.96 . S2CID 5892850 . Проверено 2 августа 2012 .  
  52. ^ Коэн, М .; С. Элдер; К. Муско; К. Муско; М. Персу (2014). Снижение размерности для кластеризации k-средних и приближения низкого ранга (Приложение B) . arXiv : 1410.6801 . Bibcode : 2014arXiv1410.6801C .
  53. ^ Хуэй Цзоу; Тревор Хасти; Роберт Тибширани (2006). «Разреженный анализ главных компонент» (PDF) . Журнал вычислительной и графической статистики . 15 (2): 262–286. CiteSeerX 10.1.1.62.580 . DOI : 10.1198 / 106186006x113430 . S2CID 5730904 .   
  54. ^ Александр д'Аспремон; Лоран Эль-Гауи; Майкл И. Джордан; Герт Р.Г. Ланкриет (2007). «Прямая формулировка разреженного PCA с использованием полуопределенного программирования» (PDF) . SIAM Обзор . 49 (3): 434–448. arXiv : cs / 0406021 . DOI : 10.1137 / 050645506 . S2CID 5490061 .  
  55. ^ Мишель Журни; Юрий Нестеров; Питер Рихтарик; Родольф Гробница (2010). "Обобщенный степенной метод для анализа разреженных главных компонент" (PDF) . Журнал исследований в области машинного обучения . 11 : 517–553. arXiv : 0811.4724 . Bibcode : 2008arXiv0811.4724J . Документ для обсуждения CORE 2008/70.
  56. ^ Питер Ричтарик; Мартин Такач; С. Дамла Ахипасаоглу (2012). «Альтернативная максимизация: унифицирующая структура для 8 разреженных формулировок PCA и эффективных параллельных кодов». arXiv : 1212.4137 [ stat.ML ].
  57. ^ Baback Могхаддам; Яир Вайс; Шай Авидан (2005). «Спектральные границы для разреженного PCA: точные и жадные алгоритмы» (PDF) . Достижения в системах обработки нейронной информации . 18 . MIT Press.
  58. ^ Юэ Гуань; Дженнифер Ди (2009). "Разреженный вероятностный анализ главных компонент" (PDF) . Журнал исследовательского семинара и конференции по машинному обучению . 5 : 185.
  59. ^ Хуэй Цзоу; Линчжоу Сюэ (2018). «Выборочный обзор разреженного анализа главных компонентов» . Труды IEEE . 106 (8): 1311–1320. DOI : 10.1109 / JPROC.2018.2846588 .
  60. ^ А.Н. Горбань , А.Ю. Зиновьев, Основные графы и многообразия , В: Справочник по исследованиям приложений и тенденций машинного обучения: алгоритмы, методы и методы, Olivas ES et al. Справочник по информационным наукам, IGI Global: Hershey, PA, USA, 2009. 28–59.
  61. ^ Wang, Y .; Klijn, JG; Zhang, Y .; Sieuwerts, AM; Смотрите, депутат; Ян, Ф .; Талантов, Д .; Тиммерманс, М .; Meijer-van Gelder, ME; Yu, J .; и другие. (2005). «Профили экспрессии генов для прогнозирования отдаленных метастазов первичного рака молочной железы без лимфоузлов». Ланцет . 365 (9460): 671–679. DOI : 10.1016 / S0140-6736 (05) 17947-1 . PMID 15721472 . S2CID 16358549 .   Данные онлайн
  62. ^ Зиновьев, А. "ViDaExpert - средство визуализации многомерных данных" . Institut Curie . Париж. (бесплатно для некоммерческого использования)
  63. ^ А. Н. Горбан, Б. Кегль, Д. К. Вунш, А. Зиновьев (ред.), Основные многообразия для визуализации данных и уменьшения размерности , LNCSE 58, Springer, Берлин - Гейдельберг - Нью-Йорк, 2007. ISBN 978-3-540-73749 -0 
  64. ^ Лу, Хайпин; Plataniotis, KN; Венецанопулос, АН (2011). «Обзор мультилинейного обучения подпространству тензорных данных» (PDF) . Распознавание образов . 44 (7): 1540–1551. DOI : 10.1016 / j.patcog.2011.01.004 .
  65. ^ Кригель, HP; Kröger, P .; Schubert, E .; Зимек, А. (2008). Общая схема повышения устойчивости алгоритмов корреляционной кластеризации на основе PCA . Управление научно-статистической базой данных . Конспект лекций по информатике. 5069 . С. 418–435. CiteSeerX 10.1.1.144.4864 . DOI : 10.1007 / 978-3-540-69497-7_27 . ISBN  978-3-540-69476-2.
  66. ^ Эммануэль Дж. Кандес; Сяодун Ли; Йи Ма; Джон Райт (2011). «Надежный анализ главных компонентов?». Журнал ACM . 58 (3): 11. arXiv : 0912.3599 . DOI : 10.1145 / 1970392.1970395 . S2CID 7128002 . 
  67. ^ Т. Bouwmans; Э. Захза (2014). «Надежный PCA через поиск основных компонентов: обзор для сравнительной оценки в области видеонаблюдения». Компьютерное зрение и понимание изображений . 122 : 22–34. DOI : 10.1016 / j.cviu.2013.11.009 .
  68. ^ Т. Bouwmans; А. Собрал; С. Джавед; С. Юнг; Э. Захза (2015). «Разложение на низкоранговые и аддитивные матрицы для разделения фона / переднего плана: обзор для сравнительной оценки с крупномасштабным набором данных». Обзор компьютерных наук . 23 : 1–71. arXiv : 1511.01245 . Bibcode : 2015arXiv151101245B . DOI : 10.1016 / j.cosrev.2016.11.001 . S2CID 10420698 . 
  69. ^ Ляо, JC; Boscolo, R .; Ян, Я.-Л .; Тран, LM; Sabatti, C .; Ройчоудхури, В. П. (2003). «Сетевой компонентный анализ: Реконструкция регуляторных сигналов в биологических системах» . Труды Национальной академии наук . 100 (26): 15522–15527. Bibcode : 2003PNAS..10015522L . DOI : 10.1073 / pnas.2136632100 . PMC 307600 . PMID 14673099 .  
  70. ^ "Анализ главных компонентов" . Институт цифровых исследований и образования . UCLA . Проверено 29 мая 2018 .

Дальнейшее чтение [ править ]

  • Джексон, Дж. Э. (1991). Руководство пользователя по основным компонентам (Wiley).
  • Джоллифф, ИТ (1986). Анализ главных компонентов . Серии Спрингера в статистике. Springer-Verlag. С.  487 . CiteSeerX  10.1.1.149.8828 . DOI : 10.1007 / b98835 . ISBN 978-0-387-95442-4.
  • Джоллифф, ИТ (2002). Анализ главных компонентов . Серии Спрингера в статистике. Нью-Йорк: Springer-Verlag. DOI : 10.1007 / b98835 . ISBN 978-0-387-95442-4.
  • Юссон Франсуа, Ле Себастьян и Паж Жером (2009). Исследовательский Многофакторный анализ по примеру Используя R . Chapman & Hall / CRC The R Series, Лондон. 224стр. ISBN 978-2-7535-0938-2 
  • Паж Жером (2014). Множественный фактор Анализ с помощью примера , используя R . Chapman & Hall / CRC The R Series London 272 p.

Внешние ссылки [ править ]

  • Видео Копенгагенского университета от Расмуса Бро на YouTube
  • Видео Стэнфордского университета Эндрю Нг на YouTube
  • Учебное пособие по анализу основных компонентов
  • Введение в анализ основных компонентов на YouTube для непрофессионала (видео продолжительностью менее 100 секунд).
  • StatQuest: анализ основных компонентов (PCA) четко объяснен на YouTube
  • См. Также список программных реализаций.