Анализ компонентов окружения

Анализ компонентов окрестности - это метод обучения с учителем для классификации многомерных данных в отдельные классы в соответствии с заданной метрикой расстояния по данным. Функционально он служит тем же целям, что и алгоритм K-ближайших соседей , и напрямую использует связанную концепцию, называемую стохастическими ближайшими соседями .

Определение

Анализ компонентов соседства направлен на «изучение» метрики расстояния путем нахождения линейного преобразования входных данных, так что средняя эффективность классификации с исключением по одному (LOO) максимизируется в преобразованном пространстве. Ключевым моментом в алгоритме является то, что матрица ${\ displaystyle A}$ соответствующее преобразованию, можно найти, задав дифференцируемую целевую функцию для ${\ displaystyle A}$ с последующим использованием итеративного решателя, такого как спуск сопряженного градиента . Одним из преимуществ этого алгоритма является то, что количество классов ${\ displaystyle k}$ можно определить как функцию ${\ displaystyle A}$ , с точностью до скалярной постоянной. Таким образом, такое использование алгоритма решает проблему выбора модели .

Объяснение

Чтобы определить ${\ displaystyle A}$ , мы определяем целевую функцию, описывающую точность классификации в преобразованном пространстве, и пытаемся определить ${\ displaystyle A ^ {*}}$ таким образом, чтобы эта целевая функция была максимальной.

${\ displaystyle A ^ {*} = {\ mbox {argmax}} _ {A} f (A)}$

Классификация с исключением по одному (LOO)

Рассмотрите возможность прогнозирования метки класса отдельной точки данных на основе консенсуса ее ${\ displaystyle k}$ -ближайшие соседи с заданной метрикой расстояния. Это называется классификацией с исключением по одному . Однако набор ближайших соседей ${\ displaystyle C_ {i}}$ может быть совершенно другим после прохождения всех точек через линейное преобразование. В частности, набор соседей для точки может претерпевать дискретные изменения в ответ на плавные изменения элементов ${\ displaystyle A}$ , подразумевая, что любая целевая функция ${\ Displaystyle е (\ cdot)}$ основанный на соседях точки, будет кусочно-постоянным и, следовательно, не дифференцируемым .

Решение

Мы можем решить эту проблему, используя подход, вдохновленный стохастическим градиентным спуском . Вместо того, чтобы рассматривать ${\ displaystyle k}$ -ближайшие соседи в каждой преобразованной точке в LOO-классификации, мы будем рассматривать весь преобразованный набор данных как стохастических ближайших соседей . Мы определяем их, используя функцию softmax квадрата евклидова расстояния между данной точкой классификации LOO и каждой другой точкой в преобразованном пространстве:

${\ displaystyle p_ {ij} = {\ begin {cases} {\ frac {e ^ {- || Ax_ {i} -Ax_ {j} || ^ {2}}} {\ sum _ {k} e ^ {- || Ax_ {i} -Ax_ {k} || ^ {2}}}}, & {\ mbox {if}} j \ neq i \\ 0, & {\ mbox {if}} j = i \ end {case}}}$

Вероятность правильной классификации точки данных ${\ displaystyle i}$ вероятность отнести точки каждого из его соседей к одному классу ${\ displaystyle C_ {i}}$ :

${\ displaystyle p_ {i} = \ sum _ {j \ in C_ {i}} p_ {ij} \ quad}$ где ${\ displaystyle p_ {ij}}$ вероятность классификации соседа ${\ displaystyle j}$ точки ${\ displaystyle i}$ .

Определите целевую функцию, используя классификацию LOO, на этот раз используя весь набор данных в качестве ближайших стохастических соседей:

${\ displaystyle f (A) = \ sum _ {i} \ sum _ {j \ in C_ {i}} p_ {ij} = \ sum _ {i} p_ {i}}$

Обратите внимание, что при стохастических ближайших соседях консенсусный класс для одной точки ${\ displaystyle i}$ ожидаемое значение класса точки в пределе бесконечного числа выборок, взятых из распределения по его соседям ${\ displaystyle j \ in C_ {i}}$ то есть: ${\ Displaystyle P (Класс (X_ {i}) = Класс (X_ {j})) = p_ {ij}}$ . Таким образом, предсказанный класс представляет собой аффинную комбинацию классов любой другой точки, взвешенную функцией softmax для каждой точки. ${\ displaystyle j \ in C_ {j}}$ где ${\ displaystyle C_ {j}}$ теперь весь преобразованный набор данных.

Такой выбор целевой функции предпочтительнее, поскольку она дифференцируема по ${\ displaystyle A}$ (обозначить ${\ displaystyle x_ {ij} = x_ {i} -x_ {j}}$ ):

${\ displaystyle {\ frac {\ partial f} {\ partial A}} = - 2A \ sum _ {i} \ sum _ {j \ in C_ {i}} p_ {ij} \ left (x_ {ij} x_ {ij} ^ {T} - \ sum _ {k} p_ {ik} x_ {ik} x_ {ik} ^ {T} \ right)}$

${\ displaystyle = 2A \ sum _ {i} \ left (p_ {i} \ sum _ {k} p_ {ik} x_ {ik} x_ {ik} ^ {T} - \ sum _ {j \ in C_ { i}} p_ {ij} x_ {ij} x_ {ij} ^ {T} \ right)}$

Получение градиента для ${\ displaystyle A}$ означает, что его можно найти с помощью итеративного решателя, такого как сопряженный градиентный спуск . Обратите внимание, что на практике большинство самых внутренних членов градиента оцениваются как незначительные вклады из-за быстро убывающего вклада удаленных точек от интересующей точки. Это означает, что внутренняя сумма градиента может быть усечена, что приведет к разумному времени вычислений даже для больших наборов данных.

Альтернативная формулировка

"Максимизация ${\ Displaystyle е (\ cdot)}$ эквивалентно минимизации ${\ displaystyle L_ {1}}$ -расстояние между предсказанным распределением классов и истинным распределением классов (т.е. ${\ displaystyle p_ {i}}$ индуцированный ${\ displaystyle A}$ все равны 1). Естественной альтернативой является KL-дивергенция, которая индуцирует следующую целевую функцию и градиент: "(Goldberger 2005)

${\ displaystyle g (A) = \ sum _ {i} \ log \ left (\ sum _ {j \ in C_ {i}} p_ {ij} \ right) = \ sum _ {i} \ log (p_ { я})}$

${\ displaystyle {\ frac {\ partial g} {\ partial A}} = 2A \ sum _ {i} \ left (\ sum _ {k} p_ {ik} x_ {ik} x_ {ik} ^ {T} - {\ frac {\ sum _ {j \ in C_ {i}} p_ {ij} x_ {ij} x_ {ij} ^ {T}} {\ sum _ {j \ in C_ {i}} p_ {ij }}}\верно)}$

На практике оптимизация ${\ displaystyle A}$ использование этой функции дает результаты, аналогичные исходным.

История и предыстория

Анализ компонентов окружения был разработан Джейкобом Голдбергером, Сэмом Роуисом, Русланом Салахудиновым и Джеффом Хинтоном на факультете информатики Университета Торонто в 2004 году.

Смотрите также

Внешние ссылки

Программное обеспечение

Библиотека MLPACK содержит C ++ реализации
nca ( C ++ )
реализация sklearn ( Python )