Метод ядра

Машинное обучение и интеллектуальный анализ данных
Часть серии по

Проблемы Классификация Кластеризация Регресс Обнаружение аномалий AutoML Правила ассоциации Обучение с подкреплением Структурированный прогноз Функциональная инженерия Особенности обучения Онлайн обучение Полу-контролируемое обучение Обучение без учителя Учимся ранжировать Введение в грамматику
Обучение с учителем ( классификация • регрессия ) Деревья решений Ансамбли Упаковка Повышение Случайный лес k -NN Линейная регрессия Наивный байесовский Искусственные нейронные сети Логистическая регрессия Перцептрон Вектор релевантности (RVM) Машина опорных векторов (SVM)
Кластеризация БЕРЕЗА ИЗЛЕЧИВАТЬ Иерархический k -средство Ожидание – максимизация (EM) DBSCAN ОПТИКА Средний сдвиг
Снижение размерности Факторный анализ CCA ICA LDA NMF PCA PGD t-SNE
Структурированный прогноз Графические модели Сеть Байеса Условное случайное поле Скрытый Марков
Обнаружение аномалий k -NN Фактор местного выброса
Искусственная нейронная сеть Автоэнкодер Когнитивные вычисления Глубокое обучение DeepDream Многослойный перцептрон RNN LSTM ГРУ ESN Ограниченная машина Больцмана GAN SOM Сверточная нейронная сеть U-Net Трансформатор Пиковая нейронная сеть Мемтранзистор Электрохимическая RAM (ECRAM)
Обучение с подкреплением Q-обучение SARSA Временная разница (TD)
Теория Компромисс смещения и дисперсии Теория вычислительного обучения Минимизация эмпирического риска Обучение Оккама PAC обучение Статистическое обучение Теория ВК
Площадки для машинного обучения NeurIPS ICML ML JMLR ArXiv: cs.LG
Статьи по Теме Глоссарий искусственного интеллекта Список наборов данных для исследований в области машинного обучения Краткое описание машинного обучения
v т е

В машинном обучении , ядро машина представляет собой класс алгоритмов для анализа картины , чей самый известный член является поддержка вектор машины (SVM). Общая задача анализа паттернов - найти и изучить общие типы отношений (например, кластеры , ранжирование , главные компоненты , корреляции , классификации ) в наборах данных. Для многих алгоритмов, которые решают эти задачи, данные в необработанном представлении должны быть явно преобразованы в представления векторов признаков через заданную пользователем карту признаков.: напротив, методы ядра требуют только ядра , указанного пользователем , т. е. функции подобия по парам точек данных в необработанном представлении.

Методы ядра обязаны своим названием с использованием функций ядра , которые позволяют им работать в высокой размерности, неявной признакового пространства никогда не вычисления координат данных в этом пространстве, а просто вычисляя скалярные произведения между изображениями в все пары данных в пространстве функций. Эта операция часто бывает дешевле в вычислительном отношении, чем явное вычисление координат. Такой подход называется « уловкой с ядром ». ^[1] Функции ядра были введены для данных последовательности, графиков , текста, изображений, а также векторов.

Алгоритмы, способные работать с ядрами, включают персептрон ядра , машины опорных векторов (SVM), гауссовские процессы , анализ главных компонентов (PCA), канонический корреляционный анализ , гребневую регрессию , спектральную кластеризацию , линейные адаптивные фильтры и многие другие. Любую линейную модель можно превратить в нелинейную, применив к модели трюк с ядром: заменив ее свойства (предикторы) на функцию ядра. ^{[ необходима цитата ]}

Большинство алгоритмов ядра основаны на выпуклой оптимизации или собственных задачах и являются статистически хорошо обоснованными. Обычно их статистические свойства анализируются с использованием теории статистического обучения (например, с использованием сложности Радемахера ).

Мотивация и неформальное объяснение [ править ]

Методы ядра можно рассматривать как обучающихся на основе экземпляров : вместо того, чтобы изучать некоторый фиксированный набор параметров, соответствующих характеристикам их входных данных, они вместо этого «запоминают» -й обучающий пример и изучают для него соответствующий вес . Прогнозирование для немаркированных входов, т. Е. Тех, которые не входят в обучающий набор, обрабатывается применением функции подобия , называемой ядром , между немаркированным входом и каждым из обучающих входов . Например, бинарный классификатор с ядром обычно вычисляет взвешенную сумму сходств. ${\ displaystyle i}$ ${\ Displaystyle (\ mathbf {х} _ {я}, у_ {я})}$ ${\ displaystyle w_ {i}}$ ${\ displaystyle k}$ $\mathbf {x'}$ $\mathbf {x} _{i}$

{\hat {y}}=\operatorname {sgn} \sum _{i=1}^{n}w_{i}y_{i}k(\mathbf {x} _{i},\mathbf {x'} )

,

где

${\hat {y}}\in \{-1,+1\}$ - это предсказанная метка бинарного классификатора с ядром для немаркированного ввода , скрытая истинная метка которого представляет интерес; $\mathbf {x'}$ $y$
$k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ это функция ядра, которая измеряет сходство между любой парой входов ; $\mathbf {x} ,\mathbf {x'} \in {\mathcal {X}}$
сумма колеблется по $n$ помеченным примерам в обучающей выборке классификатора, причем ; $\{(\mathbf {x} _{i},y_{i})\}_{i=1}^{n}$ $y_{i}\in \{-1,+1\}$
являются Весами для учебных примеров, как определенно с помощью алгоритма обучения; $w_{i}\in \mathbb {R}$
знаковая функция определяет , будет ли предсказанное классификация выходит положительный или отрицательный. $\operatorname {sgn}$ ${\hat {y}}$

Классификаторы ядра были описаны еще в 1960-х годах, когда был изобретен перцептрон ядра . ^[2] Они приобрели большую известность с популярностью машины опорных векторов (SVM) в 1990-х годах, когда было обнаружено, что SVM может конкурировать с нейронными сетями в таких задачах, как распознавание рукописного ввода .

Математика: трюк с ядром [ править ]

SVM с ядром, заданным формулой φ (( a , b )) = ( a , b , a ² + b ² ) и, следовательно, K ( x , y ) = . Точки обучения отображаются в трехмерном пространстве, где можно легко найти разделяющую гиперплоскость.

\mathbf {x} \cdot \mathbf {y} +\left\|\mathbf {x} \right\|^{2}\left\|\mathbf {y} \right\|^{2}

Уловка с ядром позволяет избежать явного отображения, которое необходимо для получения алгоритмов линейного обучения для изучения нелинейной функции или границы решения . Для всех и во входном пространстве определенные функции могут быть выражены как внутренний продукт в другом пространстве . Функцию часто называют ядром или функцией ядра . Слово «ядро» используется в математике для обозначения весовой функции для взвешенной суммы или интеграла . $\mathbf {x}$ $\mathbf {x'}$ ${\mathcal {X}}$ $k(\mathbf {x} ,\mathbf {x'} )$ ${\mathcal {V}}$ $k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$

Некоторые задачи машинного обучения имеют более сложную структуру, чем произвольная весовая функция . Вычисление значительно упростится, если ядро можно записать в виде «карты характеристик», удовлетворяющей $k$ $\varphi \colon {\mathcal {X}}\to {\mathcal {V}}$

k(\mathbf {x} ,\mathbf {x'} )=\langle \varphi (\mathbf {x} ),\varphi (\mathbf {x'} )\rangle _{\mathcal {V}}.

Ключевым ограничением является то, что это должен быть правильный внутренний продукт. С другой стороны, явное представление для не требуется, если это внутреннее пространство продукта . Альтернатива следует из теоремы Мерсера : неявно определенная функция существует всякий раз, когда пространство может быть оснащено подходящей мерой, гарантирующей, что функция удовлетворяет условию Мерсера . $\langle \cdot ,\cdot \rangle _{\mathcal {V}}$ $\varphi$ ${\mathcal {V}}$ $\varphi$ ${\mathcal {X}}$ $k$

Теорема Мерсера похожа на обобщение результата линейной алгебры, которое связывает скалярный продукт с любой положительно определенной матрицей . Фактически, условие Мерсера можно свести к этому более простому случаю. Если мы выберем в качестве нашей меры счетную меру для всех , которая считает количество точек внутри множества , тогда интеграл в теореме Мерсера сводится к суммированию $\mu (T)=|T|$ $T\subset X$ $T$

\sum _{i=1}^{n}\sum _{j=1}^{n}k(\mathbf {x} _{i},\mathbf {x} _{j})c_{i}c_{j}\geq 0.

Если это суммирование выполняется для всех конечных последовательностей точек в и всех выборов действительных коэффициентов (см. Положительно определенное ядро ), то функция удовлетворяет условию Мерсера. $(\mathbf {x} _{1},\dotsc ,\mathbf {x} _{n})$ ${\mathcal {X}}$ $n$ $(c_{1},\dots ,c_{n})$ $k$

Некоторые алгоритмы, которые зависят от произвольных отношений в собственном пространстве , на самом деле будут иметь линейную интерпретацию в другой настройке: пространстве диапазона . Линейная интерпретация дает нам представление об алгоритме. Более того, часто нет необходимости в вычислениях непосредственно во время вычислений, как в случае с машинами опорных векторов . Некоторые называют это сокращение времени работы основным преимуществом. Исследователи также используют его для обоснования значений и свойств существующих алгоритмов. ${\mathcal {X}}$ $\varphi$ $\varphi$

Теоретически матрица Грама относительно (иногда также называемая «ядерной матрицей» ^[3] ), где , должна быть положительно полуопределенной (PSD) . ^[4] Эмпирически для эвристики машинного обучения выбор функции , не удовлетворяющей условию Мерсера, может по-прежнему работать разумно, если хотя бы приближается к интуитивному представлению о подобии. ^[5] Независимо от того, является ли ядро Mercer, все равно может называться «ядром». $\mathbf {K} \in \mathbb {R} ^{n\times n}$ $\{\mathbf {x} _{1},\dotsc ,\mathbf {x} _{n}\}$ $K_{ij}=k(\mathbf {x} _{i},\mathbf {x} _{j})$ $k$ $k$ $k$ $k$

Если функция ядра также является ковариационной функцией, используемой в гауссовских процессах , то матрицу Грама также можно назвать ковариационной матрицей . ^[6] $k$ $\mathbf {K}$

Приложения [ править ]

Области применения ядерных методов разнообразны и включают геостатистику , ^[7] кригинг , обратное взвешивание расстояний , трехмерную реконструкцию , биоинформатику , химиоинформатику , извлечение информации и распознавание почерка .

См. Также [ править ]

Методы ядра для векторного вывода
Оценка плотности ядра
Теорема о представителях
Теорема обложки

Ссылки [ править ]

^ Theodoridis, Sergios (2008). Распознавание образов . Elsevier BV стр. 203. ISBN. 9780080949123.
^ Айзерман, Массачусетс; Браверман, Эммануэль М .; Розоноэр, Л.И. (1964). «Теоретические основы метода потенциальных функций в обучении распознаванию образов». Автоматизация и телемеханика . 25 : 821–837.Цитируется у Гийона, Изабель; Boser, B .; Вапник, Владимир (1993). Автоматическая настройка емкости классификаторов очень больших размеров VC . Достижения в области нейронных систем обработки информации. CiteSeerX 10.1.1.17.7215 .
^ Хофманн, Томас; Шолкопф, Бернхард; Смола, Александр Дж. (2008). «Методы ядра в машинном обучении» . Cite journal requires |journal= (help)
^ Мохри, Мехрияр ; Ростамизаде, Афшин; Талвалкар, Амит (2012). Основы машинного обучения . США, Массачусетс: MIT Press. ISBN 9780262018258.
^ Сьюэлл, Мартин. «Машины опорных векторов: состояние Мерсера» . www.svms.org .
^ Расмуссен, CE; Уильямс, CKI (2006). «Гауссовские процессы для машинного обучения». Cite journal requires |journal= (help)
^ Honarkhah, M .; Каерс, Дж. (2010). «Стохастическое моделирование паттернов с использованием дистанционного моделирования паттернов». Математические науки о Земле . 42 : 487–517. DOI : 10.1007 / s11004-010-9276-7 .

Дальнейшее чтение [ править ]

Shawe-Taylor, J .; Кристианини, Н. (2004). Методы ядра для анализа паттернов . Издательство Кембриджского университета.
Liu, W .; Principe, J .; Хайкин, С. (2010). Адаптивная фильтрация ядра: всестороннее введение . Вайли.
Шёлкопф, Б .; Смола, AJ; Бах, Ф. (2018). Обучение с помощью ядер: машины опорных векторов, регуляризация, оптимизация и не только . MIT Press. ISBN 978-0-262-53657-8.

Внешние ссылки [ править ]

Kernel-Machines Org - веб-сайт сообщества
www.support-vector-machines.org (литература, обзор, программное обеспечение, ссылки, относящиеся к машинам опорных векторов - академический сайт)
Статья о методах ядра onlineprediction.net

[1] Theodoridis, Sergios (2008). Распознавание образов . Elsevier BV стр. 203. ISBN. 9780080949123.

[2] Айзерман, Массачусетс; Браверман, Эммануэль М .; Розоноэр, Л.И. (1964). «Теоретические основы метода потенциальных функций в обучении распознаванию образов». Автоматизация и телемеханика . 25 : 821–837.Цитируется у Гийона, Изабель; Boser, B .; Вапник, Владимир (1993). Автоматическая настройка емкости классификаторов очень больших размеров VC . Достижения в области нейронных систем обработки информации. CiteSeerX 10.1.1.17.7215 .

[3] Хофманн, Томас; Шолкопф, Бернхард; Смола, Александр Дж. (2008). «Методы ядра в машинном обучении» . Cite journal requires |journal= (help)

[4] Мохри, Мехрияр ; Ростамизаде, Афшин; Талвалкар, Амит (2012). Основы машинного обучения . США, Массачусетс: MIT Press. ISBN 9780262018258.

[5] Сьюэлл, Мартин. «Машины опорных векторов: состояние Мерсера» . www.svms.org .

[6] Расмуссен, CE; Уильямс, CKI (2006). «Гауссовские процессы для машинного обучения». Cite journal requires |journal= (help)

[7] Honarkhah, M .; Каерс, Дж. (2010). «Стохастическое моделирование паттернов с использованием дистанционного моделирования паттернов». Математические науки о Земле . 42 : 487–517. DOI : 10.1007 / s11004-010-9276-7 .