Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Регуляризованный метод наименьших квадратов ( RLS ) - это семейство методов для решения задачи наименьших квадратов с использованием регуляризации для дальнейшего ограничения полученного решения.

RLS используется по двум основным причинам. Первый возникает, когда количество переменных в линейной системе превышает количество наблюдений. В таких условиях обычная задача наименьших квадратов некорректно поставлена и, следовательно, не может соответствовать, потому что связанная проблема оптимизации имеет бесконечно много решений. RLS позволяет вводить дополнительные ограничения, которые однозначно определяют решение.

Вторая причина использования RLS возникает, когда количество переменных не превышает количества наблюдений, но изученная модель страдает плохим обобщением . В таких случаях RLS можно использовать для улучшения обобщаемости модели, ограничивая ее во время обучения. Это ограничение может либо заставить решение быть «разреженным» каким-то образом, либо отражать другие предшествующие знания о проблеме, такие как информация о корреляциях между функциями. Байесовский понимание этого может быть достигнуто, показывая , что методы RLS часто эквивалентны априориями на решение задачи наименьших квадратов.

Общая формулировка [ править ]

Рассмотрим настройку обучения заданное вероятностным пространством , . Пусть обозначают обучающий набор пар IID относительно . Позвольте быть функцией потерь. Определите как пространство функций, предполагающих риск:

хорошо определено. Основная цель - минимизировать ожидаемый риск:

Поскольку проблема не может быть решена точно, необходимо указать, как измерить качество решения. Хороший алгоритм обучения должен обеспечивать оценку с небольшим риском.

Поскольку совместное распределение обычно неизвестно, принимается эмпирический риск. Для регуляризованных наименьших квадратов вводится квадратичная функция потерь:

Однако, если функции взяты из относительно неограниченного пространства, такого как набор функций, интегрируемых с квадратом , этот подход может чрезмерно соответствовать обучающим данным и привести к плохому обобщению. Таким образом, он должен каким-то образом ограничивать или наказывать сложность функции . В RLS это достигается путем выбора функций из гильбертова пространства воспроизводящего ядра (RKHS) и добавления члена регуляризации к целевой функции, пропорционального норме функции в :

Формулировка ядра [ править ]

Определение РКХС [ править ]

RKHS может быть определен симметричной положительно определенной ядерной функцией с воспроизводящим свойством:

где . RKHS для ядра состоит из пополнения пространства функций, охватываемого :, где все - действительные числа. Некоторые часто используемые ядра включают линейное ядро, порождающее пространство линейных функций:

полиномиальное ядро, индуцирующее пространство полиномиальных функций порядка :

и гауссово ядро:

Обратите внимание, что для произвольной функции потерь этот подход определяет общий класс алгоритмов, называемый регуляризацией Тихонова. Так , например, с помощью потери шарнира приводит к опорным векторам алгоритму, и использование эпсилона-нечувствительной потеря приводит к поддержки вектора регрессии .

Произвольное ядро [ править ]

Теорема о представителе гарантирует, что решение можно записать как:

для некоторых .

Проблема минимизации может быть выражена как:

,

где, с некоторым злоупотреблением обозначениями, вход матрицы ядра (в отличие от функции ядра ) равен .

Для такой функции

Можно получить следующую задачу минимизации:

.

Поскольку сумма выпуклых функций является выпуклой, решение уникально, и его минимум можно найти, задав градиент относительно :

,

где .

Сложность [ править ]

Сложность обучения - это в основном стоимость вычисления матрицы ядра плюс стоимость решения линейной системы, которая составляет примерно . Вычисление матрицы ядра для линейного или гауссовского ядра равно . Сложность тестирования есть .

Прогноз [ править ]

Прогноз на новой контрольной точке :

Линейное ядро [ править ]

Для удобства введены векторные обозначения. Пусть представлять собой матрицу, в которой строки являются входными векторами, и в вектор , где записи соответствующие выходы. В терминах векторов матрицу ядра можно записать как . Функцию обучения можно записать как:

Здесь мы определяем . Целевая функция может быть переписана как:

Первый член - это целевая функция обычной регрессии методом наименьших квадратов (МНК), соответствующая остаточной сумме квадратов . Второй член - это член регуляризации, которого нет в OLS, который штрафует большие значения. Как гладкая конечномерная задача рассматривается и возможно применение стандартных инструментов исчисления. Чтобы минимизировать целевую функцию, градиент вычисляется относительно и устанавливается равным нулю:

Это решение очень похоже на решение стандартной линейной регрессии с дополнительным членом . Если предположения регрессии МНК выполняются, решение с , является несмещенной оценкой и линейной несмещенной оценкой с минимальной дисперсией согласно теореме Гаусса – Маркова . Таким образом, этот термин приводит к необъективному решению; однако это также имеет тенденцию к уменьшению дисперсии. Это легко увидеть, поскольку ковариационная матрица значений -значений пропорциональна , и, следовательно, большие значения приведут к более низкой дисперсии. Следовательно, манипулирование соответствует компромиссу смещения и дисперсии. Для проблем с оценками высокой дисперсии , таких как случаи с относительно небольшимиили с коррелированными регрессорами оптимальная точность прогнозирования может быть получена путем использования ненулевого значения и, таким образом, введения некоторого смещения для уменьшения дисперсии. Кроме того, это не редкость в машинном обучении , чтобы иметь случаи , когда , в этом случае является ранг дефицитных, и отличный от нуля необходимо вычислить .

Сложность [ править ]

Параметр управляет обратимостью матрицы . Для решения указанной выше линейной системы можно использовать несколько методов, причем разложение Холецкого , вероятно, является методом выбора, поскольку матрица является симметричной и положительно определенной . Сложность этого метода заключается в обучении и тестировании. Стоимость по существу равна стоимости вычислений , в то время как обратное вычисление (или, скорее, решение линейной системы) является приблизительным .

Карты характеристик и теорема Мерсера [ править ]

В этом разделе будет показано, как расширить RLS до любого типа воспроизводящего ядра K. Вместо линейного ядра рассматривается карта признаков для некоторого гильбертова пространства , называемого пространством признаков. В этом случае ядро ​​определяется как: матрица теперь заменена новой матрицей данных , где , или -й компонент .

Это означает, что для данного обучающего набора . Таким образом, целевую функцию можно записать как:

Этот подход известен как трюк с ядром . Этот метод позволяет значительно упростить вычислительные операции. Если размерность большая, вычисления могут быть довольно интенсивными. Если известен явный вид функции ядра, нам просто нужно вычислить и сохранить матрицу ядра .

Фактически, гильбертово пространство не обязательно должно быть изоморфным , и может быть бесконечномерным. Это следует из теоремы Мерсера , которая гласит, что непрерывная, симметричная, положительно определенная ядерная функция может быть выражена как:

где образуют ортонормированный базис для , и . Если карты функций определены с компонентами , это следует из этого . Это демонстрирует, что любое ядро ​​может быть связано с картой признаков, и что RLS обычно состоит из линейного RLS, выполняемого в некотором, возможно, многомерном пространстве признаков. Хотя теорема Мерсера показывает, как одна карта характеристик может быть связана с ядром, на самом деле несколько карт функций могут быть связаны с данным воспроизводящим ядром. Например, карта удовлетворяет свойству для произвольного воспроизводящего ядра.

Байесовская интерпретация [ править ]

Метод наименьших квадратов можно рассматривать как максимизацию правдоподобия в предположении нормально распределенных остатков. Это связано с тем, что показатель степени распределения Гаусса является квадратичным по данным, как и целевая функция наименьших квадратов. В рамках этой регуляризации условие RLS может быть понято , чтобы кодировать априорные на . Например, регуляризация Тихонова соответствует нормально распределенному априорному значению с центром в 0. Чтобы увидеть это, сначала обратите внимание, что цель OLS пропорциональна логарифмической функции правдоподобия, когда каждая выборка распределена нормально . Затем заметьте, что нормальный априор с центром в 0 имеет логарифмическую вероятность вида

где и - константы, зависящие от дисперсии априорной и не зависящие от . Таким образом, минимизация логарифма вероятности, умноженной на априор, эквивалентна минимизации суммы функции потерь OLS и члена регуляризации гребневой регрессии.

Это дает более интуитивную интерпретацию того, почему регуляризация Тихонова приводит к уникальному решению проблемы наименьших квадратов: существует бесконечно много векторов, удовлетворяющих ограничениям, полученным из данных, но поскольку мы приходим к проблеме с априорным убеждением, что распределение нормально вокруг начала координат, мы в конечном итоге выберем решение с учетом этого ограничения.

Другие методы регуляризации соответствуют другим априорным значениям. См. Список ниже для получения более подробной информации.

Конкретные примеры [ править ]

Регрессия хребта (или регуляризация Тихонова)[ редактировать ]

Одним из наиболее распространенных вариантов штрафной функции является квадрат нормы , т. Е. ℓ 2 {\displaystyle \ell _{2}}

Наиболее распространенные названия для этого - регуляризация Тихонова и гребневая регрессия . Он допускает решение закрытой формы для :

Регрессия гребня имен намекает на тот факт, что термин добавляет положительные элементы вдоль диагонального гребня матрицы ковариаций выборки .

Когда , то есть в случае обычных наименьших квадратов , условие, которое приводит к тому, что выборочная ковариационная матрица не имеет полного ранга и поэтому ее нельзя инвертировать для получения уникального решения. Вот почему может быть бесконечное множество решений обычной задачи наименьших квадратов, когда . Однако, когда , например, когда используется гребневая регрессия, добавление к выборочной ковариационной матрице гарантирует, что все ее собственные значения будут строго больше нуля. Другими словами, она становится обратимой, и решение становится уникальным.

По сравнению с обычным методом наименьших квадратов регрессия гребня не является беспристрастной. Он допускает небольшое смещение, чтобы уменьшить дисперсию и среднеквадратичную ошибку , а также помогает повысить точность прогноза. Таким образом, оценка гребня дает более стабильные решения за счет сокращения коэффициентов, но страдает отсутствием чувствительности к данным.

Регрессия лассо [ править ]

Другой популярный выбор - метод наименьшего абсолютного отбора и усадки (LASSO). В регрессии лассо функция штрафа лассо является нормой , т. Е. ℓ 1 {\displaystyle \ell _{1}}

Обратите внимание, что функция штрафа лассо является выпуклой, но не строго выпуклой. В отличие от регуляризации Тихонова , эта схема не имеет удобного решения в замкнутой форме: вместо этого решение обычно находится с использованием квадратичного программирования или более общих методов выпуклой оптимизации , а также с помощью конкретных алгоритмов, таких как алгоритм регрессии наименьшего угла .

Важное различие между регрессией лассо и регуляризацией Тихонова состоит в том, что регрессия лассо заставляет большее количество записей фактически равняться 0, чем было бы в противном случае. Напротив, в то время как регуляризация Тихонова заставляет элементы быть маленькими, она не заставляет большее их количество равняться 0, чем было бы в противном случае. Таким образом, регуляризация LASSO более уместна, чем регуляризация Тихонова, в тех случаях, когда мы ожидаем, что количество ненулевых элементов будет небольшим, и регуляризация Тихонова более уместна, когда мы ожидаем, что элементы , как правило, будут небольшими, но не обязательно нулевыми. Какой из этих режимов более актуален, зависит от конкретного набора данных.

Помимо выбора функций, описанного выше, LASSO имеет некоторые ограничения. Регрессия гребня обеспечивает лучшую точность в случае сильно коррелированных переменных. [1] В другом случае , LASSO выбирает не больше переменных. Более того, LASSO имеет тенденцию выбирать некоторые произвольные переменные из группы сильно коррелированных выборок, поэтому эффект группировки отсутствует.

0 Наказание [ править ]

Самый крайний способ усилить разреженность - сказать, что действительная величина коэффициентов не имеет значения; скорее, единственное, что определяет сложность, - это количество ненулевых записей. Это соответствует обстановке , чтобы быть нормой в . Эта функция регуляризации, хотя и привлекательна своей разреженностью, которую она гарантирует, очень трудно решить, поскольку для этого требуется оптимизация функции, которая даже не является слабо выпуклой . Регрессия лассо - это минимально возможное ослабление штрафов, которое приводит к слабовыпуклой задаче оптимизации. ℓ 0 {\displaystyle \ell _{0}}

Эластичная сетка [ править ]

Для любого неотрицательного и объективного имеет следующий вид:

Пусть , тогда решение задачи минимизации описывается как:

для некоторых .

Рассматривается как функция штрафа Elastic Net.

Когда эластичная сетка становится регрессией гребня, тогда как она становится лассо. Функция штрафа Elastic Net не имеет первой производной в 0 и является строго выпуклой, принимая свойства как лассо-регрессии, так и гребневой регрессии .

Одним из основных свойств Elastic Net является то, что он может выбирать группы коррелированных переменных. Разница между весовыми векторами выборок и определяется как:

, где . [2]

Если и сильно коррелированы ( ), весовые векторы очень близки. В случае отрицательно коррелированных выборок ( ) образцы могут быть взяты. Подводя итог, для сильно коррелированных переменных весовые векторы имеют тенденцию быть равными с точностью до знака в случае отрицательно коррелированных переменных.

Неполный список методов СБН [ править ]

Ниже приведен список возможных вариантов функции регуляризации , а также имя для каждой из них, соответствующий предыдущий вариант, если есть простой, и способы вычисления решения результирующей задачи оптимизации.

См. Также [ править ]

  • Наименьших квадратов
  • Регуляризация в математике.
  • Ошибка обобщения , одна из причин использования регуляризации.
  • Тихоновская регуляризация
  • Регрессия лассо
  • Упругая сетевая регуляризация
  • Регрессия наименьшего угла

Ссылки [ править ]

  1. ^ Тибширани Роберт (1996). «Регрессионное сжатие и выделение с помощью лассо» (PDF) . Журнал Королевского статистического общества, Series B . 58 : С. 266–288.
  2. ^ Хуэй, Цзоу ; Хасти, Тревор (2003). «Регуляризация и выбор переменных через эластичную сеть» (PDF) . JRSSB . 67 (2): стр. 301–320.

Внешние ссылки [ править ]

  • http://www.stanford.edu/~hastie/TALKS/enet_talk.pdf Регуляризация и выбор переменных через эластичную сеть (презентация)
  • Регуляризованные наименьшие квадраты и машины опорных векторов (презентация)
  • Регулярные наименьшие квадраты (презентация)