Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
И зеленая, и синяя функции несут нулевые потери в заданных точках данных. Выученная модель может быть склонена к предпочтению функции зеленого, которая может лучше обобщаться на большее количество точек, извлеченных из основного неизвестного распределения, путем корректировки веса члена регуляризации.

В математике , статистика , финансы , [1] компьютерные науки , в частности , в машинном обучении и обратных задачах , регуляризация является процессом добавления информации для того , чтобы решить некорректную проблему или предотвратить переобучения . [2]

Регуляризация применяется к целевым функциям в некорректных задачах оптимизации. Член регуляризации, или штраф, накладывает затраты на функцию оптимизации за переобучение функции или на поиск оптимального решения.

В машинном обучении регуляризация - это любая модификация алгоритма обучения, предназначенная для уменьшения его ошибки обобщения, но не ошибки обучения [3]

Классификация [ править ]

Эмпирическое изучение классификаторов (из конечного набора данных) всегда является недооцененной проблемой, потому что оно пытается вывести функцию любых заданных только примеров .

Член регуляризации (или регуляризатор) добавляется к функции потерь :

где - базовая функция потерь, которая описывает стоимость прогнозирования того, когда метка , например, потери площади или потери на шарнире ; и является параметром, который контролирует важность члена регуляризации. обычно выбирается для наложения штрафа на сложность . Используемые конкретные понятия сложности включают ограничения на гладкость и границы нормы векторного пространства . [4] [ необходима страница ]

Теоретическим обоснованием регуляризации является то, что она пытается наложить на раствор бритву Оккама (как показано на рисунке выше, где более простая функция зеленого цвета может быть предпочтительнее). С байесовской точки зрения многие методы регуляризации соответствуют наложению определенных априорных распределений на параметры модели. [5]

Регуляризация может служить нескольким целям, включая изучение более простых моделей, уменьшение количества моделей и введение групповой структуры [ требуется пояснение ] в проблему обучения.

Та же идея возникла во многих областях науки . Простая форма регуляризации, применяемая к интегральным уравнениям ( регуляризация Тихонова ), по сути, представляет собой компромисс между подгонкой данных и уменьшением нормы решения. В последнее время стали популярными методы нелинейной регуляризации, включая регуляризацию полной вариации .

Обобщение [ править ]

Регуляризацию можно использовать как метод улучшения обобщения усвоенной модели.

Цель этой задачи обучения - найти функцию, которая соответствует или предсказывает результат (метку), которая минимизирует ожидаемую ошибку по всем возможным входам и меткам. Ожидаемая ошибка функции :

где и - области входных данных и их метки соответственно.

Обычно в задачах обучения доступна только часть входных данных и меток, измеренных с некоторым шумом. Следовательно, ожидаемая ошибка неизмерима, и лучший доступный суррогат - это эмпирическая ошибка по доступным выборкам:

Без ограничений на сложность доступного функционального пространства (формально, гильбертова пространства воспроизводящего ядра ) будет изучена модель, которая несет нулевые потери на суррогатную эмпирическую ошибку. Если измерения (например, ) были выполнены с шумом, эта модель может страдать от переобучения и отображать плохую ожидаемую ошибку. Регуляризация вводит штраф за исследование определенных областей функционального пространства, используемого для построения модели, что может улучшить обобщение.

Тихоновская регуляризация [ править ]

Эти методы названы в честь Андрея Николаевича Тихонова , который применил регуляризацию к интегральным уравнениям и внес важный вклад во многие другие области.

При изучении линейной функции , характеризующейся неизвестном вектором таким образом, что можно добавить -норм вектора к выражению потери для того , предпочитать решения с меньшими нормами. Тихоновская регуляризация - одна из самых распространенных форм. Это также известно как регресс гребня. Это выражается как:

В случае общей функции норма функции в ее воспроизводящем ядре гильбертовом пространстве равна:

Поскольку норма дифференцируема , обучение можно продвигать путем градиентного спуска .

Регуляризованный по Тихонову метод наименьших квадратов [ править ]

Задачу обучения с функцией потерь по методу наименьших квадратов и регуляризацией Тихонова можно решить аналитически. Записанный в матричной форме, оптимальным считается тот, для которого градиент функции потерь по отношению к равен 0.

   ( условие первого порядка )

При построении задачи оптимизации другие значения дают большие значения для функции потерь. В этом можно убедиться, исследуя вторую производную .

Во время обучения этот алгоритм требует времени . Члены соответствуют обращению матрицы и вычислению соответственно. Тестирование требует времени.

Ранняя остановка [ править ]

Раннюю остановку можно рассматривать как упорядочение во времени. Интуитивно понятно, что процедура обучения, такая как градиентный спуск, имеет тенденцию изучать все более и более сложные функции с увеличением количества итераций. Регуляризация по времени позволяет контролировать сложность модели, улучшая обобщение.

Ранняя остановка реализуется с использованием одного набора данных для обучения, одного статистически независимого набора данных для проверки и другого для тестирования. Модель обучается до тех пор, пока производительность на проверочном наборе не перестанет улучшаться, а затем применяется к набору тестов.

Теоретическая мотивация методом наименьших квадратов [ править ]

Рассмотрим конечную аппроксимацию ряда Неймана для обратимой матрицы A, где :

Это можно использовать для аппроксимации аналитического решения нерегуляризованных наименьших квадратов, если ввести γ, чтобы гарантировать, что норма меньше единицы.

Точное решение нерегулярной задачи обучения методом наименьших квадратов минимизирует эмпирическую ошибку, но может потерпеть неудачу. Ограничивая T , единственный свободный параметр в приведенном выше алгоритме, проблема регулируется по времени, что может улучшить ее обобщение.

Вышеупомянутый алгоритм эквивалентен ограничению количества итераций градиентного спуска для эмпирического риска

с обновлением градиентного спуска:

Базовый случай тривиален. Индуктивный случай доказывается следующим образом:

Регуляризаторы для разреженности [ править ]

Предположим, что дан словарь с размерностью так , что функция в функциональном пространстве может быть выражена как:

Сравнение шара L1 и шара L2 в двух измерениях дает интуитивное представление о том, как регуляризация L1 обеспечивает разреженность.

Применение ограничения разреженности может привести к более простым и интерпретируемым моделям. Это полезно во многих реальных приложениях, таких как вычислительная биология . Примером может служить разработка простого прогностического теста на заболевание, чтобы минимизировать затраты на выполнение медицинских тестов при максимальной прогностической способности.

Разумное ограничение разреженности - это норма , определяемая как количество ненулевых элементов в . Однако решение регуляризованной проблемы обучения оказалось NP-трудным . [6] L 0 {\displaystyle L_{0}}

Норма (смотрите также Нормы ) может быть использована для аппроксимации оптимальной нормы с помощью выпуклой релаксации. Можно показать, что норма порождает разреженность. В случае метода наименьших квадратов эта проблема известна как LASSO в статистике и поиск базиса в обработке сигналов. L 1 {\displaystyle L_{1}} L 0 {\displaystyle L_{0}} L 1 {\displaystyle L_{1}}

Упругая сетевая регуляризация

L 1 {\displaystyle L_{1}} регуляризация может иногда приводить к неуникальным решениям. На рисунке представлен простой пример, когда пространство возможных решений лежит на линии под углом 45 градусов. Это может быть проблематичным для определенных приложений и преодолеваться путем комбинирования с регуляризацией в эластичной сетевой регуляризации , которая принимает следующую форму: L 1 {\displaystyle L_{1}} L 2 {\displaystyle L_{2}}

Упругая чистая регуляризация имеет тенденцию иметь эффект группировки, когда коррелированным входным характеристикам присваиваются равные веса.

Упругая сетевая регуляризация широко используется на практике и реализована во многих библиотеках машинного обучения.

Проксимальные методы [ править ]

Хотя норма не приводит к NP-трудной проблеме, норма выпуклая, но не строго дифференцируема [ sic ? ] из-за перегиба при x = 0. Методы субградиента, которые полагаются на субпроизводную, можно использовать для решения регуляризованных задач обучения. Однако более быстрая сходимость может быть достигнута проксимальными методами. L 1 {\displaystyle L_{1}} L 1 {\displaystyle L_{1}} L 1 {\displaystyle L_{1}}

Для такой задачи , которая является выпуклой, непрерывной, дифференцируемой, с непрерывным липшицевым градиентом (например, функцией потерь по методу наименьших квадратов) и является выпуклой, непрерывной и правильной, тогда ближайший метод решения проблемы выглядит следующим образом. Сначала определим проксимальный оператор

а затем повторить

Проксимальный метод итеративно выполняет градиентный спуск, а затем проецирует результат обратно в пространство, разрешенное .

Когда - регуляризатор, проксимальный оператор эквивалентен оператору мягкой пороговой обработки, L 1 {\displaystyle L_{1}}

Это позволяет проводить эффективные вычисления.

Редкость группы без перекрытий [ править ]

Группы функций можно упорядочить с помощью ограничения разреженности, которое может быть полезно для выражения определенных предварительных знаний в задаче оптимизации.

В случае линейной модели с неперекрывающимися известными группами можно определить регуляризатор:

куда

Это можно рассматривать как введение регуляризатора по норме по членам каждой группы, за которой следует норма по группам.

Это может быть решено с помощью проксимального метода, где проксимальный оператор представляет собой блочную функцию мягкой пороговой обработки:

Редкость группы с перекрытиями [ править ]

Алгоритм, описанный для разреженности групп без перекрытий, может быть применен к случаю, когда группы действительно перекрываются, в определенных ситуациях. Это, вероятно, приведет к появлению некоторых групп со всеми нулевыми элементами и других групп с некоторыми ненулевыми и некоторыми нулевыми элементами.

Если желательно сохранить структуру группы, можно определить новый регуляризатор:

Для каждого , определяются как вектор , такие , что ограничение на группы равные и все остальные записи равен нуль. Регуляризатор находит оптимальное разделение на части. Его можно рассматривать как дублирование всех элементов, которые существуют в нескольких группах. Проблемы обучения с помощью этого регуляризатора также могут быть решены проксимальным методом с некоторыми осложнениями. Ближайший оператор не может быть вычислен в замкнутой форме, но может эффективно решаться итеративно, вызывая внутреннюю итерацию в ближайшей итерации метода.

Регуляризаторы для обучения без учителя [ править ]

Когда сбор меток обходится дороже, чем входные примеры, может быть полезно полу-контролируемое обучение. Регуляризаторы были разработаны, чтобы направлять алгоритмы обучения для изучения моделей, которые учитывают структуру обучающих выборок без учителя. Если дана симметричная весовая матрица , можно определить регуляризатор:

Если кодирует результат некоторой метрики расстояния для точек и , желательно, чтобы . Этот регуляризатор улавливает эту интуицию и эквивалентен:

где - матрица Лапласа графа, индуцированного .

Задача оптимизации может быть решена аналитически, если ограничение применяется ко всем контролируемым выборкам. Поэтому отмеченная часть вектора очевидна. Непомеченная часть решается за:

Обратите внимание, что псевдообратное значение может быть взято, потому что оно имеет тот же диапазон, что и .

Регуляризаторы для многозадачного обучения [ править ]

В случае многозадачного обучения проблемы рассматриваются одновременно, каждая из которых каким-то образом связана. Цель состоит в том, чтобы изучить функции, в идеале заимствуя силу из взаимосвязи задач, которые обладают предсказательной силой. Это эквивалентно изучению матрицы .

Разреженный регуляризатор столбцов [ править ]

Этот регуляризатор определяет норму L2 для каждого столбца и норму L1 для всех столбцов. Ее можно решить проксимальными методами.

Регуляризация ядерных норм [ править ]

где это собственные значения в сингулярном разложении в .

Регуляризация с ограничениями по среднему значению [ править ]

Этот регуляризатор ограничивает функции, изученные для каждой задачи, подобными общему среднему значению функций для всех задач. Это полезно для выражения предыдущей информации, которую каждая задача, как ожидается, поделится с другой задачей. Примером может служить прогнозирование уровня железа в крови, измеренного в разное время дня, где каждая задача представляет собой отдельного человека.

Кластерная регуляризация с ограничениями по среднему [ править ]

где кластер задач.

Этот регуляризатор похож на регуляризатор со средним ограничением, но вместо этого обеспечивает сходство между задачами в одном кластере. Это может захватить более сложную априорную информацию. Этот метод использовался для прогнозирования рекомендаций Netflix . Кластер соответствует группе людей, разделяющих схожие предпочтения.

Сходство на основе графиков [ править ]

В более общем плане, чем указано выше, сходство между задачами может быть определено функцией. Регуляризатор побуждает модель изучать аналогичные функции для аналогичных задач.

для данной симметричной матрицы подобия .

Другие способы использования регуляризации в статистике и машинном обучении [ править ]

Байесовские методы обучения используют априорную вероятность, которая (обычно) дает более низкую вероятность более сложным моделям. Хорошо известные методы выбора модели включают информационный критерий Акаике (AIC), минимальную длину описания (MDL) и байесовский информационный критерий (BIC). Альтернативные методы контроля переобучения, не связанные с регуляризацией, включают перекрестную проверку .

Примеры применения различных методов регуляризации к линейной модели :

См. Также [ править ]

  • Байесовская интерпретация регуляризации
  • Компромисс смещения и дисперсии
  • Матричная регуляризация
  • Регуляризация с помощью спектральной фильтрации
  • Регуляризованный метод наименьших квадратов
  • Множитель Лагранжа

Заметки [ править ]

  1. ^ Kratsios, Анастасис (2020). «Глубокое обучение без арбитража в обобщенной структуре HJM с использованием данных регуляризации арбитража» . Риски: [1] . DOI : 10,3390 / risks8020040 . Модели временной структуры можно упорядочить, чтобы исключить возможности арбитража [ sic ? ]. Cite journal requires |journal= (help)
  2. ^ Бюльманн, Питер; Ван Де Гир, Сара (2011). «Статистика многомерных данных» . Серии Спрингера в статистике: 9 . DOI : 10.1007 / 978-3-642-20192-9 . ISBN 978-3-642-20191-2. Если p> n, обычная оценка методом наименьших квадратов не уникальна и сильно переоценивает данные. Таким образом, потребуется форма регуляризации сложности. Cite journal requires |journal= (help)
  3. ^ "Книга глубокого обучения" . www.deeplearningbook.org . Источник 2021-01-29 .
  4. ^ a b Епископ, Кристофер М. (2007). Распознавание образов и машинное обучение (Корр. Полиграф. Ред.). Нью-Йорк: Спрингер. ISBN 978-0387310732.
  5. ^ Для связи между максимальной апостериорной оценкой и регрессией гребня см. Weinberger, Kilian (11 июля 2018 г.). «Линейная / хребтовая регрессия» . Лекция по машинному обучению CS4780 13 . Корнелл.
  6. ^ Натараджан, Б. (1995-04-01). «Разреженные приближенные решения линейных систем» . SIAM Journal on Computing . 24 (2): 227–234. DOI : 10,1137 / S0097539792240406 . ISSN 0097-5397 . 
  7. ^ Дуда, Ричард О. (2004). Классификация образцов + компьютерное руководство: набор в твердом переплете (2-е изд.). Нью-Йорк [ua]: Wiley. ISBN 978-0471703501.
  8. ^ Артур Э. Хорл; Роберт В. Кеннард (1970). «Риджевая регрессия: предвзятые оценки для неортогональных проблем». Технометрика . 12 (1): 55–67. DOI : 10.2307 / 1267351 .
  9. ^ Тибширани, Роберт (1996). «Регрессионное сжатие и выделение с помощью лассо» ( PostScript ) . Журнал Королевского статистического общества, Series B . 58 (1): 267–288. Руководство по ремонту 1379242 . Проверено 19 марта 2009 .  
  10. Ли Ван, Майкл Д. Гордон и Цзи Чжу (2006). «Регуляризованная регрессия наименьших абсолютных отклонений и эффективный алгоритм настройки параметров». Шестая международная конференция по интеллектуальному анализу данных . С. 690–700. DOI : 10.1109 / ICDM.2006.134 .
  11. ^ Кандес, Эммануэль ; Тао, Теренс (2007). «Селектор Данцига: статистическая оценка, когда p намного больше n ». Анналы статистики . 35 (6): 2313–2351. arXiv : math / 0506081 . DOI : 10.1214 / 009053606000001523 . Руководство по ремонту 2382644 . 
  12. ^ Малгожата Богдан, Ewout ван ден Берг, Weijie Su & Emmanuel J. Candes (2013). «Статистическая оценка и тестирование по заказанной норме L1». arXiv : 1310.1969 [ stat.ME ].CS1 maint: multiple names: authors list (link)

Ссылки [ править ]

  • Ноймайер, А. (1998). «Решение плохо обусловленных и сингулярных линейных систем: Учебное пособие по регуляризации» (PDF) . SIAM Обзор . 40 (3): 636–666. DOI : 10.1137 / S0036144597321909 .