Из Википедии, бесплатной энциклопедии
  (Перенаправлено из регрессии хребта )
Перейти к навигации Перейти к поиску

Тихонов регуляризация , названный в честь Андрея Тихонова , является метод регуляризации в некорректных задач . Риджевая регрессия [a] - это частный случай регуляризации Тихонова, в которой все параметры регуляризованы одинаково. Риджерная регрессия особенно полезна для смягчения проблемы мультиколлинеарности в линейной регрессии , которая обычно возникает в моделях с большим количеством параметров. [1] В целом, этот метод обеспечивает повышенную эффективность в задачах оценки параметров в обмен на допустимую величину смещения (см. Компромисс смещения и дисперсии ).[2]

В простейшем случае проблема матрицы моментов, близких к сингулярным , снимается путем добавления положительных элементов к диагоналям , тем самым уменьшая ее число обусловленности . По аналогии с обычной оценкой методом наименьших квадратов , простая оценка гребня в этом случае имеет вид

где - регрессион , - матрица плана , - единичная матрица , а параметр гребня служит константой, смещающей диагонали матрицы моментов. [3] Можно показать, что эта оценка является решением задачи наименьших квадратов с учетом ограничения , которое может быть выражено как лагранжиан:

что показывает, что это не что иное, как множитель Лагранжа ограничения. В случае , когда ограничение не является обязательным , оценка гребня сводится к обычным методам наименьших квадратов . Более общий подход к регуляризации Тихонова обсуждается ниже.

История [ править ]

Тихоновская регуляризация была изобретена независимо во многих различных контекстах. Он стал широко известен благодаря его применению к интегральным уравнениям из работ Андрея Тихонова [4] [5] [6] [7] [8] и Дэвида Л. Филлипса. [9] Некоторые авторы используют термин регуляризация Тихонова – Филлипса . Конечномерный случай был изложен Артуром Э. Хорлом , который использовал статистический подход [10], и Манусом Фостером, который интерпретировал этот метод как фильтр Винера – Колмогорова (Кригинга) . [11] Вслед за Хёрлом это известно в статистической литературе как гребневая регрессия. [12]

Тихоновская регуляризация [ править ]

Предположим, что для известной матрицы и вектора мы хотим найти такой вектор , что [ требуется пояснение ]

Стандартный подход - это обычная линейная регрессия методом наименьших квадратов . [ требуется пояснение ] Однако, если ни одно из них не удовлетворяет уравнению или удовлетворяет более одного - то есть решение не является уникальным, - проблема считается некорректной . В таких случаях обычная оценка методом наименьших квадратов приводит к переопределенной или, чаще, недоопределенной системе уравнений. Большинство реальных явлений имеют эффект фильтров нижних частот в прямом направлении , в котором сопоставляется с . Следовательно, при решении обратной задачи обратное отображение работает как фильтр верхних частот.который имеет нежелательную тенденцию к усилению шума ( собственные значения / сингулярные значения являются наибольшими при обратном отображении, где они были наименьшими при прямом отображении). Кроме того, обычный метод наименьших квадратов неявно обнуляет каждый элемент реконструированной версии, который находится в нулевом пространстве , вместо того, чтобы позволить использовать модель в качестве априорной для . Обычный метод наименьших квадратов стремится минимизировать сумму квадратов остатков , которую можно компактно записать как

где - евклидова норма .

Чтобы отдать предпочтение конкретному решению с желаемыми свойствами, в эту минимизацию можно включить член регуляризации:

для некоторой правильно подобранной матрицы Тихонова . Во многих случаях эта матрица выбирается как кратная единичной матрице ( ), отдавая предпочтение решениям с меньшими нормами ; это известно как регуляризация L 2 . [13] В других случаях операторы высоких частот (например, оператор разности или взвешенный оператор Фурье ) могут использоваться для обеспечения гладкости, если основной вектор считается в основном непрерывным. Эта регуляризация улучшает условия задачи, что позволяет получить прямое численное решение. Явное решение, обозначенное как , дается формулой

Эффект регуляризации может варьироваться в зависимости от масштаба матрицы . Для этого сводится к решению нерегуляризованное наименьших квадратов, при условии , что (А Т А) -1 существует.

L 2 регуляризации используется во многих контекстахстороне от линейной регрессии, такие как классификация с логистической регрессии или векторных машин поддержки , [14] и матричной прогонки. [15]

Обобщенная тихоновская регуляризация [ править ]

Для общих многомерных нормальных распределений для и ошибки данных можно применить преобразование переменных, чтобы свести их к приведенному выше случаю. Точно так же можно стремиться минимизировать

где мы привыкли обозначать квадрат взвешенной нормы (сравните с расстоянием Махаланобиса ). В байесовской интерпретации является обратной матрицей ковариаций из , представляет собой ожидаемое значение из , и является обратной ковариационной матрицей . Затем матрица Тихонова задается как факторизация матрицы (например, факторизация Холецкого ) и считается отбеливающим фильтром .

Эта обобщенная задача имеет оптимальное решение, которое можно явно записать по формуле

или эквивалентно

Лаврентьевская регуляризация [ править ]

В некоторых ситуациях можно избежать использования транспонирования , предложенного Михаилом Лаврентьевым . [16] Например, if является симметричным положительно определенным, т. Е. То же самое и обратным ему , которое, таким образом, может использоваться для установки квадрата взвешенной нормы в обобщенной регуляризации Тихонова, что приводит к минимизации

или, что то же самое, с точностью до постоянного члена,

.

Эта задача минимизации имеет оптимальное решение, которое можно явно записать по формуле

,

что есть не что иное, как решение обобщенной проблемы Тихонова, где

Регуляризация Лаврентьева, если применима, выгодна исходной регуляризации Тихонова, поскольку матрица Лаврентьева может быть лучше обусловлена, т. Е. Иметь меньшее число обусловленности , по сравнению с матрицей Тихонова

Регуляризация в гильбертовом пространстве [ править ]

Обычно дискретные линейные плохо обусловленные задачи возникают в результате дискретизации интегральных уравнений , и можно сформулировать регуляризацию Тихонова в исходном бесконечномерном контексте. Вышесказанное мы можем интерпретировать как компактный оператор в гильбертовых пространствах , и как элементы в области определения и области значений . Тогда оператор является самосопряженным ограниченным обратимым оператором.

Связь с разложением по сингулярным числам и фильтром Винера [ править ]

При этом решение методом наименьших квадратов может быть проанализировано особым образом с использованием сингулярного разложения . Учитывая разложение по сингулярным числам

с сингулярными значениями регуляризованное решение Тихонова может быть выражено как

где имеет диагональные значения

и равен нулю в других местах. Это демонстрирует влияние параметра Тихонова на число обусловленности регуляризованной задачи. Для обобщенного случая аналогичное представление может быть получено с помощью обобщенного разложения по сингулярным числам . [17]

Наконец, это связано с фильтром Винера :

где веса Винера и является ранг из .

Определение фактора Тихонова [ править ]

Оптимальный параметр регуляризации обычно неизвестен и часто в практических задачах определяется специальным методом. Возможный подход основан на байесовской интерпретации, описанной ниже. Другие подходы включают в себя принцип невязки , кросс-проверку , метод L-кривой , [18] ограниченное максимального правдоподобие и объективное прогностическое оценивание риски . Грейс Вахба доказала, что оптимальный параметр в смысле перекрестной проверки без исключения минимизирует [19] [20]

где - остаточная сумма квадратов , - эффективное число степеней свободы .

Используя предыдущую декомпозицию SVD, мы можем упростить приведенное выше выражение:

и

Отношение к вероятностной формулировке [ править ]

Вероятностная формулировка обратной задачи вводит (когда все неопределенности являются гауссовыми) ковариационную матрицу, представляющую априорные неопределенности для параметров модели, и ковариационную матрицу, представляющую неопределенности для наблюдаемых параметров. [21] В частном случае, когда эти две матрицы являются диагональными и изотропными, и , и, в этом случае, уравнения обратной теории сводятся к уравнениям выше, с .

Байесовская интерпретация [ править ]

Хотя поначалу выбор решения этой регуляризованной проблемы может показаться искусственным, да и сама матрица кажется довольно произвольной, этот процесс может быть оправдан с байесовской точки зрения . Обратите внимание, что для некорректно поставленной задачи необходимо обязательно ввести некоторые дополнительные предположения, чтобы получить единственное решение. Статистически априорное распределение вероятностей иногда считается многомерным нормальным распределением . Для простоты здесь сделаны следующие предположения: средние значения равны нулю; их компоненты независимы; компоненты имеют одинаковое стандартное отклонение . Данные также подвержены ошибкам, и предполагается , что ошибки в независимые с нулевым средним и стандартным отклонением . При этих предположениях регуляризованное по Тихонову решение является наиболее вероятным решением с учетом данных и априорного распределения согласно теореме Байеса . [22]

Если предположение о нормальности заменено предположениями о гомоскедастичности и некоррелированности ошибок , и если все еще предполагается нулевое среднее, то теорема Гаусса – Маркова влечет за собой, что решение является минимальной несмещенной линейной оценкой . [23]

См. Также [ править ]

  • Оценщик LASSO - еще один метод регуляризации в статистике.
  • Упругая сетевая регуляризация
  • Матричная регуляризация

Заметки [ править ]

  1. ^ В статистике , этот метод известен как конек регресса , в машине обучения он известен как вес распад , и с несколькими независимых открытиями, он такжеразному известных как метод Тихонова-Миллер , то Филипс-Того метод , то ограничивается линейная инверсией метод, L 2 регуляризация и метод линейной регуляризации . Он связан с алгоритмом Левенберга – Марквардта для нелинейных задач наименьших квадратов .

Ссылки [ править ]

  1. ^ Кеннеди, Питер (2003). Руководство по эконометрике (Пятое изд.). Кембридж: MIT Press. С. 205–206. ISBN 0-262-61183-X.
  2. Перейти ↑ Gruber, Marvin (1998). Повышение эффективности за счет сжатия: оценки регрессии Джеймса – Стейна и Риджа . Бока-Ратон: CRC Press. С. 7–15. ISBN 0-8247-0156-9.
  3. ^ Для практического выборасм. Khalaf, Ghadban; Шукур, Гази (2005). «Выбор параметра хребта для задач регрессии». Коммуникации в статистике - теория и методы . 34 (5): 1177–1182. DOI : 10.1081 / STA-200056836 . S2CID 122983724 . 
  4. Тихонов, Андрей Николаевич (1943). "Об устойчивости обратных задач". Доклады Академии Наук СССР . 39 (5): 195–198.
  5. Тихонов, АН (1963). "О решении некорректно поставленных задач и методе регуляризации". Доклады Академии Наук СССР . 151 : 501–504.. Перевел в «Решение некорректно сформулированных задач и метод регуляризации». Советская математика . 4 : 1035–1038.
  6. ^ Тихонов, АН; В.Ю. Арсенин (1977). Решение некорректных задач . Вашингтон: Уинстон и сыновья. ISBN 0-470-99124-0.
  7. Тихонов Андрей Николаевич; Гончарский, А .; Степанов, В.В.; Ягола, Анатолий Григорьевич (30 июня 1995 г.). Численные методы решения некорректных задач . Нидерланды: Springer, Нидерланды. ISBN 079233583X. Проверено 9 августа 2018 .
  8. Тихонов Андрей Николаевич; Леонов, Александр С .; Ягола, Анатолий Григорьевич (1998). Нелинейные некорректные задачи . Лондон: Чепмен и Холл. ISBN 0412786605. Проверено 9 августа 2018 .
  9. Перейти ↑ Phillips, DL (1962). «Методика численного решения некоторых интегральных уравнений первого рода». Журнал ACM . 9 : 84–97. DOI : 10.1145 / 321105.321114 . S2CID 35368397 . 
  10. ^ Hoerl, Артур Э. (1962). «Применение хребтового анализа к задачам регрессии». Прогресс химического машиностроения . 58 (3): 54–59.
  11. ^ Фостер, М. (1961). "Применение теории сглаживания Винера-Колмогорова к обращению матриц". Журнал Общества промышленной и прикладной математики . 9 (3): 387–392. DOI : 10.1137 / 0109031 .
  12. ^ Hoerl, AE; Р. В. Кеннард (1970). «Риджевая регрессия: предвзятые оценки для неортогональных проблем». Технометрика . 12 (1): 55–67. DOI : 10.1080 / 00401706.1970.10488634 .
  13. Перейти ↑ Ng, Andrew Y. (2004). Выбор функций, регуляризация L1 и L2 и инвариантность вращения (PDF) . Proc. ICML .
  14. ^ Р.-Э. Поклонник; К.-В. Чанг; К.-Дж. Се; X.-R. Ванга; К.-Дж. Линь (2008). «LIBLINEAR: библиотека для большой линейной классификации». Журнал исследований в области машинного обучения . 9 : 1871–1874.
  15. ^ Гуань, Найян; Тао, Дачэн; Ло, Чжиган; Юань, Бо (2012). «Оперативная факторизация неотрицательной матрицы с робастной стохастической аппроксимацией». Транзакции IEEE в нейронных сетях и обучающих системах . 23 (7): 1087–1099. DOI : 10.1109 / TNNLS.2012.2197827 . PMID 24807135 . S2CID 8755408 .  
  16. Лаврентьев, М.М. (1967). Некоторые некорректно поставленные задачи математической физики . Нью-Йорк: Спрингер.
  17. Хансен, Пер Кристиан (1 января 1998 г.). Недостаток ранга и дискретные некорректные задачи: численные аспекты линейной инверсии (1-е изд.). Филадельфия, США: SIAM. ISBN 9780898714036.
  18. ^ PC Hansen, "L-кривая и ее использование в численном решении обратных задач", [1]
  19. ^ Вахба, G. (1990). «Сплайновые модели для данных наблюдений». CBMS-NSF Серия региональных конференций по прикладной математике . Общество промышленной и прикладной математики. Bibcode : 1990smod.conf ..... W .
  20. ^ Голуб, Г .; Heath, M .; Вахба, Г. (1979). «Обобщенная перекрестная проверка как метод выбора хорошего параметра гребня» (PDF) . Технометрика . 21 (2): 215–223. DOI : 10.1080 / 00401706.1979.10489751 .
  21. ^ Тарантола, Альберт (2005). Теория обратной задачи и методы оценки параметров модели (1-е изд.). Филадельфия: Общество промышленной и прикладной математики (SIAM). ISBN 0898717922. Проверено 9 августа 2018 .
  22. Перейти ↑ Vogel, Curtis R. (2002). Вычислительные методы решения обратных задач . Филадельфия: Общество промышленной и прикладной математики. ISBN 0-89871-550-4.
  23. ^ Amemiya, Такеши (1985). Продвинутая эконометрика . Издательство Гарвардского университета. С.  60–61 . ISBN 0-674-00560-0.

Дальнейшее чтение [ править ]

  • Грубер, Марвин (1998). Повышение эффективности за счет сжатия: оценки регрессии Джеймса – Стейна и Риджа . Бока-Ратон: CRC Press. ISBN 0-8247-0156-9.
  • Кресс, Райнер (1998). «Тихоновская регуляризация» . Численный анализ . Нью-Йорк: Спрингер. С. 86–90. ISBN 0-387-98408-9.
  • Нажмите, WH; Теукольский, С.А. Феттерлинг, Вашингтон; Фланнери, ВР (2007). «Раздел 19.5. Методы линейной регуляризации» . Числовые рецепты: искусство научных вычислений (3-е изд.). Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0-521-88068-8.
  • Салех, AK Md. Ehsanes; Араши, Мохаммад; Кибрия, Б.М. Голам (2019). Теория оценки хребтовой регрессии с приложениями . Нью-Йорк: Джон Вили и сыновья. ISBN 978-1-118-64461-4.
  • Тэдди, Мэтт (2019). «Регуляризация» . Наука о бизнес-данных: сочетание машинного обучения и экономики для оптимизации, автоматизации и ускорения принятия бизнес-решений . Нью-Йорк: Макгроу-Хилл. С. 69–104. ISBN 978-1-260-45277-8.