Потеря Хубера

В статистике , то потеря Huber является функция потерь используются в прочной регрессии , который менее чувствителен к выбросам в данных , чем квадрате потеря ошибок . Иногда используется вариант классификации.

Определение [ править ]

Потери Хьюбера (зеленый ) и квадратичные потери ошибок (синий) в зависимости от

{\ displaystyle \ delta = 1}

{\ displaystyle yf (x)}

Функция потерь Хьюбера описывает штраф, понесенный процедурой оценки $f$ . Хубер (1964) определяет функцию потерь кусочно по ^[1]

L_{\delta }(a)={\begin{cases}{\frac {1}{2}}{a^{2}}&{\text{for }}|a|\leq \delta ,\\\delta (|a|-{\frac {1}{2}}\delta ),&{\text{otherwise.}}\end{cases}}

Эта функция является квадратичной для малых значений $a$ и линейной для больших значений с равными значениями и наклонами различных участков в двух точках, где . Переменная $a$ часто относится к остаткам, то есть к разнице между наблюдаемыми и прогнозируемыми значениями , поэтому первое может быть расширено до ^[2] $|a|=\delta$ $a=y-f(x)$

L_{\delta }(y,f(x))={\begin{cases}{\frac {1}{2}}(y-f(x))^{2}&{\textrm {for}}|y-f(x)|\leq \delta ,\\\delta \,|y-f(x)|-{\frac {1}{2}}\delta ^{2}&{\textrm {otherwise.}}\end{cases}}

Мотивация [ править ]

В этом разделе не процитировать любые источники . Пожалуйста, помогите улучшить этот раздел , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален . ( Август 2014 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Два очень часто используемые функции потерь являются квадратом потери , и абсолютная потеря , . Квадраты результатов функции потерь в качестве арифметического среднего - несмещенной оценки , и результаты функции потерь абсолютного значения в срединной -unbiased оценки (в одномерном случае, и геометрическая средний -unbiased оценка для многомерного случая). Квадрат потерь имеет недостаток, заключающийся в том, что в нем обычно преобладают выбросы - при суммировании по набору 's (как в ) на выборочное среднее слишком сильно влияют несколько особенно больших значений, когда распределение имеет тяжелые хвосты : с точки зрения $L(a)=a^{2}$ $L(a)=|a|$ $a$ ${\textstyle \sum _{i=1}^{n}L(a_{i})}$ $a$ Согласно теории оценивания , асимптотическая относительная эффективность среднего для распределений с тяжелыми хвостами является плохой.

Как определено выше, функция потерь Хьюбера сильно выпукла в равномерной окрестности своего минимума ; на границе этой равномерной окрестности функция потерь Хьюбера имеет дифференцируемое продолжение до аффинной функции в точках и . Эти свойства позволяют ему сочетать большую часть чувствительности несмещенной по среднему и минимальной дисперсии оценки среднего (с использованием квадратичной функции потерь) и устойчивости несмещенной по медиане оценки (с использованием функции абсолютного значения). $a=0$ $a=-\delta$ $a=\delta$

Функция потерь псевдогубера [ править ]

Функция потерь Псевдо-Хубер может быть использован в качестве гладкой аппроксимации функции потерь Huber. Он сочетает в себе лучшие свойства квадрата потерь L2 и абсолютных потерь L1 , будучи сильно выпуклым при приближении к целевому / минимуму и менее крутым для экстремальных значений. Масштаб, в котором функция потерь псевдохубера переходит от потерь L2 для значений, близких к минимуму, к потерям L1 для экстремальных значений, а крутизна при экстремальных значениях может контролироваться значением. Функция потерь псевдохубера обеспечивает непрерывность производных для всех степеней. Он определяется как ^[3]^[4] $\delta$

L_{\delta }(a)=\delta ^{2}\left({\sqrt {1+(a/\delta )^{2}}}-1\right).

Таким образом, эта функция аппроксимирует для малых значений и аппроксимирует прямую линию с наклоном для больших значений . $a^{2}/2$ $a$ $\delta$ $a$

Хотя приведенная выше форма является наиболее распространенной, существуют и другие гладкие аппроксимации функции потерь Хубера. ^[5]

Вариант классификации [ править ]

В целях классификации иногда используется вариант потери Хубера, называемый модифицированным Хубером . Учитывая прогноз (реальный классификатор) и истинную метку двоичного класса , модифицированная потеря Хубера определяется как ^[6] $f(x)$ $y\in \{+1,-1\}$

L(y,f(x))={\begin{cases}\max(0,1-y\,f(x))^{2}&{\textrm {for}}\,\,y\,f(x)\geq -1,\\-4y\,f(x)&{\textrm {otherwise.}}\end{cases}}

Этот термин представляет собой потерю шарнира, используемую машинами опорного вектора ; квадратично сглажены потери шарнира представляет собой обобщение . ^[6] $\max(0,1-y\,f(x))$ $L$

Приложения [ править ]

Функция потерь Хубера используется в надежной статистике , М-оценке и аддитивном моделировании . ^[7]

См. Также [ править ]

Winsorizing
Надежная регрессия
М-оценка
Визуальное сравнение различных М-оценок

Ссылки [ править ]

^ Хубер, Питер Дж. (1964). «Робастная оценка параметра местоположения» . Анналы статистики . 53 (1): 73–101. DOI : 10.1214 / АОМ / 1177703732 . JSTOR 2238020 .
^ Хасти, Тревор; Тибширани, Роберт; Фридман, Джером (2009). Элементы статистического обучения . п. 349. Архивировано из оригинала на 2015-01-26.По сравнению с Hastie et al. , потери масштабируются с коэффициентом 1/2, чтобы соответствовать первоначальному определению Хубера, данному ранее.
^ Charbonnier, P .; Blanc-Feraud, L .; Обер, G .; Барло, М. (1997). «Детерминированная регуляризация с сохранением границ в компьютерной визуализации». IEEE Trans. Обработка изображений . 6 (2): 298–311. CiteSeerX 10.1.1.64.7521 . DOI : 10.1109 / 83.551699 . PMID 18282924 .
^ Hartley, R .; Зиссерман, А. (2003). Множественная геометрия просмотра в компьютерном зрении (2-е изд.). Издательство Кембриджского университета. п. 619 . ISBN 978-0-521-54051-3.
^ Ланге, К. (1990). «Сходимость алгоритмов восстановления изображений со сглаживанием Гиббса». IEEE Trans. Med. Визуализация . 9 (4): 439–446. DOI : 10.1109 / 42.61759 . PMID 18222791 .
^ a b Чжан, Тонг (2004). Решение крупномасштабных задач линейного прогнозирования с использованием алгоритмов стохастического градиентного спуска . ICML.
Перейти ↑ Friedman, JH (2001). «Приближение жадной функции: машина для повышения градиента» . Анналы статистики . 26 (5): 1189–1232. DOI : 10.1214 / AOS / 1013203451 . JSTOR 2699986 .

[1] Хубер, Питер Дж. (1964). «Робастная оценка параметра местоположения» . Анналы статистики . 53 (1): 73–101. DOI : 10.1214 / АОМ / 1177703732 . JSTOR 2238020 .

[2] Хасти, Тревор; Тибширани, Роберт; Фридман, Джером (2009). Элементы статистического обучения . п. 349. Архивировано из оригинала на 2015-01-26.По сравнению с Hastie et al. , потери масштабируются с коэффициентом 1/2, чтобы соответствовать первоначальному определению Хубера, данному ранее.

[3] Charbonnier, P .; Blanc-Feraud, L .; Обер, G .; Барло, М. (1997). «Детерминированная регуляризация с сохранением границ в компьютерной визуализации». IEEE Trans. Обработка изображений . 6 (2): 298–311. CiteSeerX 10.1.1.64.7521 . DOI : 10.1109 / 83.551699 . PMID 18282924 .

[4] Hartley, R .; Зиссерман, А. (2003). Множественная геометрия просмотра в компьютерном зрении (2-е изд.). Издательство Кембриджского университета. п. 619 . ISBN 978-0-521-54051-3.

[5] Ланге, К. (1990). «Сходимость алгоритмов восстановления изображений со сглаживанием Гиббса». IEEE Trans. Med. Визуализация . 9 (4): 439–446. DOI : 10.1109 / 42.61759 . PMID 18222791 .

[zhang-6] Чжан, Тонг (2004). Решение крупномасштабных задач линейного прогнозирования с использованием алгоритмов стохастического градиентного спуска . ICML.

[7] Перейти ↑ Friedman, JH (2001). «Приближение жадной функции: машина для повышения градиента» . Анналы статистики . 26 (5): 1189–1232. DOI : 10.1214 / AOS / 1013203451 . JSTOR 2699986 .

[1]