Потеря шарнира

График потери на шарнире (синий, измерение по вертикали) против потери ноль один (измерение по вертикали; неправильная классификация, зеленый:

y <0

) для

t = 1

и переменной

y

(измерение по горизонтали). Обратите внимание, что потеря шарнира ухудшает предсказания

y <1

, что соответствует понятию запаса в машине опорных векторов.

В машинном обучении , то потеря Петли является функция потерь используются для обучения классификаторов . Потери на шарнирах используются для классификации с «максимальным запасом», в первую очередь для машин опорных векторов (SVM). ^[1]

Для предполагаемого выхода $t = \pm 1$ и оценки классификатора $y$ потеря петли прогноза $y$ определяется как

{\ displaystyle \ ell (y) = \ max (0,1-t \ cdot y)}

Обратите внимание, что это должен быть «сырой» результат функции принятия решения классификатора, а не прогнозируемая метка класса. Например, в линейных SVM, где - параметры гиперплоскости, а - входные переменные. ${\ displaystyle y}$ ${\ displaystyle y = \ mathbf {w} \ cdot \ mathbf {x} + b}$ $(\mathbf {w} ,b)$ $\mathbf {x}$

Когда $t$ и $y$ имеют одинаковый знак (это означает, что $y$ предсказывает правильный класс) и , потеря петли . Когда они имеют противоположные знаки, линейно увеличивается с $y$ , и аналогичным образом, если , даже если у них тот же знак (правильный прогноз, но не с достаточным запасом). $|y|\geq 1$ $\ell (y)=0$ $\ell (y)$ $|y|<1$

Расширения [ править ]

Хотя двоичные SVM обычно расширяются до мультиклассовой классификации по принципу « один против всех» или «один против одного», ^[2] для этой цели также возможно расширить саму потерю шарнира. Было предложено несколько различных вариантов потери петель в нескольких классах. ^[3] Например, Краммер и Зингер ^[4] определили его для линейного классификатора как ^[5]

\ell (y)=\max(0,1+\max _{y\neq t}\mathbf {w} _{y}\mathbf {x} -\mathbf {w} _{t}\mathbf {x} )

Где целевая метка, и параметры модели. $t$ $\mathbf {w} _{t}$ $\mathbf {w} _{y}$

Уэстон и Уоткинс дали аналогичное определение, но с суммой, а не с максимумом: ^[6]^[3]

\ell (y)=\sum _{y\neq t}\max(0,1+\mathbf {w} _{y}\mathbf {x} -\mathbf {w} _{t}\mathbf {x} )

В структурированном прогнозировании потери на петлях могут быть расширены до структурированных выходных пространств. Структурированные SVM с изменением масштаба используют следующий вариант, где $w$ обозначает параметры SVM, $y$ прогнозы SVM, $φ$ - функция совместной характеристики и $Δ$ - потери Хэмминга :

{\begin{aligned}\ell (\mathbf {y} )&=\max(0,\Delta (\mathbf {y} ,\mathbf {t} )+\langle \mathbf {w} ,\phi (\mathbf {x} ,\mathbf {y} )\rangle -\langle \mathbf {w} ,\phi (\mathbf {x} ,\mathbf {t} )\rangle )\\&=\max(0,\max _{y\in {\mathcal {Y}}}\left(\Delta (\mathbf {y} ,\mathbf {t} )+\langle \mathbf {w} ,\phi (\mathbf {x} ,\mathbf {y} )\rangle \right)-\langle \mathbf {w} ,\phi (\mathbf {x} ,\mathbf {t} )\rangle )\end{aligned}}

Оптимизация [ править ]

Потеря на шарнире - это выпуклая функция , поэтому многие обычные выпуклые оптимизаторы, используемые в машинном обучении, могут работать с ней. Он не дифференцируемый , но имеет субградиент по отношению к параметрам модели $w$ линейной SVM с функцией оценки, которая задается $y=\mathbf {w} \cdot \mathbf {x}$

{\frac {\partial \ell }{\partial w_{i}}}={\begin{cases}-t\cdot x_{i}&{\text{if }}t\cdot y<1\\0&{\text{otherwise}}\end{cases}}

График трех вариантов потери шарнира в зависимости от

z = ty

: «обычный» вариант (синий), его квадрат (зеленый) и кусочно-гладкий вариант Ренни и Сребро (красный).

Однако, поскольку производная потерь на шарнире при не определена, сглаженные версии могут быть предпочтительны для оптимизации, например, Ренни и Сребро ^[7] $ty=1$

\ell (y)={\begin{cases}{\frac {1}{2}}-ty&{\text{if}}~~ty\leq 0,\\{\frac {1}{2}}(1-ty)^{2}&{\text{if}}~~0<ty<1,\\0&{\text{if}}~~1\leq ty\end{cases}}

или квадратично сглаженный

\ell _{\gamma }(y)={\begin{cases}{\frac {1}{2\gamma }}\max(0,1-ty)^{2}&{\text{if}}~~ty\geq 1-\gamma \\1-{\frac {\gamma }{2}}-ty&{\text{otherwise}}\end{cases}}

предложил Чжан. ^[8] модифицированная потеря Huber является частным случаем этой функции потерь с , в частности . $L$ $\gamma =2$ $L(t,y)=4\ell _{2}(y)$

Ссылки [ править ]

^ Rosasco, L .; Де Вито, ED; Caponnetto, A .; Piana, M .; Верри, А. (2004). «Все ли функции потерь одинаковы?» (PDF) . Нейронные вычисления . 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786 . DOI : 10.1162 / 089976604773135104 . PMID 15070510 .
^ Дуань, КБ; Кеэрти, СС (2005). «Какой метод мультиклассовой SVM лучше всего? Эмпирическое исследование» (PDF) . Системы множественных классификаторов . LNCS . 3541 . С. 278–285. CiteSeerX 10.1.1.110.6789 . DOI : 10.1007 / 11494683_28 . ISBN 978-3-540-26306-7.
^ а б Доган, Урун; Гласмахер, Тобиас; Игель, Кристиан (2016). «Единый взгляд на классификацию опорных векторов с несколькими классами» (PDF) . Журнал исследований в области машинного обучения . 17 : 1–32.
^ Краммер, Коби; Певец, Йорам (2001). «Об алгоритмической реализации мультиклассовых векторных машин на основе ядра» (PDF) . Журнал исследований в области машинного обучения . 2 : 265–292.
^ Мур, Роберт С .; ДеНеро, Джон (2011). « Регуляризация L 1 и L 2 для многоклассовых моделей потерь в шарнирах» (PDF) . Proc. Symp. по машинному обучению в обработке речи и языка .
^ Уэстон, Джейсон; Уоткинс, Крис (1999). «Поддержка векторных машин для распознавания образов нескольких классов» (PDF) . Европейский симпозиум по искусственным нейронным сетям .
^ Ренни, Джейсон DM; Сребро, Натан (2005). Функции потерь для уровней предпочтений: регрессия с дискретно упорядоченными метками (PDF) . Proc. Междисциплинарный семинар IJCAI по достижениям в обработке преференций.
^ Чжан, Тонг (2004). Решение крупномасштабных задач линейного прогнозирования с использованием алгоритмов стохастического градиентного спуска (PDF) . ICML.

[1] Rosasco, L .; Де Вито, ED; Caponnetto, A .; Piana, M .; Верри, А. (2004). «Все ли функции потерь одинаковы?» (PDF) . Нейронные вычисления . 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786 . DOI : 10.1162 / 089976604773135104 . PMID 15070510 .

[duan2005-2] Дуань, КБ; Кеэрти, СС (2005). «Какой метод мультиклассовой SVM лучше всего? Эмпирическое исследование» (PDF) . Системы множественных классификаторов . LNCS . 3541 . С. 278–285. CiteSeerX 10.1.1.110.6789 . DOI : 10.1007 / 11494683_28 . ISBN 978-3-540-26306-7.

[unifiedview-3] а б Доган, Урун; Гласмахер, Тобиас; Игель, Кристиан (2016). «Единый взгляд на классификацию опорных векторов с несколькими классами» (PDF) . Журнал исследований в области машинного обучения . 17 : 1–32.

[4] Краммер, Коби; Певец, Йорам (2001). «Об алгоритмической реализации мультиклассовых векторных машин на основе ядра» (PDF) . Журнал исследований в области машинного обучения . 2 : 265–292.

[5] Мур, Роберт С .; ДеНеро, Джон (2011). « Регуляризация L 1 и L 2 для многоклассовых моделей потерь в шарнирах» (PDF) . Proc. Symp. по машинному обучению в обработке речи и языка .

[6] Уэстон, Джейсон; Уоткинс, Крис (1999). «Поддержка векторных машин для распознавания образов нескольких классов» (PDF) . Европейский симпозиум по искусственным нейронным сетям .

[7] Ренни, Джейсон DM; Сребро, Натан (2005). Функции потерь для уровней предпочтений: регрессия с дискретно упорядоченными метками (PDF) . Proc. Междисциплинарный семинар IJCAI по достижениям в обработке преференций.

[zhang-8] Чжан, Тонг (2004). Решение крупномасштабных задач линейного прогнозирования с использованием алгоритмов стохастического градиентного спуска (PDF) . ICML.

[1]