В машинном обучении , то потеря Петли является функция потерь используются для обучения классификаторов . Потери на шарнирах используются для классификации с «максимальным запасом», в первую очередь для машин опорных векторов (SVM). [1]
Для предполагаемого выхода t = ± 1 и оценки классификатора y потеря петли прогноза y определяется как
Обратите внимание, что это должен быть «сырой» результат функции принятия решения классификатора, а не прогнозируемая метка класса. Например, в линейных SVM, где - параметры гиперплоскости, а - входные переменные.
Когда t и y имеют одинаковый знак (это означает, что y предсказывает правильный класс) и , потеря петли . Когда они имеют противоположные знаки, линейно увеличивается с y , и аналогичным образом, если , даже если у них тот же знак (правильный прогноз, но не с достаточным запасом).
Расширения [ править ]
Хотя двоичные SVM обычно расширяются до мультиклассовой классификации по принципу « один против всех» или «один против одного», [2] для этой цели также возможно расширить саму потерю шарнира. Было предложено несколько различных вариантов потери петель в нескольких классах. [3] Например, Краммер и Зингер [4] определили его для линейного классификатора как [5]
Где целевая метка, и параметры модели.
Уэстон и Уоткинс дали аналогичное определение, но с суммой, а не с максимумом: [6] [3]
В структурированном прогнозировании потери на петлях могут быть расширены до структурированных выходных пространств. Структурированные SVM с изменением масштаба используют следующий вариант, где w обозначает параметры SVM, y прогнозы SVM, φ - функция совместной характеристики и Δ - потери Хэмминга :
Оптимизация [ править ]
Потеря на шарнире - это выпуклая функция , поэтому многие обычные выпуклые оптимизаторы, используемые в машинном обучении, могут работать с ней. Он не дифференцируемый , но имеет субградиент по отношению к параметрам модели w линейной SVM с функцией оценки, которая задается
Однако, поскольку производная потерь на шарнире при не определена, сглаженные версии могут быть предпочтительны для оптимизации, например, Ренни и Сребро [7]
или квадратично сглаженный
предложил Чжан. [8] модифицированная потеря Huber является частным случаем этой функции потерь с , в частности .
Ссылки [ править ]
- ^ Rosasco, L .; Де Вито, ED; Caponnetto, A .; Piana, M .; Верри, А. (2004). «Все ли функции потерь одинаковы?» (PDF) . Нейронные вычисления . 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786 . DOI : 10.1162 / 089976604773135104 . PMID 15070510 .
- ^ Дуань, КБ; Кеэрти, СС (2005). «Какой метод мультиклассовой SVM лучше всего? Эмпирическое исследование» (PDF) . Системы множественных классификаторов . LNCS . 3541 . С. 278–285. CiteSeerX 10.1.1.110.6789 . DOI : 10.1007 / 11494683_28 . ISBN 978-3-540-26306-7.
- ^ а б Доган, Урун; Гласмахер, Тобиас; Игель, Кристиан (2016). «Единый взгляд на классификацию опорных векторов с несколькими классами» (PDF) . Журнал исследований в области машинного обучения . 17 : 1–32.
- ^ Краммер, Коби; Певец, Йорам (2001). «Об алгоритмической реализации мультиклассовых векторных машин на основе ядра» (PDF) . Журнал исследований в области машинного обучения . 2 : 265–292.
- ^ Мур, Роберт С .; ДеНеро, Джон (2011). « Регуляризация L 1 и L 2 для многоклассовых моделей потерь в шарнирах» (PDF) . Proc. Symp. по машинному обучению в обработке речи и языка .
- ^ Уэстон, Джейсон; Уоткинс, Крис (1999). «Поддержка векторных машин для распознавания образов нескольких классов» (PDF) . Европейский симпозиум по искусственным нейронным сетям .
- ^ Ренни, Джейсон DM; Сребро, Натан (2005). Функции потерь для уровней предпочтений: регрессия с дискретно упорядоченными метками (PDF) . Proc. Междисциплинарный семинар IJCAI по достижениям в обработке преференций.
- ^ Чжан, Тонг (2004). Решение крупномасштабных задач линейного прогнозирования с использованием алгоритмов стохастического градиентного спуска (PDF) . ICML.