Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
График потери на шарнире (синий, измерение по вертикали) против потери ноль один (измерение по вертикали; неправильная классификация, зеленый: y <0 ) для t = 1 и переменной y (измерение по горизонтали). Обратите внимание, что потеря шарнира ухудшает предсказания y <1 , что соответствует понятию запаса в машине опорных векторов.

В машинном обучении , то потеря Петли является функция потерь используются для обучения классификаторов . Потери на шарнирах используются для классификации с «максимальным запасом», в первую очередь для машин опорных векторов (SVM). [1]

Для предполагаемого выхода t = ± 1 и оценки классификатора y потеря петли прогноза y определяется как

Обратите внимание, что это должен быть «сырой» результат функции принятия решения классификатора, а не прогнозируемая метка класса. Например, в линейных SVM, где - параметры гиперплоскости, а - входные переменные.

Когда t и y имеют одинаковый знак (это означает, что y предсказывает правильный класс) и , потеря петли . Когда они имеют противоположные знаки, линейно увеличивается с y , и аналогичным образом, если , даже если у них тот же знак (правильный прогноз, но не с достаточным запасом).

Расширения [ править ]

Хотя двоичные SVM обычно расширяются до мультиклассовой классификации по принципу « один против всех» или «один против одного», [2] для этой цели также возможно расширить саму потерю шарнира. Было предложено несколько различных вариантов потери петель в нескольких классах. [3] Например, Краммер и Зингер [4] определили его для линейного классификатора как [5]

Где целевая метка, и параметры модели.

Уэстон и Уоткинс дали аналогичное определение, но с суммой, а не с максимумом: [6] [3]

В структурированном прогнозировании потери на петлях могут быть расширены до структурированных выходных пространств. Структурированные SVM с изменением масштаба используют следующий вариант, где w обозначает параметры SVM, y прогнозы SVM, φ - функция совместной характеристики и Δ - потери Хэмминга :

Оптимизация [ править ]

Потеря на шарнире - это выпуклая функция , поэтому многие обычные выпуклые оптимизаторы, используемые в машинном обучении, могут работать с ней. Он не дифференцируемый , но имеет субградиент по отношению к параметрам модели w линейной SVM с функцией оценки, которая задается

График трех вариантов потери шарнира в зависимости от z = ty : «обычный» вариант (синий), его квадрат (зеленый) и кусочно-гладкий вариант Ренни и Сребро (красный).

Однако, поскольку производная потерь на шарнире при не определена, сглаженные версии могут быть предпочтительны для оптимизации, например, Ренни и Сребро [7]

или квадратично сглаженный

предложил Чжан. [8] модифицированная потеря Huber является частным случаем этой функции потерь с , в частности .

Ссылки [ править ]

  1. ^ Rosasco, L .; Де Вито, ED; Caponnetto, A .; Piana, M .; Верри, А. (2004). «Все ли функции потерь одинаковы?» (PDF) . Нейронные вычисления . 16 (5): 1063–1076. CiteSeerX  10.1.1.109.6786 . DOI : 10.1162 / 089976604773135104 . PMID  15070510 .
  2. ^ Дуань, КБ; Кеэрти, СС (2005). «Какой метод мультиклассовой SVM лучше всего? Эмпирическое исследование» (PDF) . Системы множественных классификаторов . LNCS . 3541 . С. 278–285. CiteSeerX 10.1.1.110.6789 . DOI : 10.1007 / 11494683_28 . ISBN   978-3-540-26306-7.
  3. ^ а б Доган, Урун; Гласмахер, Тобиас; Игель, Кристиан (2016). «Единый взгляд на классификацию опорных векторов с несколькими классами» (PDF) . Журнал исследований в области машинного обучения . 17 : 1–32.
  4. ^ Краммер, Коби; Певец, Йорам (2001). «Об алгоритмической реализации мультиклассовых векторных машин на основе ядра» (PDF) . Журнал исследований в области машинного обучения . 2 : 265–292.
  5. ^ Мур, Роберт С .; ДеНеро, Джон (2011). « Регуляризация L 1 и L 2 для многоклассовых моделей потерь в шарнирах» (PDF) . Proc. Symp. по машинному обучению в обработке речи и языка .
  6. ^ Уэстон, Джейсон; Уоткинс, Крис (1999). «Поддержка векторных машин для распознавания образов нескольких классов» (PDF) . Европейский симпозиум по искусственным нейронным сетям .
  7. ^ Ренни, Джейсон DM; Сребро, Натан (2005). Функции потерь для уровней предпочтений: регрессия с дискретно упорядоченными метками (PDF) . Proc. Междисциплинарный семинар IJCAI по достижениям в обработке преференций.
  8. ^ Чжан, Тонг (2004). Решение крупномасштабных задач линейного прогнозирования с использованием алгоритмов стохастического градиентного спуска (PDF) . ICML.