Перспективы регуляризации машин с опорным вектором обеспечивают способ интерпретации машин с опорным вектором (SVM) в контексте других алгоритмов машинного обучения. Алгоритмы SVM классифицируют многомерные данные с целью хорошо подобрать данные обучающего набора , но также избежать переобучения , так что решение обобщается на новые точки данных. Алгоритмы регуляризации также стремятся соответствовать данным обучающего набора и избегать переобучения. Они делают это, выбирая функцию подгонки, которая имеет низкую ошибку на обучающем наборе, но также не слишком сложна, где сложные функции - это функции с высокими нормами в некотором функциональном пространстве.. В частности, алгоритмы регуляризации Тихонова выбирают функцию, которая минимизирует сумму ошибки обучающего набора и нормы функции. Ошибка обучающего набора может быть вычислена с различными функциями потерь . Например, регуляризованный метод наименьших квадратов является частным случаем регуляризации Тихонова с использованием квадрата ошибок в качестве функции потерь. [1]
Перспективы регуляризации на машинах опорных векторов интерпретируют SVM как частный случай регуляризации Тихонова, в частности регуляризации Тихонова с шарнирными потерями для функции потерь. Это обеспечивает теоретическую основу для анализа алгоритмов SVM и сравнения их с другими алгоритмами с теми же целями: обобщение без переобучения . SVM была впервые предложена в 1995 году Коринной Кортес и Владимиром Вапником и геометрически сформулирована как метод поиска гиперплоскостей, которые могут разделять многомерные данные на две категории. [2] Эта традиционная геометрическая интерпретация SVM дает полезную интуицию о том, как работают SVM, но ее трудно соотнести с другими методами машинного обучения для предотвращения переобучения, такими как регуляризация , ранняя остановка , разреженность и байесовский вывод . Однако, как только было обнаружено, что SVM также является частным случаем регуляризации Тихонова, перспективы регуляризации SVM предоставили теорию, необходимую для соответствия SVM более широкому классу алгоритмов. [1] [3] [4] Это позволило провести подробные сравнения между SVM и другими формами регуляризации Тихонова и теоретически обосновать, почему полезно использовать функцию потерь SVM, потерю на шарнире. [5]
Теоретические основы
В статистической теории обучения основы, алгоритм представляет собой стратегию выбора функции учитывая тренировочный набор входов и их лейблы (ярлыки обычно ). Стратегии регуляризации позволяют избежать переобучения , выбирая функцию, которая соответствует данным, но не слишком сложна. Конкретно:
где - пространство гипотез [6] функций, - функция потерь, - норма на пространстве гипотез функций, а- параметр регуляризации . [7]
Когда является воспроизводящим ядерным гильбертовым пространством , существует ядерная функция это можно записать как симметричная положительно определенная матрица . По теореме американского представителя , [8]
Особые свойства петли выпадения
Самая простая и интуитивно понятная функция потерь для категоризации - это потеря неправильной классификации или потеря 0–1, которая равна 0, если и 1, если , т.е. ступенчатая функция Хевисайда на. Однако эта функция потерь не является выпуклой , что затрудняет вычислительную минимизацию проблемы регуляризации. Поэтому мы ищем выпуклые заменители потери 0–1. Потеря петли,, где , обеспечивает такую выпуклую релаксацию . Фактически, потеря на шарнире - это самая точная выпуклая верхняя граница для функции потерь при ошибочной классификации 0–1 [4], и с бесконечными данными возвращает байесовское оптимальное решение: [5] [9]
Вывод
Можно показать, что проблема регуляризации Тихонова эквивалентна традиционным формулировкам SVM, выражая ее в терминах потерь на шарнире. [10] С потерей шарнира
где , проблема регуляризации принимает вид
Умножение на дает
с участием , что эквивалентно стандартной задаче минимизации SVM.
Примечания и ссылки
- ^ а б Росаско, Лоренцо. «Регуляризованные наименьшие квадраты и машины опорных векторов» (PDF) .
- ^ Кортес, Коринна; Владимир Вапник (1995). «Сети опорных векторов» . Машинное обучение . 20 (3): 273–297. DOI : 10.1007 / BF00994018 .
- ^ Рифкин, Райан (2002). Все старое снова новое: свежий взгляд на исторические подходы в машинном обучении (PDF) . MIT (кандидатская диссертация).
- ^ а б Ли, Юнкён ; Вахба, Грейс (2012). «Машины с мультикатегорийными опорными векторами». Журнал Американской статистической ассоциации . 99 (465): 67–81. DOI : 10.1198 / 016214504000000098 .
- ^ а б Росаско Л., Де Вито Э., Капоннетто А., Пиана М., Верри А. (май 2004 г.). «Все ли функции потерь одинаковы». Нейронные вычисления . 5. 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786 . DOI : 10.1162 / 089976604773135104 . PMID 15070510 .CS1 maint: использует параметр авторов ( ссылка )
- ^ Пространство гипотез - это набор функций, используемых для моделирования данных в задаче машинного обучения. Каждая функция соответствует гипотезе о структуре данных. Обычно функции в пространстве гипотез образуют гильбертово пространство функций с нормой, сформированной из функции потерь.
- ^ Подробнее о выборе параметра см., Например, Вахба, Грейс; Юнхуа Ван (1990). «Когда является оптимальным параметром регуляризации, нечувствительным к выбору функции потерь». Коммуникации в статистике - теория и методы . 19 (5): 1685–1700. DOI : 10.1080 / 03610929008830285 .
- ^ См. Шолкопф, Бернхард; Ральф Хербрих; Алекс Смола (2001). Обобщенная теорема о представителях . Вычислительная теория обучения: конспект лекций по информатике . Конспект лекций по информатике. 2111 . С. 416–426. CiteSeerX 10.1.1.42.8617 . DOI : 10.1007 / 3-540-44581-1_27 . ISBN 978-3-540-42343-0.
- ^ Лин, Йи (июль 2002 г.). «Машины опорных векторов и правило Байеса в классификации» (PDF) . Интеллектуальный анализ данных и обнаружение знаний . 6 (3): 259–275. DOI : 10,1023 / A: 1015469627679 .
- ^ Подробный вывод см. Рифкин, Райан (2002). Все старое снова новое: свежий взгляд на исторические подходы в машинном обучении (PDF) . MIT (кандидатская диссертация).
- Евгений, Теодорос; Массимилиано Понтиль; Томазо Поджио (2000). «Сети регуляризации и машины опорных векторов» (PDF) . Успехи в вычислительной математике . 13 (1): 1–50. DOI : 10,1023 / A: 1018946025316 .
- Иоахим, Торстен. «SVMlight» . Архивировано из оригинала на 2015-04-19 . Проверено 18 мая 2012 .
- Вапник, Владимир (1999). Природа статистической теории обучения . Нью-Йорк: Springer-Verlag. ISBN 978-0-387-98780-4.