Перспективы регуляризации машин опорных векторов

Перспективы регуляризации машин с опорным вектором обеспечивают способ интерпретации машин с опорным вектором (SVM) в контексте других алгоритмов машинного обучения. Алгоритмы SVM классифицируют многомерные данные с целью хорошо подобрать данные обучающего набора , но также избежать переобучения , так что решение обобщается на новые точки данных. Алгоритмы регуляризации также стремятся соответствовать данным обучающего набора и избегать переобучения. Они делают это, выбирая функцию подгонки, которая имеет низкую ошибку на обучающем наборе, но также не слишком сложна, где сложные функции - это функции с высокими нормами в некотором функциональном пространстве.. В частности, алгоритмы регуляризации Тихонова выбирают функцию, которая минимизирует сумму ошибки обучающего набора и нормы функции. Ошибка обучающего набора может быть вычислена с различными функциями потерь . Например, регуляризованный метод наименьших квадратов является частным случаем регуляризации Тихонова с использованием квадрата ошибок в качестве функции потерь. ^[1]

Перспективы регуляризации на машинах опорных векторов интерпретируют SVM как частный случай регуляризации Тихонова, в частности регуляризации Тихонова с шарнирными потерями для функции потерь. Это обеспечивает теоретическую основу для анализа алгоритмов SVM и сравнения их с другими алгоритмами с теми же целями: обобщение без переобучения . SVM была впервые предложена в 1995 году Коринной Кортес и Владимиром Вапником и геометрически сформулирована как метод поиска гиперплоскостей, которые могут разделять многомерные данные на две категории. ^[2] Эта традиционная геометрическая интерпретация SVM дает полезную интуицию о том, как работают SVM, но ее трудно соотнести с другими методами машинного обучения для предотвращения переобучения, такими как регуляризация , ранняя остановка , разреженность и байесовский вывод . Однако, как только было обнаружено, что SVM также является частным случаем регуляризации Тихонова, перспективы регуляризации SVM предоставили теорию, необходимую для соответствия SVM более широкому классу алгоритмов. ^[1]^[3]^[4] Это позволило провести подробные сравнения между SVM и другими формами регуляризации Тихонова и теоретически обосновать, почему полезно использовать функцию потерь SVM, потерю на шарнире. ^[5]

Теоретические основы

В статистической теории обучения основы, алгоритм представляет собой стратегию выбора функции ${\ Displaystyle е \ двоеточие \ mathbf {X} \ to \ mathbf {Y}}$ учитывая тренировочный набор ${\ Displaystyle S = \ {(x_ {1}, y_ {1}), \ ldots, (x_ {n}, y_ {n}) \}}$ входов ${\ displaystyle x_ {i}}$ и их лейблы ${\ displaystyle y_ {i}}$ (ярлыки обычно ${\ displaystyle \ pm 1}$ ). Стратегии регуляризации позволяют избежать переобучения , выбирая функцию, которая соответствует данным, но не слишком сложна. Конкретно:

{\ displaystyle f = {\ underset {f \ in {\ mathcal {H}}} {\ operatorname {argmin}}} \ left \ {{\ frac {1} {n}} \ sum _ {i = 1} ^ {n} V (y_ {i}, f (x_ {i})) + \ lambda \ | f \ | _ {\ mathcal {H}} ^ {2} \ right \},}

где ${\ displaystyle {\ mathcal {H}}}$ - пространство гипотез ^[6] функций, ${\ Displaystyle V \ двоеточие \ mathbf {Y} \ times \ mathbf {Y} \ to \ mathbb {R}}$ - функция потерь, ${\ Displaystyle \ | \ cdot \ | _ {\ mathcal {H}}}$ - норма на пространстве гипотез функций, а ${\ displaystyle \ lambda \ in \ mathbb {R}}$ - параметр регуляризации . ^[7]

Когда ${\ displaystyle {\ mathcal {H}}}$ является воспроизводящим ядерным гильбертовым пространством , существует ядерная функция ${\ Displaystyle К \ двоеточие \ mathbf {X} \ times \ mathbf {X} \ to \ mathbb {R}}$ это можно записать как ${\ Displaystyle п \ раз п}$ симметричная положительно определенная матрица ${\ displaystyle \ mathbf {K}}$ . По теореме американского представителя , ^[8]

{\ displaystyle f (x_ {i}) = \ sum _ {j = 1} ^ {n} c_ {j} \ mathbf {K} _ {ij}, {\ text {and}} \ | f \ | _ {\ mathcal {H}} ^ {2} = \ langle f, f \ rangle _ {\ mathcal {H}} = \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ { n} c_ {i} c_ {j} K (x_ {i}, x_ {j}) = c ^ {T} \ mathbf {K} c.}

Особые свойства петли выпадения

Hinge and misclassification loss functions

Самая простая и интуитивно понятная функция потерь для категоризации - это потеря неправильной классификации или потеря 0–1, которая равна 0, если ${\ displaystyle f (x_ {i}) = y_ {i}}$ и 1, если ${\ displaystyle f (x_ {i}) \ neq y_ {i}}$ , т.е. ступенчатая функция Хевисайда на ${\ displaystyle -y_ {i} f (x_ {i})}$ . Однако эта функция потерь не является выпуклой , что затрудняет вычислительную минимизацию проблемы регуляризации. Поэтому мы ищем выпуклые заменители потери 0–1. Потеря петли, ${\ displaystyle V {\ big (} y_ {i}, f (x_ {i}) {\ big)} = {\ big (} 1-yf (x) {\ big)} _ {+}}$ , где ${\ Displaystyle (s) _ {+} = \ макс (s, 0)}$ , обеспечивает такую выпуклую релаксацию . Фактически, потеря на шарнире - это самая точная выпуклая верхняя граница для функции потерь при ошибочной классификации 0–1 ^[4], и с бесконечными данными возвращает байесовское оптимальное решение: ^[5]^[9]

{\ displaystyle f_ {b} (x) = {\ begin {case} 1, & p (1 \ mid x)> p (-1 \ mid x), \\ - 1, & p (1 \ mid x)

Вывод

Можно показать, что проблема регуляризации Тихонова эквивалентна традиционным формулировкам SVM, выражая ее в терминах потерь на шарнире. ^[10] С потерей шарнира

{\ displaystyle V {\ big (} y_ {i}, f (x_ {i}) {\ big)} = {\ big (} 1-yf (x) {\ big)} _ {+},}

где ${\ Displaystyle (s) _ {+} = \ макс (s, 0)}$ , проблема регуляризации принимает вид

{\ displaystyle f = {\ underset {f \ in {\ mathcal {H}}} {\ operatorname {argmin}}} \ left \ {{\ frac {1} {n}} \ sum _ {i = 1} ^ {n} {\ big (} 1-yf (x) {\ big)} _ {+} + \ lambda \ | f \ | _ {\ mathcal {H}} ^ {2} \ right \}.}

Умножение на ${\ displaystyle 1 / (2 \ lambda)}$ дает

{\ displaystyle f = {\ underset {f \ in {\ mathcal {H}}} {\ operatorname {argmin}}} \ left \ {C \ sum _ {i = 1} ^ {n} {\ big (} 1-yf (x) {\ big)} _ {+} + {\ frac {1} {2}} \ | f \ | _ {\ mathcal {H}} ^ {2} \ right \}}

с участием ${\ Displaystyle С = 1 / (2 \ лямбда п)}$ , что эквивалентно стандартной задаче минимизации SVM.

Примечания и ссылки

^ а б Росаско, Лоренцо. «Регуляризованные наименьшие квадраты и машины опорных векторов» (PDF) .
^ Кортес, Коринна; Владимир Вапник (1995). «Сети опорных векторов» . Машинное обучение . 20 (3): 273–297. DOI : 10.1007 / BF00994018 .
^ Рифкин, Райан (2002). Все старое снова новое: свежий взгляд на исторические подходы в машинном обучении (PDF) . MIT (кандидатская диссертация).
^ а б Ли, Юнкён ; Вахба, Грейс (2012). «Машины с мультикатегорийными опорными векторами». Журнал Американской статистической ассоциации . 99 (465): 67–81. DOI : 10.1198 / 016214504000000098 .
^ а б Росаско Л., Де Вито Э., Капоннетто А., Пиана М., Верри А. (май 2004 г.). «Все ли функции потерь одинаковы». Нейронные вычисления . 5. 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786 . DOI : 10.1162 / 089976604773135104 . PMID 15070510 .CS1 maint: использует параметр авторов ( ссылка )
^ Пространство гипотез - это набор функций, используемых для моделирования данных в задаче машинного обучения. Каждая функция соответствует гипотезе о структуре данных. Обычно функции в пространстве гипотез образуют гильбертово пространство функций с нормой, сформированной из функции потерь.
^ Подробнее о выборе параметра см., Например, Вахба, Грейс; Юнхуа Ван (1990). «Когда является оптимальным параметром регуляризации, нечувствительным к выбору функции потерь». Коммуникации в статистике - теория и методы . 19 (5): 1685–1700. DOI : 10.1080 / 03610929008830285 .
^ См. Шолкопф, Бернхард; Ральф Хербрих; Алекс Смола (2001). Обобщенная теорема о представителях . Вычислительная теория обучения: конспект лекций по информатике . Конспект лекций по информатике. 2111 . С. 416–426. CiteSeerX 10.1.1.42.8617 . DOI : 10.1007 / 3-540-44581-1_27 . ISBN 978-3-540-42343-0.
^ Лин, Йи (июль 2002 г.). «Машины опорных векторов и правило Байеса в классификации» (PDF) . Интеллектуальный анализ данных и обнаружение знаний . 6 (3): 259–275. DOI : 10,1023 / A: 1015469627679 .
^ Подробный вывод см. Рифкин, Райан (2002). Все старое снова новое: свежий взгляд на исторические подходы в машинном обучении (PDF) . MIT (кандидатская диссертация).

Евгений, Теодорос; Массимилиано Понтиль; Томазо Поджио (2000). «Сети регуляризации и машины опорных векторов» (PDF) . Успехи в вычислительной математике . 13 (1): 1–50. DOI : 10,1023 / A: 1018946025316 .
Иоахим, Торстен. «SVMlight» . Архивировано из оригинала на 2015-04-19 . Проверено 18 мая 2012 .
Вапник, Владимир (1999). Природа статистической теории обучения . Нью-Йорк: Springer-Verlag. ISBN 978-0-387-98780-4.

[rosasco1-1] а б Росаско, Лоренцо. «Регуляризованные наименьшие квадраты и машины опорных векторов» (PDF) .

[2] Кортес, Коринна; Владимир Вапник (1995). «Сети опорных векторов» . Машинное обучение . 20 (3): 273–297. DOI : 10.1007 / BF00994018 .

[3] Рифкин, Райан (2002). Все старое снова новое: свежий взгляд на исторические подходы в машинном обучении (PDF) . MIT (кандидатская диссертация).

[Lee_2012_67–81-4] а б Ли, Юнкён ; Вахба, Грейс (2012). «Машины с мультикатегорийными опорными векторами». Журнал Американской статистической ассоциации . 99 (465): 67–81. DOI : 10.1198 / 016214504000000098 .

[Rosasco_2004_1063–1076-5] а б Росаско Л., Де Вито Э., Капоннетто А., Пиана М., Верри А. (май 2004 г.). «Все ли функции потерь одинаковы». Нейронные вычисления . 5. 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786 . DOI : 10.1162 / 089976604773135104 . PMID 15070510 .CS1 maint: использует параметр авторов ( ссылка )

[6] Пространство гипотез - это набор функций, используемых для моделирования данных в задаче машинного обучения. Каждая функция соответствует гипотезе о структуре данных. Обычно функции в пространстве гипотез образуют гильбертово пространство функций с нормой, сформированной из функции потерь.

[7] Подробнее о выборе параметра см., Например, Вахба, Грейс; Юнхуа Ван (1990). «Когда является оптимальным параметром регуляризации, нечувствительным к выбору функции потерь». Коммуникации в статистике - теория и методы . 19 (5): 1685–1700. DOI : 10.1080 / 03610929008830285 .

[8] См. Шолкопф, Бернхард; Ральф Хербрих; Алекс Смола (2001). Обобщенная теорема о представителях . Вычислительная теория обучения: конспект лекций по информатике . Конспект лекций по информатике. 2111 . С. 416–426. CiteSeerX 10.1.1.42.8617 . DOI : 10.1007 / 3-540-44581-1_27 . ISBN 978-3-540-42343-0.

[9] Лин, Йи (июль 2002 г.). «Машины опорных векторов и правило Байеса в классификации» (PDF) . Интеллектуальный анализ данных и обнаружение знаний . 6 (3): 259–275. DOI : 10,1023 / A: 1015469627679 .

[10] Подробный вывод см. Рифкин, Райан (2002). Все старое снова новое: свежий взгляд на исторические подходы в машинном обучении (PDF) . MIT (кандидатская диссертация).

[1]