Статистическая теория обучения


Из Википедии, бесплатной энциклопедии
  (Перенаправлено из теории обучения (статистика) )
Перейти к навигации Перейти к поиску

Теория статистического обучения - это основа для машинного обучения, основанная на статистике и функциональном анализе . [1] [2] Статистическая теория обучения занимается проблемой поиска прогнозирующей функции на основе данных. Теория статистического обучения привела к успешным приложениям в таких областях, как компьютерное зрение , распознавание речи и биоинформатика .

Вступление

Цели обучения - понимание и предсказание. Обучение падает на множество категорий, в том числе подконтрольного обучения , неконтролируемого обучения , онлайн - обучения и обучения с подкреплением . С точки зрения теории статистического обучения, обучение с учителем понимается лучше всего. [3] Обучение с учителем включает обучение на основе обучающего набора данных. Каждая точка в обучении представляет собой пару ввода-вывода, где ввод отображается на вывод. Проблема обучения состоит в том, чтобы вывести функцию, которая сопоставляет вход и выход, так что изученная функция может использоваться для прогнозирования выходных данных из будущих входных данных.

В зависимости от типа вывода задачи контролируемого обучения являются либо проблемами регрессии, либо проблемами классификации . Если выходные данные имеют непрерывный диапазон значений, это проблема регрессии. Используя в качестве примера закон Ома , можно выполнить регрессию с напряжением на входе и током на выходе. Регрессия обнаружит, что функциональная связь между напряжением и током будет такой, что

Классификационные проблемы - это те, для которых вывод будет элементом из дискретного набора меток. Классификация очень распространена для приложений машинного обучения. В знак признания лица , например, изображение лица человека будет вход, а метка вывода будет имя этого человека. Входные данные будут представлены большим многомерным вектором, элементы которого представляют пиксели изображения.

После изучения функции, основанной на данных обучающего набора, эта функция проверяется на тестовом наборе данных, данных, которые не появились в обучающем наборе.

Формальное описание

Возьмет быть векторным пространством всех возможных входов, и в векторном пространстве всех возможных выходов. Теория статистического обучения исходит из того, что существует какое-то неизвестное распределение вероятностей по пространству продукта , то есть существует какое-то неизвестное . Обучающий набор состоит из выборок из этого распределения вероятностей и обозначен

Every - это входной вектор из обучающих данных и соответствующий ему выход.

В этом формализме проблема вывода состоит в нахождении такой функции , что . Позвольте быть пространство функций, называемое пространством гипотез. Пространство гипотез - это пространство функций, которые алгоритм будет искать. Позвольте быть функцией потерь , показателем разницы между прогнозируемым значением и фактическим значением . Ожидаемый риск определяется как

Целевая функция, наилучшая возможная функция, которую можно выбрать, задается тем, что удовлетворяет

Поскольку распределение вероятностей неизвестно, необходимо использовать косвенную меру ожидаемого риска. Эта мера основана на обучающем наборе, образце из этого неизвестного распределения вероятностей. Это называется эмпирическим риском.

Алгоритм обучения, который выбирает функцию, которая минимизирует эмпирический риск, называется минимизацией эмпирического риска .

Функции потерь

Выбор функции потерь является определяющим фактором для функции, которая будет выбрана алгоритмом обучения. Функция потерь также влияет на скорость сходимости алгоритма. Важно, чтобы функция потерь была выпуклой. [4]

В зависимости от того, является ли проблема проблемой регрессии или классификации, используются разные функции потерь.

Регресс

Наиболее распространенной функцией потерь для регрессии является функция потерь в квадрате (также известная как L2-норма ). Эта знакомая функция потерь используется в регрессии обыкновенных наименьших квадратов . Форма такая:

Также иногда используется потеря абсолютного значения (также известная как L1-норма ):

Классификация

В некотором смысле индикаторная функция 0-1 является наиболее подходящей функцией естественной убыли для классификации. Он принимает значение 0, если прогнозируемый вывод совпадает с фактическим выводом, и принимает значение 1, если прогнозируемый вывод отличается от фактического вывода. Для бинарной классификации это:

где - ступенчатая функция Хевисайда .

Регуляризация

Это изображение представляет собой пример переобучения в машинном обучении. Красные точки представляют данные обучающего набора. Зеленая линия представляет истинную функциональную взаимосвязь, а синяя линия показывает изученную функцию, которая была переоборудована для данных обучающего набора.

В задачах машинного обучения основная проблема заключается в переобучении . Поскольку обучение - это проблема прогнозирования, цель состоит не в том, чтобы найти функцию, которая наиболее точно соответствует (ранее наблюдаемым) данным, а в том, чтобы найти такую, которая наиболее точно предсказывает выходные данные из будущих входных данных. Минимизация эмпирического риска сопряжена с риском переобучения: нахождения функции, которая точно соответствует данным, но плохо предсказывает будущие результаты.

Переоснащение симптомом нестабильных решений; небольшое возмущение в данных обучающей выборки вызовет большую вариацию изученной функции. Можно показать, что если устойчивость решения может быть гарантирована, то гарантируются и обобщение, и непротиворечивость. [5] [6] Регуляризация может решить проблему переобучения и придать задаче устойчивость.

Регуляризация может быть достигнута путем ограничения пространства гипотез . Типичный пример - ограничение линейными функциями: это можно рассматривать как сокращение до стандартной проблемы линейной регрессии . также можно ограничить полиномом степени , экспонентой или ограниченными функциями на L1 . Ограничение пространства гипотез позволяет избежать переобучения, поскольку форма потенциальных функций ограничена и, следовательно, не позволяет выбрать функцию, которая дает эмпирический риск, произвольно близкий к нулю.

Одним из примеров регуляризации является регуляризация Тихонова . Это состоит из минимизации

где - фиксированный положительный параметр, параметр регуляризации. Регуляризация Тихонова обеспечивает существование, единственность и устойчивость решения. [7]

Смотрите также

  • Воспроизводящие ядерные гильбертовы пространства - полезный выбор для .
  • Методы проксимального градиента для обучения

использованная литература

  1. ^ Тревор Хасти , Роберт Тибширани, Джером Фридман (2009) Элементы статистического обучения , Springer-Verlag ISBN  978-0-387-84857-0 .
  2. ^ Мохри, Мехрияр ; Ростамизаде, Афшин; Талвалкар, Амит (2012). Основы машинного обучения . США, Массачусетс: MIT Press. ISBN 9780262018258.
  3. ^ Томазо Поджио, Лоренцо Росаско и др. Статистическая теория обучения и приложения , 2012, класс 1
  4. ^ Rosasco, Л., Вито, ЭД, Caponnetto, А., Fiana, М., 2004. А. Verri нейронные вычисления Том 16, стр 1063-1076
  5. ^ Вапник В.Н., Червоненкис, AY 1971. О равномерной сходимости относительных частот событий к их вероятностям . Теория вероятностей и ее приложения Том 16, стр 264-280.
  6. ^ Мукерджи, С., Нийоги, П. Поджио, Т. и Рифкин, Р. 2006. Теория обучения: стабильность достаточна для обобщения и необходима и достаточна для согласованности минимизации эмпирического риска . Успехи в вычислительной математике . Том 25, стр 161-193.
  7. ^ Томазо Поджио, Лоренцо Росаско и др. Статистическая теория обучения и приложения , 2012, класс 2
Источник « https://en.wikipedia.org/w/index.php?title=Statistical_learning_theory&oldid=1033190350 »