Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В теории вычислительного обучения ( машинное обучение и теория вычислений ) сложность Радемахера , названная в честь Ганса Радемахера , измеряет богатство класса вещественнозначных функций по отношению к распределению вероятностей .

Определения [ править ]

Радемахерская сложность набора [ править ]

Принимая во внимание множество , то Радемахер сложность A определяется следующим образом : [1] [2] : 326

где - независимые случайные величины, взятые из распределения Радемахера, т. е. для , и . Некоторые авторы берут абсолютное значение суммы перед тем, как брать супремум, но если она симметрична, это не имеет значения.

Радемахерская сложность функционального класса [ править ]

Учитывая образец , и класс вещественных функций , определенных на области пространства , где есть функция потерь из классификатора , то эмпирическая Радемахер сложность в данный определяются как:

Это также можно записать, используя предыдущее определение: [2] : 326

где обозначает композицию функции , т. е.:

Позвольте быть вероятностным распределением по . Радемахер сложность класса функции в отношении для размера выборки является:

где вышеуказанное ожидание основано на идентично независимо распределенной (iid) выборке, созданной в соответствии с .

Примеры [ править ]

1. содержит один вектор, например, . Потом:

То же самое верно для любого класса гипотез. [3] : 56

2. содержит два вектора, например, . Потом:

Использование сложности Радемахера [ править ]

Сложность Радемахера может использоваться для получения зависимых от данных верхних границ обучаемости функциональных классов. Интуитивно легче изучить функциональный класс с меньшей сложностью по Радемахеру.

Ограничение репрезентативности [ править ]

В машинном обучении желательно иметь обучающий набор, который представляет истинное распределение некоторых выборочных данных . Это можно количественно оценить, используя понятие репрезентативности . Обозначим через с распределением вероятностей , из которых нарисованы образцы. Обозначим набором гипотез (потенциальных классификаторов) и обозначим соответствующим набором функций ошибок, т.е. для каждой гипотезы существует функция , которая сопоставляет каждую обучающую выборку (признаки, метку) с ошибкой классификатора (примечание в в этом случае гипотеза и классификатор взаимозаменяемы). Например, в случае, еслипредставляет двоичный классификатор, функция ошибки - это функция потерь 0–1, то есть функция ошибки возвращает 1, если правильно классифицирует выборку, и 0 в противном случае. Мы опускаем индекс и пишем вместо него, когда основная гипотеза не имеет значения. Определять:

- ожидаемая ошибка некоторой функции ошибок на реальном распределении ;
- оценочная погрешность некоторой функции ошибок на выборке .

Репрезентативность выборки в отношении и определяется как:

Меньшая репрезентативность лучше, поскольку она позволяет избежать переобучения : это означает, что истинная ошибка классификатора не намного выше, чем его оценочная ошибка, и поэтому выбор классификатора с низкой оценочной ошибкой гарантирует, что истинная ошибка также будет низкий. Обратите внимание, однако, что концепция репрезентативности относительна и, следовательно, не может сравниваться между отдельными выборками.

Ожидаемая репрезентативность выборки может быть ограничена сверху радемахеровской сложностью функционального класса: [2] : 326

Ограничение ошибки обобщения [ править ]

Когда сложность Радемахера мала, можно узнать класс гипотез H, используя минимизацию эмпирического риска .

Например, (с двоичной функцией ошибок), [2] : 328 для каждой , по крайней мере с вероятностью , для каждой гипотезы :

Ограничивая сложность Радемахера [ править ]

Поскольку меньшая сложность Радемахера лучше, полезно иметь верхние оценки сложности Радемахера для различных наборов функций. Следующие правила можно использовать для оценки сверху сложности набора по Радемахеру . [2] : 329–330

1. Если все векторы в транслируются постоянным вектором , то Rad ( A ) не изменяется.

2. Если все векторы в умножаются на скаляр , то Rad ( A ) умножается на .

3. Рад ( А + В ) = Рад ( А ) + Рад ( В ). [3] : 56

4. (Лемма Какаде и Тевари) Если все векторы в управляются липшицевой функцией , то Rad ( A ) умножается (не более чем) на константу Липшица функции. В частности, если все векторы in управляются сжимающим отображением , то Rad ( A ) строго убывает.

5. Радемахер сложность выпуклой оболочки из равен Rad ( A ).

6. (Лемма Массарта) Сложность Радемахера конечного множества логарифмически растет с размером множества. Формально, пусть будет набор векторов в , и пусть будет среднее значение векторов в . Потом:

В частности, если это набор двоичных векторов, норма не больше , поэтому:

Границы, связанные с размером VC [ править ]

Позвольте быть семейство множеств , размерность VC которого . Известно , что функция роста из ограничена как:

для всех :

Это означает , что для любого набора с в большинстве элементов . Семейство наборов можно рассматривать как набор двоичных векторов над . Подстановка этого в лемму Массарта дает:

С помощью более продвинутых методов ( оценка энтропии Дадли и оценка сверху Хаусслера [4] ) можно показать, например, что существует такая константа , что любой класс -индикаторных функций с размерностью Вапника – Червоненкиса имеет сложность Радемахера, ограниченную сверху величиной .

Границы, относящиеся к линейным классам [ править ]

Следующие границы относятся к линейным операциям над - постоянным набором векторов в . [2] : 332–333

1. Определите набор скалярных произведений векторов в с векторами в единичном шаре . Потом:

2. Определите набор скалярных произведений векторов в с векторами в единичном шаре 1-нормы. Потом:

Границы, связанные с числами покрытия [ править ]

Следующая оценка связывает сложность Радемахера множества с его внешним числом покрытия - количеством шаров заданного радиуса , объединение которых содержит . Связь приписывается Дадли. [2] : 338

Предположим, есть набор векторов, длина (норма) которых не больше . Затем для каждого целого числа :

В частности, если лежит в d -мерном подпространстве , то:

Подстановка этого в предыдущую оценку дает следующую оценку сложности Радемахера:

Гауссова сложность [ править ]

Гауссовская сложность - это аналогичная сложность с аналогичными физическими значениями, и ее можно получить из сложности Радемахера с использованием случайных величин вместо , где - гауссовские i.id случайные величины с нулевым средним и дисперсией 1, т . Е. Известно, что сложности Гаусса и Радемахера эквивалентны с точностью до логарифмических множителей.

Эквивалентность Радемахера и гауссовой сложности [ править ]

Для данного набора выполняется следующее: Где гауссовская сложность A?

Ссылки [ править ]

  1. ^ Balcan, Мария-Флорин (15-17 ноября 2011). "Теория машинного обучения - сложность Радемахера" (PDF) . Проверено 10 декабря 2016 . CS1 maint: discouraged parameter (link)
  2. ^ a b c d e f g Глава 26 у Шалев-Шварц, Шай; Бен-Давид, Шай (2014). Понимание машинного обучения - от теории к алгоритмам . Издательство Кембриджского университета. ISBN 9781107057135.
  3. ^ a b Мохри, Мехрияр ; Ростамизаде, Афшин; Талвалкар, Амит (2012). Основы машинного обучения . США, Массачусетс: MIT Press. ISBN 9780262018258.
  4. ^ Буске, О. (2004). Введение в статистическую теорию обучения. Биологическая кибернетика , 3176 (1), 169–207. http://doi.org/10.1007/978-3-540-28650-9_8
  • Питер Л. Бартлетт, Шахар Мендельсон (2002) Радемахер и гауссовские сложности: границы риска и структурные результаты . Журнал исследований в области машинного обучения 3 463–482
  • Джорджио Ньекко, Марчелло Сангинети (2008) Границы ошибки аппроксимации через сложность Радемахера . Прикладные математические науки, Vol. 2, 2008, вып. 4, 153–176