Сложность образца

Образец сложность из машинного обучения алгоритма представляет собой количество тренинга-образцы , которые нужны для того , чтобы успешно изучить целевую функцию.

Точнее, сложность выборки - это количество обучающих выборок, которые нам нужно предоставить алгоритму, чтобы функция, возвращаемая алгоритмом, находилась в пределах произвольно малой ошибки наилучшей возможной функции с вероятностью, произвольно близкой к 1.

Возможны два варианта сложности выборки:

Слабый вариант фиксирует определенное распределение ввода-вывода;
Сильный вариант принимает сложность выборки наихудшего случая по всем распределениям ввода-вывода.

Теорема об отсутствии бесплатного обеда, обсуждаемая ниже, доказывает, что в общем случае сильная сложность выборки бесконечна, то есть не существует алгоритма, который мог бы изучить глобально оптимальную целевую функцию с использованием конечного числа обучающих выборок.

Однако, если нас интересует только конкретный класс целевых функций (например, только линейные функции), то сложность выборки конечна и линейно зависит от размерности VC в классе целевых функций. ^[1]

Определение

Позволять ${\ displaystyle X}$ быть пространством, которое мы называем входным пространством, и ${\ displaystyle Y}$ - пространство, которое мы называем выходным пространством, и пусть ${\ displaystyle Z}$ обозначить продукт ${\ Displaystyle X \ раз Y}$ . Например, при настройке двоичной классификации ${\ displaystyle X}$ обычно является конечномерным векторным пространством и ${\ displaystyle Y}$ это набор ${\ displaystyle \ {- 1,1 \}}$ .

Исправьте пространство гипотез ${\ displaystyle {\ mathcal {H}}}$ функций ${\ displaystyle h \ двоеточие от X \ до Y}$ . Алгоритм обучения окончен ${\ displaystyle {\ mathcal {H}}}$ вычислимая карта из ${\ Displaystyle Z ^ {*}}$ к ${\ displaystyle {\ mathcal {H}}}$ . Другими словами, это алгоритм, который принимает на вход конечную последовательность обучающих выборок и выводит функцию из ${\ displaystyle X}$ к ${\ displaystyle Y}$ . Типичные алгоритмы обучения включают минимизацию эмпирического риска без или с регуляризацией Тихонова .

Исправить функцию потерь ${\ displaystyle {\ mathcal {L}} \ двоеточие Y \ times Y \ to \ mathbb {R} _ {\ geq 0}}$ , например, квадрат потерь ${\ Displaystyle {\ mathcal {L}} (у, у ') = (у-у') ^ {2}}$ , где ${\ Displaystyle ч (х) = у '}$ . Для данного распределения ${\ displaystyle \ rho}$ на ${\ Displaystyle X \ раз Y}$ , ожидаемый риск гипотезы (функция) ${\ displaystyle h \ in {\ mathcal {H}}}$ является

{\ Displaystyle {\ mathcal {E}} (h): = \ mathbb {E} _ {\ rho} [{\ mathcal {L}} (h (x), y)] = \ int _ {X \ times Y} {\ mathcal {L}} (h (x), y) \, d \ rho (x, y)}

В нашей обстановке у нас есть ${\ displaystyle h = {\ mathcal {A}} (S_ {n})}$ , где ${\ displaystyle {\ mathcal {A}}}$ алгоритм обучения и ${\ Displaystyle S_ {n} = ((x_ {1}, y_ {1}), \ ldots, (x_ {n}, y_ {n})) \ sim \ rho ^ {n}}$ представляет собой последовательность векторов, которые нарисованы независимо от ${\ displaystyle \ rho}$ . Определите оптимальный риск

{\ displaystyle {\ mathcal {E}} _ {\ mathcal {H}} ^ {*} = {\ underset {h \ in {\ mathcal {H}}} {\ inf}} {\ mathcal {E}} (час).}

Набор

{\ displaystyle h_ {n} = {\ mathcal {A}} (S_ {n})}

, для каждого

{\ displaystyle n}

. Обратите внимание, что

{\ displaystyle h_ {n}}

является случайной величиной и зависит от случайной величины

{\ displaystyle S_ {n}}

, взятый из распределения

{\ displaystyle \ rho ^ {n}}

. Алгоритм

{\ displaystyle {\ mathcal {A}}}

называется согласованным, если

{\ Displaystyle {\ mathcal {E}} (ч_ {п})}

вероятностно сходится к

{\ Displaystyle {\ mathcal {E}} _ {\ mathcal {H}} ^ {*}}

. Другими словами, для всех

{\ displaystyle \ epsilon, \ delta> 0}

, существует натуральное число

{\ displaystyle N}

, так что для всех

{\ Displaystyle п \ geq N}

, у нас есть

{\ displaystyle \ Pr _ {\ rho ^ {n}} [{\ mathcal {E}} (h_ {n}) - {\ mathcal {E}} _ {\ mathcal {H}} ^ {*} \ geq \ varepsilon] <\ delta.}

Образец сложности из

{\ displaystyle {\ mathcal {A}}}

тогда минимальный

{\ displaystyle N}

для которого это верно, как функция

{\ displaystyle \ rho, \ epsilon}

, а также

{\ displaystyle \ delta}

. Запишем сложность образца как

{\ Displaystyle N (\ rho, \ epsilon, \ delta)}

чтобы подчеркнуть, что это значение

{\ displaystyle N}

зависит от

{\ displaystyle \ rho, \ epsilon}

, а также

{\ displaystyle \ delta}

. Если

{\ displaystyle {\ mathcal {A}}}

это не соответствует , то положим

{\ Displaystyle N (\ rho, \ epsilon, \ delta) = \ infty}

. Если существует алгоритм, для которого

{\ Displaystyle N (\ rho, \ epsilon, \ delta)}

конечно, то мы говорим, что пространство гипотез

{\ displaystyle {\ mathcal {H}}}

можно научиться .

Другими словами, сложность выборки ${\ Displaystyle N (\ rho, \ epsilon, \ delta)}$ определяет степень согласованности алгоритма: при заданной точности ${\ displaystyle \ epsilon}$ и уверенность ${\ displaystyle \ delta}$ , нужно пробовать ${\ Displaystyle N (\ rho, \ epsilon, \ delta)}$ точки данных, чтобы гарантировать, что риск выходной функции находится в пределах ${\ displaystyle \ epsilon}$ наилучшего из возможных, с вероятностью не менее ${\ displaystyle 1- \ delta}$ . ^[2]

При вероятном приблизительно правильном обучении (PAC) каждый заинтересован в том, является ли сложность выборки полиномиальной , т.е. ${\ Displaystyle N (\ rho, \ epsilon, \ delta)}$ ограничен полиномом от ${\ displaystyle 1 / \ epsilon}$ а также ${\ displaystyle 1 / \ delta}$ . Если ${\ Displaystyle N (\ rho, \ epsilon, \ delta)}$ является полиномом для некоторого алгоритма обучения, то говорят, что пространство гипотез ${\ displaystyle {\ mathcal {H}}}$ можно изучить с помощью PAC . Обратите внимание, что это более сильное понятие, чем возможность научиться.

Неограниченное пространство гипотез: бесконечная сложность выборки

Можно спросить, существует ли алгоритм обучения, чтобы сложность выборки была конечной в строгом смысле, то есть существует ограничение на количество необходимых выборок, чтобы алгоритм мог изучить любое распределение по пространству ввода-вывода с помощью указанная целевая ошибка. Более формально спрашивают, существует ли алгоритм обучения ${\ displaystyle {\ mathcal {A}}}$ , так что для всех ${\ displaystyle \ epsilon, \ delta> 0}$ , существует натуральное число ${\ displaystyle N}$ такое, что для всех ${\ Displaystyle п \ geq N}$ , у нас есть

{\ Displaystyle \ sup _ {\ rho} \ left (\ Pr _ {\ rho ^ {n}} [{\ mathcal {E}} (h_ {n}) - {\ mathcal {E}} _ {\ mathcal {H}} ^ {*} \ geq \ varepsilon] \ right) <\ delta,}

где

{\ displaystyle h_ {n} = {\ mathcal {A}} (S_ {n})}

, с участием

{\ Displaystyle S_ {n} = ((x_ {1}, y_ {1}), \ ldots, (x_ {n}, y_ {n})) \ sim \ rho ^ {n}}

как указано выше. Теорема о запрете бесплатного обеда гласит, что без ограничений на пространство гипотез

{\ displaystyle {\ mathcal {H}}}

, это не так, т. е. всегда существуют «плохие» распределения, для которых сложность выборки сколь угодно велика. ^[1]

Таким образом, чтобы сделать заявления о скорости сходимости величины

{\ Displaystyle \ sup _ {\ rho} \ left (\ Pr _ {\ rho ^ {n}} [{\ mathcal {E}} (h_ {n}) - {\ mathcal {E}} _ {\ mathcal {H}} ^ {*} \ geq \ varepsilon] \ right),}

нужно либо

ограничить пространство вероятностных распределений ${\ displaystyle \ rho}$ , например, с помощью параметрического подхода, или
ограничить пространство гипотез ${\ displaystyle {\ mathcal {H}}}$ , как и в подходах без распространения.

Ограниченное пространство гипотез: конечная сложность выборки

Последний подход приводит к таким концепциям, как размерность VC и сложность Радемахера, которые контролируют сложность пространства. ${\ displaystyle {\ mathcal {H}}}$ . Меньшее пространство гипотез вносит больше предвзятости в процесс вывода, а это означает, что ${\ Displaystyle {\ mathcal {E}} _ {\ mathcal {H}} ^ {*}}$ может быть больше, чем максимально возможный риск в большем пространстве. Однако, ограничивая сложность пространства гипотез, алгоритм может создавать более единообразно согласованные функции. Этот компромисс приводит к концепции регуляризации . ^[2]

Теорема из теории VC состоит в том, что следующие три утверждения эквивалентны для пространства гипотез ${\ displaystyle {\ mathcal {H}}}$ :

${\ displaystyle {\ mathcal {H}}}$ можно изучить с помощью PAC.
Размер венчурного капитала ${\ displaystyle {\ mathcal {H}}}$ конечно.
${\ displaystyle {\ mathcal {H}}}$ является равномерным классом Гливенко-Кантелли .

Это дает возможность доказать, что определенные пространства гипотез могут быть изучены с помощью PAC и, соответственно, могут быть изучены.

Пример пространства гипотез, изучаемого с помощью PAC

${\ Displaystyle X = \ mathbb {R} ^ {d}, Y = \ {- 1,1 \}}$ , и разреши ${\ displaystyle {\ mathcal {H}}}$ - пространство аффинных функций на ${\ displaystyle X}$ , то есть функции вида ${\ Displaystyle х \ mapsto \ langle ш, х \ rangle + b}$ для некоторых ${\ displaystyle w \ in \ mathbb {R} ^ {d}, b \ in \ mathbb {R}}$ . Это линейная классификация со смещенной задачей обучения. Теперь обратите внимание, что четыре компланарные точки в квадрате не могут быть разрушены какой-либо аффинной функцией, поскольку никакая аффинная функция не может быть положительной на двух диагонально противоположных вершинах и отрицательной на оставшихся двух. Таким образом, размер VC ${\ displaystyle {\ mathcal {H}}}$ является ${\ displaystyle d + 1}$ , так что конечно. Из приведенной выше характеристики классов, изучаемых с помощью PAC, следует, что ${\ displaystyle {\ mathcal {H}}}$ является PAC-обучаемым, и, соответственно, обучаемым.

Границы сложности выборки

Предполагать ${\ displaystyle {\ mathcal {H}}}$ это класс бинарных функций (функций для ${\ displaystyle \ {0,1 \}}$ ). Потом, ${\ displaystyle {\ mathcal {H}}}$ является ${\ displaystyle (\ epsilon, \ delta)}$ -PAC-обучаемый с выборкой размера: ^[3]

{\ Displaystyle N = О {\ bigg (} {\ frac {VC ({\ mathcal {H}}) + \ ln {1 \ over \ delta}} {\ epsilon}} {\ bigg)}}

где

{\ displaystyle VC ({\ mathcal {H}})}

это измерение ВК из

{\ displaystyle {\ mathcal {H}}}

. Более того, любые

{\ displaystyle (\ epsilon, \ delta)}

-PAC-алгоритм обучения для

{\ displaystyle {\ mathcal {H}}}

должен иметь сложность образца: ^[4]

{\ Displaystyle N = \ Omega {\ bigg (} {\ frac {VC ({\ mathcal {H}}) + \ ln {1 \ over \ delta}} {\ epsilon}} {\ bigg)}}

Таким образом, сложность выборки является линейной функцией размера VC пространства гипотез.

Предполагать ${\ displaystyle {\ mathcal {H}}}$ является классом функций с действительными значениями с диапазоном значений в ${\ displaystyle [0, T]}$ . Потом, ${\ displaystyle {\ mathcal {H}}}$ является ${\ displaystyle (\ epsilon, \ delta)}$ -PAC-обучаемый с выборкой размера: ^[5]^[6]

{\ Displaystyle N = O {\ bigg (} T ^ {2} {\ frac {PD ({\ mathcal {H}}) \ ln {T \ over \ epsilon} + \ ln {1 \ over \ delta}} {\ epsilon ^ {2}}} {\ bigg)}}

где

{\ Displaystyle PD ({\ mathcal {H}})}

это Поллард псевдоразмерности из

{\ displaystyle {\ mathcal {H}}}

.

Другие настройки

В дополнении к обучению под наблюдение настройки, образец сложность имеет отношение к полу под наблюдением обучения проблемы , в том числе активного обучения , ^[7] , где алгоритм может задать для меток специально выбранных входы для того , чтобы снизить затраты на получение много ярлыков. Концепция сложности выборки также проявляется в обучении с подкреплением , ^[8] онлайн-обучении и неконтролируемых алгоритмах, например, для изучения словаря . ^[9]

Эффективность в робототехнике

Высокая сложность выборки означает, что для выполнения поиска по дереву Монте-Карло требуется много вычислений . ^[10] Это равносильно модельному поиску методом грубой силы в пространстве состояний. Напротив, высокоэффективный алгоритм имеет низкую сложность выборки. ^[11] Возможные методы уменьшения сложности выборки - это метрическое обучение ^[12] и обучение с подкреплением на основе моделей. ^[13]