Размерность Вапника – Червоненкиса

В теории Вапника-Червоненкис , то размерность Вапник-Червоненкис (VC) является мерой способности (сложности, выразительной силы, богатства, или гибкости) набора функций , которые могут быть изучены с помощью статистического бинарной классификации алгоритма . Он определяется как мощность наибольшего набора точек, которые алгоритм может разрушить . Первоначально его определили Владимир Вапник и Алексей Червоненкис . ^[1]

Неформально емкость модели классификации связана с тем, насколько она может быть сложной. Например, рассмотрим пороговую обработку многочлена высокой степени : если значение многочлена больше нуля, эта точка классифицируется как положительная, иначе как отрицательная. Многочлен высокой степени может быть извилистым, поэтому он может хорошо соответствовать заданному набору обучающих точек. Но можно ожидать, что классификатор будет делать ошибки по другим пунктам, потому что он слишком шаткий. Такой многочлен имеет большую емкость. Гораздо более простой альтернативой является определение порога линейной функции. Эта функция может не подходить для обучающего набора, потому что у него низкая пропускная способность. Это понятие емкости будет уточнено ниже.

Определения

Размер VC набора-семейства

Позволять ${\ displaystyle H}$ - семейство множеств (набор множеств) и ${\ displaystyle C}$ множество. Их пересечение определяется как следующее семейство множеств:

{\ Displaystyle H \ cap C: = \ {h \ cap C \ mid h \ in H \}.}

Мы говорим, что набор ${\ displaystyle C}$ будет разрушена по ${\ displaystyle H}$ если ${\ displaystyle H \ cap C}$ содержит все подмножества ${\ displaystyle C}$ , то есть:

{\ displaystyle | H \ cap C | = 2 ^ {| C |}.}

Размер VC ${\ displaystyle D}$ из ${\ displaystyle H}$ является крупнейшей мощностью множеств подорвана ${\ displaystyle H}$ . Если можно разбить произвольно большие подмножества, размер VC равен ${\ displaystyle \ infty}$ .

Измерение VC модели классификации

Модель бинарной классификации ${\ displaystyle f}$ с некоторым вектором параметров ${\ displaystyle \ theta}$ Говорят, что разрушает набор точек данных ${\ displaystyle (x_ {1}, x_ {2}, \ ldots, x_ {n})}$ если для всех присвоений меток этим точкам существует ${\ displaystyle \ theta}$ так что модель ${\ displaystyle f}$ не делает ошибок при оценке этого набора точек данных.

Размер VC модели ${\ displaystyle f}$ - максимальное количество точек, которые можно расположить так, чтобы ${\ displaystyle f}$ разбивает их. Формально это максимальный кардинальный ${\ displaystyle D}$ такой, что некоторый набор точек данных мощности ${\ displaystyle D}$ может быть разбит ${\ displaystyle f}$ .

Примеры

1. ${\ displaystyle f}$ - постоянный классификатор (без параметров). Его размер VC равен 0, так как он не может разбить даже одну точку. В общем, размерность VC конечной классификационной модели, которая может возвращать не более ${\ displaystyle 2 ^ {d}}$ различных классификаторов, не более ${\ displaystyle d}$ (это верхняя оценка размерности VC; лемма Зауэра – Шелаха дает нижнюю оценку размерности).

2. ${\ displaystyle f}$ - однопараметрический пороговый классификатор по действительным числам; т.е. для определенного порога ${\ displaystyle \ theta}$ , классификатор ${\ displaystyle f _ {\ theta}}$ возвращает 1, если входное число больше, чем ${\ displaystyle \ theta}$ и 0 в противном случае. Размер венчурного капитала ${\ displaystyle f}$ равен 1, потому что: (a) Он может разбить одну точку. За каждую точку ${\ displaystyle x}$ , классификатор ${\ displaystyle f _ {\ theta}}$ помечает это как 0, если ${\ Displaystyle \ theta> х}$ и помечает его как 1, если ${\ Displaystyle \ тета <х}$ . (b) Он не может разбить ни один набор из двух точек. Для каждого набора из двух чисел, если меньшее помечено 1, то большее также должно быть помечено 1, поэтому не все обозначения возможны.

3. ${\ displaystyle f}$ - однопараметрический интервальный классификатор по действительным числам; т.е. для некоторого параметра ${\ displaystyle \ theta}$ , классификатор ${\ displaystyle f _ {\ theta}}$ возвращает 1, если входной номер находится в интервале ${\ Displaystyle [\ тета, \ тета +4]}$ и 0 в противном случае. Размер венчурного капитала ${\ displaystyle f}$ равно 2, потому что: (a) Он может разрушить некоторые наборы из двух точек. Например, для каждого набора ${\ Displaystyle \ {х, х + 2 \}}$ , классификатор ${\ displaystyle f _ {\ theta}}$ помечает его как (0,0), если ${\ Displaystyle \ тета <х-4}$ или если ${\ displaystyle \ theta> х + 2}$ , как (1,0), если ${\ Displaystyle \ тета \ в [х-4, х-2)}$ , как (1,1), если ${\ Displaystyle \ тета \ в [х-2, х]}$ , и как (0,1), если ${\ Displaystyle \ тета \ в (х, х + 2]}$ . (b) Он не может разрушить ни одну из трех точек. Для каждого набора из трех чисел, если наименьшее и наибольшее помечены 1, то среднее также должно быть помечено 1, поэтому не все обозначения возможны.

4. ${\ displaystyle f}$ представляет собой прямую линию в качестве модели классификации точек на двумерной плоскости (это модель, используемая перцептроном ). Линия должна отделять положительные точки данных от отрицательных. Существуют наборы из 3 точек, которые действительно можно разбить, используя эту модель (любые 3 точки, которые не лежат на одной прямой, могут быть разбиты). Однако ни один набор из 4 точек не может быть разбит: по теореме Радона любые четыре точки можно разбить на два подмножества с пересекающимися выпуклыми оболочками , поэтому невозможно отделить одно из этих двух подмножеств от другого. Таким образом, размер VC этого конкретного классификатора равен 3. Важно помнить, что, хотя можно выбрать любое расположение точек, расположение этих точек не может измениться при попытке разбить для некоторого присвоения метки. Обратите внимание, что для трех точек показаны только 3 из 2 ³ = 8 возможных присвоений меток.


3 очка разбиты			4 балла невозможно

5. ${\ displaystyle f}$ является однопараметрическим синусоидальным классификатором, т.е. по определенному параметру ${\ displaystyle \ theta}$ , классификатор ${\ displaystyle f _ {\ theta}}$ возвращает 1, если входной номер ${\ displaystyle x}$ имеет ${\ Displaystyle \ грех (\ тета х)> 0}$ и 0 в противном случае. Размер венчурного капитала ${\ displaystyle f}$ бесконечно, так как может разрушить любое конечное подмножество множества ${\ displaystyle \ {2 ^ {- m} \ mid m \ in \ mathbb {N} \}}$ . ^[2]^{: 57}

Использует

В статистической теории обучения

Измерение VC может предсказать вероятностную верхнюю границу ошибки теста модели классификации. Вапник ^[3] доказал, что вероятность ошибки теста (т. Е. Риска с функцией потерь 0-1), отдаляющаяся от верхней границы (для данных, взятых iid из того же распределения, что и обучающая выборка), определяется выражением:

{\ displaystyle \ Pr \ left ({\ text {ошибка теста}} \ leqslant {\ text {ошибка обучения}} + {\ sqrt {{\ frac {1} {N}} \ left [D \ left (\ log \ left ({\ tfrac {2N} {D}} \ right) +1 \ right) - \ log \ left ({\ tfrac {\ eta} {4}} \ right) \ right]}} \, \ right ) = 1- \ eta,}

где ${\ displaystyle D}$ - размер VC классификационной модели, ${\ displaystyle 0 <\ eta \ leqslant 1}$ , а также ${\ displaystyle N}$ - размер обучающей выборки (ограничение: эта формула действительна, когда ${\ Displaystyle D \ ll N}$ . Когда ${\ displaystyle D}$ больше, ошибка теста может быть намного больше, чем ошибка обучения. Это связано с переоснащением ).

Измерение VC также появляется в границах сложности выборки . Пространство бинарных функций с размерностью VC ${\ displaystyle D}$ можно узнать с помощью:

{\ Displaystyle N = \ Theta \ left ({\ frac {D + \ ln {1 \ over \ delta}} {\ varepsilon}} \ right)}

образцы, где ${\ Displaystyle \ varepsilon}$ ошибка обучения и ${\ displaystyle \ delta}$ вероятность отказа. Таким образом, сложность выборки является линейной функцией размера VC пространства гипотез.

В вычислительной геометрии

Размерность ВК - один из критических параметров размера ε-сетей , который определяет сложность алгоритмов аппроксимации на их основе; Наборы диапазонов без конечной размерности VC могут вообще не иметь конечных ε-сетей.

Границы

0. Размерность VC двойственного семейства множеств ${\ Displaystyle {\ mathcal {F}}}$ строго меньше, чем ${\ Displaystyle 2 ^ {\ OperatorName {vc} ({\ mathcal {F}}) + 1}}$ , и это лучше всего.

1. Размерность VC конечного множества-семейства ${\ displaystyle H}$ самое большее ${\ displaystyle \ log _ {2} | H |}$ . ^[2]^{: 56} Это потому, что ${\ displaystyle | H \ cap C | \ leq | H |}$ по определению.

2. Учитывая семейство наборов ${\ displaystyle H}$ , определять ${\ displaystyle H_ {s}}$ как семейство множеств, которое содержит все пересечения ${\ displaystyle s}$ элементы ${\ displaystyle H}$ . Тогда: ^[2]^{: 57}

{\ Displaystyle \ OperatorName {VCDim} (H_ {s}) \ Leq \ OperatorName {VCDim} (H) \ cdot (2s \ log _ {2} (3s))}

3. Учитывая семейство наборов ${\ displaystyle H}$ и элемент ${\ displaystyle h_ {0} \ in H}$ , определять ${\ displaystyle H \, \ Delta h_ {0}: = \ {h \, \ Delta h_ {0} \ mid h \ in H \}}$ где ${\ displaystyle \ Delta}$ обозначает симметричную разность множеств . Тогда: ^[2]^{: 58}

{\ Displaystyle \ OperatorName {VCDim} (H \, \ Delta h_ {0}) = \ OperatorName {VCDim} (H)}

VC размерность конечной проективной плоскости

Конечная проективная плоскость порядка п представляет собой набор из п ² + п + 1 множеств ( так называемые «линии») в течение п ² + п + 1 элементов ( так называемые «точки»), для которых:

Каждая строка содержит ровно n + 1 точку.
Каждая линия пересекает каждую другую ровно в одной точке.
Каждая точка содержится ровно в n + 1 строках.
Каждая точка находится ровно на одной линии, общей с любой другой точкой.
По крайней мере, четыре точки не лежат на одной линии.

Размерность VC конечной проективной плоскости равна 2. ^[4]

Доказательство : (a) Для каждой пары различных точек существует одна строка, содержащая их обе, строки, содержащие только одну из них, и строки, не содержащие ни одной из них, поэтому каждый набор размера 2 разбивается. (b) Для любой тройки из трех различных точек, если существует линия x , содержащая все три, то не существует прямой y , содержащей ровно две (поскольку тогда x и y пересекались бы в двух точках, что противоречит определению проективной плоскости). Следовательно, ни один комплект размера 3 не разрушен.

Размер VC повышающего классификатора

Предположим, у нас есть базовый класс ${\ displaystyle B}$ простых классификаторов, размерность VC которых ${\ displaystyle D}$ .

Мы можем создать более мощный классификатор, объединив несколько разных классификаторов из ${\ displaystyle B}$ ; этот метод называется бустингом . Формально, учитывая ${\ displaystyle T}$ классификаторы ${\ displaystyle h_ {1}, \ ldots, h_ {T} \ in B}$ и вектор веса ${\ Displaystyle ш \ в \ mathbb {R} ^ {T}}$ , мы можем определить следующий классификатор:

{\ Displaystyle е (х) = \ OperatorName {знак} \ left (\ sum _ {t = 1} ^ {T} w_ {t} \ cdot h_ {t} (x) \ right)}

Размерность VC набора всех таких классификаторов (для всех выборок ${\ displaystyle T}$ классификаторы из ${\ displaystyle B}$ и вектор веса из ${\ Displaystyle \ mathbb {R} ^ {T}}$ ), предполагая ${\ displaystyle T, D \ geq 3}$ , не более: ^[5]^{: 108–109}

{\ Displaystyle Т \ CDOT (D + 1) \ CDOT (3 \ журнал (Т \ CDOT (D + 1)) + 2)}

Размер виртуального канала нейронной сети

Нейронной сети описывается ориентированный ациклический граф G ( V , E ), где:

V - набор узлов. Каждый узел представляет собой простую вычислительную ячейку.
E - это набор ребер, каждое ребро имеет вес.
Вход в сеть представлен источниками графа - узлами без входящих ребер.
Выход сети представлен стоками графа - узлами без исходящих ребер.
Каждый промежуточный узел получает в качестве входных данных взвешенную сумму выходных данных узлов на его входящих ребрах, где веса - это веса на ребрах.
Каждый промежуточный узел выводит определенную возрастающую функцию своего входа, такую как функция знака или сигмоидальная функция . Эта функция называется функцией активации .

Размер виртуального канала нейронной сети ограничен следующим образом: ^[5]^{: 234–235}

Если функция активации является функцией знака, а веса являются общими, то размерность VC не превосходит ${\ Displaystyle О (| Е | \ CDOT \ журнал (| E |))}$ .
Если функция активации является сигмоидной функцией, а веса являются общими, то размерность VC составляет не менее ${\ Displaystyle \ Omega (| E | ^ {2})}$ и самое большее ${\ Displaystyle О (| Е | ^ {2} \ cdot | V | ^ {2})}$ .
Если веса происходят из конечного семейства (например, веса являются действительными числами, которые могут быть представлены на компьютере максимум 32 битами), то для обеих функций активации размер VC не превышает ${\ Displaystyle O (| E |)}$ .

Обобщения

Размерность VC определена для пространств двоичных функций (функций до {0,1}). Было предложено несколько обобщений для пространств недвоичных функций.

Для многозначных функций (функций для {0, ..., n }) можно использовать размерность Натараджана ^[6] . Бен Дэвид и др. ^[7] представляют обобщение этой концепции.
Для функций с действительными значениями (например, функций с действительным интервалом [0,1]) можно использовать псевдоразмерность Полларда ^[8]^[9]^[10] .
Сложность Радемахера обеспечивает аналогичные оценки для VC, и иногда может обеспечить более глубокий , чем расчеты размеров ОК в такие статистические методы , такие как те , которые используют ядра ^{[ править ]} .

Смотрите также

Функция роста
Лемма Зауэра – Шелаха , оценка количества множеств в системе множеств в терминах размерности VC.
Теорема Карпинского – Макинтайра , ^[11] оценка размерности ВК общих формул Пфаффа.

Сноски

^ Вапник, ВН; Червоненкис, А.Я. (1971). «О равномерной сходимости относительных частот событий к их вероятностям». Теория вероятностей и ее приложения . 16 (2): 264. DOI : 10,1137 / 1116025 . Это английский перевод русской газеты Б. Секлера: «О равномерной сходимости относительных частот событий к их вероятностям». Докл. Акад. Наук . 181 (4): 781. 1968. Перевод был воспроизведен как: Вапник, ВН; Червоненкис, А.Я. (2015). «О равномерной сходимости относительных частот событий к их вероятностям». Меры сложности . п. 11. DOI : 10.1007 / 978-3-319-21852-6_3 . ISBN 978-3-319-21851-9.
^ а б в г Мохри, Мехриар ; Ростамизаде, Афшин; Талвалкар, Амит (2012). Основы машинного обучения . США, Массачусетс: MIT Press. ISBN 9780262018258.
^ Вапник 2000 .
^ Alon, N .; Haussler, D .; Вельцль, Э. (1987). «Разбиение и геометрическое вложение пространств значений конечной размерности Вапника-Червоненкиса». Материалы третьего ежегодного симпозиума по вычислительной геометрии - SCG '87 . п. 331. DOI : 10,1145 / 41958,41994 . ISBN 978-0897912310. S2CID 7394360 .
^ а б Шалев-Шварц, Шай; Бен-Давид, Шай (2014). Понимание машинного обучения - от теории к алгоритмам . Издательство Кембриджского университета. ISBN 9781107057135.
^ Натараджан 1989 .
↑ Бен-Давид, Чеза-Бьянки и Лонг 1992 .
Перейти ↑ Pollard 1984 .
^ Энтони и Бартлетт 2009 .
^ Моргенштерн и Roughgarden 2015 .
^ Карпинский & Макинтайр 1997 .