Теория Вапника – Червоненкиса.

Теория Вапника – Червоненкиса (также известная как теория ВК ) была разработана в 1960–1990 гг. Владимиром Вапником и Алексеем Червоненкисом . Теория представляет собой форму теории вычислительного обучения , которая пытается объяснить процесс обучения со статистической точки зрения.

Теория ВК связана с теорией статистического обучения и эмпирическими процессами . Ричард М. Дадли и Владимир Вапник , среди прочих, применили теорию ВК к эмпирическим процессам .

Вступление

Теория ВК включает как минимум четыре части (как объясняется в «Природа статистической теории обучения» ^[1] ):

Теория согласованности учебных процессов
- Каковы (необходимые и достаточные) условия согласованности процесса обучения на основе принципа минимизации эмпирического риска ?
Неасимптотическая теория скорости сходимости процессов обучения
- Насколько высока скорость сходимости учебного процесса?
Теория управления обобщающей способностью процессов обучения
- Как можно контролировать скорость сходимости ( способность к обобщению ) процесса обучения?
Теория построения обучающих машин
- Как можно построить алгоритмы, контролирующие способность к обобщению?

Теория ВК - основная ветвь теории статистического обучения . Одно из его основных приложений в теории статистического обучения - обеспечение условий обобщения для алгоритмов обучения. С этой точки зрения теория ВК связана со стабильностью , которая является альтернативным подходом к характеристике обобщения.

Кроме того, теория VC и измерение VC играют важную роль в теории эмпирических процессов в случае процессов, индексируемых классами VC. Возможно, это наиболее важные приложения теории ВК, которые используются для доказательства обобщения. Будет представлено несколько методов, которые широко используются в эмпирическом процессе и теории ВК. Обсуждение в основном основано на книге « Слабая конвергенция и эмпирические процессы: приложения к статистике» . ^[2]

Обзор теории ВК в эмпирических процессах

Справочная информация об эмпирических процессах

Позволять ${\ Displaystyle X_ {1}, \ ldots, X_ {n}}$ быть случайными элементами, определенными на измеримом пространстве ${\ displaystyle ({\ mathcal {X}}, {\ mathcal {A}})}$ . По любым меркам ${\ displaystyle Q}$ на ${\ displaystyle ({\ mathcal {X}}, {\ mathcal {A}})}$ , и любые измеримые функции ${\ displaystyle f: {\ mathcal {X}} \ to \ mathbf {R}}$ , определять

{\ Displaystyle Qf = \ int fdQ}

Вопросы измеримости здесь будут проигнорированы, более технические подробности см. В ^[3] . Позволять ${\ Displaystyle {\ mathcal {F}}}$ - класс измеримых функций ${\ displaystyle f: {\ mathcal {X}} \ to \ mathbf {R}}$ и определите:

{\ displaystyle \ | Q \ | _ {\ mathcal {F}} = \ sup \ {\ vert Qf \ vert \: \ f \ in {\ mathcal {F}} \}.}

Определите эмпирическую меру

{\ displaystyle \ mathbb {P} _ {n} = n ^ {- 1} \ sum _ {i = 1} ^ {n} \ delta _ {X_ {i}},}

где $δ$ здесь обозначает меру Дирака . Эмпирическая мера индуцирует отображение ${\ Displaystyle {\ mathcal {F}} \ to \ mathbf {R}}$ предоставлено:

{\ displaystyle f \ mapsto \ mathbb {P} _ {n} f = {\ frac {1} {n}} (f (X_ {1}) + ... + f (X_ {n}))}

Теперь предположим, что $P$ является лежащим в основе истинным распределением данных, которое неизвестно. Теория эмпирических процессов направлена на определение классов ${\ Displaystyle {\ mathcal {F}}}$ для которых справедливы такие утверждения, как следующие:

единый закон больших чисел :
${\ displaystyle \ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}} {\ underset {n} {\ to}} 0,}$

То есть как

{\ Displaystyle п \ к \ infty}

,

${\ displaystyle \ left | {\ frac {1} {n}} (f (X_ {1}) + ... + f (X_ {n})) - \ int fdP \ right | \ to 0}$

равномерно для всех

{\ displaystyle f \ in {\ mathcal {F}}}

.

равномерная центральная предельная теорема :

{\ displaystyle \ mathbb {G} _ {n} = {\ sqrt {n}} (\ mathbb {P} _ {n} -P) \ rightsquigarrow \ mathbb {G}, \ quad {\ text {in}} \ ell ^ {\ infty} ({\ mathcal {F}})}

В первом случае ${\ Displaystyle {\ mathcal {F}}}$ называется классом Гливенко-Кантелли , и в последнем случае (в предположении ${\ displaystyle \ forall x, \ sup \ nolimits _ {f \ in {\ mathcal {F}}} \ vert f (x) -Pf \ vert <\ infty}$ ) класс ${\ Displaystyle {\ mathcal {F}}}$ называется Донскер или $П-$ Донскер. Класс Донскера является вероятностным по Гливенко-Кантелли по применению теоремы Слуцкого .

Эти утверждения верны для одного ${\ displaystyle f}$ , стандартными аргументами LLN , CLT в условиях регулярности, а трудность эмпирических процессов заключается в том, что совместные утверждения делаются для всех ${\ displaystyle f \ in {\ mathcal {F}}}$ . Тогда интуитивно множество ${\ Displaystyle {\ mathcal {F}}}$ не может быть слишком большим, и, как выясняется, геометрия ${\ Displaystyle {\ mathcal {F}}}$ играет очень важную роль.

Один из способов измерения размера набора функций ${\ Displaystyle {\ mathcal {F}}}$ заключается в использовании так называемых покрывающих чисел . Покровный номер

{\ Displaystyle N (\ varepsilon, {\ mathcal {F}}, \ | \ cdot \ |)}

минимальное количество шаров ${\ Displaystyle \ {г: \ | гф \ | <\ varepsilon \}}$ необходимо покрыть набор ${\ Displaystyle {\ mathcal {F}}}$ (здесь, очевидно, предполагается, что существует основная норма на ${\ Displaystyle {\ mathcal {F}}}$ ). Энтропия - это логарифм числа покрытия.

Ниже приведены два достаточных условия, при которых можно доказать, что множество ${\ Displaystyle {\ mathcal {F}}}$ это Гливенко-Кантелли или Донскер.

Класс ${\ Displaystyle {\ mathcal {F}}}$ является $P$ -Гливенко-Кантелли, если он $P$ -измерим с огибающей $F$ такой, что ${\ Displaystyle P ^ {\ ast} F <\ infty}$ и удовлетворяет:

{\ displaystyle \ forall \ varepsilon> 0 \ quad \ sup \ nolimits _ {Q} N (\ varepsilon \ | F \ | _ {Q}, {\ mathcal {F}}, L_ {1} (Q)) < \ infty.}

Следующее условие - это версия знаменитой теоремы Дадли . Если ${\ Displaystyle {\ mathcal {F}}}$ - класс функций таких, что

{\ displaystyle \ int _ {0} ^ {\ infty} \ sup \ nolimits _ {Q} {\ sqrt {\ log N \ left (\ varepsilon \ | F \ | _ {Q, 2}, {\ mathcal { F}}, L_ {2} (Q) \ right)}} d \ varepsilon <\ infty}

тогда ${\ Displaystyle {\ mathcal {F}}}$ является $P$ -донскеровским для любой вероятностной меры $P$ такой, что ${\ Displaystyle P ^ {\ ast} F ^ {2} <\ infty}$ . В последнем интеграле обозначения означают

{\ Displaystyle \ | е \ | _ {Q, 2} = \ left (\ int | f | ^ {2} dQ \ right) ^ {\ frac {1} {2}}}

.

Симметризация

Большинство аргументов о том, как ограничить эмпирический процесс, основываются на симметризации, максимальном и концентрационном неравенствах и цепочках. Симметризация обычно является первым шагом доказательств, и, поскольку она используется во многих доказательствах машинного обучения для ограничения эмпирических функций потерь (включая доказательство неравенства ВК, которое обсуждается в следующем разделе), она представлена здесь.

Рассмотрим эмпирический процесс:

{\ displaystyle f \ mapsto (\ mathbb {P} _ {n} -P) f = {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} (f (X_ {i} )-ПФ)}

Оказывается, существует связь между эмпирическим и следующим симметризованным процессом:

{\ displaystyle f \ mapsto \ mathbb {P} _ {n} ^ {0} f = {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ varepsilon _ {i} f (X_ {i})}

Симметризованный процесс - это процесс Радемахера , обусловленный данными ${\ displaystyle X_ {i}}$ . Следовательно, это субгауссовский процесс по неравенству Хёффдинга .

Лемма (симметризация). Для любого неубывающего выпуклого $Φ: R \to R$ и класса измеримых функций ${\ Displaystyle {\ mathcal {F}}}$ ,

{\ Displaystyle \ mathbb {E} \ Phi (\ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}}) \ leq \ mathbb {E} \ Phi \ left (2 \ left \ | \ mathbb {P} _ {n} ^ {0} \ right \ | _ {\ mathcal {F}} \ right)}

Доказательство леммы о симметризации основано на введении независимых копий исходных переменных ${\ displaystyle X_ {i}}$ (иногда называемый призрачным образцом ) и заменяя внутреннее ожидание LHS этими копиями. После применения неравенства Дженсена можно было вводить разные знаки (отсюда и название «симметризация») без изменения математического ожидания. Доказательство можно найти ниже из-за его поучительного характера.

[Доказательство]

Представьте "призрачный образец" ${\ Displaystyle Y_ {1}, \ ldots, Y_ {n}}$ быть независимыми копиями ${\ Displaystyle X_ {1}, \ ldots, X_ {n}}$ . Для фиксированных значений ${\ Displaystyle X_ {1}, \ ldots, X_ {n}}$ надо:

{\ displaystyle \ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}} = \ sup _ {f \ in {\ mathcal {F}}} {\ dfrac {1} {n }} \ left | \ sum _ {i = 1} ^ {n} f (X_ {i}) - \ mathbb {E} f (Y_ {i}) \ right | \ leq \ mathbb {E} _ {Y } \ sup _ {f \ in {\ mathcal {F}}} {\ dfrac {1} {n}} \ left | \ sum _ {i = 1} ^ {n} f (X_ {i}) - f (Y_ {i}) \ right |}

Следовательно, по неравенству Дженсена :

{\ displaystyle \ Phi (\ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}}) \ leq \ mathbb {E} _ {Y} \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} f (X_ {i}) - f (Y_ {i}) \ right \ | _ {\ mathcal {F}} \ верно)}

Принимая ожидание в отношении ${\ displaystyle X}$ дает:

{\ Displaystyle \ mathbb {E} \ Phi (\ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}}) \ leq \ mathbb {E} _ {X} \ mathbb {E } _ {Y} \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} f (X_ {i}) - f (Y_ {i} ) \ right \ | _ {\ mathcal {F}} \ right)}

Обратите внимание, что добавление знака минус перед термином ${\ displaystyle f (X_ {i}) - f (Y_ {i})}$ не изменяет RHS, потому что это симметричная функция ${\ displaystyle X}$ а также ${\ displaystyle Y}$ . Следовательно, RHS остается прежним при "возмущении знака":

{\ displaystyle \ mathbb {E} \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} e_ {i} \ left (f (X_ { i}) - f (Y_ {i}) \ right) \ right \ | _ {\ mathcal {F}} \ right)}

для любой ${\ displaystyle (e_ {1}, e_ {2}, \ ldots, e_ {n}) \ in \ {- 1,1 \} ^ {n}}$ . Следовательно:

{\ displaystyle \ mathbb {E} \ Phi (\ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}}) \ leq \ mathbb {E} _ {\ varepsilon} \ mathbb { E} \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ varepsilon _ {i} \ left (f (X_ {i}) - f (Y_ {i}) \ right) \ right \ | _ {\ mathcal {F}} \ right)}

Наконец, используя сначала неравенство треугольника, а затем выпуклость ${\ displaystyle \ Phi}$ дает:

{\ Displaystyle \ mathbb {E} \ Phi (\ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}}) \ leq {\ dfrac {1} {2}} \ mathbb { E} _ {\ varepsilon} \ mathbb {E} \ Phi \ left (2 \ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ varepsilon _ {i} f (X_ {i}) \ right \ | _ {\ mathcal {F}} \ right) + {\ dfrac {1} {2}} \ mathbb {E} _ {\ varepsilon} \ mathbb {E} \ Phi \ left (2 \ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ varepsilon _ {i} f (Y_ {i}) \ right \ | _ {\ mathcal {F}} \ right)}

Где два последних выражения в правой части совпадают, что завершает доказательство.

Типичный способ доказательства эмпирических CLT, сначала использует симметризацию, чтобы передать эмпирический процесс в ${\ displaystyle \ mathbb {P} _ {n} ^ {0}}$ а затем аргументируют условно данные, используя тот факт, что процессы Радемахера - это простые процессы с хорошими свойствами.

Подключение VC

Оказывается, существует интересная связь между некоторыми комбинаторными свойствами множества ${\ Displaystyle {\ mathcal {F}}}$ и числа энтропии. Равномерные числа покрытия можно контролировать с помощью понятия классов множеств Вапника-Червоненкиса или, сокращенно, множеств VC .

Рассмотрим коллекцию ${\ displaystyle {\ mathcal {C}}}$ подмножеств пространства выборки ${\ Displaystyle {\ mathcal {X}}}$ . ${\ displaystyle {\ mathcal {C}}}$ Говорят, что выбирает определенное подмножество ${\ displaystyle W}$ конечного множества ${\ Displaystyle S = \ {x_ {1}, \ ldots, x_ {n} \} \ subset {\ mathcal {X}}}$ если ${\ Displaystyle W = S \ cap C}$ для некоторых ${\ displaystyle C \ in {\ mathcal {C}}}$ . ${\ displaystyle {\ mathcal {C}}}$ Говорят, что он разрушит $S,$ если выберет каждое из своих $2 n$ подмножеств. ВК-индекс ( по аналогии с VC размерности + 1 для соответствующего выбранного набора классификатора) ${\ Displaystyle V ({\ mathcal {C}})}$ из ${\ displaystyle {\ mathcal {C}}}$ это наименьшее $n,$ для которого ни один набор размера $n$ не разрушается ${\ displaystyle {\ mathcal {C}}}$ .

Затем лемма Зауэра утверждает, что число ${\ displaystyle \ Delta _ {n} ({\ mathcal {C}}, x_ {1}, \ ldots, x_ {n})}$ подмножеств, выбранных VC-классом ${\ displaystyle {\ mathcal {C}}}$ удовлетворяет:

{\ displaystyle \ max _ {x_ {1}, \ ldots, x_ {n}} \ Delta _ {n} ({\ mathcal {C}}, x_ {1}, \ ldots, x_ {n}) \ leq \ sum _ {j = 0} ^ {V ({\ mathcal {C}}) - 1} {n \ choose j} \ leq \ left ({\ frac {ne} {V ({\ mathcal {C}}) ) -1}} \ right) ^ {V ({\ mathcal {C}}) - 1}}

Это полиномиальное число ${\ Displaystyle О (п ^ {V ({\ mathcal {C}}) - 1})}$ подмножеств, а не экспоненциальное число. Интуитивно это означает, что из конечного VC-индекса следует, что ${\ displaystyle {\ mathcal {C}}}$ имеет очевидную упрощенную структуру.

Аналогичная граница может быть показана (с другой константой, той же скоростью) для так называемых классов подграфов VC . Для функции ${\ displaystyle f: {\ mathcal {X}} \ to \ mathbf {R}}$ подграф является подмножеством ${\ Displaystyle {\ mathcal {X}} \ times \ mathbf {R}}$ такой, что: ${\ Displaystyle \ {(х, т): т <е (х) \}}$ . Коллекция ${\ Displaystyle {\ mathcal {F}}}$ называется классом подграфа VC, если все подграфы образуют VC-класс.

Рассмотрим набор индикаторных функций ${\ displaystyle {\ mathcal {I}} _ {\ mathcal {C}} = \ {1_ {C}: C \ in {\ mathcal {C}} \}}$ в ${\ displaystyle L_ {1} (Q)}$ для дискретной эмпирической меры $Q$ (или, что то же самое, для любой вероятностной меры $Q$ ). Тогда можно показать, что весьма примечательно, что для ${\ displaystyle r \ geq 1}$ :

{\ Displaystyle N (\ varepsilon, {\ mathcal {I}} _ {\ mathcal {C}}, L_ {r} (Q)) \ leq KV ({\ mathcal {C}}) (4e) ^ {V ({\ mathcal {C}})} \ varepsilon ^ {- r (V ({\ mathcal {C}}) - 1)}}

Далее рассмотрим симметричную выпуклую оболочку множества ${\ Displaystyle {\ mathcal {F}}}$ : ${\ displaystyle \ operatorname {sconv} {\ mathcal {F}}}$ являясь набором функций формы ${\ Displaystyle \ сумма _ {я = 1} ^ {м} \ альфа _ {я} е_ {я}}$ с участием ${\ Displaystyle \ сумма _ {я = 1} ^ {м} | \ альфа _ {я} | \ Leq 1}$ . Тогда если

{\ displaystyle N \ left (\ varepsilon \ | F \ | _ {Q, 2}, {\ mathcal {F}}, L_ {2} (Q) \ right) \ leq C \ varepsilon ^ {- V}}

для выпуклой оболочки ${\ Displaystyle {\ mathcal {F}}}$ :

{\ displaystyle \ log N \ left (\ varepsilon \ | F \ | _ {Q, 2}, \ operatorname {sconv} {\ mathcal {F}}, L_ {2} (Q) \ right) \ leq K \ варепсилон ^ {- {\ frac {2V} {V + 2}}}}

Важным следствием этого факта является то, что

{\ displaystyle {\ frac {2V} {V + 2}}> 2,}

чего как раз достаточно, чтобы интеграл энтропии сходился, и, следовательно, класс ${\ displaystyle \ operatorname {sconv} {\ mathcal {F}}}$ будет $П-$ Донскером.

Наконец, рассматривается пример класса VC-подграфа. Любое конечномерное векторное пространство ${\ Displaystyle {\ mathcal {F}}}$ измеримых функций ${\ displaystyle f: {\ mathcal {X}} \ to \ mathbf {R}}$ VC-подграф индекса меньше или равен ${\ Displaystyle \ тусклый ({\ mathcal {F}}) + 2}$ .

[Доказательство]

Брать ${\ Displaystyle п = \ тусклый ({\ mathcal {F}}) + 2}$ точки ${\ Displaystyle (x_ {1}, t_ {1}), \ ldots, (x_ {n}, t_ {n})}$ . Векторы:

{\ Displaystyle (е (x_ {1}), \ ldots, f (x_ {n})) - (t_ {1}, \ ldots, t_ {n})}

находятся в $n - 1$ мерном подпространстве в $R n$ . Возьмите $\neq 0$ , вектор, ортогональный к этому подпространству. Следовательно:

{\ displaystyle \ sum _ {a_ {i}> 0} a_ {i} (f (x_ {i}) - t_ {i}) = \ sum _ {a_ {i} <0} (- a_ {i} ) (f (x_ {i}) - t_ {i}), \ quad \ forall f \ in {\ mathcal {F}}}

Рассмотрим множество ${\ displaystyle S = \ {(x_ {i}, t_ {i}): a_ {i}> 0 \}}$ . Этот набор нельзя выбрать, так как если есть какие-то ${\ displaystyle f}$ такой, что ${\ Displaystyle S = \ {(x_ {i}, t_ {i}): f (x_ {i})> t_ {i} \}}$ это означало бы, что LHS строго положительный, но RHS неположительный.

Существуют обобщения понятия класса подграфов VC, например, понятие псевдоразмерности. Заинтересованный читатель может заглянуть в ^[4] .

VC Inequality

Рассматривается аналогичная настройка, которая более характерна для машинного обучения . Позволять ${\ Displaystyle {\ mathcal {X}}}$ пространство функций и ${\ Displaystyle {\ mathcal {Y}} = \ {0,1 \}}$ . Функция ${\ displaystyle f: {\ mathcal {X}} \ to {\ mathcal {Y}}}$ называется классификатором. Позволять ${\ Displaystyle {\ mathcal {F}}}$ быть набором классификаторов. Как и в предыдущем разделе, определите коэффициент разрушения (также известный как функция роста):

{\ Displaystyle S ({\ mathcal {F}}, n) = \ max _ {x_ {1}, \ ldots, x_ {n}} | \ {(f (x_ {1}), \ ldots, f ( x_ {n})), f \ in {\ mathcal {F}} \} |}

Обратите внимание, что между каждой из функций в ${\ Displaystyle {\ mathcal {F}}}$ и множество, на котором функция равна 1. Таким образом, мы можем определить ${\ displaystyle {\ mathcal {C}}}$ быть набором подмножеств, полученных из приведенного выше отображения для каждого ${\ displaystyle f \ in {\ mathcal {F}}}$ . Следовательно, в терминах предыдущего раздела коэффициент дробления точно равен

{\ displaystyle \ max _ {x_ {1}, \ ldots, x_ {n}} \ Delta _ {n} ({\ mathcal {C}}, x_ {1}, \ ldots, x_ {n})}

.

Из этой эквивалентности вместе с леммой Зауэра следует, что ${\ Displaystyle S ({\ mathcal {F}}, п)}$ будет полиномиальным от $n$ для достаточно большого $n$ при условии, что набор ${\ displaystyle {\ mathcal {C}}}$ имеет конечный VC-индекс.

Позволять ${\ Displaystyle D_ {п} = \ {(X_ {1}, Y_ {1}), \ ldots, (X_ {n}, Y_ {m}) \}}$ это наблюдаемый набор данных. Предположим, что данные генерируются неизвестным распределением вероятностей ${\ displaystyle P_ {XY}}$ . Определять ${\ Displaystyle R (е) = п (е (X) \ neq Y)}$ быть ожидаемым убытком 0/1 . Конечно с тех пор ${\ displaystyle P_ {XY}}$ неизвестно вообще, нет доступа к ${\ Displaystyle R (f)}$ . Однако эмпирический риск , определяемый по формуле:

{\ displaystyle {\ hat {R}} _ {n} (f) = {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ mathbb {I} (f (X_ { i}) \ neq Y_ {i})}

конечно можно оценить. Тогда справедлива следующая Теорема:

Теорема (неравенство ВК)

Для бинарной классификации и функции потерь 0/1 мы имеем следующие границы обобщения:

{\ displaystyle {\ begin {align} P \ left (\ sup _ {f \ in {\ mathcal {F}}} \ left | {\ hat {R}} _ {n} (f) -R (f) \ right |> \ varepsilon \ right) & \ leq 8S ({\ mathcal {F}}, n) e ^ {- n \ varepsilon ^ {2} / 32} \\\ mathbb {E} \ left [\ sup _ {f \ in {\ mathcal {F}}} \ left | {\ hat {R}} _ {n} (f) -R (f) \ right | \ right] & \ leq 2 {\ sqrt {\ dfrac {\ log S ({\ mathcal {F}}, n) + \ log 2} {n}}} \ end {выровнен}}}

На словах неравенство ВК означает, что по мере увеличения выборки при условии, что ${\ Displaystyle {\ mathcal {F}}}$ имеет конечный размер венчурного капитала, эмпирический риск 0/1 становится хорошим показателем ожидаемого риска 0/1. Обратите внимание, что обе правые части двух неравенств будут сходиться к 0 при условии, что ${\ Displaystyle S ({\ mathcal {F}}, п)}$ полиномиально растет по $n$ .

Связь между этой структурой и структурой эмпирического процесса очевидна. Здесь мы имеем дело с модифицированным эмпирическим процессом.

{\ displaystyle \ left | {\ hat {R}} _ {n} -R \ right | _ {\ mathcal {F}}}

но неудивительно, что идеи совпадают. Доказательство неравенства ВК (первая часть) основывается на симметризации, а затем на условных аргументах на основе данных с использованием неравенств концентрации (в частности , неравенства Хёффдинга ). Заинтересованный читатель может проверить книгу ^[5] Теоремы 12.4 и 12.5.