Компромисс смещения и дисперсии

В статистике и машинном обучении компромисс между смещением и дисперсией является тем свойством модели, что дисперсия оценок параметров по выборкам может быть уменьшена за счет увеличения смещения в оцениваемых параметрах . Смещения Вариативности дилеммы или проблема смещения Вариативности является конфликтом в попытке одновременно минимизировать эти два источника ошибки , мешающее наблюдение обучения алгоритмов обобщающих за их обучающий набор : ^[1]^[2]

Систематическая ошибка ошибка от ошибочных предположений в учебном алгоритме . Сильное смещение может привести к тому, что алгоритм упустит релевантные отношения между функциями и целевыми выходными данными (недостаточное соответствие).
Дисперсия является ошибкой от чувствительности к малым колебаниям в обучающем наборе. Высокая дисперсия может быть результатом алгоритма, моделирующего случайный шум в обучающих данных ( переобучение ).

спред = 5

спред = 1

спред = 0,1

Функция (красный) аппроксимируется с использованием радиальных базисных функций (синий). На каждом графике показано несколько испытаний. Для каждого испытания несколько точек данных с зашумлением предоставляются в качестве обучающего набора (вверху). Для широкого разброса (изображение 2) смещение велико: RBF не могут полностью аппроксимировать функцию (особенно центральный провал), но разница между различными испытаниями мала. По мере уменьшения разброса (изображения 3 и 4) смещение уменьшается: синие кривые более точно соответствуют красному. Однако в зависимости от шума в разных испытаниях разница между испытаниями увеличивается. На самом нижнем изображении приближенные значения для x = 0 сильно различаются в зависимости от того, где были расположены точки данных.

Смещение и дисперсия в зависимости от сложности модели

Разложение диагонально-дисперсия является способ анализа учебного алгоритма ожидаемой ошибки обобщения относительно конкретной задачи в виде суммы трех слагаемых, смещения, дисперсии и величины называется неприводимым ошибки , в результате чего из -за шума в самой задачи.

Мотивация

смещение низкий,
дисперсия низкая:
точность высокая
смещение высокое,
дисперсия низкая:
точность высокая
смещение низкий,
дисперсия высокая:
точность низкая
смещение высокий,
дисперсия высокая:
точность низкая

Компромисс между смещением и дисперсией - центральная проблема в обучении с учителем. В идеале нужно выбрать модель, которая не только точно фиксирует закономерности обучающих данных, но и хорошо обобщается на невидимые данные. К сожалению, сделать и то и другое одновременно невозможно. Методы обучения с высокой дисперсией могут хорошо представлять свой обучающий набор, но при этом существует риск переобучения зашумленным или нерепрезентативным обучающим данным. Напротив, алгоритмы с высоким смещением обычно создают более простые модели, которые могут не улавливать важные закономерности (т. Е. Не соответствовать) в данных.

Часто делается заблуждение ^[3]^{[4], когда} предполагается, что сложные модели должны иметь высокую дисперсию; Модели с высокой дисперсией в некотором смысле «сложны», но обратное не обязательно ^{[ требуется разъяснение ]} . Кроме того, нужно быть осторожным при определении сложности: в частности, количество параметров, используемых для описания модели, является плохим показателем сложности. Это проиллюстрировано примером, адаптированным из: ^[5] Модель ${\ displaystyle f_ {a, b} (x) = a \ sin (bx)}$ имеет всего два параметра ( ${\ displaystyle a, b}$ ), но он может интерполировать любое количество точек за счет колебаний с достаточно высокой частотой, что приводит как к высокому смещению, так и к большой дисперсии.

Интуитивно понятно, что смещение уменьшается за счет использования только локальной информации, тогда как дисперсию можно уменьшить только путем усреднения по нескольким наблюдениям, что по сути означает использование информации из более крупного региона. Поучительный пример см. В разделе о k-ближайших соседях или на рисунке справа. Чтобы сбалансировать, сколько информации используется из соседних наблюдений, модель может быть сглажена с помощью явной регуляризации , такой как усадка .

Разложение среднеквадратичной ошибки по смещению – дисперсии

Предположим, что у нас есть обучающий набор, состоящий из набора точек ${\ displaystyle x_ {1}, \ dots, x_ {n}}$ и реальные ценности ${\ displaystyle y_ {i}}$ связанный с каждой точкой ${\ displaystyle x_ {i}}$ . Предположим, что существует функция с шумом ${\ Displaystyle у = е (х) + \ varepsilon}$ , где шум, ${\ Displaystyle \ varepsilon}$ , имеет нулевое среднее значение и дисперсию ${\ displaystyle \ sigma ^ {2}}$ .

Мы хотим найти функцию ${\ Displaystyle {\ шляпа {f}} (х; D)}$ , что приближает истинную функцию ${\ displaystyle f (x)}$ насколько это возможно, с помощью некоторого алгоритма обучения на основе обучающего набора данных (выборки) ${\ Displaystyle D = \ {(x_ {1}, y_ {1}) \ точки, (x_ {n}, y_ {n}) \}}$ . Мы делаем «насколько это возможно» точными, измеряя среднеквадратичную ошибку между ${\ displaystyle y}$ а также ${\ Displaystyle {\ шляпа {f}} (х; D)}$ : мы хотим ${\ Displaystyle (у - {\ шляпа {f}} (х; D)) ^ {2}}$ быть минимальным, как для ${\ displaystyle x_ {1}, \ dots, x_ {n}}$ и для точек за пределами нашей выборки . Конечно, мы не можем надеяться на это идеально, поскольку ${\ displaystyle y_ {i}}$ содержать шум ${\ Displaystyle \ varepsilon}$ ; это означает, что мы должны быть готовы допустить непоправимую ошибку в любой придуманной нами функции.

Нахождение ${\ displaystyle {\ hat {f}}}$ обобщение на точки за пределами обучающей выборки может быть выполнено с помощью любого из бесчисленных алгоритмов, используемых для обучения с учителем. Оказывается, какая бы функция ${\ displaystyle {\ hat {f}}}$ мы выбираем, мы можем разложить его ожидаемую ошибку на невидимую выборку ${\ displaystyle x}$ следующим образом: ^[6]^{: 34}^[7]^{: 223}

{\ displaystyle \ operatorname {E} _ {D} {\ Big [} {\ big (} y - {\ hat {f}} (x; D) {\ big)} ^ {2} {\ Big]} = {\ Big (} \ operatorname {Bias} _ {D} {\ big [} {\ hat {f}} (x; D) {\ big]} {\ Big)} ^ {2} + \ operatorname { Var} _ {D} {\ big [} {\ hat {f}} (x; D) {\ big]} + \ sigma ^ {2}}

где

{\ displaystyle \ operatorname {Bias} _ {D} {\ big [} {\ hat {f}} (x; D) {\ big]} = \ operatorname {E} _ {D} {\ big [} { \ hat {f}} (x; D) {\ big]} - f (x)}

а также

{\ displaystyle \ operatorname {Var} _ {D} {\ big [} {\ hat {f}} (x; D) {\ big]} = \ operatorname {E} _ {D} [{\ big (} \ operatorname {E} _ {D} [{\ hat {f}} (x; D)] - {\ hat {f}} (x; D) {\ big)} ^ {2}].}

Ожидание варьируется в зависимости от выбора обучающего набора. ${\ Displaystyle D = \ {(x_ {1}, y_ {1}) \ точки, (x_ {n}, y_ {n}) \}}$ , все взяты из одного совместного распределения ${\ Displaystyle Р (х, у)}$ . Три термина представляют:

квадрат смещения метода обучения, который можно рассматривать как ошибку, вызванную упрощающими допущениями, встроенными в метод. Например, при приближении нелинейной функции ${\ displaystyle f (x)}$ используя метод обучения для линейных моделей , будет ошибка в оценках ${\ Displaystyle {\ шляпа {f}} (х)}$ из-за этого предположения;
дисперсия методы обучения, или, интуитивно, сколько метод обучения ${\ Displaystyle {\ шляпа {f}} (х)}$ будет двигаться вокруг своего среднего;
неприводимая ошибка ${\ displaystyle \ sigma ^ {2}}$ .

Поскольку все три члена неотрицательны, неприводимая ошибка образует нижнюю границу ожидаемой ошибки для невидимых выборок. ^[6]^{: 34}

Чем сложнее модель ${\ Displaystyle {\ шляпа {f}} (х)}$ То есть, чем больше точек данных будет захвачено, тем меньше будет смещение. Однако сложность заставит модель больше «двигаться» для захвата точек данных, и, следовательно, ее дисперсия будет больше.

Вывод

Вывод разложения смещения – дисперсии для квадрата ошибки происходит следующим образом. ^[8]^[9] Для удобства обозначений мы сокращаем ${\ Displaystyle е = е (х)}$ , ${\ displaystyle {\ hat {f}} = {\ hat {f}} (x; D)}$ и мы бросаем ${\ displaystyle D}$ индекс в наших операторах ожидания. Во-первых, напомним, что по определению для любой случайной величины ${\ displaystyle X}$ , у нас есть

{\ displaystyle \ operatorname {Var} [X] = \ operatorname {E} [X ^ {2}] - \ operatorname {E} [X] ^ {2}.}

Переставляя, получаем:

{\ displaystyle \ operatorname {E} [X ^ {2}] = \ operatorname {Var} [X] + \ operatorname {E} [X] ^ {2}.}

С ${\ displaystyle f}$ является детерминированным , т.е. не зависит от ${\ displaystyle D}$ ,

{\ displaystyle \ operatorname {E} [f] = f.}

Таким образом, учитывая ${\ Displaystyle у = е + \ varepsilon}$ а также ${\ Displaystyle \ OperatorName {E} [\ varepsilon] = 0}$ (так как ${\ Displaystyle \ varepsilon}$ шум), следует ${\ displaystyle \ operatorname {E} [y] = \ operatorname {E} [f + \ varepsilon] = \ operatorname {E} [f] = f.}$

Кроме того, поскольку ${\ displaystyle \ operatorname {Var} [\ varepsilon] = \ sigma ^ {2},}$

{\ displaystyle \ operatorname {Var} [y] = \ operatorname {E} [(y- \ operatorname {E} [y]) ^ {2}] = \ operatorname {E} [(yf) ^ {2}] = \ operatorname {E} [(f + \ varepsilon -f) ^ {2}] = \ operatorname {E} [\ varepsilon ^ {2}] = \ operatorname {Var} [\ varepsilon] + \ operatorname {E} [ \ varepsilon] ^ {2} = \ sigma ^ {2} + 0 ^ {2} = \ sigma ^ {2}.}

Таким образом, поскольку ${\ Displaystyle \ varepsilon}$ а также ${\ displaystyle {\ hat {f}}}$ независимы, мы можем написать

{\ displaystyle {\ begin {align} \ operatorname {E} {\ big [} (y - {\ hat {f}}) ^ {2} {\ big]} & = \ operatorname {E} {\ big [ } (f + \ varepsilon - {\ hat {f}}) ^ {2} {\ big]} \\ [5pt] & = \ operatorname {E} {\ big [} (f + \ varepsilon - {\ hat {f }} + \ operatorname {E} [{\ hat {f}}] - \ operatorname {E} [{\ hat {f}}]) ^ {2} {\ big]} \\ [5pt] & = \ имя оператора {E} {\ big [} (f- \ operatorname {E} [{\ hat {f}}]) ^ {2} {\ big]} + \ operatorname {E} [\ varepsilon ^ {2}] + \ operatorname {E} {\ big [} (\ operatorname {E} [{\ hat {f}}] - {\ hat {f}}) ^ {2} {\ big]} + 2 \ operatorname {E } {\ big [} (f- \ operatorname {E} [{\ hat {f}}]) \ varepsilon {\ big]} + 2 \ operatorname {E} {\ big [} \ varepsilon (\ operatorname {E } [{\ hat {f}}] - {\ hat {f}}) {\ big]} + 2 \ operatorname {E} {\ big [} (\ operatorname {E} [{\ hat {f}} ] - {\ hat {f}}) (f- \ operatorname {E} [{\ hat {f}}]) {\ big]} \\ [5pt] & = (f- \ operatorname {E} [{ \ hat {f}}]) ^ {2} + \ operatorname {E} [\ varepsilon ^ {2}] + \ operatorname {E} {\ big [} (\ operatorname {E} [{\ hat {f} }] - {\ hat {f}}) ^ {2} {\ big]} + 2 (f- \ operatorname {E} [{\ hat {f}}]) \ operatorname {E} [\ vareps ilon] +2 \ operatorname {E} [\ varepsilon] \ operatorname {E} {\ big [} \ operatorname {E} [{\ hat {f}}] - {\ hat {f}} {\ big]} +2 \ operatorname {E} {\ big [} \ operatorname {E} [{\ hat {f}}] - {\ hat {f}} {\ big]} (f- \ operatorname {E} [{\ шляпа {f}}]) \\ [5pt] & = (f- \ operatorname {E} [{\ hat {f}}]) ^ {2} + \ operatorname {E} [\ varepsilon ^ {2}] + \ operatorname {E} {\ big [} (\ operatorname {E} [{\ hat {f}}] - {\ hat {f}}) ^ {2} {\ big]} \\ [5pt] & = (f- \ operatorname {E} [{\ hat {f}}]) ^ {2} + \ operatorname {Var} [\ varepsilon] + \ operatorname {Var} {\ big [} {\ hat {f} } {\ big]} \\ [5pt] & = \ operatorname {Bias} [{\ hat {f}}] ^ {2} + \ operatorname {Var} [\ varepsilon] + \ operatorname {Var} {\ big [} {\ hat {f}} {\ big]} \\ [5pt] & = \ operatorname {Bias} [{\ hat {f}}] ^ {2} + \ sigma ^ {2} + \ operatorname { Var} {\ big [} {\ hat {f}} {\ big]}. \ End {align}}}

Наконец, функция потерь MSE (или отрицательная логарифм правдоподобия) получается путем взятия математического ожидания над ${\ displaystyle x \ sim P}$ :

{\ displaystyle {\ text {MSE}} = \ operatorname {E} _ {x} {\ bigg \ {} \ operatorname {Bias} _ {D} [{\ hat {f}} (x; D)] ^ {2} + \ operatorname {Var} _ {D} {\ big [} {\ hat {f}} (x; D) {\ big]} {\ bigg \}} + \ sigma ^ {2}.}

Подходы

Уменьшение размерности и выбор функций могут уменьшить дисперсию за счет упрощения моделей. Точно так же более крупный обучающий набор имеет тенденцию уменьшать дисперсию. Добавление функций (предикторов) имеет тенденцию уменьшать смещение за счет введения дополнительной дисперсии. Алгоритмы обучения обычно имеют некоторые настраиваемые параметры, которые контролируют смещение и дисперсию; Например,

линейные и обобщенные линейные модели можно регуляризовать, чтобы уменьшить их дисперсию за счет увеличения смещения. ^[10]
В искусственных нейронных сетях дисперсия увеличивается, а смещение уменьшается по мере увеличения количества скрытых единиц ^[11], хотя это классическое предположение было предметом недавних дебатов. ^[4] Как и в GLM, обычно применяется регуляризация.
В моделях k- ближайших соседей высокое значение $k$ приводит к высокому смещению и низкой дисперсии (см. Ниже).
В обучении на основе экземпляров регуляризация может быть достигнута путем варьирования смеси прототипов и образцов. ^[12]
В деревьях решений глубина дерева определяет дисперсию. Деревья решений обычно обрезаются, чтобы контролировать дисперсию. ^[6]^{: 307}

Один из способов решения этой проблемы - использовать смешанные модели и ансамблевое обучение . ^[13]^[14] Например, бустинг объединяет множество «слабых» (с высоким смещением) моделей в ансамбль, который имеет меньшее смещение, чем отдельные модели, в то время как бугинг объединяет «сильных» учеников таким образом, чтобы уменьшить их дисперсию.

Методы проверки модели, такие как перекрестная проверка (статистика), могут использоваться для настройки моделей с целью оптимизации компромисса.

k -ближайшие соседи

В случае регрессии k- ближайших соседей , когда ожидание берется из возможной маркировки фиксированного обучающего набора, существует выражение в замкнутой форме, которое связывает разложение смещения-дисперсии с параметром $k$ : ^[7]^{: 37, 223}

{\ displaystyle \ operatorname {E} [(y - {\ hat {f}} (x)) ^ {2} \ mid X = x] = \ left (f (x) - {\ frac {1} {k }} \ sum _ {i = 1} ^ {k} f (N_ {i} (x)) \ right) ^ {2} + {\ frac {\ sigma ^ {2}} {k}} + \ sigma ^ {2}}

где ${\ Displaystyle N_ {1} (х), \ точки, N_ {k} (х)}$ являются $k$ ближайшими соседями $x$ в обучающей выборке. Смещение (первый член) является монотонно возрастающей функцией $k$ , в то время как дисперсия (второй член) спадает с увеличением $k$ . Фактически, при «разумных предположениях» смещение оценки первого ближайшего соседа (1-NN) полностью исчезает, когда размер обучающей выборки приближается к бесконечности. ^[11]

Приложения

В регрессе

Декомпозиция смещения – дисперсии формирует концептуальную основу для методов регуляризации регрессии, таких как лассо и гребневая регрессия . Методы регуляризации вносят систематическую ошибку в регрессионное решение, которое может значительно уменьшить дисперсию по сравнению с обычным методом наименьших квадратов (МНК) . Хотя решение OLS обеспечивает непредвзятые оценки регрессии, решения с более низкой дисперсией, полученные с помощью методов регуляризации, обеспечивают превосходную производительность MSE.

В классификации

Разложение смещения – дисперсии было первоначально сформулировано для регрессии методом наименьших квадратов. Для случая классификации по убыткам 0-1 (коэффициент ошибочной классификации) можно найти аналогичное разложение. ^[15]^{[16] В} качестве альтернативы, если проблема классификации может быть сформулирована как вероятностная классификация , то ожидаемая квадратичная ошибка предсказанных вероятностей относительно истинных вероятностей может быть разложена, как и раньше. ^[17]

В обучении с подкреплением

Несмотря на то, что декомпозиция смещения и дисперсии не применяется напрямую в обучении с подкреплением , подобный компромисс также может характеризовать обобщение. Когда агент имеет ограниченную информацию о своей среде, субоптимальность алгоритма RL может быть разложена на сумму двух членов: члена, связанного с асимптотическим смещением, и члена, связанного с переобучением. Асимптотическое смещение напрямую связано с алгоритмом обучения (независимо от количества данных), в то время как условие переобучения происходит из-за того, что количество данных ограничено. ^[18]

В человеческом обучении

Хотя эта дилемма широко обсуждалась в контексте машинного обучения, она была изучена в контексте человеческого познания , в первую очередь Гердом Гигеренцером и его коллегами в контексте усвоенной эвристики. Они утверждали (см. Ссылки ниже), что человеческий мозг решает дилемму в случае обычно разреженных, плохо охарактеризованных обучающих наборов, предоставляемых опытом, путем принятия эвристики с высоким смещением / низкой дисперсией. Это отражает тот факт, что подход с нулевым смещением плохо переносится на новые ситуации, а также необоснованно предполагает точное знание истинного состояния мира. Результирующие эвристики относительно просты, но дают лучшие выводы в более широком спектре ситуаций. ^[19]

Geman et al. ^[11] утверждают, что дилемма смещения-дисперсии подразумевает, что такие способности, как универсальное распознавание объектов, не могут быть изучены с нуля, но требуют определенной степени «жесткой связи», которая позже настраивается на опыте. Это связано с тем, что безмодельные подходы к выводу требуют непрактично больших обучающих наборов, если они хотят избежать высокой дисперсии.

Смотрите также

Тщательность и точность
Смещение оценщика
Теорема Гаусса – Маркова
Оптимизация гиперпараметров
Несмещенная оценка минимальной дисперсии
Выбор модели
Проверка регрессионной модели
Контролируемое обучение