В статистике и машинном обучении компромисс между смещением и дисперсией является тем свойством модели, что дисперсия оценок параметров по выборкам может быть уменьшена за счет увеличения смещения в оцениваемых параметрах . Смещения Вариативности дилеммы или проблема смещения Вариативности является конфликтом в попытке одновременно минимизировать эти два источника ошибки , мешающее наблюдение обучения алгоритмов обобщающих за их обучающий набор : [1] [2]
- Систематическая ошибка ошибка от ошибочных предположений в учебном алгоритме . Сильное смещение может привести к тому, что алгоритм упустит релевантные отношения между функциями и целевыми выходными данными (недостаточное соответствие).
- Дисперсия является ошибкой от чувствительности к малым колебаниям в обучающем наборе. Высокая дисперсия может быть результатом алгоритма, моделирующего случайный шум в обучающих данных ( переобучение ).
Разложение диагонально-дисперсия является способ анализа учебного алгоритма ожидаемой ошибки обобщения относительно конкретной задачи в виде суммы трех слагаемых, смещения, дисперсии и величины называется неприводимым ошибки , в результате чего из -за шума в самой задачи.
Мотивация
смещение высокое,
дисперсия низкая:
точность высокаясмещение низкий,
дисперсия высокая:
точность низкаясмещение высокий,
дисперсия высокая:
точность низкая
Компромисс между смещением и дисперсией - центральная проблема в обучении с учителем. В идеале нужно выбрать модель, которая не только точно фиксирует закономерности обучающих данных, но и хорошо обобщается на невидимые данные. К сожалению, сделать и то и другое одновременно невозможно. Методы обучения с высокой дисперсией могут хорошо представлять свой обучающий набор, но при этом существует риск переобучения зашумленным или нерепрезентативным обучающим данным. Напротив, алгоритмы с высоким смещением обычно создают более простые модели, которые могут не улавливать важные закономерности (т. Е. Не соответствовать) в данных.
Часто делается заблуждение [3] [4], когда предполагается, что сложные модели должны иметь высокую дисперсию; Модели с высокой дисперсией в некотором смысле «сложны», но обратное не обязательно [ требуется разъяснение ] . Кроме того, нужно быть осторожным при определении сложности: в частности, количество параметров, используемых для описания модели, является плохим показателем сложности. Это проиллюстрировано примером, адаптированным из: [5] Модель имеет всего два параметра (), но он может интерполировать любое количество точек за счет колебаний с достаточно высокой частотой, что приводит как к высокому смещению, так и к большой дисперсии.
Интуитивно понятно, что смещение уменьшается за счет использования только локальной информации, тогда как дисперсию можно уменьшить только путем усреднения по нескольким наблюдениям, что по сути означает использование информации из более крупного региона. Поучительный пример см. В разделе о k-ближайших соседях или на рисунке справа. Чтобы сбалансировать, сколько информации используется из соседних наблюдений, модель может быть сглажена с помощью явной регуляризации , такой как усадка .
Разложение среднеквадратичной ошибки по смещению – дисперсии
Предположим, что у нас есть обучающий набор, состоящий из набора точек и реальные ценности связанный с каждой точкой . Предположим, что существует функция с шумом, где шум, , имеет нулевое среднее значение и дисперсию .
Мы хотим найти функцию , что приближает истинную функцию насколько это возможно, с помощью некоторого алгоритма обучения на основе обучающего набора данных (выборки) . Мы делаем «насколько это возможно» точными, измеряя среднеквадратичную ошибку между а также : мы хотим быть минимальным, как для и для точек за пределами нашей выборки . Конечно, мы не можем надеяться на это идеально, поскольку содержать шум ; это означает, что мы должны быть готовы допустить непоправимую ошибку в любой придуманной нами функции.
Нахождение обобщение на точки за пределами обучающей выборки может быть выполнено с помощью любого из бесчисленных алгоритмов, используемых для обучения с учителем. Оказывается, какая бы функциямы выбираем, мы можем разложить его ожидаемую ошибку на невидимую выборкуследующим образом: [6] : 34 [7] : 223
где
а также
Ожидание варьируется в зависимости от выбора обучающего набора. , все взяты из одного совместного распределения . Три термина представляют:
- квадрат смещения метода обучения, который можно рассматривать как ошибку, вызванную упрощающими допущениями, встроенными в метод. Например, при приближении нелинейной функциииспользуя метод обучения для линейных моделей , будет ошибка в оценках из-за этого предположения;
- дисперсия методы обучения, или, интуитивно, сколько метод обучения будет двигаться вокруг своего среднего;
- неприводимая ошибка .
Поскольку все три члена неотрицательны, неприводимая ошибка образует нижнюю границу ожидаемой ошибки для невидимых выборок. [6] : 34
Чем сложнее модель То есть, чем больше точек данных будет захвачено, тем меньше будет смещение. Однако сложность заставит модель больше «двигаться» для захвата точек данных, и, следовательно, ее дисперсия будет больше.
Вывод
Вывод разложения смещения – дисперсии для квадрата ошибки происходит следующим образом. [8] [9] Для удобства обозначений мы сокращаем, и мы бросаем индекс в наших операторах ожидания. Во-первых, напомним, что по определению для любой случайной величины, у нас есть
Переставляя, получаем:
С является детерминированным , т.е. не зависит от,
Таким образом, учитывая а также (так как шум), следует
Кроме того, поскольку
Таким образом, поскольку а также независимы, мы можем написать
Наконец, функция потерь MSE (или отрицательная логарифм правдоподобия) получается путем взятия математического ожидания над :
Подходы
Уменьшение размерности и выбор функций могут уменьшить дисперсию за счет упрощения моделей. Точно так же более крупный обучающий набор имеет тенденцию уменьшать дисперсию. Добавление функций (предикторов) имеет тенденцию уменьшать смещение за счет введения дополнительной дисперсии. Алгоритмы обучения обычно имеют некоторые настраиваемые параметры, которые контролируют смещение и дисперсию; Например,
- линейные и обобщенные линейные модели можно регуляризовать, чтобы уменьшить их дисперсию за счет увеличения смещения. [10]
- В искусственных нейронных сетях дисперсия увеличивается, а смещение уменьшается по мере увеличения количества скрытых единиц [11], хотя это классическое предположение было предметом недавних дебатов. [4] Как и в GLM, обычно применяется регуляризация.
- В моделях k- ближайших соседей высокое значение k приводит к высокому смещению и низкой дисперсии (см. Ниже).
- В обучении на основе экземпляров регуляризация может быть достигнута путем варьирования смеси прототипов и образцов. [12]
- В деревьях решений глубина дерева определяет дисперсию. Деревья решений обычно обрезаются, чтобы контролировать дисперсию. [6] : 307
Один из способов решения этой проблемы - использовать смешанные модели и ансамблевое обучение . [13] [14] Например, бустинг объединяет множество «слабых» (с высоким смещением) моделей в ансамбль, который имеет меньшее смещение, чем отдельные модели, в то время как бугинг объединяет «сильных» учеников таким образом, чтобы уменьшить их дисперсию.
Методы проверки модели, такие как перекрестная проверка (статистика), могут использоваться для настройки моделей с целью оптимизации компромисса.
k -ближайшие соседи
В случае регрессии k- ближайших соседей , когда ожидание берется из возможной маркировки фиксированного обучающего набора, существует выражение в замкнутой форме, которое связывает разложение смещения-дисперсии с параметром k : [7] : 37, 223
где являются k ближайшими соседями x в обучающей выборке. Смещение (первый член) является монотонно возрастающей функцией k , в то время как дисперсия (второй член) спадает с увеличением k . Фактически, при «разумных предположениях» смещение оценки первого ближайшего соседа (1-NN) полностью исчезает, когда размер обучающей выборки приближается к бесконечности. [11]
Приложения
В регрессе
Декомпозиция смещения – дисперсии формирует концептуальную основу для методов регуляризации регрессии, таких как лассо и гребневая регрессия . Методы регуляризации вносят систематическую ошибку в регрессионное решение, которое может значительно уменьшить дисперсию по сравнению с обычным методом наименьших квадратов (МНК) . Хотя решение OLS обеспечивает непредвзятые оценки регрессии, решения с более низкой дисперсией, полученные с помощью методов регуляризации, обеспечивают превосходную производительность MSE.
В классификации
Разложение смещения – дисперсии было первоначально сформулировано для регрессии методом наименьших квадратов. Для случая классификации по убыткам 0-1 (коэффициент ошибочной классификации) можно найти аналогичное разложение. [15] [16] В качестве альтернативы, если проблема классификации может быть сформулирована как вероятностная классификация , то ожидаемая квадратичная ошибка предсказанных вероятностей относительно истинных вероятностей может быть разложена, как и раньше. [17]
В обучении с подкреплением
Несмотря на то, что декомпозиция смещения и дисперсии не применяется напрямую в обучении с подкреплением , подобный компромисс также может характеризовать обобщение. Когда агент имеет ограниченную информацию о своей среде, субоптимальность алгоритма RL может быть разложена на сумму двух членов: члена, связанного с асимптотическим смещением, и члена, связанного с переобучением. Асимптотическое смещение напрямую связано с алгоритмом обучения (независимо от количества данных), в то время как условие переобучения происходит из-за того, что количество данных ограничено. [18]
В человеческом обучении
Хотя эта дилемма широко обсуждалась в контексте машинного обучения, она была изучена в контексте человеческого познания , в первую очередь Гердом Гигеренцером и его коллегами в контексте усвоенной эвристики. Они утверждали (см. Ссылки ниже), что человеческий мозг решает дилемму в случае обычно разреженных, плохо охарактеризованных обучающих наборов, предоставляемых опытом, путем принятия эвристики с высоким смещением / низкой дисперсией. Это отражает тот факт, что подход с нулевым смещением плохо переносится на новые ситуации, а также необоснованно предполагает точное знание истинного состояния мира. Результирующие эвристики относительно просты, но дают лучшие выводы в более широком спектре ситуаций. [19]
Geman et al. [11] утверждают, что дилемма смещения-дисперсии подразумевает, что такие способности, как универсальное распознавание объектов, не могут быть изучены с нуля, но требуют определенной степени «жесткой связи», которая позже настраивается на опыте. Это связано с тем, что безмодельные подходы к выводу требуют непрактично больших обучающих наборов, если они хотят избежать высокой дисперсии.
Смотрите также
- Тщательность и точность
- Смещение оценщика
- Теорема Гаусса – Маркова
- Оптимизация гиперпараметров
- Несмещенная оценка минимальной дисперсии
- Выбор модели
- Проверка регрессионной модели
- Контролируемое обучение
Рекомендации
- ^ Кохави, Рон; Вольперт, Дэвид Х. (1996). «Разложение смещения плюс дисперсия для функций с нулевыми потерями». ICML . 96 .
- ^ Luxburg, Ulrike V .; Шёлкопф, Б. (2011). «Статистическая теория обучения: модели, концепции и результаты». Справочник по истории логики . 10 : Раздел 2.4.
- ^ Нил, Брэди (2019). «На компромиссе смещения и дисперсии: учебники нуждаются в обновлении». arXiv : 1912.08286 [ cs.LG ].
- ^ а б Нил, Брэди; Миттал, Сартак; Баратин, Аристид; Тантия, Винаяк; Scicluna, Мэтью; Лакост-Жюльен, Симон; Митлягкас, Иоаннис (2018). «Современный взгляд на компромисс смещения-дисперсии в нейронных сетях». arXiv : 1810.08591 [ cs.LG ].
- ^ Вапник, Владимир (2000). Природа статистической теории обучения . Нью-Йорк: Springer-Verlag. ISBN 978-1-4757-3264-1.
- ^ а б в Джеймс, Гарет; Виттен, Даниэла ; Хасти, Тревор ; Тибширани, Роберт (2013). Введение в статистическое обучение . Springer.
- ^ а б Хасти, Тревор; Тибширани, Роберт; Фридман, Джером Х. (2009). Элементы статистического обучения . Архивировано из оригинала на 2015-01-26 . Проверено 20 августа 2014 .
- ^ Виджаякумар, Сетху (2007). «Компромисс смещения – дисперсии» (PDF) . Эдинбургский университет . Проверено 19 августа 2014 .
- ^ Шахнарович, Грег (2011). «Заметки о выводе разложения смещения-дисперсии в линейной регрессии» (PDF) . Архивировано из оригинального (PDF) 21 августа 2014 года . Проверено 20 августа 2014 года .
- ^ Белсли, Дэвид (1991). Условная диагностика: коллинеарность и слабые данные в регрессии . Нью-Йорк (NY): Wiley. ISBN 978-0471528890.
- ^ а б в Геман, Стюарт ; Биненшток, Эли; Дурса, Рене (1992). «Нейронные сети и дилемма смещения / дисперсии» (PDF) . Нейронные вычисления . 4 : 1–58. DOI : 10.1162 / neco.1992.4.1.1 .
- ^ Гальярди, Франческо (май 2011 г.). «Классификаторы на основе экземпляров, применяемые к медицинским базам данных: диагностика и извлечение знаний» . Искусственный интеллект в медицине . 52 (3): 123–139. DOI : 10.1016 / j.artmed.2011.04.002 . PMID 21621400 .
- ^ Тинг, Джо-Энн; Виджайкумар, Сетху; Шааль, Стефан (2011). «Локально взвешенная регрессия для контроля». В Саммуте, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения (PDF) . Springer. п. 615. Bibcode : 2010eoml.book ..... S .
- ^ Фортманн-Роу, Скотт (2012). «Понимание компромисса смещения – дисперсии» .
- ^ Домингос, Педро (2000). Унифицированное разложение отклонения и отклонения (PDF) . ICML.
- ^ Валентини, Джорджио; Диттерих, Томас Г. (2004). «Дисперсионно-смещенный анализ машин опорных векторов для разработки ансамблевых методов на основе SVM» (PDF) . Журнал исследований в области машинного обучения . 5 : 725–775.
- ^ Мэннинг, Кристофер Д.; Рагхаван, Прабхакар; Шютце, Хинрих (2008). Введение в поиск информации . Издательство Кембриджского университета. С. 308–314.
- ^ Франсуа-Лаве, Винсент; Рабуссо, Гийом; Пино, Жоэль; Эрнст, Дэмиен; Фонтено, Рафаэль (2019). «О переобучении и асимптотическом смещении в пакетном обучении с подкреплением с частичной наблюдаемостью» . Журнал AI Research . 65 : 1–30. DOI : 10.1613 / jair.1.11478 .
- ^ Гигеренцер, Герд ; Брайтон, Генри (2009). «Homo Heuristicus: Почему предвзятые умы делают лучшие выводы». Темы когнитивной науки . 1 (1): 107–143. DOI : 10.1111 / j.1756-8765.2008.01006.x . hdl : 11858 / 00-001M-0000-0024-F678-0 . PMID 25164802 .