Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Рис. 1. Зеленая линия представляет переоборудованную модель, а черная линия - регуляризованную модель. Хотя зеленая линия лучше всего соответствует обучающим данным, она слишком зависит от этих данных и, вероятно, будет иметь более высокий уровень ошибок для новых невидимых данных по сравнению с черной линией.
Рисунок 2. Зашумленные (примерно линейные) данные аппроксимируются линейной функцией и полиномиальной функцией. Хотя полиномиальная функция идеально подходит, можно ожидать, что линейная функция будет лучше обобщать: если две функции использовались для экстраполяции за пределы подогнанных данных, линейная функция должна давать лучшие прогнозы.
Рис. 3. Синяя пунктирная линия представляет недостаточно приспособленную модель. Прямая линия никогда не может соответствовать параболе. Эта модель слишком проста.

В статистике переобучение - это «производство анализа, который слишком близко или точно соответствует определенному набору данных и поэтому может не соответствовать дополнительным данным или надежно предсказывать будущие наблюдения». [1] overfitted модель представляет собой статистическую модель , которая содержит больше параметров , чем может быть оправдано данными. [2] Суть переобучения состоит в том, чтобы по незнанию извлечь некоторую остаточную вариацию (т.е. шум ), как если бы эта вариация представляла лежащую в основе структуру модели. [3] : 45

Другими словами, модель запоминает огромное количество примеров вместо того, чтобы учиться замечать особенности.

Недостаточное соответствие происходит, когда статистическая модель не может адекватно охватить основную структуру данных. Недостаточно подогнанная модель - это модель, в которой отсутствуют некоторые параметры или термины, которые присутствовали бы в правильно заданной модели. [2] Недостаточная подгонка может возникнуть, например, при подгонке линейной модели к нелинейным данным. Такая модель будет иметь плохую прогнозирующую способность.

В частности, в машинном обучении может возникнуть чрезмерная или недостаточная подгонка . В машинном обучении это явление иногда называют «перетренировкой» и «недостаточной тренировкой».

Возможность переобучения существует, потому что критерий, используемый для выбора модели , не совпадает с критерием, используемым для оценки пригодности модели. Например, модель может быть выбрана путем максимизации ее производительности на некотором наборе обучающих данных , и, тем не менее, ее пригодность может определяться ее способностью хорошо работать с невидимыми данными; затем чрезмерная подгонка происходит, когда модель начинает «запоминать» обучающие данные, а не «учиться» делать выводы на основе тенденции.

В качестве крайнего примера, если количество параметров такое же или больше, чем количество наблюдений, то модель может идеально предсказывать обучающие данные, просто запоминая данные полностью. (Для иллюстрации см. Рисунок 2.) Однако такая модель обычно терпит неудачу при прогнозировании.

Возможность переобучения зависит не только от количества параметров и данных, но также от соответствия структуры модели форме данных и величины ошибки модели по сравнению с ожидаемым уровнем шума или ошибки в данных. [ необходима цитата ] Даже когда подобранная модель не имеет чрезмерного количества параметров, следует ожидать, что подобранная взаимосвязь будет работать хуже с новым набором данных, чем с набором данных, используемым для подгонки (явление иногда известная как усадка ). [2] В частности, значение коэффициента детерминации будет уменьшаться относительно исходных данных.

Чтобы уменьшить вероятность или количество переобучения, доступны несколько методов (например, сравнение моделей , перекрестная проверка , регуляризация , ранняя остановка , отсечение , байесовские априорные значения или исключение ). В основе некоторых методов лежит либо (1) явное наказание слишком сложных моделей, либо (2) проверка способности модели к обобщению путем оценки ее производительности на наборе данных, не используемых для обучения, что, как предполагается, приближает типичные невидимые данные. что модель встретит.

Статистический вывод [ править ]

В статистике вывод делается из статистической модели , выбранной с помощью некоторой процедуры. Бернхэм и Андерсон в своем часто цитируемом тексте о выборе модели утверждают, что во избежание переобучения мы должны придерживаться « Принципа экономичности ». [3] Авторы также заявляют следующее. [3] : 32–33

Переоборудованные модели… часто не содержат систематических ошибок в оценках параметров, но имеют оценочные (и фактические) отклонения выборки, которые излишне велики (точность оценок низка по сравнению с тем, что можно было бы достичь с помощью более экономной модели). Как правило, выявляются ложные эффекты лечения, и ложные переменные включаются в переоборудованные модели. … Модель наилучшего приближения достигается за счет правильного баланса ошибок недостаточного и переобучения.

Переобучение с большей вероятностью станет серьезной проблемой, когда имеется мало теории для проведения анализа, отчасти потому, что тогда существует тенденция к большому количеству моделей для выбора. В книге « Выбор модели и усреднение модели» (2008 г.) говорится об этом. [4]

Имея набор данных, вы можете уместить тысячи моделей одним нажатием кнопки, но как выбрать лучшую? При таком большом количестве моделей кандидатов переоснащение представляет собой реальную опасность. Действительно ли обезьяна, напечатавшая «Гамлета», хороший писатель?

Регресс [ править ]

В регрессионном анализе часто происходит переобучение. [5] В качестве крайнего примера, если есть p переменных в линейной регрессии с p точками данных, подобранная линия может проходить точно через каждую точку. [6] Для логистической регрессии или моделей пропорциональных рисков Кокса существует множество практических правил (например, 5–9, [7] 10 [8] и 10–15 [9]). Рекомендуемое количество наблюдений - 10 наблюдений на независимую переменную. известное как " правило каждого десятого"). В процессе выбора регрессионной модели среднеквадратичная ошибка функции случайной регрессии может быть разделена на случайный шум, смещение аппроксимации и дисперсию в оценке функции регрессии. Для преодоления часто используется компромисс между смещением и дисперсией. переобучать модели.

С большим набором объясняющих переменных, которые фактически не имеют отношения к прогнозируемой зависимой переменной , некоторые переменные, как правило, будут ошибочно признаны статистически значимыми, и исследователь может, таким образом, сохранить их в модели, тем самым переоснастив модель. Это известно как парадокс Фридмана .

Машинное обучение [ править ]

Рисунок 4. Переобучение / перетренированность при обучении с учителем (например, нейронная сеть ). Ошибка обучения показана синим цветом, ошибка проверки - красным, обе зависят от количества циклов обучения. Если ошибка валидации увеличивается (положительный наклон), а ошибка обучения постоянно уменьшается (отрицательный наклон), то могла возникнуть ситуация переобучения. Наилучшая прогнозирующая и подобранная модель будет иметь глобальный минимум ошибки проверки.

Обычно алгоритм обучения обучается с использованием некоторого набора «обучающих данных»: примерных ситуаций, для которых известен желаемый результат. Цель состоит в том, чтобы алгоритм также хорошо работал при прогнозировании выходных данных при подаче «проверочных данных», которые не были обнаружены во время его обучения.

Переобучение - это использование моделей или процедур, которые противоречат принципу бритвы Оккама , например, путем включения большего количества настраиваемых параметров, чем в конечном итоге является оптимальным, или путем использования более сложного подхода, чем в конечном итоге оптимального. В качестве примера, где есть слишком много настраиваемых параметров, рассмотрим набор данных, в котором обучающие данные для y могут быть адекватно предсказаны с помощью линейной функции двух независимых переменных. Для такой функции требуется всего три параметра (точка пересечения и два угла наклона). Замена этой простой функции новой, более сложной квадратичной функцией или новой, более сложной линейной функцией от более чем двух независимых переменных сопряжена с риском: бритва Оккама подразумевает, что любая заданная сложная функция является априорной.менее вероятен, чем любая заданная простая функция. Если вместо простой функции выбрана новая, более сложная функция, и если не было достаточно большого прироста в обучающих данных, подходящих для компенсации увеличения сложности, то новая сложная функция «переоборудует» данные, а сложная переобучена. Функция, вероятно, будет работать хуже, чем более простая функция на данных проверки за пределами набора обучающих данных, даже если сложная функция также или, возможно, даже лучше выполняется на наборе обучающих данных. [10]

При сравнении различных типов моделей сложность не может быть измерена только путем подсчета количества параметров, существующих в каждой модели; необходимо также учитывать выразительность каждого параметра. Например, нетривиально напрямую сравнить сложность нейронной сети (которая может отслеживать криволинейные взаимосвязи) с m параметрами с регрессионной моделью с n параметрами. [10]

Переобучение особенно вероятно в тех случаях, когда обучение выполнялось слишком долго или когда обучающие примеры редки, что заставляет обучаемого приспосабливаться к очень специфическим случайным характеристикам обучающих данных, которые не имеют причинно-следственной связи с целевой функцией . В этом процессе переобучения производительность на обучающих примерах все еще увеличивается, а производительность на невидимых данных становится хуже.

В качестве простого примера рассмотрим базу данных розничных покупок, которая включает купленный товар, покупателя, а также дату и время покупки. Легко построить модель, которая идеально впишется в обучающий набор, используя дату и время покупки для прогнозирования других атрибутов, но эта модель вообще не будет обобщаться на новые данные, потому что эти прошлые времена никогда не повторится.

Обычно говорят, что алгоритм обучения переоснащен по сравнению с более простым, если он более точен в подборе известных данных (ретроспективный взгляд), но менее точен в прогнозировании новых данных (предвидение). Можно интуитивно понять переоснащение, исходя из того факта, что информацию из всего прошлого опыта можно разделить на две группы: информацию, имеющую отношение к будущему, и информацию, не имеющую отношения к делу («шум»). При прочих равных условиях, чем труднее прогнозировать критерий (т. Е. Чем выше его неопределенность), тем больше шума существует в прошлой информации, которую необходимо игнорировать. Проблема в том, чтобы определить, какую часть игнорировать. Алгоритм обучения, который может снизить вероятность подгонки шума, называется « надежным ».

Последствия [ править ]

Наиболее очевидным последствием переобучения является низкая производительность набора данных проверки. Другие негативные последствия включают: [10]

  • Функция, которая переоборудована, вероятно, запросит больше информации о каждом элементе в наборе данных проверки, чем оптимальная функция; сбор этих дополнительных ненужных данных может быть дорогостоящим или чреватым ошибками, особенно если каждый отдельный фрагмент информации должен быть собран путем наблюдения человека и ручного ввода данных.
  • Более сложная, переоборудованная функция, вероятно, будет менее переносимой, чем простая. С одной стороны, линейная регрессия с одной переменной настолько переносима, что при необходимости ее можно было бы даже выполнить вручную. Другая крайность - модели, которые могут быть воспроизведены только путем точного копирования всей установки оригинального моделиста, что затрудняет повторное использование или научное воспроизведение.

Средство [ править ]

Оптимальная функция обычно требует проверки на больших или совершенно новых наборах данных. Однако существуют такие методы, как минимальное остовное дерево или время жизни корреляции, которые применяют зависимость между коэффициентами корреляции и временными рядами (шириной окна). Когда ширина окна достаточно велика, коэффициенты корреляции стабильны и больше не зависят от размера окна. Следовательно, корреляционная матрица может быть создана путем вычисления коэффициента корреляции между исследуемыми переменными. Эта матрица может быть представлена ​​топологически как сложная сеть, в которой визуализируются прямые и косвенные влияния между переменными.

Недостаток [ править ]

Недостаточное соответствие происходит, когда статистическая модель или алгоритм машинного обучения не может адекватно уловить основную структуру данных. Это происходит, когда модель или алгоритм недостаточно соответствуют данным. Недостаточное соответствие происходит, если модель или алгоритм демонстрируют низкую дисперсию, но высокую систематическую погрешность (в отличие от противоположного, переобучение из-за высокой дисперсии и низкой систематической ошибки). Часто это результат чрезмерно простой модели [11], которая не может обработать сложность задачи (см. Также ошибку аппроксимации). Это приводит к модели, которая не подходит для обработки всего сигнала и поэтому вынуждена принимать некоторый сигнал как шум. Если вместо этого модель способна обрабатывать сигнал, но в любом случае принимает его часть как шум, она также считается недостаточно приспособленной. Последний случай может произойти, если функция потерь модели включает штраф, который в данном конкретном случае слишком высок.

Бернхэм и Андерсон заявляют следующее. [3] : 32

… Недостаточно приспособленная модель проигнорирует некоторые важные воспроизводимые (т. Е. Концептуально воспроизводимые в большинстве других выборок) структуры данных и, таким образом, не сможет идентифицировать эффекты, которые фактически поддерживаются данными. В этом случае систематическая ошибка в оценках параметров часто бывает значительной, а дисперсия выборки недооценивается; оба фактора приводят к плохому охвату доверительного интервала. Недостаточно подогнанные модели, как правило, упускают важные эффекты лечения в экспериментальных условиях.

См. Также [ править ]

  • Компромисс смещения и дисперсии
  • Подгонка кривой
  • Дноуглубительные работы
  • Выбор функции
  • Парадокс Фридмана
  • Ошибка обобщения
  • Доброту соответствия
  • Время жизни корреляции
  • Выбор модели
  • бритва Оккама
  • Первичная модель
  • Размер VC - больший размер VC подразумевает больший риск переобучения

Примечания [ править ]

  1. ^ Определение « переобучения » на OxfordDictionaries.com : это определение специально для статистики.
  2. ^ a b c Эверитт Б.С., Скрондал А. (2010), Кембриджский статистический словарь , Cambridge University Press .
  3. ^ а б в г Бернхэм, КП; Андерсон, Д. Р. (2002), Выбор модели и многомодельный вывод (2-е изд.), Springer-Verlag.
  4. ^ Claeskens, Г .; Hjort, NL (2008), Выбор модели и усреднение модели , Cambridge University Press.
  5. Перейти ↑ Harrell, FE, Jr. (2001), Regression Modeling Strategies , Springer.
  6. ^ Марта К. Смит (2014-06-13). «Переоснащение» . Техасский университет в Остине . Проверено 31 июля 2016 .
  7. ^ Vittinghoff, E .; Маккалок, CE (2007). «Ослабление правила десяти событий на переменную в логистической регрессии и регрессии Кокса» . Американский журнал эпидемиологии . 165 (6): 710–718. DOI : 10.1093 / AJE / kwk052 . PMID 17182981 . 
  8. ^ Дрейпер, Норман Р .; Смит, Гарри (1998). Прикладной регрессионный анализ (3-е изд.). Вайли . ISBN 978-0471170822.
  9. ^ Джим Фрост (2015-09-03). «Опасность переобучения регрессионных моделей» . Проверено 31 июля 2016 .
  10. ^ a b c Хокинс, Дуглас М (2004). «Проблема переобучения». Журнал химической информации и моделирования . 44 (1): 1–12. DOI : 10.1021 / ci0342472 . PMID 14741005 . 
  11. ^ Кай, Эрик (2014-03-20). "Урок дня машинного обучения - переоснащение и недостаточное оснащение" . StatBlogs . Архивировано из оригинала на 2016-12-29 . Проверено 29 декабря 2016 .

Ссылки [ править ]

  • Лайнвебер, DJ (2007). «Глупые уловки майнера данных». Журнал инвестирования . 16 : 15–22. DOI : 10,3905 / joi.2007.681820 . S2CID  108627390 .
  • Тетько, И.В. Ливингстон, диджей; Луйк, AI (1995). «Исследования нейронных сетей. 1. Сравнение переобучения и переобучения» (PDF) . Журнал химической информации и моделирования . 35 (5): 826–833. DOI : 10.1021 / ci00027a006 .
  • Совет 7: минимизируйте переобучение . Chicco, D. (декабрь 2017 г.). «Десять быстрых советов по машинному обучению в вычислительной биологии» . BioData Mining . 10 (35): 35. DOI : 10,1186 / s13040-017-0155-3 . PMC 5721660 . PMID 29234465 .  

Дальнейшее чтение [ править ]

  • Кристиан, Брайан ; Гриффитс, Том (апрель 2017 г.), «Глава 7: Переоснащение», « Алгоритмы для жизни: компьютерные науки о человеческих решениях» , Уильям Коллинз , стр. 149–168, ISBN 978-0-00-754799-9

Внешние ссылки [ править ]

  • Переоснащение: когда не получается измерить точность (вводный видеоурок)
  • Проблема переобучения данных - Университет Стоуни-Брук
  • Что такое «переоснащение»? - Блог Эндрю Гельмана
  • CSE546: Компромисс смещения / дисперсии линейной регрессии - Вашингтонский университет