Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Минимизация эмпирического риска (ERM) - это принцип теории статистического обучения, который определяет семейство алгоритмов обучения и используется для теоретических оценок их эффективности. Основная идея состоит в том, что мы не можем точно знать, насколько хорошо алгоритм будет работать на практике (истинный «риск»), потому что мы не знаем истинного распределения данных, с которыми будет работать алгоритм, но вместо этого мы можем измерить его производительность на известный набор обучающих данных («эмпирический» риск).

Фон [ править ]

Рассмотрим следующую ситуацию, которая является общей постановкой многих задач контролируемого обучения . У нас есть два пространства объектов и и хотели бы узнать функцию (часто называемая гипотеза ) , который выводит объект , заданное . Чтобы сделать это, мы имеем в нашем распоряжении обучающего набора из примеров , где есть вход и есть соответствующий ответ , который мы хотим получить от .

Выражаясь более формально, мы предполагаем, что существует совместное распределение вероятностей по и , и что обучающий набор состоит из экземпляров, взятых из iid . Обратите внимание, что предположение о совместном распределении вероятностей позволяет нам моделировать неопределенность в прогнозах (например, из-за шума в данных), потому что это не детерминированная функция , а скорее случайная величина с условным распределением для фиксированного .

Мы также предполагаем, что нам дана неотрицательная функция потерь с действительным знаком, которая измеряет, насколько прогноз гипотезы отличается от истинного результата . Риск, связанный с гипотезой , затем определяется как ожидание функции потерь:

Функция потерь обычно используется в теории является функцией 0-1 потерь : .

Конечная цель алгоритма обучения - найти среди фиксированного класса функций гипотезу, для которой риск минимален:

Минимизация эмпирического риска [ править ]

В общем, риск не может быть вычислен, потому что распределение неизвестно алгоритму обучения (эта ситуация называется агностическим обучением ). Однако мы можем вычислить приближение, называемое эмпирическим риском , путем усреднения функции потерь на обучающей выборке:

Принцип минимизации эмпирического риска [1] гласит, что алгоритм обучения должен выбирать гипотезу, которая минимизирует эмпирический риск:

Таким образом, алгоритм обучения, определяемый принципом ERM, состоит в решении указанной выше задачи оптимизации .

Свойства [ править ]

Вычислительная сложность [ править ]

Минимизация эмпирического риска для задачи классификации с функцией потерь 0-1, как известно, является NP-трудной задачей даже для такого относительно простого класса функций, как линейные классификаторы . [2] Однако ее можно эффективно решить, когда минимальный эмпирический риск равен нулю, то есть данные линейно разделимы .

На практике алгоритмы машинного обучения справляются с этим либо путем использования выпуклой аппроксимации функции потерь 0-1 (например, потери шарнира для SVM ), которую легче оптимизировать, либо путем наложения предположений на распределение (и, таким образом, перестают быть независимым обучением. алгоритмы, к которым применим вышеуказанный результат).

См. Также [ править ]

  • Оценка максимального правдоподобия
  • М-оценка

Ссылки [ править ]

  1. В. Вапник (1992). [ http://papers.nips.cc/paper/506-principles-of-risk-minimization-for-learning-theory.pdf Принципы минимизации рисков для теории обучения. ]
  2. ^ В. Фельдман, В. Гурусвами, П. Рагхавендра и Йи Ву (2009). Агностическое изучение мономов полупространствами сложно. (См. Статью и ссылки в ней)

Дальнейшее чтение [ править ]

  • Вапник, В. (2000). Природа статистической теории обучения . Информатика и статистика. Springer-Verlag . ISBN 978-0-387-98780-4.