Часть серии по |
Машинное обучение и интеллектуальный анализ данных |
---|
Минимизация эмпирического риска (ERM) - это принцип теории статистического обучения, который определяет семейство алгоритмов обучения и используется для теоретических оценок их эффективности. Основная идея состоит в том, что мы не можем точно знать, насколько хорошо алгоритм будет работать на практике (истинный «риск»), потому что мы не знаем истинного распределения данных, с которыми будет работать алгоритм, но вместо этого мы можем измерить его производительность на известный набор обучающих данных («эмпирический» риск).
Фон [ править ]
Рассмотрим следующую ситуацию, которая является общей постановкой многих задач контролируемого обучения . У нас есть два пространства объектов и и хотели бы узнать функцию (часто называемая гипотеза ) , который выводит объект , заданное . Чтобы сделать это, мы имеем в нашем распоряжении обучающего набора из примеров , где есть вход и есть соответствующий ответ , который мы хотим получить от .
Выражаясь более формально, мы предполагаем, что существует совместное распределение вероятностей по и , и что обучающий набор состоит из экземпляров, взятых из iid . Обратите внимание, что предположение о совместном распределении вероятностей позволяет нам моделировать неопределенность в прогнозах (например, из-за шума в данных), потому что это не детерминированная функция , а скорее случайная величина с условным распределением для фиксированного .
Мы также предполагаем, что нам дана неотрицательная функция потерь с действительным знаком, которая измеряет, насколько прогноз гипотезы отличается от истинного результата . Риск, связанный с гипотезой , затем определяется как ожидание функции потерь:
Функция потерь обычно используется в теории является функцией 0-1 потерь : .
Конечная цель алгоритма обучения - найти среди фиксированного класса функций гипотезу, для которой риск минимален:
Минимизация эмпирического риска [ править ]
В общем, риск не может быть вычислен, потому что распределение неизвестно алгоритму обучения (эта ситуация называется агностическим обучением ). Однако мы можем вычислить приближение, называемое эмпирическим риском , путем усреднения функции потерь на обучающей выборке:
Принцип минимизации эмпирического риска [1] гласит, что алгоритм обучения должен выбирать гипотезу, которая минимизирует эмпирический риск:
Таким образом, алгоритм обучения, определяемый принципом ERM, состоит в решении указанной выше задачи оптимизации .
Свойства [ править ]
Этот раздел нуждается в расширении . Вы можете помочь, добавив к нему . ( Февраль 2010 г. ) |
Вычислительная сложность [ править ]
Минимизация эмпирического риска для задачи классификации с функцией потерь 0-1, как известно, является NP-трудной задачей даже для такого относительно простого класса функций, как линейные классификаторы . [2] Однако ее можно эффективно решить, когда минимальный эмпирический риск равен нулю, то есть данные линейно разделимы .
На практике алгоритмы машинного обучения справляются с этим либо путем использования выпуклой аппроксимации функции потерь 0-1 (например, потери шарнира для SVM ), которую легче оптимизировать, либо путем наложения предположений на распределение (и, таким образом, перестают быть независимым обучением. алгоритмы, к которым применим вышеуказанный результат).
См. Также [ править ]
- Оценка максимального правдоподобия
- М-оценка
Ссылки [ править ]
- ↑ В. Вапник (1992). [ http://papers.nips.cc/paper/506-principles-of-risk-minimization-for-learning-theory.pdf Принципы минимизации рисков для теории обучения. ]
- ^ В. Фельдман, В. Гурусвами, П. Рагхавендра и Йи Ву (2009). Агностическое изучение мономов полупространствами сложно. (См. Статью и ссылки в ней)
Дальнейшее чтение [ править ]
- Вапник, В. (2000). Природа статистической теории обучения . Информатика и статистика. Springer-Verlag . ISBN 978-0-387-98780-4.