Часть серии по |
Машинное обучение и интеллектуальный анализ данных |
---|
В машинном обучении , Platt масштабирование или калибровки Platt является способом преобразования выходных сигналов в модели классификации в распределение вероятностей по классам . Этот метод был изобретен Джоном Платт в контексте поддержки векторных машин , [1] заменить более ранний метод , с помощью Вапника , но могут быть применены к другим моделям классификации. [2] Масштабирование Платта работает путем подгонки модели логистической регрессии к оценкам классификатора.
Описание [ править ]
Рассмотрим проблему двоичной классификации : для входных данных x мы хотим определить, принадлежат ли они к одному из двух классов, произвольно обозначенных +1 и -1 . Мы предполагаем, что проблема классификации будет решена с помощью вещественной функции f , предсказав метку класса y = sign ( f ( x )) . [a] Для многих проблем удобно получить вероятность , то есть классификацию, которая не только дает ответ, но и степень уверенности в ответе. Некоторые модели классификации не предоставляют такую вероятность или дают плохие оценки вероятности.
Масштабирование Платта - это алгоритм для решения вышеупомянутой проблемы. Он производит оценки вероятности
- ,
т.е. логистическое преобразование оценок классификатора f ( x ) , где A и B - два скалярных параметра, которые изучаются алгоритмом. Обратите внимание , что прогнозы теперь могут быть сделаны в соответствии , если оценки вероятностей содержат поправки по сравнению со старым решающей функцией у знака = ( е ( х )) . [3]
Параметры A и B оцениваются с использованием метода максимального правдоподобия, который оптимизируется на том же обучающем наборе, что и для исходного классификатора f . Чтобы избежать переобучения этого набора, можно использовать набор длительной калибровки или перекрестную проверку , но Платт дополнительно предлагает преобразовать метки y в целевые вероятности
- для положительных образцов ( y = 1 ), и
- для отрицательных образцов y = -1 .
Здесь N + и N - количество положительных и отрицательных выборок соответственно. Это преобразование следует путем применения правила Байеса к модели данных вне выборки, которая имеет одинаковый приоритет по сравнению с метками. [1] Константы 1 и 2 в числителе и знаменателе, соответственно, получены с помощью сглаживания Лапласа.
Сам Платт предложил использовать алгоритм Левенберга – Марквардта для оптимизации параметров, но позже был предложен алгоритм Ньютона, который должен быть более устойчивым в числовом отношении . [4]
Анализ [ править ]
Было показано, что масштабирование Платта эффективно для SVM, а также для других типов моделей классификации, включая усиленные модели и даже наивные байесовские классификаторы , которые создают искаженные распределения вероятностей. Он особенно эффективен для методов максимальной маржи, таких как SVM и усиленные деревья, которые показывают сигмоидальные искажения в их предсказанных вероятностях, но оказывает меньшее влияние на хорошо откалиброванные модели, такие как логистическая регрессия , многослойные персептроны и случайные леса . [2]
Альтернативный подход к калибровке вероятности - подгонка модели изотонической регрессии к плохо откалиброванной вероятностной модели. Было показано, что это работает лучше, чем масштабирование Платта, в частности, когда доступно достаточно данных для обучения. [2]
См. Также [ править ]
- Машина векторов релевантности : вероятностная альтернатива машине опорных векторов
Заметки [ править ]
- ^ См. Функцию знака . Метка для f ( x ) = 0 произвольно выбирается равной нулю или единице.
Ссылки [ править ]
- ^ a b Платт, Джон (1999). «Вероятностные выходы для опорных векторных машин и сравнения с регуляризованными методами правдоподобия» . Достижения в классификаторах большой маржи . 10 (3): 61–74. CS1 maint: discouraged parameter (link)
- ^ a b c Никулеску-Мизил, Александру; Каруана, Рич (2005). Предсказание хороших вероятностей с обучением с учителем (PDF) . ICML. DOI : 10.1145 / 1102351.1102430 .
- ^ Оливье Шапель; Владимир Вапник; Оливье Буске; Саян Мукерджи (2002). «Выбор нескольких параметров для опорных векторных машин» (PDF) . Машинное обучение . 46 : 131–159. DOI : 10.1023 / а: 1012450327387 .
- ^ Линь, Сюань-Тянь; Линь, Чи-Джен; Вен, Руби С. (2007). «Заметка о вероятностных выходах Платта для опорных векторных машин» (PDF) . Машинное обучение . 68 (3): 267–276. DOI : 10.1007 / s10994-007-5018-6 .