Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В машинном обучении , Platt масштабирование или калибровки Platt является способом преобразования выходных сигналов в модели классификации в распределение вероятностей по классам . Этот метод был изобретен Джоном Платт в контексте поддержки векторных машин , [1] заменить более ранний метод , с помощью Вапника , но могут быть применены к другим моделям классификации. [2] Масштабирование Платта работает путем подгонки модели логистической регрессии к оценкам классификатора.

Описание [ править ]

Рассмотрим проблему двоичной классификации : для входных данных x мы хотим определить, принадлежат ли они к одному из двух классов, произвольно обозначенных +1 и -1 . Мы предполагаем, что проблема классификации будет решена с помощью вещественной функции f , предсказав метку класса y = sign ( f ( x )) . [a] Для многих проблем удобно получить вероятность , то есть классификацию, которая не только дает ответ, но и степень уверенности в ответе. Некоторые модели классификации не предоставляют такую ​​вероятность или дают плохие оценки вероятности.

Масштабирование Платта - это алгоритм для решения вышеупомянутой проблемы. Он производит оценки вероятности

,

т.е. логистическое преобразование оценок классификатора f ( x ) , где A и B - два скалярных параметра, которые изучаются алгоритмом. Обратите внимание , что прогнозы теперь могут быть сделаны в соответствии , если оценки вероятностей содержат поправки по сравнению со старым решающей функцией у знака = ( е ( х )) . [3]

Параметры A и B оцениваются с использованием метода максимального правдоподобия, который оптимизируется на том же обучающем наборе, что и для исходного классификатора f . Чтобы избежать переобучения этого набора, можно использовать набор длительной калибровки или перекрестную проверку , но Платт дополнительно предлагает преобразовать метки y в целевые вероятности

для положительных образцов ( y = 1 ), и
для отрицательных образцов y = -1 .

Здесь N + и N - количество положительных и отрицательных выборок соответственно. Это преобразование следует путем применения правила Байеса к модели данных вне выборки, которая имеет одинаковый приоритет по сравнению с метками. [1] Константы 1 и 2 в числителе и знаменателе, соответственно, получены с помощью сглаживания Лапласа.

Сам Платт предложил использовать алгоритм Левенберга – Марквардта для оптимизации параметров, но позже был предложен алгоритм Ньютона, который должен быть более устойчивым в числовом отношении . [4]

Анализ [ править ]

Было показано, что масштабирование Платта эффективно для SVM, а также для других типов моделей классификации, включая усиленные модели и даже наивные байесовские классификаторы , которые создают искаженные распределения вероятностей. Он особенно эффективен для методов максимальной маржи, таких как SVM и усиленные деревья, которые показывают сигмоидальные искажения в их предсказанных вероятностях, но оказывает меньшее влияние на хорошо откалиброванные модели, такие как логистическая регрессия , многослойные персептроны и случайные леса . [2]

Альтернативный подход к калибровке вероятности - подгонка модели изотонической регрессии к плохо откалиброванной вероятностной модели. Было показано, что это работает лучше, чем масштабирование Платта, в частности, когда доступно достаточно данных для обучения. [2]

См. Также [ править ]

  • Машина векторов релевантности : вероятностная альтернатива машине опорных векторов

Заметки [ править ]

  1. ^ См. Функцию знака . Метка для f ( x ) = 0 произвольно выбирается равной нулю или единице.

Ссылки [ править ]

  1. ^ a b Платт, Джон (1999). «Вероятностные выходы для опорных векторных машин и сравнения с регуляризованными методами правдоподобия» . Достижения в классификаторах большой маржи . 10 (3): 61–74. CS1 maint: discouraged parameter (link)
  2. ^ a b c Никулеску-Мизил, Александру; Каруана, Рич (2005). Предсказание хороших вероятностей с обучением с учителем (PDF) . ICML. DOI : 10.1145 / 1102351.1102430 .
  3. ^ Оливье Шапель; Владимир Вапник; Оливье Буске; Саян Мукерджи (2002). «Выбор нескольких параметров для опорных векторных машин» (PDF) . Машинное обучение . 46 : 131–159. DOI : 10.1023 / а: 1012450327387 .
  4. ^ Линь, Сюань-Тянь; Линь, Чи-Джен; Вен, Руби С. (2007). «Заметка о вероятностных выходах Платта для опорных векторных машин» (PDF) . Машинное обучение . 68 (3): 267–276. DOI : 10.1007 / s10994-007-5018-6 .