Масштабирование Платта

Машинное обучение и интеллектуальный анализ данных
Часть серии по

Проблемы Классификация Кластеризация Регресс Обнаружение аномалий AutoML Правила ассоциации Обучение с подкреплением Структурированный прогноз Функциональная инженерия Особенности обучения Онлайн обучение Полу-контролируемое обучение Обучение без учителя Учимся ранжировать Введение в грамматику
Обучение с учителем ( классификация • регрессия ) Деревья решений Ансамбли Упаковка Повышение Случайный лес k -NN Линейная регрессия Наивный байесовский Искусственные нейронные сети Логистическая регрессия Перцептрон Вектор релевантности (RVM) Машина опорных векторов (SVM)
Кластеризация БЕРЕЗА ИЗЛЕЧИВАТЬ Иерархический k -средство Ожидание – максимизация (EM) DBSCAN ОПТИКА Средний сдвиг
Снижение размерности Факторный анализ CCA ICA LDA NMF PCA PGD t-SNE
Структурированный прогноз Графические модели Сеть Байеса Условное случайное поле Скрытый Марков
Обнаружение аномалий k -NN Фактор местного выброса
Искусственная нейронная сеть Автоэнкодер Когнитивные вычисления Глубокое обучение DeepDream Многослойный перцептрон RNN LSTM ГРУ ESN Ограниченная машина Больцмана GAN SOM Сверточная нейронная сеть U-Net Трансформатор Пиковая нейронная сеть Мемтранзистор Электрохимическая RAM (ECRAM)
Обучение с подкреплением Q-обучение SARSA Временная разница (TD)
Теория Компромисс смещения и дисперсии Теория вычислительного обучения Минимизация эмпирического риска Обучение Оккама PAC обучение Статистическое обучение Теория ВК
Площадки для машинного обучения NeurIPS ICML ML JMLR ArXiv: cs.LG
Статьи по Теме Глоссарий искусственного интеллекта Список наборов данных для исследований в области машинного обучения Краткое описание машинного обучения
v т е

В машинном обучении , Platt масштабирование или калибровки Platt является способом преобразования выходных сигналов в модели классификации в распределение вероятностей по классам . Этот метод был изобретен Джоном Платт в контексте поддержки векторных машин , ^[1] заменить более ранний метод , с помощью Вапника , но могут быть применены к другим моделям классификации. ^[2] Масштабирование Платта работает путем подгонки модели логистической регрессии к оценкам классификатора.

Описание [ править ]

Рассмотрим проблему двоичной классификации : для входных данных $x$ мы хотим определить, принадлежат ли они к одному из двух классов, произвольно обозначенных $+1$ и $-1$ . Мы предполагаем, что проблема классификации будет решена с помощью вещественной функции $f$ , предсказав метку класса $y = sign (f (x))$ . ^[a] Для многих проблем удобно получить вероятность , то есть классификацию, которая не только дает ответ, но и степень уверенности в ответе. Некоторые модели классификации не предоставляют такую вероятность или дают плохие оценки вероятности. ${\ Displaystyle P (y = 1 | x)}$

Масштабирование Платта - это алгоритм для решения вышеупомянутой проблемы. Он производит оценки вероятности

{\ Displaystyle \ mathrm {P} (y = 1 | x) = {\ frac {1} {1+ \ exp (Af (x) + B)}}}

,

т.е. логистическое преобразование оценок классификатора $f (x)$ , где $A$ и $B$ - два скалярных параметра, которые изучаются алгоритмом. Обратите внимание , что прогнозы теперь могут быть сделаны в соответствии , если оценки вероятностей содержат поправки по сравнению со старым решающей функцией $у$ $знака = ($ $е$ $($ $х$ $))$ . ^[3] ${\ displaystyle y = 1 {\ text {iff}} P (y = 1 | x)> {\ frac {1} {2}};}$ ${\ displaystyle B \ neq 0,}$

Параметры $A$ и $B$ оцениваются с использованием метода максимального правдоподобия, который оптимизируется на том же обучающем наборе, что и для исходного классификатора $f$ . Чтобы избежать переобучения этого набора, можно использовать набор длительной калибровки или перекрестную проверку , но Платт дополнительно предлагает преобразовать метки $y$ в целевые вероятности

{\ displaystyle t _ {+} = {\ frac {N _ {+} + 1} {N _ {+} + 2}}}

для положительных образцов (

y = 1

), и

{\ Displaystyle т _ {-} = {\ гидроразрыва {1} {N _ {-} + 2}}}

для отрицательных образцов

y = -1

.

Здесь $N +$ и $N -$ количество положительных и отрицательных выборок соответственно. Это преобразование следует путем применения правила Байеса к модели данных вне выборки, которая имеет одинаковый приоритет по сравнению с метками. ^[1] Константы 1 и 2 в числителе и знаменателе, соответственно, получены с помощью сглаживания Лапласа.

Сам Платт предложил использовать алгоритм Левенберга – Марквардта для оптимизации параметров, но позже был предложен алгоритм Ньютона, который должен быть более устойчивым в числовом отношении . ^[4]

Анализ [ править ]

Было показано, что масштабирование Платта эффективно для SVM, а также для других типов моделей классификации, включая усиленные модели и даже наивные байесовские классификаторы , которые создают искаженные распределения вероятностей. Он особенно эффективен для методов максимальной маржи, таких как SVM и усиленные деревья, которые показывают сигмоидальные искажения в их предсказанных вероятностях, но оказывает меньшее влияние на хорошо откалиброванные модели, такие как логистическая регрессия , многослойные персептроны и случайные леса . ^[2]

Альтернативный подход к калибровке вероятности - подгонка модели изотонической регрессии к плохо откалиброванной вероятностной модели. Было показано, что это работает лучше, чем масштабирование Платта, в частности, когда доступно достаточно данных для обучения. ^[2]

См. Также [ править ]

Машина векторов релевантности : вероятностная альтернатива машине опорных векторов

Заметки [ править ]

^ См. Функцию знака . Метка для $f (x) = 0$ произвольно выбирается равной нулю или единице.

Ссылки [ править ]

^ a b Платт, Джон (1999). «Вероятностные выходы для опорных векторных машин и сравнения с регуляризованными методами правдоподобия» . Достижения в классификаторах большой маржи . 10 (3): 61–74. CS1 maint: discouraged parameter (link)
^ a b c Никулеску-Мизил, Александру; Каруана, Рич (2005). Предсказание хороших вероятностей с обучением с учителем (PDF) . ICML. DOI : 10.1145 / 1102351.1102430 .
^ Оливье Шапель; Владимир Вапник; Оливье Буске; Саян Мукерджи (2002). «Выбор нескольких параметров для опорных векторных машин» (PDF) . Машинное обучение . 46 : 131–159. DOI : 10.1023 / а: 1012450327387 .
^ Линь, Сюань-Тянь; Линь, Чи-Джен; Вен, Руби С. (2007). «Заметка о вероятностных выходах Платта для опорных векторных машин» (PDF) . Машинное обучение . 68 (3): 267–276. DOI : 10.1007 / s10994-007-5018-6 .

[3] См. Функцию знака . Метка для $f (x) = 0$ произвольно выбирается равной нулю или единице.

[platt99-1] Платт, Джон (1999). «Вероятностные выходы для опорных векторных машин и сравнения с регуляризованными методами правдоподобия» . Достижения в классификаторах большой маржи . 10 (3): 61–74. CS1 maint: discouraged parameter (link)

[Niculescu-2] Никулеску-Мизил, Александру; Каруана, Рич (2005). Предсказание хороших вероятностей с обучением с учителем (PDF) . ICML. DOI : 10.1145 / 1102351.1102430 .

[4] Оливье Шапель; Владимир Вапник; Оливье Буске; Саян Мукерджи (2002). «Выбор нескольких параметров для опорных векторных машин» (PDF) . Машинное обучение . 46 : 131–159. DOI : 10.1023 / а: 1012450327387 .

[5] Линь, Сюань-Тянь; Линь, Чи-Джен; Вен, Руби С. (2007). «Заметка о вероятностных выходах Платта для опорных векторных машин» (PDF) . Машинное обучение . 68 (3): 267–276. DOI : 10.1007 / s10994-007-5018-6 .