Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В машинном обучении , вероятностный классификатор является классификатором , который способен предсказать, учитывая наблюдение на вход, с распределением вероятностей над набором классов, а не только выводит наиболее вероятный класс , что наблюдение должно принадлежать. Вероятностные классификаторы обеспечивают классификацию, которая может быть полезна сама по себе [1] или при объединении классификаторов в ансамбли .

Типы классификации [ править ]

Формально «обычный» классификатор - это какое-то правило или функция , которая присваивает выборке x метку класса ŷ :

Образцы берутся из некоторого набора X (например, набора всех документов или набора всех изображений ), в то время как метки классов образуют конечный набор Y, определенный до обучения.

Вероятностные классификаторы обобщают это понятие классификаторов: вместо функций они являются условными распределениями , что означает, что для заданного они присваивают вероятности всем (и эти вероятности в сумме равны единице). Затем можно выполнить «жесткую» классификацию, используя правило оптимального решения [2] : 39–40

или, по-английски, предсказанный класс - это тот, который имеет наибольшую вероятность.

Бинарные вероятностные классификаторы в статистике также называются моделями бинарной регрессии . В эконометрике вероятностная классификация вообще называется дискретным выбором .

Некоторые модели классификации, такие как наивный байесовский алгоритм , логистическая регрессия и многослойные персептроны (при обучении с использованием соответствующей функции потерь ), естественно, являются вероятностными. Других моделей, таких как машины опорных векторов , нет, но существуют методы, позволяющие превратить их в вероятностные классификаторы.

Генеративное и условное обучение [ править ]

Некоторые модели, такие как логистическая регрессия , обучаются условно: они оптимизируют условную вероятность непосредственно на обучающем наборе (см. Минимизация эмпирического риска ). Другие классификаторы, такие как наивный байесовский классификатор, обучаются генеративно : во время обучения обнаруживаются условное распределение класса и предшествующий класс , а условное распределение выводится с использованием правила Байеса . [2] : 43

Калибровка вероятности [ править ]

Не все модели классификации являются естественно вероятностными, а некоторые из них, особенно наивные байесовские классификаторы, деревья решений и методы повышения , создают искаженные распределения вероятностей классов. [3] В случае деревьев решений, где Pr ( y | x ) - это доля обучающих выборок с меткой y в листе, где заканчивается x , эти искажения возникают из-за того, что алгоритмы обучения, такие как C4.5 или CART, явно нацелены на для получения однородных листьев (дающие вероятности близко к нулю или единице, и , следовательно , высокое смещение) при использовании нескольких выборок для оценки соответствующей доли (высокая дисперсия ). [4]

Пример калибровочного графика

Калибровку можно оценить с помощью калибровочного графика (также называемого диаграммой надежности ). [3] [5] График калибровки показывает долю элементов в каждом классе для диапазонов прогнозируемой вероятности или оценки (например, искаженное распределение вероятностей или «расстояние со знаком до гиперплоскости» в машине опорных векторов). Отклонения от функции идентичности указывают на плохо откалиброванный классификатор, для которого предсказанные вероятности или оценки не могут использоваться в качестве вероятностей. В этом случае можно использовать метод для преобразования этих оценок в правильно откалиброванные вероятности членства в классе.

Для двоичного случая распространенным подходом является применение масштабирования Платта , которое изучает модель логистической регрессии по оценкам. [6] Альтернативный метод, использующий изотоническую регрессию [7] , обычно превосходит метод Платта, когда доступно достаточное количество обучающих данных. [3]

В случае мультикласса можно использовать редукцию к бинарным задачам, за которой следует одномерная калибровка с помощью алгоритма, описанного выше, и дальнейшее применение алгоритма парного связывания Хасти и Тибширани. [8]

Оценка вероятностной классификации [ править ]

Обычно используемые функции потерь для вероятностной классификации включают логарифмические потери и оценку Бриера между прогнозируемым и истинным распределениями вероятностей. Первый из них обычно используется для обучения логистических моделей.

Метод, используемый для присвоения баллов парам прогнозируемых вероятностей и фактических дискретных результатов, чтобы можно было сравнивать различные методы прогнозирования, называется правилом оценки .

Ссылки [ править ]

  1. ^ Хасти, Тревор; Тибширани, Роберт; Фридман, Джером (2009). Элементы статистического обучения . п. 348. Архивировано из оригинала на 2015-01-26. [В] приложениях интеллектуального анализа данных часто больше интересуют сами вероятности классов , а не выполнение присвоения классов.
  2. ^ Б Бишоп, Кристофер М. (2006). Распознавание образов и машинное обучение . Springer.
  3. ^ a b c Никулеску-Мизил, Александру; Каруана, Рич (2005). Предсказание хороших вероятностей с обучением с учителем (PDF) . ICML. DOI : 10.1145 / 1102351.1102430 . Архивировано из оригинального (PDF) 11 марта 2014 года.
  4. ^ Zadrozny, Бьянка; Элкан, Чарльз (2001). Получение калиброванных оценок вероятностей из деревьев решений и наивных байесовских классификаторов (PDF) . ICML. С. 609–616.
  5. ^ "Вероятностная калибровка" . jmetzen.github.io . Проверено 18 июня 2019 .
  6. ^ Платт, Джон (1999). «Вероятностные выходы для опорных векторных машин и сравнения с регуляризованными методами правдоподобия» . Достижения в классификаторах большой маржи . 10 (3): 61–74.
  7. ^ Zadrozny, Бьянка; Элкан, Чарльз (2002). «Преобразование оценок классификатора в точные многоклассовые оценки вероятности» (PDF) . Материалы восьмой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных - KDD '02 . С. 694–699. CiteSeerX 10.1.1.164.8140 . DOI : 10.1145 / 775047.775151 . ISBN   978-1-58113-567-1. CiteSeerX : 10.1.1.13.7457 .
  8. ^ Хасти, Тревор; Тибширани, Роберт (1998). «Классификация по попарному спариванию». Летопись статистики . 26 (2): 451–471. CiteSeerX 10.1.1.309.4720 . DOI : 10.1214 / AOS / 1028144844 . Zbl 0932.62071 . CiteSeerX : 10.1.1.46.6032 .