Дискриминационная модель

Дискриминационные модели , также называемые условными моделями , представляют собой класс логистических моделей, используемых для классификации или регрессии. Они различают границы принятия решений с помощью наблюдаемых данных, таких как «прошел / не прошел», «выиграл / проиграл», жив / мертв или здоров / болен.

Типичные дискриминантные модели включают логистическую регрессию (LR), условные случайные поля (CRF) (заданные на неориентированном графе), деревья решений и многие другие. Типичные подходы к генеративным моделям включают в себя наивные байесовские классификаторы , модели смеси Гаусса , вариационные автокодеры , генеративные состязательные сети и другие.

Определение

В отличие от генеративного моделирования, которое изучает совместную вероятность ${\ Displaystyle Р (х, у)}$ дискриминантное моделирование исследует ${\ Displaystyle Р (у | х)}$ или прямое отображение данной ненаблюдаемой переменной (цели) ${\ displaystyle x}$ метка класса ${\ displaystyle y}$ зависели от наблюдаемых переменных (обучающих выборок). Например, при распознавании объектов , ${\ displaystyle x}$ скорее всего будет вектором необработанных пикселей (или функций, извлеченных из необработанных пикселей изображения). В рамках вероятностной модели это делается путем моделирования условного распределения вероятностей ${\ Displaystyle Р (у | х)}$ , который можно использовать для прогнозирования ${\ displaystyle y}$ из ${\ displaystyle x}$ . Обратите внимание, что все еще существует различие между условной моделью и дискриминативной моделью, хотя чаще они просто классифицируются как дискриминативная модель.

Чистая дискриминационная модель против условной модели

А модель условной модель условного распределение вероятностей, в то время как традиционные дискриминационные модели направлена на оптимизацию на отображение ввода вокруг большинства аналогичных обученных образцов. ^[1]

Типичные подходы к дискриминативному моделированию ^[2]

Следующий подход основан на предположении, что ему задан обучающий набор данных. ${\ displaystyle D = \ {(x_ {i}; y_ {i}) | i \ leq N \ in \ mathbb {Z} \}}$ , где ${\ displaystyle y_ {i}}$ соответствующий выход для входа ${\ displaystyle x_ {i}}$ .

Линейный классификатор

Мы намерены использовать функцию ${\ displaystyle f (x)}$ для моделирования поведения того, что мы наблюдали из набора обучающих данных с помощью метода линейного классификатора . Использование вектора совместных признаков ${\ Displaystyle \ фи (х, у)}$ , решающая функция определяется как:

{\ Displaystyle е (х, ш) = \ арг \ макс _ {у} ш ^ {Т} \ фи (х, у)}

Согласно интерпретации Мемишевича, ^[2] ${\ Displaystyle ш ^ {Т} \ фи (х, у)}$ , который также ${\ Displaystyle с (х, у; ш)}$ , вычисляет оценку, которая измеряет вычислимость входных данных. ${\ displaystyle x}$ с потенциальным выходом ${\ displaystyle y}$ . Тогда ${\ displaystyle \ arg \ max}$ определяет класс с наивысшим баллом.

Логистическая регрессия (LR)

Поскольку функция потерь 0-1 широко используется в теории принятия решений, условное распределение вероятностей ${\ Displaystyle Р (у | х; ш)}$ , где ${\ displaystyle w}$ является вектором параметров для оптимизации обучающих данных, может быть пересмотрен следующим образом для модели логистической регрессии:

{\ Displaystyle Р (Y | Икс; ш) = {\ гидроразрыва {1} {Z (х; ш)}} \ ехр (ш ^ {Т} \ фи (х, у))}

, с участием

{\ Displaystyle Z (х; вес) = \ textstyle \ сумма _ {у} \ ​​Displaystyle \ ехр (w ^ {T} \ phi (x, y))}

Уравнение выше представляет логистическую регрессию . Обратите внимание, что основное различие между моделями заключается в том, как они вводят апостериорную вероятность. Апостериорная вероятность выводится из параметрической модели. Затем мы можем максимизировать параметр, используя следующее уравнение:

{\ displaystyle L (w) = \ textstyle \ sum _ {i} \ displaystyle \ log p (y ^ {i} | x ^ {i}; w)}

Его также можно заменить приведенным ниже уравнением логарифмических потерь :

{\ displaystyle l ^ {\ log} (x ^ {i}, y ^ {i}, c (x ^ {i}; w)) = - \ log p (y ^ {i} | x ^ {i} ; w) = \ log Z (x ^ {i}; w) -w ^ {T} \ phi (x ^ {i}, y ^ {i})}

Поскольку логарифмические потери дифференцируемы, для оптимизации модели можно использовать градиентный метод. Глобальный оптимум гарантирован, поскольку целевая функция выпуклая. Градиент логарифмической вероятности представлен следующим образом:

{\ displaystyle {\ frac {\ partial L (w)} {\ partial w}} = \ textstyle \ sum _ {i} \ displaystyle \ phi (x ^ {i}, y ^ {i}) - E_ {p (y | x ^ {i}; w)} \ phi (x ^ {i}, y)}

где ${\ Displaystyle E_ {п (у | х ^ {я}; ш)}}$ это ожидание ${\ Displaystyle р (у | х ^ {я}; ш)}$ .

Вышеупомянутый метод обеспечит эффективные вычисления для относительно небольшого количества классификаций.

Контраст с генеративной моделью

Контраст в подходах

Допустим, нам дан ${\ displaystyle m}$ метки классов (классификация) и ${\ displaystyle n}$ переменные функции, ${\ Displaystyle Y: \ {y_ {1}, y_ {2}, \ ldots, y_ {m} \}, X: \ {x_ {1}, x_ {2}, \ ldots, x_ {n} \} }$ , как обучающие образцы.

Генеративная модель использует совместную вероятность ${\ Displaystyle Р (х, у)}$ , где ${\ displaystyle x}$ это вход и ${\ displaystyle y}$ это метка, и прогнозирует наиболее известную метку ${\ displaystyle {\ widetilde {y}} \ in Y}$ для неизвестной переменной ${\ displaystyle {\ widetilde {x}}}$ используя теорему Байеса . ^[3]

Дискриминационные модели, в отличие от генеративных моделей , не позволяют генерировать выборки из совместного распределения наблюдаемых и целевых переменных. Однако для таких задач, как классификация и регрессия, которые не требуют совместного распределения, дискриминантные модели могут дать более высокую производительность (отчасти потому, что у них меньше переменных для вычисления). ^[4]^[5]^[3] С другой стороны, генеративные модели обычно более гибкие, чем дискриминантные, в выражении зависимостей в сложных обучающих задачах. Кроме того, большинство дискриминационных моделей контролируются по своей природе и не могут легко поддерживать обучение без учителя . Детали, специфичные для приложения, в конечном итоге определяют целесообразность выбора дискриминирующей или генеративной модели.

Дискриминативные модели и генеративные модели также различаются тем, что вводят апостериорную возможность . ^[6] Для сохранения наименьших ожидаемых потерь необходимо минимизировать ошибочную классификацию результатов. В дискриминативной модели апостериорные вероятности, ${\ Displaystyle Р (у | х)}$ , выводится из параметрической модели, где параметры берутся из обучающих данных. Точки оценки параметров получают из вычисления максимизации вероятности или распределения по параметрам. С другой стороны, учитывая, что генеративные модели фокусируются на совместной вероятности, класс апостериорной возможности ${\ Displaystyle P (k)}$ рассматривается в теореме Байеса , которая

{\ Displaystyle P (Y | Икс) = {\ гидроразрыва {p (x | Y) p (y)} {\ textstyle \ sum _ {i} p (x | i) p (i) \ displaystyle}} = { \ гидроразрыва {p (x | y) p (y)} {p (x)}}}

. ^[6]

Достоинства и недостатки в применении

В повторных экспериментах логистическая регрессия и наивный байесовский метод применяются здесь для различных моделей в задаче двоичной классификации, дискриминантное обучение приводит к более низким асимптотическим ошибкам, а генеративное - к более высоким асимптотическим ошибкам быстрее. ^[3] Однако в совместной работе Улусоя и Бишопа « Сравнение генеративных и дискриминационных методов для обнаружения и классификации объектов» они заявляют, что приведенное выше утверждение верно только в том случае, если модель является подходящей для данных (т.е. распределение данных правильно смоделировано с помощью генеративная модель).

Преимущества

Существенными преимуществами использования дискриминативного моделирования являются:

Более высокая точность, что в основном приводит к лучшему результату обучения.
Позволяет упростить ввод и обеспечивает прямой подход к ${\ Displaystyle Р (у | х)}$
Экономит расчетный ресурс
Создает более низкие асимптотические ошибки

По сравнению с преимуществами использования генеративного моделирования:

Принимает во внимание все данные, что может привести к замедлению обработки в качестве недостатка
Требуется меньше обучающих выборок
Гибкая структура, которая может легко взаимодействовать с другими потребностями приложения.

Недостатки

Метод обучения обычно требует использования нескольких методов численной оптимизации ^[1]
Точно так же по определению дискриминативная модель потребует комбинации нескольких подзадач для решения сложной реальной проблемы ^[2]

Оптимизация в приложениях

Поскольку в двух способах моделирования присутствуют как преимущества, так и недостатки, сочетание обоих подходов будет хорошим моделированием на практике. Например, в статье MARRAS' Совместное дискриминационный порождающей модели для деформируемой модели классификации и постройки , ^[7] он и его соавторы применять комбинацию двух modelings на грани классификации моделей и получить более высокую точность , чем при традиционном подходе.

Точно так же Келм ^[8] также предложил комбинацию двух моделей для классификации пикселей в своей статье « Объединение генеративных и дискриминационных методов для классификации пикселей с многоканальным обучением» .

В процессе извлечения отличительных признаков перед кластеризацией анализ главных компонентов (PCA), хотя и широко используется, не обязательно является дискриминационным подходом. Напротив, LDA является дискриминационным. ^[9] Линейный дискриминантный анализ (LDA) обеспечивает эффективный способ устранения недостатка, который мы перечислили выше. Как мы знаем, дискриминантная модель требует комбинации нескольких подзадач перед классификацией, и LDA обеспечивает соответствующее решение этой проблемы за счет уменьшения размерности.

В Байерляйне бумаге «s, различающий MODEL КОМБИНАЦИЯ , ^[10] дискриминационное сочетание модели обеспечивает новый подход автоматического распознавания речи. Это не только помогает оптимизировать интеграцию различных типов моделей в одно логлинейное апостериорное распределение вероятностей. Комбинация также направлена на минимизацию эмпирических ошибок в словах обучающих выборок.

В статье «Унифицированная и дискриминационная модель для уточнения запросов» ^[11] Гуо и его партнеры используют унифицированную дискриминационную модель для уточнения запросов с использованием линейного классификатора и успешно получают гораздо более высокий уровень точности. В эксперименте, который они разрабатывают, также рассматривается генеративная модель в сравнении с унифицированной моделью. Как и ожидалось в реальном приложении, генеративная модель работает хуже всех по сравнению с другими моделями, включая модели без их улучшения.

Типы

Примеры дискриминационных моделей включают:

Логистическая регрессия , тип обобщенной линейной регрессии, используемый для прогнозирования двоичных или категориальных выходных данных (также известный как классификаторы максимальной энтропии )
Повышение (мета-алгоритм)
Условные случайные поля
Линейная регрессия
Случайные леса

Смотрите также

Генеративная модель