Дискриминационные модели , также называемые условными моделями , представляют собой класс логистических моделей, используемых для классификации или регрессии. Они различают границы принятия решений с помощью наблюдаемых данных, таких как «прошел / не прошел», «выиграл / проиграл», жив / мертв или здоров / болен.
Типичные дискриминантные модели включают логистическую регрессию (LR), условные случайные поля (CRF) (заданные на неориентированном графе), деревья решений и многие другие. Типичные подходы к генеративным моделям включают в себя наивные байесовские классификаторы , модели смеси Гаусса , вариационные автокодеры , генеративные состязательные сети и другие.
Определение
В отличие от генеративного моделирования, которое изучает совместную вероятность дискриминантное моделирование исследует или прямое отображение данной ненаблюдаемой переменной (цели) метка класса зависели от наблюдаемых переменных (обучающих выборок). Например, при распознавании объектов ,скорее всего будет вектором необработанных пикселей (или функций, извлеченных из необработанных пикселей изображения). В рамках вероятностной модели это делается путем моделирования условного распределения вероятностей , который можно использовать для прогнозирования из . Обратите внимание, что все еще существует различие между условной моделью и дискриминативной моделью, хотя чаще они просто классифицируются как дискриминативная модель.
Чистая дискриминационная модель против условной модели
А модель условной модель условного распределение вероятностей, в то время как традиционные дискриминационные модели направлена на оптимизацию на отображение ввода вокруг большинства аналогичных обученных образцов. [1]
Типичные подходы к дискриминативному моделированию [2]
Следующий подход основан на предположении, что ему задан обучающий набор данных. , где соответствующий выход для входа .
Линейный классификатор
Мы намерены использовать функцию для моделирования поведения того, что мы наблюдали из набора обучающих данных с помощью метода линейного классификатора . Использование вектора совместных признаков, решающая функция определяется как:
Согласно интерпретации Мемишевича, [2] , который также , вычисляет оценку, которая измеряет вычислимость входных данных. с потенциальным выходом . Тогда определяет класс с наивысшим баллом.
Логистическая регрессия (LR)
Поскольку функция потерь 0-1 широко используется в теории принятия решений, условное распределение вероятностей, где является вектором параметров для оптимизации обучающих данных, может быть пересмотрен следующим образом для модели логистической регрессии:
- , с участием
Уравнение выше представляет логистическую регрессию . Обратите внимание, что основное различие между моделями заключается в том, как они вводят апостериорную вероятность. Апостериорная вероятность выводится из параметрической модели. Затем мы можем максимизировать параметр, используя следующее уравнение:
Его также можно заменить приведенным ниже уравнением логарифмических потерь :
Поскольку логарифмические потери дифференцируемы, для оптимизации модели можно использовать градиентный метод. Глобальный оптимум гарантирован, поскольку целевая функция выпуклая. Градиент логарифмической вероятности представлен следующим образом:
где это ожидание .
Вышеупомянутый метод обеспечит эффективные вычисления для относительно небольшого количества классификаций.
Контраст с генеративной моделью
Контраст в подходах
Допустим, нам дан метки классов (классификация) и переменные функции, , как обучающие образцы.
Генеративная модель использует совместную вероятность , где это вход и это метка, и прогнозирует наиболее известную метку для неизвестной переменной используя теорему Байеса . [3]
Дискриминационные модели, в отличие от генеративных моделей , не позволяют генерировать выборки из совместного распределения наблюдаемых и целевых переменных. Однако для таких задач, как классификация и регрессия, которые не требуют совместного распределения, дискриминантные модели могут дать более высокую производительность (отчасти потому, что у них меньше переменных для вычисления). [4] [5] [3] С другой стороны, генеративные модели обычно более гибкие, чем дискриминантные, в выражении зависимостей в сложных обучающих задачах. Кроме того, большинство дискриминационных моделей контролируются по своей природе и не могут легко поддерживать обучение без учителя . Детали, специфичные для приложения, в конечном итоге определяют целесообразность выбора дискриминирующей или генеративной модели.
Дискриминативные модели и генеративные модели также различаются тем, что вводят апостериорную возможность . [6] Для сохранения наименьших ожидаемых потерь необходимо минимизировать ошибочную классификацию результатов. В дискриминативной модели апостериорные вероятности,, выводится из параметрической модели, где параметры берутся из обучающих данных. Точки оценки параметров получают из вычисления максимизации вероятности или распределения по параметрам. С другой стороны, учитывая, что генеративные модели фокусируются на совместной вероятности, класс апостериорной возможностирассматривается в теореме Байеса , которая
- . [6]
Достоинства и недостатки в применении
В повторных экспериментах логистическая регрессия и наивный байесовский метод применяются здесь для различных моделей в задаче двоичной классификации, дискриминантное обучение приводит к более низким асимптотическим ошибкам, а генеративное - к более высоким асимптотическим ошибкам быстрее. [3] Однако в совместной работе Улусоя и Бишопа « Сравнение генеративных и дискриминационных методов для обнаружения и классификации объектов» они заявляют, что приведенное выше утверждение верно только в том случае, если модель является подходящей для данных (т.е. распределение данных правильно смоделировано с помощью генеративная модель).
Преимущества
Существенными преимуществами использования дискриминативного моделирования являются:
- Более высокая точность, что в основном приводит к лучшему результату обучения.
- Позволяет упростить ввод и обеспечивает прямой подход к
- Экономит расчетный ресурс
- Создает более низкие асимптотические ошибки
По сравнению с преимуществами использования генеративного моделирования:
- Принимает во внимание все данные, что может привести к замедлению обработки в качестве недостатка
- Требуется меньше обучающих выборок
- Гибкая структура, которая может легко взаимодействовать с другими потребностями приложения.
Недостатки
Оптимизация в приложениях
Поскольку в двух способах моделирования присутствуют как преимущества, так и недостатки, сочетание обоих подходов будет хорошим моделированием на практике. Например, в статье MARRAS' Совместное дискриминационный порождающей модели для деформируемой модели классификации и постройки , [7] он и его соавторы применять комбинацию двух modelings на грани классификации моделей и получить более высокую точность , чем при традиционном подходе.
Точно так же Келм [8] также предложил комбинацию двух моделей для классификации пикселей в своей статье « Объединение генеративных и дискриминационных методов для классификации пикселей с многоканальным обучением» .
В процессе извлечения отличительных признаков перед кластеризацией анализ главных компонентов (PCA), хотя и широко используется, не обязательно является дискриминационным подходом. Напротив, LDA является дискриминационным. [9] Линейный дискриминантный анализ (LDA) обеспечивает эффективный способ устранения недостатка, который мы перечислили выше. Как мы знаем, дискриминантная модель требует комбинации нескольких подзадач перед классификацией, и LDA обеспечивает соответствующее решение этой проблемы за счет уменьшения размерности.
В Байерляйне бумаге «s, различающий MODEL КОМБИНАЦИЯ , [10] дискриминационное сочетание модели обеспечивает новый подход автоматического распознавания речи. Это не только помогает оптимизировать интеграцию различных типов моделей в одно логлинейное апостериорное распределение вероятностей. Комбинация также направлена на минимизацию эмпирических ошибок в словах обучающих выборок.
В статье «Унифицированная и дискриминационная модель для уточнения запросов» [11] Гуо и его партнеры используют унифицированную дискриминационную модель для уточнения запросов с использованием линейного классификатора и успешно получают гораздо более высокий уровень точности. В эксперименте, который они разрабатывают, также рассматривается генеративная модель в сравнении с унифицированной моделью. Как и ожидалось в реальном приложении, генеративная модель работает хуже всех по сравнению с другими моделями, включая модели без их улучшения.
Типы
Примеры дискриминационных моделей включают:
- Логистическая регрессия , тип обобщенной линейной регрессии, используемый для прогнозирования двоичных или категориальных выходных данных (также известный как классификаторы максимальной энтропии )
- Повышение (мета-алгоритм)
- Условные случайные поля
- Линейная регрессия
- Случайные леса
Смотрите также
- Генеративная модель
Рекомендации
- ^ a b Баллестерос, Мигель. «Дискриминационные модели» (PDF) . Проверено 28 октября 2018 года .[ постоянная мертвая ссылка ]
- ^ а б в Мемишевич, Роланд (21 декабря 2006 г.). «Введение в структурированное дискриминационное обучение» . Проверено 29 октября 2018 года .
- ^ а б в Ng, Andrew Y .; Джордан, Майкл И. (2001). О дискриминирующих и генеративных классификаторах: сравнение логистической регрессии и наивного Байеса .
- ^ Singla, Parag; Домингос, Педро (2005). «Дискриминационное обучение марковских логических сетей» . Труды 20-й Национальной конференции по искусственному интеллекту - Том 2 . AAAI'05. Питтсбург, Пенсильвания: AAAI Press: 868–873. ISBN 978-1577352365.
- ^ Дж. Лафферти, А. МакКаллум и Ф. Перейра. Условные случайные поля: вероятностные модели для сегментации и маркировки данных последовательности. В ICML , 2001.
- ^ а б Улусой, Илкай (май 2016 г.). «Сравнение генеративных и дискриминационных методов для обнаружения и классификации объектов» (PDF) . Проверено 30 октября 2018 года .
- ^ Маррас, Иоаннис (2017). «Совместная дискриминативная генеративная модель для построения и классификации деформируемых моделей» (PDF) . Проверено 5 ноября 2018 .
- ^ Кельм, Б. Майкл. «Сочетание генеративных и дискриминационных методов для классификации пикселей с многоканальным обучением» (PDF) . Проверено 5 ноября 2018 .
- ^ Ван, Чжанъян (2015). «Совместная оптимизация структуры разреженного кодирования и дискриминирующей кластеризации» (PDF) . Проверено 5 ноября 2018 .
- ^ Бейерлейн, Питер (1998). «ДИСКРИМИНАЦИОННАЯ КОМБИНАЦИЯ МОДЕЛЕЙ»: 481–484. CiteSeerX 10.1.1.454.9567 . Цитировать журнал требует
|journal=
( помощь ) - ^ Го, Цзяфэн. «Единая и дискриминационная модель для уточнения запросов». Цитировать журнал требует
|journal=
( помощь )