Генеративная модель

В статистической классификации два основных подхода называются генеративным подходом и дискриминационным подходом. Эти классификаторы вычисляют разными подходами, различающимися степенью статистического моделирования . Терминология непоследовательна, ^[a] но можно выделить три основных типа, следуя Jebara (2004) :

Учитывая наблюдаемую переменную X и целевая переменную Y , A порождающая модель представляет собой статистическая модель из совместного распределения вероятностей на X × Y , ${\ Displaystyle P (X, Y)}$ ; ^[1]
Дискриминационная модель представляет собой модель условной вероятности мишени Y , учитывая наблюдение х , символический, ${\ Displaystyle P (Y | X = x)}$ ; а также
Классификаторы, вычисленные без использования вероятностной модели, также в общих чертах называют «дискриминационными».

Различие между этими двумя последними классами не проводится последовательно; ^[2] Джебара (2004) называет эти три класса генеративным обучением , условным обучением и дискриминирующим обучением , но Нг и Джордан (2002) различают только два класса, называя их генеративными классификаторами (совместное распределение) и дискриминирующими классификаторами (условное распределение или без распределения), не делая различия между двумя последними классами. ^[3] Аналогично, классификатор, основанный на генеративной модели, является генеративным классификатором , тогда как классификатор, основанный на дискриминативной модели, является дискриминативным классификатором , хотя этот термин также относится к классификаторам, которые не основаны на модели.

Стандартные примеры каждого из них, все из которых являются линейными классификаторами :

генеративные классификаторы:
- наивный байесовский классификатор и
- линейный дискриминантный анализ
дискриминативная модель:
- логистическая регрессия

Применительно к классификации желательно перейти от наблюдения x к метке y (или распределению вероятностей на метках). Это можно вычислить напрямую, без использования распределения вероятностей ( классификатор без распределения ); можно оценить вероятность метки с учетом наблюдения, ${\ Displaystyle P (Y | X = x)}$ ( дискриминативная модель ) и основанная на ней классификация; или можно оценить совместное распределение ${\ Displaystyle P (X, Y)}$ ( генеративная модель ), исходя из этого вычислить условную вероятность ${\ Displaystyle P (Y | X = x)}$ , а затем основывать классификацию на этом. Они становятся все более косвенными, но все более вероятными, что позволяет применять больше знаний в предметной области и теории вероятностей. На практике используются разные подходы, в зависимости от конкретной проблемы, и гибриды могут сочетать сильные стороны нескольких подходов.

Определение

Альтернативное подразделение определяет их симметрично как:

порождающая модель представляет собой модель условной вероятности наблюдаемой X , учитывая цель у , символический, ${\ Displaystyle P (X | Y = y)}$ ^[4]
дискриминационная модель представляет собой модель условной вероятности мишени Y , учитывая наблюдение х , символический, ${\ Displaystyle P (Y | X = x)}$ ^[5]

Независимо от точного определения, терминология является конституционной, потому что генеративная модель может использоваться для «генерации» случайных экземпляров ( результатов ) либо наблюдения, либо цели. ${\ Displaystyle (х, у)}$ , или наблюдения x, заданного целевым значением y , ^{[4], в} то время как дискриминантная модель или дискриминативный классификатор (без модели) может использоваться для «различения» значения целевой переменной Y при заданном наблюдении x . ^[5] Разница между « различать » (различать) и « классифицировать » неуловима, и они не всегда различаются. (Термин «дискриминационный классификатор» становится плеоназмом, когда «различение» эквивалентно «классификации».)

Термин «генеративная модель» также используется для описания моделей, которые генерируют экземпляры выходных переменных таким образом, который не имеет четкой связи с распределениями вероятностей по потенциальным выборкам входных переменных. Генеративные состязательные сети являются примерами этого класса генеративных моделей и оцениваются в первую очередь по сходству конкретных выходных данных с потенциальными входами. Такие модели не являются классификаторами.

Отношения между моделями

Применительно к классификации наблюдаемая X часто является непрерывной переменной , целевая Y обычно является дискретной переменной, состоящей из конечного набора меток, а условная вероятность ${\ Displaystyle P (Y | X)}$ также может интерпретироваться как (недетерминированная) целевая функция ${\ displaystyle f \ двоеточие от X \ до Y}$ , рассматривая X как входы и Y как выходы.

Учитывая конечный набор ярлыков, два определения «генеративной модели» тесно связаны. Модель условного распределения ${\ Displaystyle P (X | Y = y)}$ представляет собой модель распределения каждой метки, а модель совместного распределения эквивалентна модели распределения значений метки ${\ Displaystyle P (Y)}$ вместе с распределением наблюдений с пометкой, ${\ Displaystyle P (X | Y)}$ ; символически, ${\ Displaystyle P (X, Y) = P (X | Y) P (Y).}$ Таким образом, хотя модель совместного распределения вероятностей более информативна, чем модель распределения меток (но без их относительных частот), это относительно небольшой шаг, поэтому они не всегда различаются.

Учитывая модель совместного распределения, ${\ Displaystyle P (X, Y)}$ , распределение отдельных переменных может быть вычислено как маржинальные распределения ${\ Displaystyle P (X) = \ сумма _ {y} P (X, Y = y)}$ а также ${\ Displaystyle P (Y) = \ int _ {x} P (Y, X = x)}$ (рассматривая X как непрерывный, следовательно, интегрируя по нему, и Y как дискретный, следовательно, суммируя по нему), и любое условное распределение может быть вычислено из определения условной вероятности : ${\ Displaystyle P (X | Y) = P (X, Y) / P (Y)}$ а также ${\ Displaystyle P (Y | X) = P (X, Y) / P (X)}$ .

Учитывая модель одной условной вероятности и оцененные распределения вероятностей для переменных X и Y , обозначенные ${\ Displaystyle P (X)}$ а также ${\ Displaystyle P (Y)}$ , можно оценить обратную условную вероятность с помощью правила Байеса :

{\ Displaystyle P (X | Y) P (Y) = P (Y | X) P (X).}

Например, учитывая генеративную модель для ${\ Displaystyle P (X | Y)}$ , можно оценить:

{\ Displaystyle P (Y | X) = P (X | Y) P (Y) / P (X),}

и учитывая дискриминантную модель для ${\ Displaystyle P (Y | X)}$ , можно оценить:

{\ Displaystyle P (X | Y) = P (Y | X) P (X) / P (Y).}

Обратите внимание, что правило Байеса (вычисление одной условной вероятности в терминах другой) и определение условной вероятности (вычисление условной вероятности в терминах совместного распределения) также часто объединяются.

Противопоставьте дискриминационным классификаторам

Генеративный алгоритм моделирует, как данные были сгенерированы, чтобы классифицировать сигнал. Он задает вопрос: исходя из предположений о моем поколении, какая категория с наибольшей вероятностью будет генерировать этот сигнал? Дискриминантный алгоритм не заботится о том, как были сгенерированы данные, он просто классифицирует данный сигнал. Итак, дискриминационные алгоритмы пытаются научиться ${\ Displaystyle р (у | х)}$ непосредственно из данных, а затем попробуйте классифицировать данные. С другой стороны, генеративные алгоритмы пытаются научиться ${\ Displaystyle р (х, у)}$ который может быть преобразован в ${\ Displaystyle р (у | х)}$ позже, чтобы классифицировать данные. Одним из преимуществ генеративных алгоритмов является то, что вы можете использовать ${\ Displaystyle р (х, у)}$ для создания новых данных, аналогичных существующим. С другой стороны, дискриминантные алгоритмы обычно обеспечивают лучшую производительность в задачах классификации. ^[6]

Несмотря на то, что дискриминантные модели не нуждаются в моделировании распределения наблюдаемых переменных, они, как правило, не могут выражать сложные отношения между наблюдаемыми и целевыми переменными. Они не обязательно работают лучше, чем генеративные модели, в задачах классификации и регрессии . Эти два класса рассматриваются как дополняющие друг друга или как разные точки зрения на одну и ту же процедуру. ^[7]

Глубокие генеративные модели

С развитием глубокого обучения новое семейство методов, называемых глубокими генеративными моделями (DGM) ^[8]^[9] , формируется за счет комбинации генеративных моделей и глубоких нейронных сетей. Уловка DGM заключается в том, что нейронные сети, используемые в качестве генеративных моделей, имеют ряд параметров, значительно меньших, чем объем данных, используемых для их обучения, поэтому модели вынуждены обнаруживать и эффективно усваивать сущность данных, чтобы генерировать Это.

Популярные DGM включают вариационные автоэнкодеры (VAE), генеративные состязательные сети (GAN) и авторегрессивные модели. Существует тенденция построения больших глубинных генеративных моделей. ^[8] Например, GPT-3 и его предшественник GPT-2, ^[10] для авторегрессивных нейронных языковых моделей, BigGAN ^[11] и VQ-VAE ^[12] для генерации изображений, Optimus ^[13] как крупнейший Языковая модель VAE и музыкальный автомат как самая большая модель VAE для создания музыки. ^[14]

У DGM есть множество краткосрочных применений. Но в конечном итоге они обладают потенциалом для автоматического изучения естественных особенностей набора данных, будь то категории, измерения или что-то еще. ^[9]

Типы

Генеративные модели

Типы генеративных моделей:

Модель гауссовой смеси (и другие типы моделей смеси )
Скрытая марковская модель
Вероятностная контекстно-свободная грамматика
Байесовская сеть (например, наивный байесовский , авторегрессионная модель )
Усредненные оценки с одной зависимостью
Скрытое размещение Дирихле
Машина Больцмана (например, ограниченная машина Больцмана , сеть глубоких убеждений )
Вариационный автоэнкодер
Генеративная состязательная сеть
Генеративная модель на основе потоков
Модель на основе энергии

Если наблюдаемые данные действительно взяты из генеративной модели, то подгонка параметров генеративной модели для максимизации правдоподобия данных является обычным методом. Однако, поскольку большинство статистических моделей являются только приближениями к истинному распределению, если приложение модели состоит в том, чтобы сделать вывод о подмножестве переменных, зависящих от известных значений других, то можно утверждать, что приближение делает больше предположений, чем необходимо для решения задачи. проблема под рукой. В таких случаях может быть более точным моделирование функций условной плотности непосредственно с использованием дискриминантной модели (см. Ниже), хотя специфические для приложения детали в конечном итоге будут определять, какой подход наиболее подходит в каждом конкретном случае.

Дискриминационные модели

алгоритм k-ближайших соседей
Логистическая регрессия
Машины опорных векторов
Деревья решений
Случайный лес
Марковские модели с максимальной энтропией
Условные случайные поля
Нейронные сети

Примеры

Простой пример

Предположим, что входные данные ${\ Displaystyle х \ в \ {1,2 \}}$ , набор этикеток для ${\ displaystyle x}$ является ${\ Displaystyle у \ в \ {0,1 \}}$ , и есть следующие 4 точки данных: ${\ Displaystyle (х, у) = \ {(1,0), (1,1), (2,0), (2,1) \}}$

Для приведенных выше данных оценка совместного распределения вероятностей ${\ Displaystyle р (х, у)}$ от эмпирической меры будет следующее:

	${\ displaystyle y = 0}$	${\ displaystyle y = 1}$
${\ displaystyle x = 1}$	${\ displaystyle 4/9}$	${\ displaystyle 1/9}$
${\ displaystyle x = 2}$	${\ displaystyle 2/9}$	${\ displaystyle 2/9}$

пока ${\ Displaystyle р (у | х)}$ будет следующее:

	${\ displaystyle y = 0}$	${\ displaystyle y = 1}$
${\ displaystyle x = 1}$	${\ displaystyle 1/2}$	${\ displaystyle 1/2}$
${\ displaystyle x = 2}$	${\ displaystyle 1}$	${\ displaystyle 0}$

Генерация текста

Шеннон (1948) приводит пример, в котором таблица частот встречаемости пар английских слов используется для генерации предложения, начинающегося со слов «представляющий и быстро являющийся благом»; что не является правильным английским языком, но будет все больше приближаться к нему по мере того, как таблица перемещается от пар слов к тройкам слов и т. д.

Смотрите также

Дискриминационная модель
Графическая модель

Заметки

^ Три ведущие источники, Ng & Jordan 2002 , Jebara 2004 и Mitchell 2015 , дают различные подразделения и определение.

Внешние ссылки

Шеннон, CE (1948). «Математическая теория коммуникации» (PDF) . Технический журнал Bell System . 27 (июль, октябрь): 379–423, 623–656. DOI : 10.1002 / j.1538-7305.1948.tb01338.x . hdl : 10338.dmlcz / 101429 .
Митчелл, Том М. (2015). «3. Генеративные и дискриминативные классификаторы: наивный байесовский метод и логистическая регрессия» (PDF) . Машинное обучение .
Нг, Эндрю Ю .; Джордан, Майкл И. (2002). «О дискриминирующих и генеративных классификаторах: сравнение логистической регрессии и наивного байеса» (PDF) . Достижения в системах обработки нейронной информации .
Джебара, Тони (2004). Машинное обучение: дискриминационное и генеративное . Серия Springer International в области инженерии и информатики. Kluwer Academic (Springer). ISBN 978-1-4020-7647-3.
Джебара, Тони (2002). Дискриминационное, генеративное и имитационное обучение (PhD). Массачусетский технологический институт . hdl : 1721,1 / 8323 ., ( зеркало , зеркало ), опубликовано в виде книги (вверху)

[1] Три ведущие источники, Ng & Jordan 2002 , Jebara 2004 и Mitchell 2015 , дают различные подразделения и определение.

[ngjordan2002generative-2] Ng & Jordan (2002) : «Генеративные классификаторы изучают модель совместной вероятности, ${\ Displaystyle р (х, у)}$ , входов x и метки y , и сделать их прогнозы, используя правила Байеса для вычисления ${\ Displaystyle р (у | х)}$ , а затем выбрав наиболее вероятную метку y .

[3] Джебара 2004 , 2.4 Дискриминационное обучение: «Это различие между условным обучением и дискриминирующим обучением в настоящее время не является общепринятым в данной области».

[4] Ng & Jordan 2002 : "Дискриминационные классификаторы моделируют апостериорную ${\ Displaystyle р (у | х)}$ напрямую или изучите прямую карту от входов x до меток классов ".

[mitchell2015generative-5] Mitchell 2015 : «Мы можем использовать правило Байеса в качестве основы для разработки алгоритмов обучения (аппроксиматоров функций) следующим образом: Учитывая, что мы хотим изучить некоторую целевую функцию ${\ displaystyle f \ двоеточие от X \ до Y}$ , или эквивалентно, ${\ Displaystyle P (Y | X)}$ , мы используем данные обучения, чтобы узнать оценки ${\ Displaystyle P (X | Y)}$ а также ${\ Displaystyle P (Y)}$ . Затем новые X- примеры можно классифицировать, используя эти оценочные распределения вероятностей и правило Байеса. Этот тип классификатора называется генеративным классификатором, потому что мы можем просматривать распределение ${\ Displaystyle P (X | Y)}$ в описании того, как генерировать случайные экземпляры Х обусловлено целевым атрибут Y .

[mitchell2015discriminative-6] Mitchell 2015 : «Логистическая регрессия - это алгоритм аппроксимации функции, который использует обучающие данные для непосредственной оценки ${\ Displaystyle P (Y | X)}$ , в отличие от Наивного Байеса. В этом смысле логистическую регрессию часто называют дискриминирующим классификатором, потому что мы можем просматривать распределение ${\ Displaystyle P (Y | X)}$ как прямое различение значения целевого значения Y для любого данного экземпляра X

[7] Нг и Иордания 2002

[8] Бишоп, CM; Лассер, Дж. (24 сентября 2007 г.), «Генеративный или дискриминационный? Получение лучшего из обоих миров», Бернардо, Дж. М. (ред.), Байесовская статистика 8: протоколы восьмой Международной встречи в Валенсии, 2-6 июня 2006 г. , Oxford University Press, стр. 3–23, ISBN 978-0-19-921465-5

[auto1-9] а б «Масштабирование - исследователи продвигают крупномасштабные глубинные генеративные модели» . 9 апреля 2020.

[auto-10] а б «Генеративные модели» . OpenAI . 16 июня 2016 г.

[11] «Лучшие языковые модели и их значение» . OpenAI . 14 февраля 2019.

[12] Брок, Эндрю; Донахью, Джефф; Симонян, Карен (2018). «Крупномасштабное обучение GAN для высокоточного синтеза естественных изображений». arXiv : 1809.11096 [ cs.LG ].

[13] Разави, Али; Аарон ван ден Оорд; Виньялс, Ориол (2019). «Создание разнообразных высококачественных изображений с помощью VQ-VAE-2». arXiv : 1906.00446 [ cs.LG ].

[14] Ли, Чуньюань; Гао, Сян; Ли, Юань; Ли, Сюцзюнь; Пэн, Баолинь; Чжан, Ижэ; Гао, Цзяньфэн (2020). «Оптимус: Организация предложений с помощью предварительно обученного моделирования скрытого пространства». arXiv : 2004.04092 [ cs.CL ].

[15] «Музыкальный автомат» . OpenAI . 30 апреля 2020 г.

[a]