Диффузионная модель

В машинном обучении диффузионные модели , также известные как диффузионные вероятностные модели , представляют собой класс моделей со скрытыми переменными . Это цепи Маркова , обученные с помощью вариационного вывода . ^[1] Целью моделей диффузии является изучение скрытой структуры набора данных путем моделирования того, как точки данных распространяются через скрытое пространство . В компьютерном зрении это означает, что нейронная сеть обучается очищать изображения, размытые гауссовским шумом, путем обучения обращению процесса диффузии. ^[2]^[3]Он в основном состоит из трех основных компонентов: прямого процесса, обратного процесса и процедуры выборки. ^[4] Тремя примерами общих сред моделирования диффузии, используемых в компьютерном зрении, являются вероятностные модели диффузии с шумоподавлением, расчетные сети, обусловленные шумом, и стохастические дифференциальные уравнения. ^[5]

Модели диффузии могут применяться к множеству задач, включая шумоподавление изображения , закрашивание , сверхвысокое разрешение и генерацию изображения . Например, модель генерации изображений будет начинаться с изображения случайного шума, а затем, после обучения обращению процесса распространения на естественных изображениях, модель сможет генерировать новые естественные изображения. Объявленная 13 апреля 2022 года модель преобразования текста в изображение DALL-E 2 от OpenAI является недавним примером. Он использует модели распространения как для априорной модели (которая производит встраивание изображения с учетом текстовой подписи), так и для декодера, который генерирует окончательное изображение. ^[7]

Рассмотрим задачу генерации изображений. Пусть представляет изображение, и пусть будет распределением вероятностей по всем возможным изображениям. Если у нас есть она сама, то мы можем точно сказать, насколько вероятен тот или иной образ. Однако в целом это неразрешимо. ${\ Displaystyle х}$ ${\ Displaystyle р (х)}$ ${\ Displaystyle р (х)}$

Чаще всего нас не интересует абсолютная вероятность того, что определенное изображение есть — когда нас интересует, насколько вероятно изображение в пространстве всех возможных изображений? Вместо этого нас обычно интересует только то, насколько вероятно определенное изображение по сравнению с его непосредственными соседями — насколько более вероятно это изображение кошки по сравнению с некоторыми его небольшими вариантами? Является ли более вероятным, если изображение содержит два уса, или три, или с добавлением некоторого гауссовского шума?

Следовательно, нас на самом деле совершенно не интересует само по себе, а скорее, . Это выполняет два эффекта ${\ Displaystyle р (х)}$ ${\ Displaystyle \ набла _ {х} \ пер п (х)}$

Пусть функция score будет , тогда подумайте, что мы можем сделать с . ${\ Displaystyle с (х): = \ набла _ {х} \ пер р (х)}$ ${\ Displaystyle с (х)}$