Диффузионная модель


В машинном обучении диффузионные модели , также известные как диффузионные вероятностные модели , представляют собой класс моделей со скрытыми переменными . Это цепи Маркова , обученные с помощью вариационного вывода . [1] Целью моделей диффузии является изучение скрытой структуры набора данных путем моделирования того, как точки данных распространяются через скрытое пространство . В компьютерном зрении это означает, что нейронная сеть обучается очищать изображения, размытые гауссовским шумом, путем обучения обращению процесса диффузии. [2] [3]Он в основном состоит из трех основных компонентов: прямого процесса, обратного процесса и процедуры выборки. [4] Тремя примерами общих сред моделирования диффузии, используемых в компьютерном зрении, являются вероятностные модели диффузии с шумоподавлением, расчетные сети, обусловленные шумом, и стохастические дифференциальные уравнения. [5]

Модели диффузии могут применяться к множеству задач, включая шумоподавление изображения , закрашивание , сверхвысокое разрешение и генерацию изображения . Например, модель генерации изображений будет начинаться с изображения случайного шума, а затем, после обучения обращению процесса распространения на естественных изображениях, модель сможет генерировать новые естественные изображения. Объявленная 13 апреля 2022 года модель преобразования текста в изображение DALL-E 2 от OpenAI является недавним примером. Он использует модели распространения как для априорной модели (которая производит встраивание изображения с учетом текстовой подписи), так и для декодера, который генерирует окончательное изображение. [7]

Рассмотрим задачу генерации изображений. Пусть представляет изображение, и пусть будет распределением вероятностей по всем возможным изображениям. Если у нас есть она сама, то мы можем точно сказать, насколько вероятен тот или иной образ. Однако в целом это неразрешимо.

Чаще всего нас не интересует абсолютная вероятность того, что определенное изображение есть — когда нас интересует, насколько вероятно изображение в пространстве всех возможных изображений? Вместо этого нас обычно интересует только то, насколько вероятно определенное изображение по сравнению с его непосредственными соседями — насколько более вероятно это изображение кошки по сравнению с некоторыми его небольшими вариантами? Является ли более вероятным, если изображение содержит два уса, или три, или с добавлением некоторого гауссовского шума?

Следовательно, нас на самом деле совершенно не интересует само по себе, а скорее, . Это выполняет два эффекта

Пусть функция score будет , тогда подумайте, что мы можем сделать с .