Стабильная диффузия


Стабильная диффузия — это модель преобразования текста в изображение с глубоким обучением , выпущенная в 2022 году. Она в основном используется для создания подробных изображений на основе текстовых описаний, хотя ее также можно применять к другим задачам, таким как закрашивание , закрашивание и создание изображений для преобразования. переводы изображений, управляемые текстовой подсказкой . [3] Он был разработан исследователями из CompVis Group из Мюнхенского университета Людвига-Максимилиана и Runway с использованием вычислений, предоставленных Stability AI, и данных обучения, полученных от некоммерческих организаций. [4] [5] [6] [7]

Стабильная диффузия — это модель скрытой диффузии , разновидность глубокой генеративной нейронной сети . Его код и веса моделей были обнародованы [ 8] , и он может работать на большинстве потребительских аппаратных средств, оснащенных скромным графическим процессором с не менее чем 8 ГБ видеопамяти . Это ознаменовало отход от предыдущих проприетарных моделей преобразования текста в изображение, таких как DALL-E и Midjourney , которые были доступны только через облачные сервисы . [9] [10]

Разработка Stable Diffusion финансировалась и формировалась стартапом Stability AI. [11] [10] [12] [13]Техническая лицензия на модель была выпущена группой CompVis в Мюнхенском университете Людвига-Максимилиана. [10] Разработкой руководили Патрик Эссер из Runway и Робин Ромбах из CompVis, которые были среди исследователей, которые ранее изобрели архитектуру модели скрытой диффузии, используемую Stable Diffusion. [7] Стабильность AI также упомянула EleutherAI и LAION (немецкая некоммерческая организация, которая собрала набор данных, на котором обучалась Stable Diffusion) в качестве сторонников проекта. [7]

В октябре 2022 года Stability AI привлекла 101 миллион долларов США в рамках раунда, возглавляемого Lightspeed Venture Partners и Coatue Management . [14]

Stable Diffusion использует своего рода модель диффузии (DM), называемую моделью скрытой диффузии (LDM), разработанную группой CompVis в LMU Munich . [15] [8] Представленные в 2015 году диффузионные модели обучаются с целью удаления последовательных применений гауссовского шума на обучающих изображениях, которые можно рассматривать как последовательность шумоподавляющих автоэнкодеров . Stable Diffusion состоит из 3 частей: вариационного автоэнкодера (VAE), U-Net и опционального текстового энкодера. [16] Кодер VAE сжимает изображение из пространства пикселей в скрытое пространство меньшего размера., улавливая более фундаментальное смысловое значение изображения. [15] Гауссовский шум итеративно применяется к сжатому скрытому представлению во время прямой диффузии. [16] Блок U-Net, состоящий из магистрали ResNet , подавляет шум на выходе прямой диффузии назад, чтобы получить скрытое представление. Наконец, декодер VAE генерирует окончательное изображение, преобразуя представление обратно в пространство пикселей. [16] Этап шумоподавления может быть гибко обусловлен строкой текста, изображением или другой модальностью. Закодированные кондиционирующие данные подвергаются шумоподавлению U-Net через механизм перекрестного внимания . [16]Для кондиционирования текста используется фиксированный, предварительно обученный текстовый кодировщик CLIP ViT-L/14, который преобразует текстовые подсказки в пространство для встраивания. [8] Исследователи указывают на повышенную вычислительную эффективность для обучения и генерации как на преимущество LDM. [7] [15]


Схема архитектуры скрытой диффузии, используемой Stable Diffusion
Процесс шумоподавления, используемый Stable Diffusion. Модель генерирует изображения путем итеративного шумоподавления до тех пор, пока не будет достигнуто настроенное количество шагов, руководствуясь текстовым кодировщиком CLIP, предварительно обученным на концепциях, вместе с механизмом внимания, в результате чего желаемое изображение изображает представление обученной концепции.
Демонстрация влияния негативных подсказок на генерацию изображения
  • Вверху : нет отрицательной подсказки
  • Центр : "зеленые деревья"
  • Внизу : «круглые камни, круглые камни».