Стабильная диффузия — это модель преобразования текста в изображение с глубоким обучением , выпущенная в 2022 году. Она в основном используется для создания подробных изображений на основе текстовых описаний, хотя ее также можно применять к другим задачам, таким как закрашивание , закрашивание и создание изображений для преобразования. переводы изображений, управляемые текстовой подсказкой . [3] Он был разработан исследователями из CompVis Group из Мюнхенского университета Людвига-Максимилиана и Runway с использованием вычислений, предоставленных Stability AI, и данных обучения, полученных от некоммерческих организаций. [4] [5] [6] [7]
Стабильная диффузия — это модель скрытой диффузии , разновидность глубокой генеративной нейронной сети . Его код и веса моделей были обнародованы [ 8] , и он может работать на большинстве потребительских аппаратных средств, оснащенных скромным графическим процессором с не менее чем 8 ГБ видеопамяти . Это ознаменовало отход от предыдущих проприетарных моделей преобразования текста в изображение, таких как DALL-E и Midjourney , которые были доступны только через облачные сервисы . [9] [10]
Разработка Stable Diffusion финансировалась и формировалась стартапом Stability AI. [11] [10] [12] [13]Техническая лицензия на модель была выпущена группой CompVis в Мюнхенском университете Людвига-Максимилиана. [10] Разработкой руководили Патрик Эссер из Runway и Робин Ромбах из CompVis, которые были среди исследователей, которые ранее изобрели архитектуру модели скрытой диффузии, используемую Stable Diffusion. [7] Стабильность AI также упомянула EleutherAI и LAION (немецкая некоммерческая организация, которая собрала набор данных, на котором обучалась Stable Diffusion) в качестве сторонников проекта. [7]
В октябре 2022 года Stability AI привлекла 101 миллион долларов США в рамках раунда, возглавляемого Lightspeed Venture Partners и Coatue Management . [14]
Stable Diffusion использует своего рода модель диффузии (DM), называемую моделью скрытой диффузии (LDM), разработанную группой CompVis в LMU Munich . [15] [8] Представленные в 2015 году диффузионные модели обучаются с целью удаления последовательных применений гауссовского шума на обучающих изображениях, которые можно рассматривать как последовательность шумоподавляющих автоэнкодеров . Stable Diffusion состоит из 3 частей: вариационного автоэнкодера (VAE), U-Net и опционального текстового энкодера. [16] Кодер VAE сжимает изображение из пространства пикселей в скрытое пространство меньшего размера., улавливая более фундаментальное смысловое значение изображения. [15] Гауссовский шум итеративно применяется к сжатому скрытому представлению во время прямой диффузии. [16] Блок U-Net, состоящий из магистрали ResNet , подавляет шум на выходе прямой диффузии назад, чтобы получить скрытое представление. Наконец, декодер VAE генерирует окончательное изображение, преобразуя представление обратно в пространство пикселей. [16] Этап шумоподавления может быть гибко обусловлен строкой текста, изображением или другой модальностью. Закодированные кондиционирующие данные подвергаются шумоподавлению U-Net через механизм перекрестного внимания . [16]Для кондиционирования текста используется фиксированный, предварительно обученный текстовый кодировщик CLIP ViT-L/14, который преобразует текстовые подсказки в пространство для встраивания. [8] Исследователи указывают на повышенную вычислительную эффективность для обучения и генерации как на преимущество LDM. [7] [15]