ДАЛЛ-Э


DALL-E (стилизованный под DALL·E ) и DALL-E 2 — это модели глубокого обучения , разработанные OpenAI для создания цифровых изображений из описаний на естественном языке , называемых «подсказками». DALL-E был раскрыт OpenAI в сообщении в блоге в январе 2021 года и использует версию GPT-3 [1] , модифицированную для создания изображений. В апреле 2022 года OpenAI анонсировала DALL-E 2, преемника, предназначенного для создания более реалистичных изображений с более высоким разрешением, которые «могут сочетать концепции, атрибуты и стили». [2]

OpenAI не публикует исходный код ни для одной из моделей. 20 июля 2022 года DALL-E 2 перешел в фазу бета-тестирования, и приглашения были разосланы 1 миллиону лиц, включенных в список ожидания; [3] пользователи могут создавать определенное количество изображений бесплатно каждый месяц и могут покупать больше. [4] Ранее доступ был ограничен предварительно выбранными пользователями для предварительного просмотра исследования из соображений этики и безопасности. [5] [6] 28 сентября 2022 года DALL-E 2 был открыт для всех, и требование списка ожидания было отменено. [7]

В начале ноября 2022 года OpenAI выпустила DALL-E 2 в качестве API , позволяющего разработчикам интегрировать модель в свои собственные приложения. Microsoft представила свою реализацию DALL-E 2 в своем приложении Designer и инструменте Image Creator, включенном в Bing и Microsoft Edge . CALA и Mixtiles являются одними из первых пользователей DALL-E 2 API. [8] API работает на основе стоимости за изображение, причем цены варьируются в зависимости от разрешения изображения. Оптовые скидки доступны для компаний, работающих с корпоративной командой OpenAI. [9]

Название программы представляет собой сочетание имен анимированного робота Pixar, персонажа ВАЛЛ-И , и испанского художника-сюрреалиста Сальвадора Дали . [10] [1]

Первая модель генеративного предварительно обученного трансформатора (GPT) была первоначально разработана OpenAI в 2018 году [11] с использованием архитектуры Transformer . Первая итерация, GPT-1, [12] была расширена для производства GPT-2 в 2019 году; [13] в 2020 году он был снова масштабирован для производства GPT-3 со 175 миллиардами параметров. [14] [1] [15] Модель DALL-E представляет собой мультимодальную реализацию GPT-3 [16] с 12 миллиардами параметров [1] , которая «заменяет текст на пиксели», обученная на парах текст-изображение из Интернета. [17]DALL-E 2 использует 3,5 миллиарда параметров, что меньше, чем у его предшественника. [18]

DALL-E был разработан и объявлен публике совместно с CLIP (предварительное обучение контрастному языку и изображению). [17] CLIP — это отдельная модель, основанная на нулевом обучении , которая была обучена на 400 миллионах пар изображений с текстовыми подписями, взятых из Интернета. [1] [17] [19] Его роль состоит в том, чтобы «понимать и ранжировать» вывод DALL-E, предсказывая, какая подпись из списка из 32 768 подписей, случайно выбранных из набора данных (одна из которых была правильным ответом), наиболее подходит для изображение. Эта модель используется для фильтрации большого начального списка изображений, сгенерированных DALL-E, для выбора наиболее подходящих выходных данных. [10] [17]


Изображения, созданные с помощью DALL-E 1, после получения текстовой подсказки «профессиональная высококачественная иллюстрация химеры жирафа-дракона. жирафа, имитирующего дракона. жирафа, сделанного из дракона». (2021)
Две «вариации» девушки с жемчужной сережкой, созданные с помощью DALL-E 2.
Изображения, сгенерированные DALL-E по запросу: «иллюстрация редиски дайкон в балетной пачке, выгуливающей собаку».