Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

DeepDream является компьютерным зрением программы , созданного Google инженер Александра Мордвинцами , который использует сверточную нейронную сеть , чтобы найти и улучшить модели в изображениях с помощью algorithming на сон -like галлюциногенного внешнего вида в нарочито чрезмерно обработанных изображениях. [1] [2] [3]

Программа Google популяризировала термин (глубокое) «сновидение» для обозначения генерации изображений, которые производят желаемые активации в обученной глубокой сети , и теперь этот термин относится к набору связанных подходов.

История [ править ]

Программное обеспечение DeepDream, возникла в глубокой сверточного сети под кодовым названием «Inception» после фильма с таким же названием , [1] [2] [3] был разработан для ImageNet крупномасштабных Визуальное распознавание Вызова (ILSVRC) в 2014 году [3] и выпущен в июле 2015 года.

Идея и имя сновидения стали популярными в Интернете в 2015 году благодаря программе DeepDream от Google. Идея возникла в начале истории нейронных сетей [4], и аналогичные методы использовались для синтеза визуальных текстур. [5] Соответствующие идеи визуализации были разработаны (до работы Google) несколькими исследовательскими группами. [6] [7]

После того, как Google опубликовал свои методы и сделали свой код с открытым исходным кодом , [8] ряд инструментов в виде веб - сервисов, мобильных приложений и настольных компьютеров появились на рынке , чтобы дать пользователям возможность трансформировать свои собственные фотографии. [9]

Процесс [ править ]

Исходное изображение (вверху) после применения десяти (в центре) и пятидесяти (внизу) итераций DeepDream, сеть была обучена воспринимать собак

Программное обеспечение предназначено для обнаружения лиц и других узоров на изображениях с целью автоматической классификации изображений. [10] Однако после обучения сеть также может работать в обратном направлении, ее попросят немного скорректировать исходное изображение, чтобы данный выходной нейрон (например, для лиц или определенных животных) давал более высокую оценку достоверности. Это можно использовать для визуализаций, чтобы лучше понять возникающую структуру нейронной сети, и это основа концепции DeepDream. Эта процедура обращения никогда не бывает совершенно ясной и недвусмысленной, потому что в ней используется процесс сопоставления « один ко многим» . [11] Однако после достаточного количества повторений даже изображения, изначально лишенные искомых характеристик, будут скорректированы настолько, что формарезультаты парейдолии , с помощью которых алгоритмически генерируются психоделические и сюрреалистические образы. Оптимизация похожа на обратное распространение , однако вместо настройки весов сети веса остаются фиксированными, а входные данные корректируются.

Например, существующее изображение можно изменить так, чтобы оно было «более похожим на кошку», и получившееся улучшенное изображение можно снова ввести в процедуру. [2] Это использование напоминает поиск животных или других фигур в облаках.

Применение градиентного спуска независимо к каждому пикселю ввода создает изображения, в которых смежные пиксели имеют мало взаимосвязи, и, следовательно, изображение содержит слишком много высокочастотной информации. Сгенерированные изображения можно значительно улучшить, включив априор или регуляризатор, который предпочитает входные данные с естественной статистикой изображения (без предпочтения какого-либо конкретного изображения) или просто сглаженными. [7] [12] [13] Например, Mahendran et al. [12] использовали регуляризатор полной вариации, который предпочитает изображения, которые являются кусочно-постоянными. Различные регуляризаторы обсуждаются далее в [13]. Подробное визуальное исследование методов визуализации функций и регуляризации было опубликовано совсем недавно. [14]

Указанное сходство образов с галлюцинациями, вызванными ЛСД и псилоцибином, наводит на мысль о функциональном сходстве между искусственными нейронными сетями и определенными слоями зрительной коры. [15]

Использование [ править ]

Фотография троих мужчин в бассейне, обработанная с помощью DeepDream.
«Мона Лиза» с эффектом DeepDream с использованием сети VGG16, обученной на ImageNet

Идея сновидения может быть применена к скрытым (внутренним) нейронам, отличным от тех, которые находятся на выходе, что позволяет исследовать роли и представления различных частей сети. [13] Также можно оптимизировать входные данные для удовлетворения требований либо одного нейрона (такое использование иногда называют максимизацией активности) [16], либо всего слоя нейронов.

Хотя сновидение чаще всего используется для визуализации сетей или создания компьютерного искусства, недавно было предложено, что добавление «сновидений» к обучающему набору может сократить время обучения абстракциям в компьютерных науках. [17]

Модель DeepDream также продемонстрировала свое применение в области истории искусства . [18]

DeepDream использовался в клипе Foster the People на песню "Doing It for the Money". [19]

В 2017 году исследовательская группа из Университета Сассекса создала машину галлюцинаций , применив алгоритм DeepDream к предварительно записанному панорамному видео, что позволяет пользователям исследовать среды виртуальной реальности, имитируя переживание психоактивных веществ и / или психопатологических состояний. [20] Они смогли продемонстрировать, что субъективные переживания, вызванные машиной галлюцинаций, значительно отличались от контрольных (не «галлюциногенных») видеороликов, но имели феноменологическое сходство с психоделическим состоянием (после введения псилоцибина).

См. Также [ править ]

  • Обнаружение функций (компьютерное зрение)
  • Передача нейронного стиля
  • Процедурные текстуры
  • Синтез текстур

Ссылки [ править ]

  1. ^ a b Мордвинцев Александр; Олах, Кристофер; Тыка, Майк (2015). «DeepDream - пример кода для визуализации нейронных сетей» . Google Research. Архивировано из оригинала на 2015-07-08.
  2. ^ a b c Мордвинцев Александр; Олах, Кристофер; Тыка, Майк (2015). «Inceptionism: углубляясь в нейронные сети» . Google Research. Архивировано из оригинала на 2015-07-03.
  3. ^ a b c Сегеди, Кристиан; Лю, Вэй; Цзя, Янцин; Сермане, Пьер; Рид, Скотт; Ангелов, Драгомир; Эрхан, Думитру; Ванхаук, Винсент; Рабинович, Андрей (2014). «Углубляясь в свертки» . Репозиторий компьютерных исследований . arXiv : 1409,4842 . Bibcode : 2014arXiv1409.4842S .
  4. ^ Льюис, JP (1988). Создание путем уточнения: парадигма творчества для обучающих сетей с градиентным спуском . Международная конференция IEEE по нейронным сетям. DOI : 10.1109 / ICNN.1988.23933 .
  5. ^ Portilla, J; Симончелли, Ээро (2000). «Параметрическая модель текстуры, основанная на совместной статистике комплексных вейвлет-коэффициентов». Международный журнал компьютерного зрения . 40 : 49–70. DOI : 10,1023 / A: 1026553619983 .
  6. ^ Erhan, Думитру. (2009). Визуализация высокоуровневых функций глубокой сети . Международная конференция по машинному обучению, семинар по иерархиям функций обучения. S2CID 15127402 . 
  7. ^ a b Симонян Карен; Ведальди, Андреа; Зиссерман, Андрей (2014). Глубоко внутри сверточные сети: визуализация моделей классификации изображений и карт значимости . Международная конференция по обучающим представительствам . arXiv : 1312.6034 .
  8. ^ deepdream на GitHub
  9. ^ Дэниел Калпан (2015-07-03). "Эти изображения Google" Deep Dream "странно завораживают" . Проводной . Проверено 25 июля 2015 .
  10. Рич Маккормик (7 июля 2015 г.). «Страх и ненависть в Лас-Вегасе ужасают глазами компьютера» . Грань . Проверено 25 июля 2015 .
  11. ^ Хейс, Брайан (2015). «Компьютерное зрение и компьютерные галлюцинации» . Американский ученый . 103 (6): 380. DOI : 10,1511 / 2015.117.380 . ISSN 0003-0996 . 
  12. ^ а б Махендран, Аравинд; Ведальди, Андреа (2015). Понимание представлений глубоких изображений путем их инвертирования . Конференция IEEE по компьютерному зрению и распознаванию образов. arXiv : 1412.0035 . DOI : 10.1109 / CVPR.2015.7299155 .
  13. ^ a b c Йосинский, Джейсон; Клун, Джефф; Нгуен, Ань; Фукс, Томас (2015). Понимание нейронных сетей с помощью глубокой визуализации . Семинар по глубокому обучению, Международная конференция по машинному обучению (ICML). Семинар по глубокому обучению. arXiv : 1506.06579 .
  14. ^ Олах, Крис; Мордвинцев Александр; Шуберт, Людвиг (2017-11-07). «Визуализация функций» . Дистиллировать . 2 (11). DOI : 10,23915 / distill.00007 . ISSN 2476-0757 . 
  15. ^ ЛаФранс, Адриенн (2015-09-03). «Когда роботы галлюцинируют» . Атлантика . Проверено 24 сентября 2015 года .
  16. ^ Нгуен, Ань; Досовицкий, Алексей; Йосинский, Джейсон; Брокс, Томас (2016). Синтез предпочтительных входов для нейронов в нейронных сетях через глубокие сети генераторов . arxiv. arXiv : 1605.09304 . Bibcode : 2016arXiv160509304N .
  17. ^ Арора, Санджив; Лян, Инъюй; Тенгю, Ма (2016). Почему глубокие сети обратимы: простая теория, имеющая значение для обучения . arxiv. arXiv : 1511.05653 . Bibcode : 2015arXiv151105653A .
  18. ^ Спратт, Эмили Л. (2017). «Формулировки сновидений и глубокие нейронные сети: гуманистические темы в иконологии машинного обучения» (PDF) . Kunsttexte . Humboldt-Universität zu Berlin. 4 . arXiv : 1802.01274 . Bibcode : 2018arXiv180201274S .
  19. ^ fosterthepeopleVEVO (2017-08-11), Foster The People - Doing It for the Money , получено 15 августа 2017 г.
  20. Перейти ↑ Suzuki, Keisuke (22 ноября 2017 г.). «Платформа виртуальной реальности глубокой мечты для изучения измененной феноменологии восприятия» . Sci Rep . 7 (1): 15982. Bibcode : 2017NatSR ... 715982S . DOI : 10.1038 / s41598-017-16316-2 . PMC 5700081 . PMID 29167538 .  

Внешние ссылки [ править ]

  • Deep Dream, блокнот на Python на GitHub
  • Мордвинцев Александр; Олах, Кристофер; Тыка, Майк (17 июня 2015 г.). «Inceptionism: углубляясь в нейронные сети» . Архивировано 3 июля 2015 года.