Сеть глубоких убеждений

В машинном обучении , глубокое убеждение сеть ( ДБНО ) является порождающей графической моделью , или в качестве альтернативы класса глубокой нейронной сети , состоящий из нескольких слоев скрытых переменные ( «скрытые единиц»), со связями между слоями , но не между единицами в пределах каждый слой. ^[1]

Схематический обзор сети глубоких убеждений. Стрелки обозначают направленные соединения в графической модели, которую представляет сеть.

Обучившись на наборе примеров без присмотра , DBN может научиться вероятностно восстанавливать свои входные данные. Затем слои действуют как детекторы объектов . ^[1] После этого шага обучения DBN может быть дополнительно обучен под наблюдением для выполнения классификации . ^[2]

DBNs можно рассматривать как композицию простого, неконтролируемые сети , такие как ограниченные машины Больцмана (RBMS) ^[1] или автоассоциатор , ^[3] , где скрытый слой каждой подсети служит видимым слоем для следующего. RBM - это неориентированная , основанная на генерации модель энергии с «видимым» входным слоем и скрытым слоем и связями между слоями, но не внутри них. Эта композиция приводит к быстрой, послойной неконтролируемой процедуре обучения, где контрастное расхождение применяется к каждой подсети по очереди, начиная с «самой нижней» пары слоев (самый низкий видимый слой является обучающим набором ).

Наблюдение ^{[2] о} том, что DBN можно обучать жадно , по одному уровню за раз, привело к одному из первых эффективных алгоритмов глубокого обучения . ^[4]^{: 6} В целом, существует множество привлекательных реализаций и использования DBN в реальных приложениях и сценариях (например, электроэнцефалография , ^[5] открытие лекарств ^[6]^[7]^[8] ).

Обучение

Ограничено больцмановский машин (УОР) с полностью подключенными видимыми и скрытыми блоками. Обратите внимание, что нет скрытых-скрытых или видимых-видимых соединений.

Метод обучения RBM, предложенный Джеффри Хинтоном для использования с обучающими моделями «Продукт эксперта», называется контрастной дивергенцией (CD). ^[9] CD обеспечивает приближение к методу максимального правдоподобия , которое в идеале могло бы применяться для изучения весов. ^[10]^[11] При обучении одного RBM обновления весов выполняются с градиентным спуском с помощью следующего уравнения: ${\ Displaystyle w_ {ij} (t + 1) = w_ {ij} (t) + \ eta {\ frac {\ partial \ log (p (v))} {\ partial w_ {ij}}}}$

где, ${\ Displaystyle p (v)}$ это вероятность видимого вектора, которая определяется как ${\ displaystyle p (v) = {\ frac {1} {Z}} \ sum _ {h} e ^ {- E (v, h)}}$ . ${\ displaystyle Z}$ - статистическая сумма (используется для нормализации) и ${\ Displaystyle E (v, h)}$ - функция энергии, присвоенная состоянию сети. Более низкая энергия указывает на то, что сеть находится в более «желательной» конфигурации. Градиент ${\ displaystyle {\ frac {\ partial \ log (p (v))} {\ partial w_ {ij}}}}$ имеет простую форму ${\ displaystyle \ langle v_ {i} h_ {j} \ rangle _ {\ text {data}} - \ langle v_ {i} h_ {j} \ rangle _ {\ text {модель}}}$ где ${\ Displaystyle \ langle \ cdots \ rangle _ {p}}$ представляют собой средние по распределению ${\ displaystyle p}$ . Проблема возникает при отборе проб ${\ displaystyle \ langle v_ {i} h_ {j} \ rangle _ {\ text {модель}}}$ потому что для этого требуется расширенная переменная выборка Гиббса . Компакт-диск заменяет этот шаг выполнением попеременного семплирования Гиббса для ${\ displaystyle n}$ шаги (значения ${\ Displaystyle п = 1}$ выступить хорошо). После ${\ displaystyle n}$ шаги, данные выбираются, и этот образец используется вместо ${\ displaystyle \ langle v_ {i} h_ {j} \ rangle _ {\ text {модель}}}$ . Процедура CD работает следующим образом: ^[10]

Инициализируйте видимые единицы тренировочным вектором.
Обновите скрытые блоки параллельно с учетом видимых блоков: ${\ displaystyle p (h_ {j} = 1 \ mid {\ textbf {V}}) = \ sigma (b_ {j} + \ sum _ {i} v_ {i} w_ {ij})}$ . ${\ displaystyle \ sigma}$ является функцией сигмовидной и ${\ displaystyle b_ {j}}$ предвзятость ${\ displaystyle h_ {j}}$ .
Обновите видимые блоки параллельно с учетом скрытых блоков: ${\ displaystyle p (v_ {i} = 1 \ mid {\ textbf {H}}) = \ sigma (a_ {i} + \ sum _ {j} h_ {j} w_ {ij})}$ . ${\ displaystyle a_ {i}}$ предвзятость ${\ displaystyle v_ {i}}$ . Это называется этапом «реконструкции».
Повторно обновите скрытые блоки параллельно с учетом реконструированных видимых блоков, используя то же уравнение, что и на шаге 2.
Выполните обновление веса: ${\ displaystyle \ Delta w_ {ij} \ propto \ langle v_ {i} h_ {j} \ rangle _ {\ text {data}} - \ langle v_ {i} h_ {j} \ rangle _ {\ text {реконструкция }}}$ .

Как только RBM обучен, другой RBM «накладывается» поверх него, получая входные данные от последнего обученного слоя. Новый видимый слой инициализируется обучающим вектором, а значения единиц в уже обученных слоях назначаются с использованием текущих весов и смещений. Затем новый RBM обучается в соответствии с описанной выше процедурой. Весь этот процесс повторяется до тех пор, пока не будет достигнут желаемый критерий остановки. ^[12]

Хотя приближение CD к максимальному правдоподобию является грубым (не следует за градиентом какой-либо функции), оно эмпирически эффективно. ^[10]

Смотрите также

Внешние ссылки

«Сети глубокого убеждения» . Учебники по глубокому обучению .
«Пример сети глубокого убеждения» . Deeplearning4j Учебники . Архивировано из оригинала на 2016-10-03 . Проверено 22 февраля 2015 .

[scholar-1] а ^б в Хинтон G (2009). «Сети глубоких убеждений» . Scholarpedia . 4 (5): 5947. Bibcode : 2009SchpJ ... 4.5947H . DOI : 10,4249 / scholarpedia.5947 .

[hinton06-2] а б Hinton GE , Osindero S, Teh YW (июль 2006 г.). «Алгоритм быстрого обучения для сетей глубоких убеждений» (PDF) . Нейронные вычисления . 18 (7): 1527–54. CiteSeerX 10.1.1.76.1541 . DOI : 10.1162 / neco.2006.18.7.1527 . PMID 16764513 . S2CID 2309950 .

[3] Бенжио Й., Ламблин П., Поповичи Д., Ларошель Х. (2007). Жадное послойное обучение глубоких сетей (PDF) . НИПС .

[4] Бенджио, Ю. (2009). «Изучение глубинных архитектур для искусственного интеллекта» (PDF) . Основы и тенденции в машинном обучении . 2 : 1–127. CiteSeerX 10.1.1.701.9550 . DOI : 10.1561 / 2200000006 .

[5] Мовахеди Ф., Койл Дж.Л., Сейдик Э. (май 2018 г.). "Сети глубокого убеждения для электроэнцефалографии: обзор недавних вкладов и перспектив на будущее" . Журнал IEEE по биомедицинской и медицинской информатике . 22 (3): 642–652. DOI : 10,1109 / jbhi.2017.2727218 . PMC 5967386 . PMID 28715343 .

[6] Гасеми, Перес-Санчес; Мери, Перес-Гарридо (2018). «Нейронные сети и алгоритмы глубокого обучения, используемые в исследованиях QSAR: достоинства и недостатки». Открытие наркотиков сегодня . 23 (10): 1784–1790. DOI : 10.1016 / j.drudis.2018.06.016 . PMID 29936244 .

[7] Гасеми, Перес-Санчес; Мехри, фассихи (2016). «Роль различных методов отбора проб в улучшении прогнозирования биологической активности с использованием сети глубокого убеждения». Журнал вычислительной химии . 38 (10): 1–8. DOI : 10.1002 / jcc.24671 . PMID 27862046 . S2CID 12077015 .

[8] Gawehn E, Hiss JA, Schneider G (январь 2016 г.). «Глубокое обучение в открытии наркотиков». Молекулярная информатика . 35 (1): 3–14. DOI : 10.1002 / minf.201501008 . PMID 27491648 . S2CID 10574953 .

[POE-9] Хинтон Г.Е. (2002). «Учебный продукт для экспертов путем минимизации противоречивых расхождений» (PDF) . Нейронные вычисления . 14 (8): 1771–1800. CiteSeerX 10.1.1.35.8613 . DOI : 10.1162 / 089976602760128018 . PMID 12180402 . S2CID 207596505 .

[RBMTRAIN2-10] а б в Хинтон Г.Е. (2010). «Практическое руководство по обучению ограниченных машин Больцмана» . Tech. Отчет UTML TR 2010-003 .

[RBMTutorial-11] Фишер А., Игель С. (2014). «Обучение ограниченным машинам Больцмана: Введение» (PDF) . Распознавание образов . 47 : 25–39. CiteSeerX 10.1.1.716.8647 . DOI : 10.1016 / j.patcog.2013.05.025 . Архивировано из оригинального (PDF) 10 июня 2015 года . Проверено 2 июля 2017 .

[BENGIODEEP-12] Бенджио Y (2009). «Изучение глубинных архитектур для искусственного интеллекта» (PDF) . Основы и тенденции в машинном обучении . 2 (1): 1–127. CiteSeerX 10.1.1.701.9550 . DOI : 10.1561 / 2200000006 . Архивировано из оригинального (PDF) 04 марта 2016 года . Проверено 2 июля 2017 .

[1]

Сеть глубоких убеждений

Обучение

Смотрите также

Рекомендации

Внешние ссылки