В машинном обучении , глубокое убеждение сеть ( ДБНО ) является порождающей графической моделью , или в качестве альтернативы класса глубокой нейронной сети , состоящий из нескольких слоев скрытых переменные ( «скрытые единиц»), со связями между слоями , но не между единицами в пределах каждый слой. [1]
Обучившись на наборе примеров без присмотра , DBN может научиться вероятностно восстанавливать свои входные данные. Затем слои действуют как детекторы объектов . [1] После этого шага обучения DBN может быть дополнительно обучен под наблюдением для выполнения классификации . [2]
DBNs можно рассматривать как композицию простого, неконтролируемые сети , такие как ограниченные машины Больцмана (RBMS) [1] или автоассоциатор , [3] , где скрытый слой каждой подсети служит видимым слоем для следующего. RBM - это неориентированная , основанная на генерации модель энергии с «видимым» входным слоем и скрытым слоем и связями между слоями, но не внутри них. Эта композиция приводит к быстрой, послойной неконтролируемой процедуре обучения, где контрастное расхождение применяется к каждой подсети по очереди, начиная с «самой нижней» пары слоев (самый низкий видимый слой является обучающим набором ).
Наблюдение [2] о том, что DBN можно обучать жадно , по одному уровню за раз, привело к одному из первых эффективных алгоритмов глубокого обучения . [4] : 6 В целом, существует множество привлекательных реализаций и использования DBN в реальных приложениях и сценариях (например, электроэнцефалография , [5] открытие лекарств [6] [7] [8] ).
Обучение
Метод обучения RBM, предложенный Джеффри Хинтоном для использования с обучающими моделями «Продукт эксперта», называется контрастной дивергенцией (CD). [9] CD обеспечивает приближение к методу максимального правдоподобия , которое в идеале могло бы применяться для изучения весов. [10] [11] При обучении одного RBM обновления весов выполняются с градиентным спуском с помощью следующего уравнения:
где, это вероятность видимого вектора, которая определяется как . - статистическая сумма (используется для нормализации) и - функция энергии, присвоенная состоянию сети. Более низкая энергия указывает на то, что сеть находится в более «желательной» конфигурации. Градиент имеет простую форму где представляют собой средние по распределению . Проблема возникает при отборе пробпотому что для этого требуется расширенная переменная выборка Гиббса . Компакт-диск заменяет этот шаг выполнением попеременного семплирования Гиббса для шаги (значения выступить хорошо). После шаги, данные выбираются, и этот образец используется вместо . Процедура CD работает следующим образом: [10]
- Инициализируйте видимые единицы тренировочным вектором.
- Обновите скрытые блоки параллельно с учетом видимых блоков: . является функцией сигмовидной и предвзятость .
- Обновите видимые блоки параллельно с учетом скрытых блоков: . предвзятость . Это называется этапом «реконструкции».
- Повторно обновите скрытые блоки параллельно с учетом реконструированных видимых блоков, используя то же уравнение, что и на шаге 2.
- Выполните обновление веса: .
Как только RBM обучен, другой RBM «накладывается» поверх него, получая входные данные от последнего обученного слоя. Новый видимый слой инициализируется обучающим вектором, а значения единиц в уже обученных слоях назначаются с использованием текущих весов и смещений. Затем новый RBM обучается в соответствии с описанной выше процедурой. Весь этот процесс повторяется до тех пор, пока не будет достигнут желаемый критерий остановки. [12]
Хотя приближение CD к максимальному правдоподобию является грубым (не следует за градиентом какой-либо функции), оно эмпирически эффективно. [10]
Смотрите также
Рекомендации
- ^ а б в Хинтон G (2009). «Сети глубоких убеждений» . Scholarpedia . 4 (5): 5947. Bibcode : 2009SchpJ ... 4.5947H . DOI : 10,4249 / scholarpedia.5947 .
- ^ а б Hinton GE , Osindero S, Teh YW (июль 2006 г.). «Алгоритм быстрого обучения для сетей глубоких убеждений» (PDF) . Нейронные вычисления . 18 (7): 1527–54. CiteSeerX 10.1.1.76.1541 . DOI : 10.1162 / neco.2006.18.7.1527 . PMID 16764513 . S2CID 2309950 .
- ^ Бенжио Й., Ламблин П., Поповичи Д., Ларошель Х. (2007). Жадное послойное обучение глубоких сетей (PDF) . НИПС .
- ^ Бенджио, Ю. (2009). «Изучение глубинных архитектур для искусственного интеллекта» (PDF) . Основы и тенденции в машинном обучении . 2 : 1–127. CiteSeerX 10.1.1.701.9550 . DOI : 10.1561 / 2200000006 .
- ^ Мовахеди Ф., Койл Дж.Л., Сейдик Э. (май 2018 г.). "Сети глубокого убеждения для электроэнцефалографии: обзор недавних вкладов и перспектив на будущее" . Журнал IEEE по биомедицинской и медицинской информатике . 22 (3): 642–652. DOI : 10,1109 / jbhi.2017.2727218 . PMC 5967386 . PMID 28715343 .
- ^ Гасеми, Перес-Санчес; Мери, Перес-Гарридо (2018). «Нейронные сети и алгоритмы глубокого обучения, используемые в исследованиях QSAR: достоинства и недостатки». Открытие наркотиков сегодня . 23 (10): 1784–1790. DOI : 10.1016 / j.drudis.2018.06.016 . PMID 29936244 .
- ^ Гасеми, Перес-Санчес; Мехри, фассихи (2016). «Роль различных методов отбора проб в улучшении прогнозирования биологической активности с использованием сети глубокого убеждения». Журнал вычислительной химии . 38 (10): 1–8. DOI : 10.1002 / jcc.24671 . PMID 27862046 . S2CID 12077015 .
- ^ Gawehn E, Hiss JA, Schneider G (январь 2016 г.). «Глубокое обучение в открытии наркотиков». Молекулярная информатика . 35 (1): 3–14. DOI : 10.1002 / minf.201501008 . PMID 27491648 . S2CID 10574953 .
- ^ Хинтон Г.Е. (2002). «Учебный продукт для экспертов путем минимизации противоречивых расхождений» (PDF) . Нейронные вычисления . 14 (8): 1771–1800. CiteSeerX 10.1.1.35.8613 . DOI : 10.1162 / 089976602760128018 . PMID 12180402 . S2CID 207596505 .
- ^ а б в Хинтон Г.Е. (2010). «Практическое руководство по обучению ограниченных машин Больцмана» . Tech. Отчет UTML TR 2010-003 .
- ^ Фишер А., Игель С. (2014). «Обучение ограниченным машинам Больцмана: Введение» (PDF) . Распознавание образов . 47 : 25–39. CiteSeerX 10.1.1.716.8647 . DOI : 10.1016 / j.patcog.2013.05.025 . Архивировано из оригинального (PDF) 10 июня 2015 года . Проверено 2 июля 2017 .
- ^ Бенджио Y (2009). «Изучение глубинных архитектур для искусственного интеллекта» (PDF) . Основы и тенденции в машинном обучении . 2 (1): 1–127. CiteSeerX 10.1.1.701.9550 . DOI : 10.1561 / 2200000006 . Архивировано из оригинального (PDF) 04 марта 2016 года . Проверено 2 июля 2017 .
Внешние ссылки
- «Сети глубокого убеждения» . Учебники по глубокому обучению .
- «Пример сети глубокого убеждения» . Deeplearning4j Учебники . Архивировано из оригинала на 2016-10-03 . Проверено 22 февраля 2015 .