Ограниченная машина Больцмана

Машинное обучение и интеллектуальный анализ данных
Часть серии по

Проблемы Классификация Кластеризация Регресс Обнаружение аномалий AutoML Правила ассоциации Обучение с подкреплением Структурированный прогноз Разработка функций Особенности обучения Онлайн обучение Полу-контролируемое обучение Обучение без учителя Учимся ранжировать Введение в грамматику
Обучение с учителем ( классификация • регрессия ) Деревья решений Ансамбли Упаковка Повышение Случайный лес k -NN Линейная регрессия Наивный байесовский Искусственные нейронные сети Логистическая регрессия Перцептрон Вектор релевантности (RVM) Машина опорных векторов (SVM)
Кластеризация БЕРЕЗА ИЗЛЕЧИВАТЬ Иерархический k- означает Ожидание – максимизация (EM) DBSCAN ОПТИКА Средний сдвиг
Снижение размерности Факторный анализ CCA ICA LDA NMF PCA PGD t-SNE
Структурированный прогноз Графические модели Сеть Байеса Условное случайное поле Скрытый Марков
Обнаружение аномалий k -NN Фактор локального выброса
Искусственная нейронная сеть Автоэнкодер Когнитивные вычисления Глубокое обучение DeepDream Многослойный перцептрон RNN LSTM ГРУ ESN Ограниченная машина Больцмана GAN SOM Сверточная нейронная сеть U-Net Трансформатор Пиковая нейронная сеть Мемтранзистор Электрохимическая RAM (ECRAM)
Обучение с подкреплением Q-обучение SARSA Временная разница (TD)
Теория Компромисс смещения и дисперсии Теория вычислительного обучения Минимизация эмпирического риска Обучение Оккама PAC обучение Статистическое обучение Теория ВК
Площадки для машинного обучения NeurIPS ICML ML JMLR ArXiv: cs.LG
Глоссарий искусственного интеллекта Глоссарий искусственного интеллекта
Статьи по Теме Список наборов данных для исследований в области машинного обучения Схема машинного обучения
v т е

Схема ограниченной машины Больцмана с тремя видимыми блоками и четырьмя скрытыми блоками (без блоков смещения).

Ограничено машина Больцмана ( RBM ) является порождающей стохастическими искусственной нейронной сетью , которая может узнать распределение вероятностей над своим набором входов.

RBMS первоначально были изобретены под названием фисгармонии от Павла Смоленского в 1986 году ^[1] и стал известен после того, как Джеффри Хинтон и сотрудники изобрели быстрый алгоритмов обучения для них в середине 2000 года. RBM нашли применение в уменьшении размерности , ^[2] классификации , ^[3] совместной фильтрации , ^[4] изучении функций , ^[5] тематическом моделировании ^[6] и даже во многих квантовой механике тела . ^[7]^[8] Их можно обучить как контролируемым, так ибесконтрольные способы, в зависимости от задачи.

Как следует из их названия, RBM являются вариантом машин Больцмана с ограничением, что их нейроны должны образовывать двудольный граф : пару узлов из каждой из двух групп единиц (обычно называемых «видимыми» и «скрытыми») соответственно) могут иметь симметричное соединение между собой; и нет никаких связей между узлами внутри группы. Напротив, «неограниченные» машины Больцмана могут иметь связи между скрытыми узлами . Это ограничение позволяет использовать более эффективные алгоритмы обучения, чем те, которые доступны для общего класса машин Больцмана, в частности, алгоритм контрастной дивергенции на основе градиента . ^[9]

Машины Больцмана с ограниченным доступом также можно использовать в сетях глубокого обучения . В частности, сети глубоких убеждений могут быть сформированы путем «наложения» RBM и, необязательно, тонкой настройки результирующей глубокой сети с градиентным спуском и обратным распространением . ^[10]

Структура [ править ]

Стандартный тип RBM имеет двоичные ( логические / Бернулли ) скрытые и видимые единицы и состоит из матрицы весов (размер m × n ), связанной со связью между скрытой единицей и видимой единицей , а также весов смещения (смещения ) для видимых и скрытых блоков. Учитывая это, энергия конфигурации (пары булевых векторов) $($ $v$ $,$ $h$ $)$ определяется как ${\ Displaystyle W = (w_ {я, j})}$ ${\ displaystyle h_ {j}}$ ${\ displaystyle v_ {i}}$ ${\ displaystyle a_ {i}}$ ${\ displaystyle b_ {j}}$

{\ displaystyle E (v, h) = - \ sum _ {i} a_ {i} v_ {i} - \ sum _ {j} b_ {j} h_ {j} - \ sum _ {i} \ sum _ {j} v_ {i} w_ {i, j} h_ {j}}

или, в матричной записи,

{\ displaystyle E (v, h) = - a ^ {\ mathrm {T}} vb ^ {\ mathrm {T}} hv ^ {\ mathrm {T}} Wh}

Эта функция энергии аналогична функции сети Хопфилда . Как и в обычных машинах Больцмана, распределения вероятностей по скрытым и / или видимым векторам определяются в терминах функции энергии: ^[11]

{\ Displaystyle P (v, h) = {\ frac {1} {Z}} e ^ {- E (v, h)}}

где - статистическая сумма, определяемая как сумма всех возможных конфигураций (другими словами, просто нормализующая константа, чтобы гарантировать, что сумма распределения вероятностей равна 1). Точно так же ( предельная ) вероятность видимого (входного) вектора логических значений представляет собой сумму по всем возможным конфигурациям скрытого слоя: ^[11] ${\ displaystyle Z}$ ${\ displaystyle e ^ {- E (v, h)}}$

{\ Displaystyle P (v) = {\ frac {1} {Z}} \ sum _ {h} e ^ {- E (v, h)}}

Поскольку RBM имеет форму двудольного графа, без внутриуровневых соединений, скрытые активации модулей взаимно независимы, учитывая видимые активации модулей, и, наоборот, видимые активации модулей являются взаимно независимыми, учитывая активации скрытых модулей. ^[9] То есть для видимых и скрытых блоков условная вероятность конфигурации видимых блоков $v при$ заданной конфигурации скрытых блоков $h$ равна ${\ displaystyle m}$ ${\ displaystyle n}$

{\ Displaystyle P (v | h) = \ prod _ {i = 1} ^ {m} P (v_ {i} | h)}

.

И наоборот, условная вероятность $h при$ заданном $v$ равна

{\ Displaystyle P (час | v) = \ prod _ {j = 1} ^ {n} P (h_ {j} | v)}

.

Индивидуальные вероятности активации представлены как

{\ Displaystyle P (h_ {j} = 1 | v) = \ sigma \ left (b_ {j} + \ sum _ {i = 1} ^ {m} w_ {i, j} v_ {i} \ right) }

и

{\ Displaystyle \, P (v_ {i} = 1 | h) = \ sigma \ left (a_ {i} + \ sum _ {j = 1} ^ {n} w_ {i, j} h_ {j} \ верно)}

где обозначает логистический сигмоид . $\sigma$

Видимые единицы Ограниченной машины Больцмана могут быть полиномиальными , хотя скрытые единицы - это Бернулли . В этом случае логистическая функция для видимых единиц заменяется функцией softmax.

P(v_{i}^{k}=1|h)={\frac {\exp(a_{i}^{k}+\Sigma _{j}W_{ij}^{k}h_{j})}{\Sigma _{k'=1}^{K}\exp(a_{i}^{k'}+\Sigma _{j}W_{ij}^{k'}h_{j})}}

где K - количество дискретных значений, которые имеют видимые значения. Они применяются в тематическом моделировании ^[6] и системах рекомендаций . ^[4]

Отношение к другим моделям [ править ]

Ограниченные машины Больцмана - это частный случай машин Больцмана и марковских случайных полей . ^[12]^[13] Их графическая модель соответствует модели факторного анализа . ^[14]

Алгоритм обучения [ править ]

Ограниченные машины Больцмана обучаются максимизировать произведение вероятностей, назначенных некоторому обучающему набору (матрице, каждая строка которой обрабатывается как видимый вектор ), $V$ $v$

\arg \max _{W}\prod _{v\in V}P(v)

или, что эквивалентно, чтобы максимизировать ожидаемую логарифмическую вероятность обучающей выборки, случайно выбранной из : ^[12]^[13] $v$ $V$

\arg \max _{W}\mathbb {E} \left[\log P(v)\right]

Алгоритм, наиболее часто используемый для обучения RBM, то есть для оптимизации вектора весов , - это алгоритм контрастной дивергенции (CD) , разработанный Хинтоном , первоначально разработанный для обучения моделей PoE ( продукт экспертов ). ^[15]^[16] Алгоритм выполняет выборку Гиббса и используется внутри процедуры градиентного спуска (аналогично тому, как обратное распространение используется внутри такой процедуры при обучении нейронных сетей с прямой связью) для вычисления обновления веса. $W$

Базовую одношаговую процедуру контрастного расхождения (CD-1) для одного образца можно резюмировать следующим образом:

Возьмите обучающую выборку $v$ , вычислите вероятности скрытых единиц и выберите скрытый вектор активации $h$ из этого распределения вероятностей.
Вычислить внешний продукт из $V$ и $ч$ и называем это положительный градиент .
Из $h$ выберите реконструкцию $v '$ видимых единиц, а затем пересчитайте скрытые активации $h'$ из этого. (Шаг выборки Гиббса)
Вычислить внешний продукт из $V «$ и $Н»$ и называют это отрицательный градиент .
Пусть обновление матрицы веса будет положительный градиент минус отрицательный градиент, раз некоторые скорости обучения: . $W$ $\Delta W=\epsilon (vh^{\mathsf {T}}-v'h'^{\mathsf {T}})$
Аналогично обновите смещения $a$ и $b$ : , . $\Delta a=\epsilon (v-v')$ $\Delta b=\epsilon (h-h')$

Практическое руководство по обучению RBM, написанное Хинтоном, можно найти на его домашней странице. ^[11]

См. Также [ править ]

Автоэнкодер
Машина Гельмгольца

Ссылки [ править ]

^ Смоленский, Пол (1986). «Глава 6: Обработка информации в динамических системах: основы теории гармонии» (PDF) . В Rumelhart, David E .; Маклелланд, Джеймс Л. (ред.). Параллельная распределенная обработка: исследования микроструктуры познания, том 1: основы . MIT Press. С. 194–281 . ISBN 0-262-68053-X.
^ Хинтон, GE; Салахутдинов, Р.Р. (2006). «Уменьшение размерности данных с помощью нейронных сетей» (PDF) . Наука . 313 (5786): 504–507. Bibcode : 2006Sci ... 313..504H . DOI : 10.1126 / science.1127647 . PMID 16873662 . S2CID 1658773 .
^ Ларошель, H .; Бенджио, Ю. (2008). Классификация с использованием дискриминативных ограниченных машин Больцмана (PDF) . Материалы 25-й международной конференции по машинному обучению - ICML '08. п. 536. DOI : 10,1145 / 1390156,1390224 . ISBN 9781605582054.
^ а б Салахутдинов, Р .; Mnih, A .; Хинтон, Г. (2007). Машины Больцмана с ограничениями для совместной фильтрации . Материалы 24-й международной конференции по машинному обучению - ICML '07. п. 791. DOI : 10,1145 / 1273496,1273596 . ISBN 9781595937933.
^ Коутс, Адам; Ли, Хонглак; Нг, Эндрю Ю. (2011). Анализ однослойных сетей в неконтролируемом обучении функций (PDF) . Международная конференция по искусственному интеллекту и статистике (AISTATS).
^ a b Руслан Салахутдинов и Джеффри Хинтон (2010). Реплицированный softmax: неориентированная тематическая модель . Системы обработки нейронной информации 23 .
^ Карлео, Джузеппе; Тройер, Маттиас (10.02.2017). «Решение квантовой задачи многих тел с помощью искусственных нейронных сетей». Наука . 355 (6325): 602–606. arXiv : 1606.02318 . Bibcode : 2017Sci ... 355..602C . DOI : 10.1126 / science.aag2302 . ISSN 0036-8075 . PMID 28183973 . S2CID 206651104 .
^ Мелко, Роджер G .; Карлео, Джузеппе; Карраскилла, Хуан; Чирак, Дж. Игнасио (сентябрь 2019 г.). «Ограниченные машины Больцмана в квантовой физике» . Физика природы . 15 (9): 887–892. Bibcode : 2019NatPh..15..887M . DOI : 10.1038 / s41567-019-0545-1 . ISSN 1745-2481 .
^ а б Мигель Б. Каррейра-Перпиньян и Джеффри Хинтон (2005). О контрастном обучении дивергенции . Искусственный интеллект и статистика .
Перейти ↑ Hinton, G. (2009). «Сети глубоких убеждений» . Scholarpedia . 4 (5): 5947. Bibcode : 2009SchpJ ... 4.5947H . DOI : 10,4249 / scholarpedia.5947 .
^ a b c Джеффри Хинтон (2010). Практическое руководство по обучению ограниченных машин Больцмана . UTML TR 2010–003, Университет Торонто.
^ a b Суцкевер Илья; Тилеман, Таймен (2010). «О свойствах сходимости контрастной дивергенции» (PDF) . Proc. 13-я Международная конференция Об искусственном интеллекте и статистике (AISTATS) . Архивировано из оригинального (PDF) 10 июня 2015 года.
^ а б Ася Фишер и Кристиан Игель. Тренировка ограниченных машин Больцмана: Введение, архивировано 10 июня 2015 г. на Wayback Machine . Распознавание образов 47, стр. 25-39, 2014
^ Мария Анджелика Куэто; Джейсон Мортон; Бернд Штурмфельс (2010). «Геометрия ограниченной машины Больцмана» (PDF) . Алгебраические методы в статистике и теории вероятностей . Американское математическое общество. 516 . arXiv : 0908.4425 . Bibcode : 2009arXiv0908.4425A . ^{[ постоянная мертвая ссылка ]}
^ Джеффри Хинтон (1999). Продукция экспертов . ICANN 1999 .
Перейти ↑ Hinton, GE (2002). "Продукты обучения экспертов путем минимизации противоречивой расхождения" (PDF) . Нейронные вычисления . 14 (8): 1771–1800. DOI : 10.1162 / 089976602760128018 . PMID 12180402 . S2CID 207596505 .

Внешние ссылки [ править ]

Введение в машины Больцмана с ограничениями . Блог Эдвина Чена, 18 июля 2011 г.
«Руководство для начинающих по машинам Больцмана с ограничениями» . Архивировано 11 февраля 2017 года . Проверено 15 ноября 2018 года .CS1 maint: bot: original URL status unknown (link). Документация Deeplearning4j
«Понимание УКР» . Архивировано из оригинального 20 сентября 2016 года . Проверено 29 декабря 2014 года .. Документация Deeplearning4j
Реализация Bernoulli RBM на Python и руководство
SimpleRBM - это очень маленький код RBM (24 КБ), полезный для вас, чтобы узнать о том, как учатся и работают RBM.

[1] Смоленский, Пол (1986). «Глава 6: Обработка информации в динамических системах: основы теории гармонии» (PDF) . В Rumelhart, David E .; Маклелланд, Джеймс Л. (ред.). Параллельная распределенная обработка: исследования микроструктуры познания, том 1: основы . MIT Press. С. 194–281 . ISBN 0-262-68053-X.

[2] Хинтон, GE; Салахутдинов, Р.Р. (2006). «Уменьшение размерности данных с помощью нейронных сетей» (PDF) . Наука . 313 (5786): 504–507. Bibcode : 2006Sci ... 313..504H . DOI : 10.1126 / science.1127647 . PMID 16873662 . S2CID 1658773 .

[3] Ларошель, H .; Бенджио, Ю. (2008). Классификация с использованием дискриминативных ограниченных машин Больцмана (PDF) . Материалы 25-й международной конференции по машинному обучению - ICML '08. п. 536. DOI : 10,1145 / 1390156,1390224 . ISBN 9781605582054.

[softCF-4] а б Салахутдинов, Р .; Mnih, A .; Хинтон, Г. (2007). Машины Больцмана с ограничениями для совместной фильтрации . Материалы 24-й международной конференции по машинному обучению - ICML '07. п. 791. DOI : 10,1145 / 1273496,1273596 . ISBN 9781595937933.

[coates2011-5] Коутс, Адам; Ли, Хонглак; Нг, Эндрю Ю. (2011). Анализ однослойных сетей в неконтролируемом обучении функций (PDF) . Международная конференция по искусственному интеллекту и статистике (AISTATS).

[softTM-6] Руслан Салахутдинов и Джеффри Хинтон (2010). Реплицированный softmax: неориентированная тематическая модель . Системы обработки нейронной информации 23 .

[7] Карлео, Джузеппе; Тройер, Маттиас (10.02.2017). «Решение квантовой задачи многих тел с помощью искусственных нейронных сетей». Наука . 355 (6325): 602–606. arXiv : 1606.02318 . Bibcode : 2017Sci ... 355..602C . DOI : 10.1126 / science.aag2302 . ISSN 0036-8075 . PMID 28183973 . S2CID 206651104 .

[8] Мелко, Роджер G .; Карлео, Джузеппе; Карраскилла, Хуан; Чирак, Дж. Игнасио (сентябрь 2019 г.). «Ограниченные машины Больцмана в квантовой физике» . Физика природы . 15 (9): 887–892. Bibcode : 2019NatPh..15..887M . DOI : 10.1038 / s41567-019-0545-1 . ISSN 1745-2481 .

[oncd-9] а б Мигель Б. Каррейра-Перпиньян и Джеффри Хинтон (2005). О контрастном обучении дивергенции . Искусственный интеллект и статистика .

[10] Перейти ↑ Hinton, G. (2009). «Сети глубоких убеждений» . Scholarpedia . 4 (5): 5947. Bibcode : 2009SchpJ ... 4.5947H . DOI : 10,4249 / scholarpedia.5947 .

[guide-11] Джеффри Хинтон (2010). Практическое руководство по обучению ограниченных машин Больцмана . UTML TR 2010–003, Университет Торонто.

[cdconvergence-12] Суцкевер Илья; Тилеман, Таймен (2010). «О свойствах сходимости контрастной дивергенции» (PDF) . Proc. 13-я Международная конференция Об искусственном интеллекте и статистике (AISTATS) . Архивировано из оригинального (PDF) 10 июня 2015 года.

[RBMTutorial-13] а б Ася Фишер и Кристиан Игель. Тренировка ограниченных машин Больцмана: Введение, архивировано 10 июня 2015 г. на Wayback Machine . Распознавание образов 47, стр. 25-39, 2014

[14] Мария Анджелика Куэто; Джейсон Мортон; Бернд Штурмфельс (2010). «Геометрия ограниченной машины Больцмана» (PDF) . Алгебраические методы в статистике и теории вероятностей . Американское математическое общество. 516 . arXiv : 0908.4425 . Bibcode : 2009arXiv0908.4425A . ^{[ постоянная мертвая ссылка ]}

[15] Джеффри Хинтон (1999). Продукция экспертов . ICANN 1999 .

[16] Перейти ↑ Hinton, GE (2002). "Продукты обучения экспертов путем минимизации противоречивой расхождения" (PDF) . Нейронные вычисления . 14 (8): 1771–1800. DOI : 10.1162 / 089976602760128018 . PMID 12180402 . S2CID 207596505 .