Остаточная нейронная сеть

Каноническая форма остаточной нейронной сети. Слой ℓ - 1 пропускается через активацию из л - 2.

Остаточная нейронная сеть ( RESNET ) является искусственной нейронной сети (ИНС) в своем роде , который основывается на конструкциях , известных из пирамидных клеток в коре головного мозга . Остаточные нейронные сети делают это с помощью пропуска соединений или ярлыков для перехода через некоторые слои. Типичные модели ResNet реализуются с двух- или трехуровневыми пропусками, которые содержат нелинейности ( ReLU ) и пакетную нормализацию между ними. ^[1]^[2] Дополнительная матрица весов может использоваться для определения весов пропусков; эти модели известны как HighwayNets .^[3] Модели с несколькими параллельными пропусками называются DenseNets . ^[4]^[5] В контексте остаточных нейронных сетей неостаточная сеть может быть описана как простая сеть .

Реконструкция пирамидальной клетки. Сома и дендриты помечены красным, ветви аксонов - синим. (1) Сома, (2) Базальный дендрит, (3) Апикальный дендрит, (4) Аксон, (5) Коллатеральный аксон.

Одна из мотиваций для пропуска слоев состоит в том, чтобы избежать проблемы исчезновения градиентов путем повторного использования активаций из предыдущего слоя до тех пор, пока соседний слой не узнает свои веса. Во время обучения веса адаптируются для отключения звука восходящего слоя ^{[ требуется пояснение ]} и усиления ранее пропущенного слоя. В простейшем случае адаптируются только веса для соединения соседнего уровня, без явных весов для вышестоящего уровня. Это лучше всего работает, когда переступает один нелинейный слой или когда все промежуточные слои являются линейными. В противном случае следует изучить явную матрицу весов для пропущенного соединения ( следует использовать HighwayNet ).

Пропуск эффективно упрощает сеть за счет использования меньшего количества слоев на начальных этапах обучения ^{[ требуется пояснение ]} . Это ускоряет обучение, уменьшая влияние исчезающих градиентов, так как меньше слоев для распространения. Затем сеть постепенно восстанавливает пропущенные слои по мере изучения пространства признаков . К концу обучения, когда все слои развернуты, он остается ближе к коллектору ^{[ требуется пояснение ]} и, таким образом, учится быстрее. Нейронная сеть без остаточных частей исследует больше пространства функций. Это делает его более уязвимым для возмущений, которые заставляют его покидать коллектор, и требует дополнительных обучающих данных для восстановления.

Биологический аналог [ править ]

Мозг имеет структуры, подобные остаточным сетям, поскольку нейроны VI коркового слоя получают входные данные от слоя I, минуя промежуточные слои. ^[6] На рисунке это сравнивается с сигналами от апикального дендрита (3), пропускающего слои, в то время как базальный дендрит (2) собирает сигналы от предыдущего и / или того же слоя. ^{[примечание 1]}^[7] Подобные структуры существуют и для других слоев. ^[8] Неясно, сколько слоев коры головного мозга по сравнению со слоями искусственной нейронной сети, и все ли области коры головного мозга имеют одинаковую структуру, но на больших участках они кажутся похожими.

Прямое распространение [ править ]

Для одиночных пропусков слои могут быть проиндексированы как по, так и по отношению к . (Сценарий, используемый для ясности, обычно пишется как простая буква l .) Две системы индексации удобны при описании пропусков как движения назад или вперед. По мере прохождения сигнала по сети легче описать пропуск как с заданного уровня, но в качестве обучающего правила (обратное распространение) легче описать, какой уровень активации вы повторно используете , где - номер пропуска. ${\ textstyle \ ell -2}$ ${\ textstyle \ ell}$ ${\ textstyle \ ell}$ ${\ textstyle \ ell +2}$ ${\ textstyle \ ell}$ ${\ textstyle \ ell + k}$ ${\ textstyle \ ell -k}$ ${\ textstyle k-1}$

Учитывая матрицу весов для весов соединений от уровня к и матрицу весов для весов соединений от уровня к , тогда прямое распространение через функцию активации будет (также известное как HighwayNets ) ${\textstyle W^{\ell -1,\ell }}$ ${\textstyle \ell -1}$ ${\textstyle \ell }$ ${\textstyle W^{\ell -2,\ell }}$ ${\textstyle \ell -2}$ ${\textstyle \ell }$

{\begin{aligned}a^{\ell }&:=\mathbf {g} (W^{\ell -1,\ell }\cdot a^{\ell -1}+b^{\ell }+W^{\ell -2,\ell }\cdot a^{\ell -2})\\&:=\mathbf {g} (Z^{\ell }+W^{\ell -2,\ell }\cdot a^{\ell -2})\end{aligned}}

где

{\textstyle a^{\ell }}

активации (выходы) нейронов в слое ,

{\textstyle \ell }

{\textstyle \mathbf {g} }

функция активации для слоя ,

{\textstyle \ell }

{\textstyle W^{\ell -1,\ell }}

матрица весов для нейронов между слоями и , и

{\textstyle \ell -1}

{\textstyle \ell }

{\textstyle Z^{\ell }=W^{\ell -1,\ell }\cdot a^{\ell -1}+b^{\ell }}

При отсутствии явной матрицы (также известной как ResNets ) прямое распространение через функцию активации упрощается до ${\textstyle W^{\ell -2,\ell }}$

a^{\ell }:=\mathbf {g} (Z^{\ell }+a^{\ell -2})

Другой способ сформулировать это - заменить матрицу идентичности , но это действительно только тогда, когда размеры совпадают. Это несколько сбивает с толку, это называется блоком идентификации , что означает, что активации со слоя передаются на уровень без взвешивания. ${\textstyle W^{\ell -2,\ell }}$ ${\textstyle \ell -2}$ ${\textstyle \ell }$

В коре больших полушарий такие перескоки делаются для нескольких слоев. Обычно все переходы вперед начинаются с одного и того же уровня и последовательно соединяются с более поздними уровнями. В общем случае это будет выражаться как (иначе DenseNets )

a^{\ell }:=\mathbf {g} \left(Z^{\ell }+\sum _{k=2}^{K}W^{\ell -k,\ell }\cdot a^{\ell -k}\right)

.

Обратное распространение [ править ]

Во время обучения обратному распространению нормального пути

\Delta w^{\ell -1,\ell }:=-\eta {\frac {\partial E^{\ell }}{\partial w^{\ell -1,\ell }}}=-\eta a^{\ell -1}\cdot \delta ^{\ell }

и для путей пропуска (почти идентичны)

\Delta w^{\ell -2,\ell }:=-\eta {\frac {\partial E^{\ell }}{\partial w^{\ell -2,\ell }}}=-\eta a^{\ell -2}\cdot \delta ^{\ell }

.

В обоих случаях

{\textstyle \eta }

обучения скорости ( ,

{\textstyle \eta <0)}

{\textstyle \delta ^{\ell }}

сигнал ошибки нейронов на слое , и

{\textstyle \ell }

{\textstyle a_{i}^{\ell }}

активация нейронов в слое .

{\textstyle \ell }

Если путь пропуска имеет фиксированные веса (например, единичная матрица, как указано выше), то они не обновляются. Если они могут быть обновлены, это правило является обычным правилом обновления с обратным распространением.

В общем случае могут быть весовые матрицы пропуска пути, поэтому ${\textstyle K}$

\Delta w^{\ell -k,\ell }:=-\eta {\frac {\partial E^{\ell }}{\partial w^{\ell -k,\ell }}}=-\eta a^{\ell -k}\cdot \delta ^{\ell }

Поскольку правила обучения схожи, весовые матрицы можно объединить и изучить на одном шаге.

Заметки [ править ]

^ Некоторые исследования показывают, что здесь есть дополнительные структуры, поэтому это объяснение несколько упрощено.

Ссылки [ править ]

^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (10 декабря 2015 г.). «Глубокое остаточное обучение для распознавания изображений». arXiv : 1512.03385 [ cs.CV ].
^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2016). «Глубокое остаточное обучение для распознавания изображений» (PDF) . Proc. Компьютерное зрение и распознавание образов (CVPR), IEEE . Проверено 23 апреля 2020 .
^ Шривастава, Рупеш Кумар; Грефф, Клаус; Шмидхубер, Юрген (2 мая 2015 г.). «Автомобильные сети». arXiv : 1505.00387 [ cs.LG ].
^ Хуанг, Гао; Лю, Чжуан; Weinberger, Kilian Q .; ван дер Маатен, Лоренс (2016-08-24). «Плотно связанные сверточные сети». arXiv : 1608.06993 [ cs.CV ].
^ Хуанг, Гао; Лю, Чжуан; Weinberger, Kilian Q .; ван дер Маатен, Лоренс (2017). «Плотно связанные сверточные сети» (PDF) . Proc. Компьютерное зрение и распознавание образов (CVPR), IEEE . Проверено 23 апреля 2020 .
Перейти ↑ Thomson, AM (2010). «Неокортикальный слой 6, обзор» . Границы нейроанатомии . 4 : 13. DOI : 10,3389 / fnana.2010.00013 . PMC 2885865 . PMID 20556241 .
^ Зимовщик, Йохен; Майер, Николаус; Возны, Кристиан; Beed, Prateep; Бреустедт, Йорг; Евангелиста, Роберта; Пэн, Янфань; Д'Альбис, Тициано; Кемптер, Ричард (2017). «Возбуждающие микросхемы в поверхностных слоях медиальной энторинальной коры» . Отчеты по ячейкам . 19 (6): 1110–1116. DOI : 10.1016 / j.celrep.2017.04.041 . PMID 28494861 .
^ Фитцпатрик, Дэвид (1996-05-01). "Функциональная организация локальных цепей в зрительной коре головного мозга: выводы из исследования полосатой коры древовидной землероки" . Кора головного мозга . 6 (3): 329–341. DOI : 10.1093 / cercor / 6.3.329 . ISSN 1047-3211 . PMID 8670661 .

[7] Некоторые исследования показывают, что здесь есть дополнительные структуры, поэтому это объяснение несколько упрощено.

[1] Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (10 декабря 2015 г.). «Глубокое остаточное обучение для распознавания изображений». arXiv : 1512.03385 [ cs.CV ].

[2] Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2016). «Глубокое остаточное обучение для распознавания изображений» (PDF) . Proc. Компьютерное зрение и распознавание образов (CVPR), IEEE . Проверено 23 апреля 2020 .

[3] Шривастава, Рупеш Кумар; Грефф, Клаус; Шмидхубер, Юрген (2 мая 2015 г.). «Автомобильные сети». arXiv : 1505.00387 [ cs.LG ].

[4] Хуанг, Гао; Лю, Чжуан; Weinberger, Kilian Q .; ван дер Маатен, Лоренс (2016-08-24). «Плотно связанные сверточные сети». arXiv : 1608.06993 [ cs.CV ].

[5] Хуанг, Гао; Лю, Чжуан; Weinberger, Kilian Q .; ван дер Маатен, Лоренс (2017). «Плотно связанные сверточные сети» (PDF) . Proc. Компьютерное зрение и распознавание образов (CVPR), IEEE . Проверено 23 апреля 2020 .

[6] Перейти ↑ Thomson, AM (2010). «Неокортикальный слой 6, обзор» . Границы нейроанатомии . 4 : 13. DOI : 10,3389 / fnana.2010.00013 . PMC 2885865 . PMID 20556241 .

[8] Зимовщик, Йохен; Майер, Николаус; Возны, Кристиан; Beed, Prateep; Бреустедт, Йорг; Евангелиста, Роберта; Пэн, Янфань; Д'Альбис, Тициано; Кемптер, Ричард (2017). «Возбуждающие микросхемы в поверхностных слоях медиальной энторинальной коры» . Отчеты по ячейкам . 19 (6): 1110–1116. DOI : 10.1016 / j.celrep.2017.04.041 . PMID 28494861 .

[9] Фитцпатрик, Дэвид (1996-05-01). "Функциональная организация локальных цепей в зрительной коре головного мозга: выводы из исследования полосатой коры древовидной землероки" . Кора головного мозга . 6 (3): 329–341. DOI : 10.1093 / cercor / 6.3.329 . ISSN 1047-3211 . PMID 8670661 .

[1]