Нейронная сеть с прямой связью

Эта статья требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален.
Поиск источников: «Нейронная сеть прямого распространения» - новости · газеты · книги · ученый · JSTOR ( сентябрь 2011 г. ) ( Узнайте, как и когда удалить это сообщение-шаблон )

В сети прямого распространения информация всегда движется в одном направлении; он никогда не идет в обратном направлении.

Упреждения нейронной сетью является искусственной нейронной сетью , в котором соединение между узлами делать не образует цикл. ^[1] Таким образом, он отличается от своего потомка: рекуррентных нейронных сетей .

Нейронная сеть с прямой связью была первым и самым простым типом созданной искусственной нейронной сети. ^[2] В этой сети информация движется только в одном направлении - вперед - от входных узлов через скрытые узлы (если есть) и к выходным узлам. В сети нет циклов или петель. ^[1]

Однослойный перцептрон [ править ]

Простейший вид нейронной сети - это однослойная сеть персептронов , которая состоит из одного слоя выходных узлов; входы подаются непосредственно на выходы через серию весов. Сумма произведений весов и входов вычисляется в каждом узле, и если значение выше некоторого порога (обычно 0), нейрон срабатывает и принимает активированное значение (обычно 1); в противном случае принимает деактивированное значение (обычно -1). Нейроны с такой функцией активации также называют искусственными нейронами или линейными пороговыми единицами . В литературе термин перцептрон часто относится к сетям, состоящим только из одного из этих элементов. Подобный нейрон был описанУоррен Маккалок и Уолтер Питтс в 1940-х годах.

Персептрон может быть создан с использованием любых значений для активированного и деактивированного состояний, если пороговое значение находится между ними.

Персептроны можно обучить с помощью простого алгоритма обучения, который обычно называют правилом дельты . Он вычисляет ошибки между рассчитанными выходными и выборочными выходными данными и использует их для корректировки весов, тем самым реализуя форму градиентного спуска .

Однослойные перцептроны способны изучать только линейно разделяемые паттерны; в 1969 году в известной монографии под названием Перцептроны , Марвины Мински и Пейперт показали , что это было невозможно для однослойного персептрона сети , чтобы узнать об функции XOR (тем не менее, было известно , что многослойные персептроны способны производить любую возможную булеву функцию ).

Хотя единственная пороговая единица весьма ограничена в своей вычислительной мощности, было показано, что сети параллельных пороговых единиц могут аппроксимировать любую непрерывную функцию из компактного интервала действительных чисел в интервал [-1,1]. Этот результат можно найти в трудах Питера Ауэра, Харальда Бургштейнера и Вольфганга Маасса «Правило обучения для очень простых универсальных аппроксиматоров, состоящих из одного слоя перцептронов». ^[3]

Однослойная нейронная сеть может вычислять непрерывный выходной сигнал вместо пошаговой функции . Распространенным выбором является так называемая логистическая функция :

{\ displaystyle f (x) = {\ frac {1} {1 + e ^ {- x}}}}

При таком выборе одноуровневая сеть идентична модели логистической регрессии , широко используемой в статистическом моделировании . Логистическая функция является одной из семейства функций , называемых сигмоид , потому что их S-образной графика напоминает конечные буквы нижнего регистра греческого письма Sigma . Он имеет непрерывную производную, что позволяет использовать его при обратном распространении . Эта функция также предпочтительна, потому что ее производная легко вычисляется:

{\ Displaystyle е '(х) = е (х) (1-е (х))}

.

(Тот факт, что f удовлетворяет приведенному выше дифференциальному уравнению, легко показать, применив цепное правило .)

Если функция активации однослойной нейронной сети задана по модулю 1, то эта сеть может решить проблему XOR с одним нейроном.

{\ Displaystyle е (х) = х \ mod 1}

{\ displaystyle f '(x) = 1}

Многослойный перцептрон [ править ]

Двухслойная нейронная сеть, способная вычислять XOR. Числа в нейронах представляют собой явный порог каждого нейрона (который можно разложить так, чтобы все нейроны имели одинаковый порог, обычно 1). Цифры, отмеченные стрелками, представляют вес входных данных. Эта сеть предполагает, что если порог не достигнут, выводится ноль (не -1). Обратите внимание, что нижний уровень входных данных не всегда считается реальным уровнем нейронной сети.

Этот класс сетей состоит из нескольких уровней вычислительных блоков, обычно связанных между собой прямым способом. Каждый нейрон в одном слое имеет направленные связи с нейронами следующего слоя. Во многих приложениях устройства этих сетей применяют сигмовидную функцию в качестве функции активации.

Универсальная теорема аппроксимации для нейронных сетей состояний , что любая непрерывная функция , которая отображает интервалы действительных чисел в какой - то выходной интервал действительных чисел может быть сколь угодно точно приблизить с помощью многослойного персептрона с только один скрытый слой. Этот результат справедлив для широкого диапазона функций активации, например, для сигмоидальных функций.

В многоуровневых сетях используются различные методы обучения, наиболее популярными из которых является обратное распространение . Здесь выходные значения сравниваются с правильным ответом для вычисления значения некоторой предопределенной функции ошибок. Затем с помощью различных методов ошибка возвращается по сети. Используя эту информацию, алгоритм корректирует веса каждого соединения, чтобы уменьшить значение функции ошибок на некоторую небольшую величину. После повторения этого процесса в течение достаточно большого количества циклов обучения сеть обычно сходится к некоторому состоянию, в котором ошибка вычислений мала. В этом случае можно сказать, что сеть усвоила определенную целевую функцию. Для правильной настройки весов применяется общий метод нелинейной оптимизации.это называется градиентным спуском . Для этого сеть вычисляет производную функции ошибок по весам сети и изменяет веса таким образом, чтобы ошибка уменьшалась (таким образом, снижаясь на поверхности функции ошибок). По этой причине обратное распространение может применяться только в сетях с дифференцируемыми функциями активации.

В общем, проблема обучения сети хорошей работе, даже на выборках, которые не использовались в качестве обучающих, является довольно тонкой проблемой, требующей дополнительных методов. Это особенно важно для случаев, когда доступно очень ограниченное количество обучающих выборок. ^[4] Опасность заключается в том, что сеть не соответствует обучающим данным и не может уловить истинный статистический процесс, генерирующий данные. Теория вычислительного обучения занимается обучением классификаторов на ограниченном количестве данных. В контексте нейронных сетей простая эвристика , называемая ранней остановкой , часто гарантирует, что сеть будет хорошо обобщаться на примеры, не входящие в обучающий набор.

Другими типичными проблемами алгоритма обратного распространения являются скорость сходимости и возможность попадания в локальный минимум функции ошибок. Сегодня существуют практические методы, которые делают обратное распространение в многослойных персептронах предпочтительным инструментом для многих задач машинного обучения .

Можно также использовать серию независимых нейронных сетей, модерируемых каким-то посредником, подобное поведение происходит в мозгу. Эти нейроны могут работать по отдельности и обрабатывать большую задачу, и в конечном итоге результаты могут быть объединены. ^[5]

Другие сети прямого распространения [ править ]

В более общем смысле, любой направленный ациклический граф может использоваться для сети с прямой связью, при этом некоторые узлы (без родителей) обозначены как входы, а некоторые узлы (без дочерних) обозначены как выходы. Их можно рассматривать как многослойные сети, в которых некоторые края пропускают слои, либо считая слои назад от выходов или вперед от входов. Могут использоваться различные функции активации, и могут быть отношения между весами, как в сверточных нейронных сетях .

Примеры других сетей с прямой связью включают сети радиальных базисных функций , которые используют другую функцию активации.

Иногда многослойный перцептрон используется в широком смысле для обозначения любой нейронной сети прямого распространения, в то время как в других случаях он ограничивается конкретными (например, с конкретными функциями активации, или с полностью связанными слоями, или обученным алгоритмом перцептрона).

См. Также [ править ]

Сеть Хопфилда
Сверточная нейронная сеть
Прямая связь
Обратное распространение
Rprop

Ссылки [ править ]

^ a b Зелл, Андреас (1994). Simulation Neuronaler Netze [ Моделирование нейронных сетей ] (на немецком языке) (1-е изд.). Эддисон-Уэсли. п. 73. ISBN 3-89319-554-8.
^ Schmidhuber, Jürgen (2015-01-01). «Глубокое обучение в нейронных сетях: обзор». Нейронные сети . 61 : 85–117. arXiv : 1404,7828 . DOI : 10.1016 / j.neunet.2014.09.003 . ISSN 0893-6080 . PMID 25462637 . S2CID 11715509 .
^ Ауэр, Питер; Харальд Бургштайнер; Вольфганг Маасс (2008). «Правило обучения для очень простых универсальных аппроксиматоров, состоящих из одного слоя перцептронов» (PDF) . Нейронные сети . 21 (5): 786–795. DOI : 10.1016 / j.neunet.2007.12.036 . PMID 18249524 . Архивировано из оригинального (PDF) 06.07.2011 . Проверено 8 сентября 2009 .
^ Роман М. Балабин ; Равиля З. Сафиева; Екатерина Ивановна Ломакина (2007). «Сравнение линейных и нелинейных калибровочных моделей на основе данных спектроскопии в ближней инфракрасной области (NIR) для прогнозирования свойств бензина». Хемометр Intell Lab . 88 (2): 183–188. DOI : 10.1016 / j.chemolab.2007.04.006 .
^ Тахмасеби, Пейман; Хезархани, Ардешир (21 января 2011 г.). «Применение модульной нейронной сети с прямой связью для оценки оценок» . Исследование природных ресурсов . 20 (1): 25–32. DOI : 10.1007 / s11053-011-9135-3 . S2CID 45997840 .

Внешние ссылки [ править ]

Учебник по нейронным сетям с прямой связью
Нейронная сеть с прямой связью: пример
Нейронные сети с прямой связью: введение

[Zell1994p73-1] Зелл, Андреас (1994). Simulation Neuronaler Netze [ Моделирование нейронных сетей ] (на немецком языке) (1-е изд.). Эддисон-Уэсли. п. 73. ISBN 3-89319-554-8.

[2] Schmidhuber, Jürgen (2015-01-01). «Глубокое обучение в нейронных сетях: обзор». Нейронные сети . 61 : 85–117. arXiv : 1404,7828 . DOI : 10.1016 / j.neunet.2014.09.003 . ISSN 0893-6080 . PMID 25462637 . S2CID 11715509 .

[Auer2008-3] Ауэр, Питер; Харальд Бургштайнер; Вольфганг Маасс (2008). «Правило обучения для очень простых универсальных аппроксиматоров, состоящих из одного слоя перцептронов» (PDF) . Нейронные сети . 21 (5): 786–795. DOI : 10.1016 / j.neunet.2007.12.036 . PMID 18249524 . Архивировано из оригинального (PDF) 06.07.2011 . Проверено 8 сентября 2009 .

[Balabin_2007-4] Роман М. Балабин ; Равиля З. Сафиева; Екатерина Ивановна Ломакина (2007). «Сравнение линейных и нелинейных калибровочных моделей на основе данных спектроскопии в ближней инфракрасной области (NIR) для прогнозирования свойств бензина». Хемометр Intell Lab . 88 (2): 183–188. DOI : 10.1016 / j.chemolab.2007.04.006 .

[5] Тахмасеби, Пейман; Хезархани, Ардешир (21 января 2011 г.). «Применение модульной нейронной сети с прямой связью для оценки оценок» . Исследование природных ресурсов . 20 (1): 25–32. DOI : 10.1007 / s11053-011-9135-3 . S2CID 45997840 .

[1]