Эта статья требует дополнительных ссылок для проверки . ( сентябрь 2011 г. ) ( Узнайте, как и когда удалить это сообщение-шаблон ) |
Упреждения нейронной сетью является искусственной нейронной сетью , в котором соединение между узлами делать не образует цикл. [1] Таким образом, он отличается от своего потомка: рекуррентных нейронных сетей .
Нейронная сеть с прямой связью была первым и самым простым типом созданной искусственной нейронной сети. [2] В этой сети информация движется только в одном направлении - вперед - от входных узлов через скрытые узлы (если есть) и к выходным узлам. В сети нет циклов или петель. [1]
Однослойный перцептрон [ править ]
Простейший вид нейронной сети - это однослойная сеть персептронов , которая состоит из одного слоя выходных узлов; входы подаются непосредственно на выходы через серию весов. Сумма произведений весов и входов вычисляется в каждом узле, и если значение выше некоторого порога (обычно 0), нейрон срабатывает и принимает активированное значение (обычно 1); в противном случае принимает деактивированное значение (обычно -1). Нейроны с такой функцией активации также называют искусственными нейронами или линейными пороговыми единицами . В литературе термин перцептрон часто относится к сетям, состоящим только из одного из этих элементов. Подобный нейрон был описанУоррен Маккалок и Уолтер Питтс в 1940-х годах.
Персептрон может быть создан с использованием любых значений для активированного и деактивированного состояний, если пороговое значение находится между ними.
Персептроны можно обучить с помощью простого алгоритма обучения, который обычно называют правилом дельты . Он вычисляет ошибки между рассчитанными выходными и выборочными выходными данными и использует их для корректировки весов, тем самым реализуя форму градиентного спуска .
Однослойные перцептроны способны изучать только линейно разделяемые паттерны; в 1969 году в известной монографии под названием Перцептроны , Марвины Мински и Пейперт показали , что это было невозможно для однослойного персептрона сети , чтобы узнать об функции XOR (тем не менее, было известно , что многослойные персептроны способны производить любую возможную булеву функцию ).
Хотя единственная пороговая единица весьма ограничена в своей вычислительной мощности, было показано, что сети параллельных пороговых единиц могут аппроксимировать любую непрерывную функцию из компактного интервала действительных чисел в интервал [-1,1]. Этот результат можно найти в трудах Питера Ауэра, Харальда Бургштейнера и Вольфганга Маасса «Правило обучения для очень простых универсальных аппроксиматоров, состоящих из одного слоя перцептронов». [3]
Однослойная нейронная сеть может вычислять непрерывный выходной сигнал вместо пошаговой функции . Распространенным выбором является так называемая логистическая функция :
При таком выборе одноуровневая сеть идентична модели логистической регрессии , широко используемой в статистическом моделировании . Логистическая функция является одной из семейства функций , называемых сигмоид , потому что их S-образной графика напоминает конечные буквы нижнего регистра греческого письма Sigma . Он имеет непрерывную производную, что позволяет использовать его при обратном распространении . Эта функция также предпочтительна, потому что ее производная легко вычисляется:
- .
(Тот факт, что f удовлетворяет приведенному выше дифференциальному уравнению, легко показать, применив цепное правило .)
Если функция активации однослойной нейронной сети задана по модулю 1, то эта сеть может решить проблему XOR с одним нейроном.
Многослойный перцептрон [ править ]
Этот класс сетей состоит из нескольких уровней вычислительных блоков, обычно связанных между собой прямым способом. Каждый нейрон в одном слое имеет направленные связи с нейронами следующего слоя. Во многих приложениях устройства этих сетей применяют сигмовидную функцию в качестве функции активации.
Универсальная теорема аппроксимации для нейронных сетей состояний , что любая непрерывная функция , которая отображает интервалы действительных чисел в какой - то выходной интервал действительных чисел может быть сколь угодно точно приблизить с помощью многослойного персептрона с только один скрытый слой. Этот результат справедлив для широкого диапазона функций активации, например, для сигмоидальных функций.
В многоуровневых сетях используются различные методы обучения, наиболее популярными из которых является обратное распространение . Здесь выходные значения сравниваются с правильным ответом для вычисления значения некоторой предопределенной функции ошибок. Затем с помощью различных методов ошибка возвращается по сети. Используя эту информацию, алгоритм корректирует веса каждого соединения, чтобы уменьшить значение функции ошибок на некоторую небольшую величину. После повторения этого процесса в течение достаточно большого количества циклов обучения сеть обычно сходится к некоторому состоянию, в котором ошибка вычислений мала. В этом случае можно сказать, что сеть усвоила определенную целевую функцию. Для правильной настройки весов применяется общий метод нелинейной оптимизации.это называется градиентным спуском . Для этого сеть вычисляет производную функции ошибок по весам сети и изменяет веса таким образом, чтобы ошибка уменьшалась (таким образом, снижаясь на поверхности функции ошибок). По этой причине обратное распространение может применяться только в сетях с дифференцируемыми функциями активации.
В общем, проблема обучения сети хорошей работе, даже на выборках, которые не использовались в качестве обучающих, является довольно тонкой проблемой, требующей дополнительных методов. Это особенно важно для случаев, когда доступно очень ограниченное количество обучающих выборок. [4] Опасность заключается в том, что сеть не соответствует обучающим данным и не может уловить истинный статистический процесс, генерирующий данные. Теория вычислительного обучения занимается обучением классификаторов на ограниченном количестве данных. В контексте нейронных сетей простая эвристика , называемая ранней остановкой , часто гарантирует, что сеть будет хорошо обобщаться на примеры, не входящие в обучающий набор.
Другими типичными проблемами алгоритма обратного распространения являются скорость сходимости и возможность попадания в локальный минимум функции ошибок. Сегодня существуют практические методы, которые делают обратное распространение в многослойных персептронах предпочтительным инструментом для многих задач машинного обучения .
Можно также использовать серию независимых нейронных сетей, модерируемых каким-то посредником, подобное поведение происходит в мозгу. Эти нейроны могут работать по отдельности и обрабатывать большую задачу, и в конечном итоге результаты могут быть объединены. [5]
Другие сети прямого распространения [ править ]
В более общем смысле, любой направленный ациклический граф может использоваться для сети с прямой связью, при этом некоторые узлы (без родителей) обозначены как входы, а некоторые узлы (без дочерних) обозначены как выходы. Их можно рассматривать как многослойные сети, в которых некоторые края пропускают слои, либо считая слои назад от выходов или вперед от входов. Могут использоваться различные функции активации, и могут быть отношения между весами, как в сверточных нейронных сетях .
Примеры других сетей с прямой связью включают сети радиальных базисных функций , которые используют другую функцию активации.
Иногда многослойный перцептрон используется в широком смысле для обозначения любой нейронной сети прямого распространения, в то время как в других случаях он ограничивается конкретными (например, с конкретными функциями активации, или с полностью связанными слоями, или обученным алгоритмом перцептрона).
См. Также [ править ]
- Сеть Хопфилда
- Сверточная нейронная сеть
- Прямая связь
- Обратное распространение
- Rprop
Ссылки [ править ]
- ^ a b Зелл, Андреас (1994). Simulation Neuronaler Netze [ Моделирование нейронных сетей ] (на немецком языке) (1-е изд.). Эддисон-Уэсли. п. 73. ISBN 3-89319-554-8.
- ^ Schmidhuber, Jürgen (2015-01-01). «Глубокое обучение в нейронных сетях: обзор». Нейронные сети . 61 : 85–117. arXiv : 1404,7828 . DOI : 10.1016 / j.neunet.2014.09.003 . ISSN 0893-6080 . PMID 25462637 . S2CID 11715509 .
- ^ Ауэр, Питер; Харальд Бургштайнер; Вольфганг Маасс (2008). «Правило обучения для очень простых универсальных аппроксиматоров, состоящих из одного слоя перцептронов» (PDF) . Нейронные сети . 21 (5): 786–795. DOI : 10.1016 / j.neunet.2007.12.036 . PMID 18249524 . Архивировано из оригинального (PDF) 06.07.2011 . Проверено 8 сентября 2009 .
- ^ Роман М. Балабин ; Равиля З. Сафиева; Екатерина Ивановна Ломакина (2007). «Сравнение линейных и нелинейных калибровочных моделей на основе данных спектроскопии в ближней инфракрасной области (NIR) для прогнозирования свойств бензина». Хемометр Intell Lab . 88 (2): 183–188. DOI : 10.1016 / j.chemolab.2007.04.006 .
- ^ Тахмасеби, Пейман; Хезархани, Ардешир (21 января 2011 г.). «Применение модульной нейронной сети с прямой связью для оценки оценок» . Исследование природных ресурсов . 20 (1): 25–32. DOI : 10.1007 / s11053-011-9135-3 . S2CID 45997840 .
Внешние ссылки [ править ]
- Учебник по нейронным сетям с прямой связью
- Нейронная сеть с прямой связью: пример
- Нейронные сети с прямой связью: введение