Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Функция логистической активации

В искусственных нейронных сетях , то функция активации узла определяет выход этого узла заданного вход или набор входов. Стандартную интегральную схему можно рассматривать как цифровую сеть функций активации, которая может быть «ВКЛ» (1) или «ВЫКЛ» (0), в зависимости от входа. Это похоже на поведение линейного персептрона в нейронных сетях . Однако только нелинейные функции активации позволяют таким сетям решать нетривиальные задачи, используя лишь небольшое количество узлов, и такие функции активации называются нелинейностями . [1]

Классификация функций активации [ править ]

Наиболее распространенные функции активации можно разделить на три категории: функции гребня , радиальные функции и функции складывания .

Функции активации хребта [ править ]

Ридж-функции - это многомерные функции, действующие на линейную комбинацию входных переменных. Часто используемые примеры включают:

  • Линейная активация: ,
  • РЕЛУ активация: ,
  • Хевисайда активация: ,
  • Логистические активации: .

В биологически вдохновленных нейронных сетях функция активации обычно представляет собой абстракцию, представляющую скорость активации потенциала действия в клетке. [2] В простейшей форме эта функция является бинарной, то есть нейрон либо срабатывает, либо нет. Функция выглядит так , где - ступенчатая функция Хевисайда .

Линия с положительным наклоном может использоваться для отражения увеличения скорости стрельбы, которое происходит при увеличении входного тока. Такая функция будет иметь вид .

Поскольку биологические нейроны не могут снизить их скорость стрельбы ниже нуля, выпрямленные линейные используются функции активации: . Они вводят нелинейность в нуле, которую можно использовать для принятия решений. [3]

Выпрямленные линейные единицы и функции активации линейных единиц погрешности по Гауссу

Нейроны также не могут стрелять быстрее определенной скорости, что мотивирует функции активации сигмовидной кишки, область действия которых является конечным интервалом.

Функции радиальной активации [ править ]

В сетях RBF используется специальный класс функций активации, известный как радиальные базисные функции (RBF) , которые чрезвычайно эффективны в качестве универсальных аппроксиматоров функций. Эти функции активации могут принимать разные формы, но обычно они находятся в одной из следующих функций:

  • Гауссовский :
  • Мультиквадраты:
  • Обратные мультиквадраты:
  • Полигармонические сплайны

где есть вектор , представляющий функцию центра и и представляют собой параметры , влияющие на распространение радиуса.

Была предложена эффективная с вычислительной точки зрения радиальная базисная функция [4], называемая ядром RBF на основе квадратичного закона ( SQ-RBF ), которая исключает экспоненциальный член, как в гауссовском RBF.

  • SQ-RBF:

Складные функции активации [ править ]

Функции активации сворачивания широко используются на уровнях объединения в сверточных нейронных сетях и на выходных уровнях сетей мультиклассовой классификации. Эти активации выполняют агрегирование входных данных, например, взятие среднего , минимального или максимального значения . В мультиклассовой классификации часто используется активация softmax .

Сравнение функций активации [ править ]

Есть множество функций активации. В основополагающей статье 2012 года Хинтона и др. Об автоматическом распознавании речи используется логистическая функция активации сигмовидной железы. [5] Основополагающая архитектура компьютерного зрения AlexNet 2012 года использует функцию активации ReLU, как и основополагающая архитектура компьютерного зрения 2015 года ResNet . Основополагающая модель языковой обработки 2018 года BERT использует гладкую версию ReLU, GELU. [6]

Помимо эмпирической эффективности, функции активации также обладают различными математическими свойствами:

Нелинейный
Когда функция активации нелинейна, двухслойная нейронная сеть может быть доказана как универсальный аппроксиматор функции. [7] Это известно как теорема об универсальном приближении . Функция активации идентичности не удовлетворяет этому свойству. Когда несколько уровней используют функцию активации идентичности, вся сеть эквивалентна одноуровневой модели.
Классифицировать
Когда диапазон функции активации конечен, методы обучения на основе градиента имеют тенденцию быть более стабильными, потому что представление паттернов существенно влияет только на ограниченные веса. Когда диапазон бесконечен, тренировка обычно более эффективна, потому что представление паттернов существенно влияет на большинство весов. В последнем случае обычно требуется меньшая скорость обучения . [ необходима цитата ]
Непрерывно дифференцируемый
Это свойство желательно ( ReLU не является непрерывно дифференцируемым и имеет некоторые проблемы с оптимизацией на основе градиента, но это все еще возможно) для включения методов оптимизации на основе градиента. Функция активации бинарного шага не дифференцируется на 0, и она дифференцируется до 0 для всех других значений, поэтому методы на основе градиента не могут добиться прогресса с ней. [8]
Монотонный
Когда функция активации является монотонной, поверхность ошибки, связанная с однослойной моделью, гарантированно будет выпуклой. [9]
Гладкие функции с монотонной производной
Было показано, что в некоторых случаях они лучше обобщают.
Приближает личность около начала координат
Когда функции активации обладают этим свойством, нейронная сеть будет эффективно обучаться, когда ее веса инициализируются небольшими случайными значениями. Если функция активации не приближает идентичность к исходной точке, необходимо соблюдать особую осторожность при инициализации весов. [10] В приведенной ниже таблице функции активации, где и и имеют непрерывное значение 0, указаны как имеющие это свойство.

Эти свойства не оказывают решающего влияния на производительность и не являются единственными математическими свойствами, которые могут быть полезны. Например, строго положительный диапазон softplus делает его пригодным для прогнозирования отклонений в вариационных автоэнкодерах .

В следующей таблице сравниваются свойства нескольких функций активации, которые являются функциями одного сгиба x от предыдущего слоя или слоев:

^ Здесьестьлогистическая функция.
^, чтобы диапазон оставался верным.

В следующей таблице перечислены функции активации, которые не являются функциями одного сгиба x предыдущего слоя или слоев:

^ ЗдесьестьКронекера.
^ Например,может быть итерация по количеству ядер предыдущего уровня нейронной сети, в то время какитерация по количеству ядер текущего слоя.

См. Также [ править ]

  • Логистическая функция
  • Выпрямитель (нейронные сети)
  • Стабильность (теория обучения)
  • Функция Softmax

Ссылки [ править ]

  1. ^ Хинкельманн, Кнут. «Нейронные сети, стр. 7» (PDF) . Университет прикладных наук Северо-Западной Швейцарии .
  2. ^ Ходжкин, AL; Хаксли, AF (1952-08-28). «Количественное описание мембранного тока и его применение к проводимости и возбуждению в нерве» . Журнал физиологии . 117 (4): 500–544. DOI : 10.1113 / jphysiol.1952.sp004764 . PMC 1392413 . PMID 12991237 .  
  3. ^ Behnke, Sven (2003). Иерархические нейронные сети для интерпретации изображений . Конспект лекций по информатике. 2766 . Springer. DOI : 10.1007 / b11963 . ISBN 978-3-540-40722-5. S2CID  1304548 .
  4. ^ Вураола, Адедамола; Патель, Нитиш (2018), «Вычислительно эффективная радиальная базисная функция», Международная конференция по обработке нейронной информации (ICONIP) , 2018 г. , Сиемреап, Камбоджа: Springer, стр. 103–112, DOI : 10.1007 / 978-3-030-04179- 3_9
  5. ^ Хинтон, Джеффри; Дэн Ли; Дэн Ли; Ю, Донг; Даль, Джордж; Мохамед, Абдель-Рахман; Джайтли, Навдип; Старший, Андрей; Ванхаук, Винсент; Нгуен, Патрик; Саинат, Тара; Кингсбери, Брайан (2012). «Глубокие нейронные сети для акустического моделирования в распознавании речи». Cite journal requires |journal= (help)
  6. ^ a b c Хендрикс, Дэн; Гимпель, Кевин (2016). «Линейные единицы с ошибкой Гаусса (GELU)». arXiv : 1606.08415 [ cs.LG ].
  7. ^ Cybenko, G. (декабрь 1989). «Аппроксимация суперпозициями сигмоидальной функции». Математика управления, сигналов и систем . 2 (4): 303–314. DOI : 10.1007 / BF02551274 . ISSN 0932-4194 . S2CID 3958369 .  
  8. ^ Сниман Ян (3 марта 2005). Практическая математическая оптимизация: введение в основную теорию оптимизации и классические и новые градиентные алгоритмы . Springer Science & Business Media. ISBN 978-0-387-24348-1.
  9. ^ У, Huaiqin (2009). «Анализ глобальной устойчивости общего класса разрывных нейронных сетей с функциями активации линейного роста». Информационные науки . 179 (19): 3432–3441. DOI : 10.1016 / j.ins.2009.06.006 .
  10. ^ Сусилло, Дэвид; Эбботт, Л.Ф. (19 декабря 2014 г.). «Инициализация случайного блуждания для обучения очень глубоких сетей прямого распространения». arXiv : 1412.6558 [ cs.NE ].
  11. ^ Наир, Винод; Хинтон, Джеффри Э. (2010), «Выпрямленные линейные единицы улучшают машины Больцмана с ограничениями» , 27-я Международная конференция Международной конференции по машинному обучению , ICML'10, США: Omnipress, стр. 807–814, ISBN 9781605589077
  12. ^ Глорот, Ксавьер; Бордес, Антуан; Бенжио, Йошуа (2011). "Глубокие разреженные нейронные сети выпрямителя" (PDF) . Международная конференция по искусственному интеллекту и статистике .
  13. ^ Клеверт, Джорк-Арне; Унтертинер, Томас; Хохрайтер, Зепп (23 ноября 2015 г.). «Быстрое и точное глубокое обучение сети с помощью экспоненциальных линейных единиц (ELU)». arXiv : 1511.07289 [ cs.LG ].
  14. ^ Вураола, Адедамола; Патель, Нитиш; Нгуанг, Синг Кионг (2021 г.), «Эффективные функции активации для встроенных механизмов вывода» , Neurocomputing , Elsevier, США: Elsevier, стр. 807–814, ISBN 0925-2312Проверить |isbn=значение: длина ( справка )
  15. ^ Кламбауэр, Гюнтер; Унтертинер, Томас; Майр, Андреас; Хохрайтер, Зепп (2017-06-08). «Самонормализующиеся нейронные сети». Достижения в системах обработки нейронной информации . 30 (2017). arXiv : 1706.02515 . Bibcode : 2017arXiv170602515K .
  16. ^ Маас, Эндрю Л .; Hannun, Awni Y .; Нг, Эндрю Ю. (июнь 2013 г.). «Нелинейности выпрямителя улучшают акустические модели нейронных сетей». Proc. ICML . 30 (1). S2CID 16489696 . 
  17. ^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (06.02.2015). «Углубляясь в выпрямители: превосходя человеческий уровень производительности по классификации ImageNet». arXiv : 1502.01852 [ cs.CV ].
  18. ^ Эллиот, Дэвид Л. (1993), «Лучшая функция активации для искусственных нейронных сетей», Технический отчет ISR TR 93-8, Мэрилендский университет, Колледж-Парк, Мэриленд 20742. , CiteSeerX 10.1.1.46.7204 
  19. ^ "elliotsig, Симметричная сигмовидная передаточная функция Эллиота" , команда, представленная в Matlab R2012b, документации Matlab, MathWorks.
  20. ^ Бергстра, Джеймс; Дежарден, Гийом; Ламблин, Паскаль; Бенхио, Йошуа (2009). «Квадратичные многочлены лучше узнают особенности изображения». Технический отчет 1337" . Département d'Informatique и де Recherche Opérationnelle, Université де Монреаль . Архивировано из оригинала на 2018-09-25.
  21. ^ Глорот, Ксавьер; Бенжио, Йошуа (2010), «Понимание сложности обучения глубоких нейронных сетей с прямой связью» (PDF) , Международная конференция по искусственному интеллекту и статистике (AISTATS'10) , Общество искусственного интеллекта и статистики
  22. ^ Вураола, Адедамола; Патель, Нитиш (2018 г.), «SQNL: новая эффективная с вычислительной точки зрения функция активации» , Международная совместная конференция по нейронным сетям (IJCNN) 2018 г. , Рио-де-Жанейро, Бразилия: IEEE, стр. 1–7
  23. ^ Цзинь, Сяоцзе; Сюй, Чуньян; Фэн, Джиаши; Вэй, Юньчао; Xiong, Junjun; Ян, Шуйчэн (22 декабря 2015 г.). «Глубокое обучение с S-образными выпрямленными линейными модулями активации». arXiv : 1512.07030 [ cs.CV ].
  24. ^ Атто, Abdourrahmane М .; Пастор Доминик; Мерсье, Грегуар (2008), "Гладкое сигмовидное вейвлет-сжатие для непараметрической оценки" , 2008 Международная конференция IEEE по акустике, обработке речи и сигналов
  25. ^ Elfwing, Стефан; Учибе, Эйдзи; Дойя, Кенджи (2018). «Сигмоидно-взвешенные линейные единицы для аппроксимации функций нейронной сети в обучении с подкреплением». Нейронные сети . 107 : 3–11. arXiv : 1702.03118 . DOI : 10.1016 / j.neunet.2017.12.012 . PMID 29395652 . S2CID 6940861 .  
  26. ^ Рамачандран, Праджит; Зоф, Баррет; Ле, Куок V (2017). «Поиск функций активации». arXiv : 1710.05941 [ cs.NE ].
  27. ^ Goodfellow, Ян Дж .; Вард-Фарли, Дэвид; Мирза, Мехди; Курвиль, Аарон; Бенжио, Йошуа (2013). «Maxout Networks». JMLR Workshop and Conference Proceedings . 28 (3): 1319–1327. arXiv : 1302,4389 . Bibcode : 2013arXiv1302.4389G .
  28. ^ Ма, Ниннин. «Активация воронки для визуального распознавания». ECCV 2020 . 12356 : 351-368. arXiv : 2007.11824 . DOI : 10.1007 / 978-3-030-58621-8_21 .