В контексте искусственных нейронных сетей , то выпрямитель является функция активации определяется как положительная часть аргумента:
где x - вход нейрона. Это также известно как функция линейного нарастания и аналогично полуволновому выпрямлению в электротехнике.
Эта функция активации начала проявляться в контексте извлечения визуальных признаков в иерархических нейронных сетях, начиная с конца 1960-х годов. [1] [2] Позже утверждалось, что у него есть сильные биологические мотивы и математическое обоснование. [3] [4] В 2011 году было обнаружено, что он позволяет лучше обучать более глубокие сети [5] по сравнению с широко используемыми функциями активации до 2011 года, например, логистической сигмоидой (которая вдохновлена теорией вероятности ; см. Логистическую регрессию ) и его более практичный [6] аналог, гиперболический тангенс. Выпрямитель по состоянию на 2017 год [Обновить]является самой популярной функцией активации для глубоких нейронных сетей . [7]
Блок, использующий выпрямитель, также называется выпрямленным линейным блоком ( ReLU ). [8]
Выпрямленные линейные блоки находят применение в компьютерном зрении [5] и распознавании речи [9] [10] с использованием глубоких нейронных сетей и вычислительной нейробиологии . [11] [12] [13]
Преимущества [ править ]
- Биологическая правдоподобность: Односторонний, по сравнению с антисимметричностью из TANH . [ non sequitur ]
- Разреженная активация: например, в случайно инициализированной сети активируется только около 50% скрытых модулей (с ненулевым выходом).
- Лучшее распространение градиента: меньше проблем с исчезающим градиентом по сравнению с сигмоидальными функциями активации, которые насыщаются в обоих направлениях. [5]
- Эффективные вычисления: только сравнение, сложение и умножение.
- Масштабно-инвариантный: .
Выпрямляющие функции активации использовались для разделения специфического возбуждения и неспецифического торможения в пирамиде нейронной абстракции, которая обучалась под наблюдением для изучения нескольких задач компьютерного зрения. [14] В 2011 году [5] было показано, что использование выпрямителя в качестве нелинейности позволяет обучать нейронные сети с глубоким контролем без необходимости предварительного обучения без учителя . Выпрямленные линейные блоки, по сравнению с сигмовидной функцией или аналогичными функциями активации, позволяют быстрее и эффективнее обучать глубокие нейронные архитектуры на больших и сложных наборах данных.
Возможные проблемы [ править ]
- Недифференцируемый в нуле; однако она дифференцируема в любом другом месте, и значение производной в нуле может быть произвольно выбрано равным 0 или 1.
- Не с нулевым центром.
- Безграничный.
- Проблема умирающего ReLU: нейроны ReLU иногда могут быть переведены в состояния, в которых они становятся неактивными практически для всех входов. В этом состоянии через нейрон не текут градиенты, и поэтому нейрон застревает в постоянно неактивном состоянии и «умирает». Это форма проблемы исчезающего градиента . В некоторых случаях большое количество нейронов в сети может застрять в мертвых состояниях, эффективно уменьшая емкость модели. Эта проблема обычно возникает, когда скорость обучения установлена слишком высоко. Его можно смягчить, используя вместо этого негерметичные ReLU, которые назначают небольшой положительный наклон для x <0, однако производительность снижается.
Варианты [ править ]
Линейная единица ошибки Гаусса (GELU) [ править ]
GELU - это плавное приближение к выпрямителю. Он имеет немонотонный «удар», когда x <0, и служит активацией по умолчанию для таких моделей, как BERT . [15]
,
где Φ (x) - кумулятивная функция распределения стандартного нормального распределения .
SiLU [ править ]
SiLU (Sigmoid Linear Unit) - еще одно гладкое приближение, впервые представленное в статье GELU. [ сомнительно
] [15]Softplus [ править ]
Гладкой аппроксимацией выпрямителя является аналитическая функция
которая называется функцией softplus [16] [5] или SmoothReLU . [17] Для большого негатива речь идет о так чуть выше 0, в то время как при больших положительных примерно так чуть выше .
Параметр резкости может быть включен:
Производной softplus является логистическая функция . Начиная с параметрической версии,
Логистическая сигмоидальная функция представляет собой гладкую аппроксимацию производной выпрямителя, ступенчатой функции Хевисайда .
Многопараметрическое обобщение softplus с одной переменной - это LogSumExp с первым аргументом, установленным в ноль:
Функция LogSumExp
а его градиент - softmax ; softmax с первым аргументом, установленным в ноль, является многовариантным обобщением логистической функции. И LogSumExp, и softmax используются в машинном обучении.
Leaky ReLU [ править ]
Утечки ReLU допускают небольшой положительный градиент, когда устройство неактивно. [10]
Параметрическое ReLU [ править ]
Параметрические ReLU (PReLU) развивают эту идею, превращая коэффициент утечки в параметр, который изучается вместе с другими параметрами нейронной сети. [18]
Обратите внимание, что для a ≤ 1 это эквивалентно
и таким образом имеет отношение к сетям "maxout". [18]
ELU [ править ]
Экспоненциальные линейные единицы пытаются приблизить среднее значение активаций к нулю, что ускоряет обучение. Было показано, что ELU могут получить более высокую точность классификации, чем ReLU. [19]
где - настраиваемый гиперпараметр , а - ограничение.
ELU можно рассматривать как сглаженную версию смещенного ReLU (SReLU), которая имеет форму, аналогичную интерпретации .
См. Также [ править ]
- Функция Softmax
- Сигмовидная функция
- Модель Tobit
- Слой (глубокое обучение)
Ссылки [ править ]
- ↑ Фукусима, К. (1969). «Выделение визуальных признаков многослойной сетью аналоговых пороговых элементов». IEEE Transactions по системной науке и кибернетике . 5 (4): 322–333.
- ^ Фукусима, К .; Мияке, С. (1982). «Неокогнитрон: модель самоорганизующейся нейронной сети для механизма распознавания визуальных образов». in Конкуренция и сотрудничество в нейронных сетях . Springer: 267–285.
- ^ Hahnloser, R .; Sarpeshkar, R .; Маховальд, Массачусетс; Дуглас, Р.Дж.; Сын, HS (2000). «Цифровая селекция и аналоговое усиление сосуществуют в кремниевой схеме, вдохновленной корой головного мозга». Природа . 405 (6789): 947–951. Bibcode : 2000Natur.405..947H . DOI : 10.1038 / 35016072 . PMID 10879535 . S2CID 4399014 .
- ^ Hahnloser, R .; Сын, HS (2001). Разрешенные и запрещенные множества в симметричных порогово-линейных сетях . НИПС 2001.
- ^ а б в г д Ксавье Глорот, Антуан Бордес и Йошуа Бенжио (2011). Нейронные сети с глубоким разреженным выпрямителем (PDF) . АИСТАТС.
Выпрямитель и функции активации softplus.
Второй - это плавный вариант первого.
CS1 maint: uses authors parameter (link) - ^ Лекун , Леон Ботта , Женевьева Б. Орр и Клаус-Роберт Мюллер (1998). «Эффективный BackProp» (PDF) . У Г. Орра; К. Мюллер (ред.). Нейронные сети: хитрости . Springer. CS1 maint: uses authors parameter (link)
- ^ Рамачандран, Праджит; Баррет, Зоф; Куок, В. Ле (16 октября 2017 г.). «Поиск функций активации». arXiv : 1710.05941 [ cs.NE ].
- ^ Винод Наир и Джеффри Хинтон (2010). Выпрямленные линейные устройства улучшают машины Больцмана с ограничениями (PDF) . ICML . CS1 maint: uses authors parameter (link)
- ↑ Ласло Тот (2013). Распознавание телефонов с помощью нейронных сетей глубокого разреженного выпрямителя (PDF) . ICASSP . CS1 maint: uses authors parameter (link)
- ^ а б Эндрю Л. Маас, Авни Ю. Ханнун, Эндрю Ю. Нг (2014). Нелинейность выпрямителя улучшает акустические модели нейронной сети .
- ^ Hansel, D .; ван Фрисвейк, К. (2002). «Как шум способствует контрастной инвариантности настройки ориентации зрительной коры головного мозга кошек» . J. Neurosci. 22 (12): 5118–5128. DOI : 10.1523 / JNEUROSCI.22-12-05118.2002 . PMC 6757721 . PMID 12077207 .
- ↑ Кадмон, Джонатан; Сомполинский, Хаим (19.11.2015). «Переход к хаосу в случайных нейронных сетях». Physical Review X . 5 (4): 041030. arXiv : 1508.06486 . Bibcode : 2015PhRvX ... 5d1030K . DOI : 10.1103 / PhysRevX.5.041030 . S2CID 7813832 .
- ^ Энгелькен, Райнер; Вольф, Фред; Эбботт, Л.Ф. (03.06.2020). «Спектры Ляпунова хаотических рекуррентных нейронных сетей». arXiv : 2006.02427 [ nlin.CD ].
- ^ Behnke, Sven (2003). Иерархические нейронные сети для интерпретации изображений . Конспект лекций по информатике. 2766 . Springer. DOI : 10.1007 / b11963 . ISBN 978-3-540-40722-5. S2CID 1304548 .
- ^ a b Хендрикс, Дэн; Гимпель, Кевин (2016). «Линейные единицы с ошибкой Гаусса (GELU)». arXiv : 1606.08415 [ cs.LG ].
- ^ Дугас, Чарльз; Бенхио, Йошуа; Белисль, Франсуа; Надо, Клод; Гарсия, Рене (1 января 2000 г.). «Использование функциональных знаний второго порядка для лучшей оценки опционов» (PDF) . Материалы 13-й Международной конференции по системам обработки нейронной информации (NIPS'00) . MIT Press: 451–457.
Поскольку сигмоид
h
имеет положительную первую производную, его примитив, который мы называем softplus, выпуклый.
- ^ "Прямой слой сглаживающего выпрямителя (SmoothReLU)" . Руководство разработчика для библиотеки Intel Data Analytics Acceleration . 2017 . Проверено 4 декабря 2018 .
- ^ а б Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2015). «Углубляясь в выпрямители: превосходя человеческий уровень по классификации Image Net ». arXiv : 1502.01852 [ cs.CV ].
- ^ Клеверт, Джорк-Арне; Унтертинер, Томас; Хохрайтер, Зепп (2015). «Быстрое и точное глубокое обучение сети с помощью экспоненциальных линейных единиц (ELU)». arXiv : 1511.07289 [ cs.LG ].