Выпрямитель (нейронные сети)

График функций выпрямителя ReLU (синий) и GELU (зеленый) около x = 0

В контексте искусственных нейронных сетей , то выпрямитель является функция активации определяется как положительная часть аргумента:

{\ Displaystyle е (х) = х ^ {+} = \ макс (0, х)}

где x - вход нейрона. Это также известно как функция линейного нарастания и аналогично полуволновому выпрямлению в электротехнике.

Эта функция активации начала проявляться в контексте извлечения визуальных признаков в иерархических нейронных сетях, начиная с конца 1960-х годов. ^[1]^[2] Позже утверждалось, что у него есть сильные биологические мотивы и математическое обоснование. ^[3]^[4] В 2011 году было обнаружено, что он позволяет лучше обучать более глубокие сети ^[5] по сравнению с широко используемыми функциями активации до 2011 года, например, логистической сигмоидой (которая вдохновлена теорией вероятности ; см. Логистическую регрессию ) и его более практичный ^[6] аналог, гиперболический тангенс. Выпрямитель по состоянию на 2017 год ^{[Обновить]}является самой популярной функцией активации для глубоких нейронных сетей . ^[7]

Блок, использующий выпрямитель, также называется выпрямленным линейным блоком ( ReLU ). ^[8]

Выпрямленные линейные блоки находят применение в компьютерном зрении ^[5] и распознавании речи ^[9]^[10] с использованием глубоких нейронных сетей и вычислительной нейробиологии . ^[11]^[12]^[13]

Преимущества [ править ]

Биологическая правдоподобность: Односторонний, по сравнению с антисимметричностью из TANH . ^{[ non sequitur ]}
Разреженная активация: например, в случайно инициализированной сети активируется только около 50% скрытых модулей (с ненулевым выходом).
Лучшее распространение градиента: меньше проблем с исчезающим градиентом по сравнению с сигмоидальными функциями активации, которые насыщаются в обоих направлениях. ^[5]
Эффективные вычисления: только сравнение, сложение и умножение.
Масштабно-инвариантный: . ${\ displaystyle \ max (0, ax) = a \ max (0, x) {\ text {for}} a \ geq 0}$

Выпрямляющие функции активации использовались для разделения специфического возбуждения и неспецифического торможения в пирамиде нейронной абстракции, которая обучалась под наблюдением для изучения нескольких задач компьютерного зрения. ^[14] В 2011 году ^[5] было показано, что использование выпрямителя в качестве нелинейности позволяет обучать нейронные сети с глубоким контролем без необходимости предварительного обучения без учителя . Выпрямленные линейные блоки, по сравнению с сигмовидной функцией или аналогичными функциями активации, позволяют быстрее и эффективнее обучать глубокие нейронные архитектуры на больших и сложных наборах данных.

Возможные проблемы [ править ]

Недифференцируемый в нуле; однако она дифференцируема в любом другом месте, и значение производной в нуле может быть произвольно выбрано равным 0 или 1.
Не с нулевым центром.
Безграничный.
Проблема умирающего ReLU: нейроны ReLU иногда могут быть переведены в состояния, в которых они становятся неактивными практически для всех входов. В этом состоянии через нейрон не текут градиенты, и поэтому нейрон застревает в постоянно неактивном состоянии и «умирает». Это форма проблемы исчезающего градиента . В некоторых случаях большое количество нейронов в сети может застрять в мертвых состояниях, эффективно уменьшая емкость модели. Эта проблема обычно возникает, когда скорость обучения установлена слишком высоко. Его можно смягчить, используя вместо этого негерметичные ReLU, которые назначают небольшой положительный наклон для x <0, однако производительность снижается.

Варианты [ править ]

Линейная единица ошибки Гаусса (GELU) [ править ]

GELU - это плавное приближение к выпрямителю. Он имеет немонотонный «удар», когда x <0, и служит активацией по умолчанию для таких моделей, как BERT . ^[15]

${\ Displaystyle е (х) = х \ cdot \ Phi (x)}$ ,

где Φ (x) - кумулятивная функция распределения стандартного нормального распределения .

SiLU [ править ]

SiLU (Sigmoid Linear Unit) - еще одно гладкое приближение, впервые представленное в статье GELU. ^{[ сомнительно - обсудить ]} ^[15]

${\ Displaystyle е (х) = х \ cdot \ OperatorName {сигмоид} (х)}$

Softplus [ править ]

Гладкой аппроксимацией выпрямителя является аналитическая функция

{\ Displaystyle е (х) = \ пер (1 + е ^ {х}),}

которая называется функцией softplus ^[16]^[5] или SmoothReLU . ^[17] Для большого негатива речь идет о так чуть выше 0, в то время как при больших положительных примерно так чуть выше . ${\ displaystyle x}$ ${\ displaystyle e ^ {x}}$ ${\ displaystyle x}$ ${\ Displaystyle х + е ^ {- х}}$ ${\ displaystyle x}$

Параметр резкости может быть включен: ${\ displaystyle k}$

{\ Displaystyle е (х) = {\ гидроразрыва {\ ln (1 + е ^ {kx})} {k}}}

Производной softplus является логистическая функция . Начиная с параметрической версии,

{\ displaystyle f '(x) = {\ frac {e ^ {kx}} {1 + e ^ {kx}}} = {\ frac {1} {1 + e ^ {- kx}}}}

Логистическая сигмоидальная функция представляет собой гладкую аппроксимацию производной выпрямителя, ступенчатой функции Хевисайда .

Многопараметрическое обобщение softplus с одной переменной - это LogSumExp с первым аргументом, установленным в ноль:

\operatorname {LSE_{0}} ^{+}(x_{1},...,x_{n}):=\operatorname {LSE} (0,x_{1},...,x_{n})=\log \left(1+e^{x_{1}}+\cdots +e^{x_{n}}\right).

Функция LogSumExp

\operatorname {LSE} (x_{1},\dots ,x_{n})=\log \left(e^{x_{1}}+\cdots +e^{x_{n}}\right),

а его градиент - softmax ; softmax с первым аргументом, установленным в ноль, является многовариантным обобщением логистической функции. И LogSumExp, и softmax используются в машинном обучении.

Leaky ReLU [ править ]

Утечки ReLU допускают небольшой положительный градиент, когда устройство неактивно. ^[10]

f(x)={\begin{cases}x&{\text{if }}x>0,\\0.01x&{\text{otherwise}}.\end{cases}}

Параметрическое ReLU [ править ]

Параметрические ReLU (PReLU) развивают эту идею, превращая коэффициент утечки в параметр, который изучается вместе с другими параметрами нейронной сети. ^[18]

f(x)={\begin{cases}x&{\text{if }}x>0,\\ax&{\text{otherwise}}.\end{cases}}

Обратите внимание, что для a ≤ 1 это эквивалентно

f(x)=\max(x,ax)

и таким образом имеет отношение к сетям "maxout". ^[18]

ELU [ править ]

Экспоненциальные линейные единицы пытаются приблизить среднее значение активаций к нулю, что ускоряет обучение. Было показано, что ELU могут получить более высокую точность классификации, чем ReLU. ^[19]

f(x)={\begin{cases}x&{\text{if }}x>0,\\a(e^{x}-1)&{\text{otherwise}},\end{cases}}

где - настраиваемый гиперпараметр , а - ограничение. $a$ $a\geq 0$

ELU можно рассматривать как сглаженную версию смещенного ReLU (SReLU), которая имеет форму, аналогичную интерпретации . $f(x)=\max(-a,x)$ $a$

См. Также [ править ]

Функция Softmax
Сигмовидная функция
Модель Tobit
Слой (глубокое обучение)

Ссылки [ править ]

↑ Фукусима, К. (1969). «Выделение визуальных признаков многослойной сетью аналоговых пороговых элементов». IEEE Transactions по системной науке и кибернетике . 5 (4): 322–333.
^ Фукусима, К .; Мияке, С. (1982). «Неокогнитрон: модель самоорганизующейся нейронной сети для механизма распознавания визуальных образов». in Конкуренция и сотрудничество в нейронных сетях . Springer: 267–285.
^ Hahnloser, R .; Sarpeshkar, R .; Маховальд, Массачусетс; Дуглас, Р.Дж.; Сын, HS (2000). «Цифровая селекция и аналоговое усиление сосуществуют в кремниевой схеме, вдохновленной корой головного мозга». Природа . 405 (6789): 947–951. Bibcode : 2000Natur.405..947H . DOI : 10.1038 / 35016072 . PMID 10879535 . S2CID 4399014 .
^ Hahnloser, R .; Сын, HS (2001). Разрешенные и запрещенные множества в симметричных порогово-линейных сетях . НИПС 2001.
^ а б в г д Ксавье Глорот, Антуан Бордес и Йошуа Бенжио (2011). Нейронные сети с глубоким разреженным выпрямителем (PDF) . АИСТАТС. Выпрямитель и функции активации softplus. Второй - это плавный вариант первого. CS1 maint: uses authors parameter (link)
^ Лекун , Леон Ботта , Женевьева Б. Орр и Клаус-Роберт Мюллер (1998). «Эффективный BackProp» (PDF) . У Г. Орра; К. Мюллер (ред.). Нейронные сети: хитрости . Springer. CS1 maint: uses authors parameter (link)
^ Рамачандран, Праджит; Баррет, Зоф; Куок, В. Ле (16 октября 2017 г.). «Поиск функций активации». arXiv : 1710.05941 [ cs.NE ].
^ Винод Наир и Джеффри Хинтон (2010). Выпрямленные линейные устройства улучшают машины Больцмана с ограничениями (PDF) . ICML . CS1 maint: uses authors parameter (link)
↑ Ласло Тот (2013). Распознавание телефонов с помощью нейронных сетей глубокого разреженного выпрямителя (PDF) . ICASSP . CS1 maint: uses authors parameter (link)
^ а б Эндрю Л. Маас, Авни Ю. Ханнун, Эндрю Ю. Нг (2014). Нелинейность выпрямителя улучшает акустические модели нейронной сети .
^ Hansel, D .; ван Фрисвейк, К. (2002). «Как шум способствует контрастной инвариантности настройки ориентации зрительной коры головного мозга кошек» . J. Neurosci. 22 (12): 5118–5128. DOI : 10.1523 / JNEUROSCI.22-12-05118.2002 . PMC 6757721 . PMID 12077207 .
↑ Кадмон, Джонатан; Сомполинский, Хаим (19.11.2015). «Переход к хаосу в случайных нейронных сетях». Physical Review X . 5 (4): 041030. arXiv : 1508.06486 . Bibcode : 2015PhRvX ... 5d1030K . DOI : 10.1103 / PhysRevX.5.041030 . S2CID 7813832 .
^ Энгелькен, Райнер; Вольф, Фред; Эбботт, Л.Ф. (03.06.2020). «Спектры Ляпунова хаотических рекуррентных нейронных сетей». arXiv : 2006.02427 [ nlin.CD ].
^ Behnke, Sven (2003). Иерархические нейронные сети для интерпретации изображений . Конспект лекций по информатике. 2766 . Springer. DOI : 10.1007 / b11963 . ISBN 978-3-540-40722-5. S2CID 1304548 .
^ a b Хендрикс, Дэн; Гимпель, Кевин (2016). «Линейные единицы с ошибкой Гаусса (GELU)». arXiv : 1606.08415 [ cs.LG ].
^ Дугас, Чарльз; Бенхио, Йошуа; Белисль, Франсуа; Надо, Клод; Гарсия, Рене (1 января 2000 г.). «Использование функциональных знаний второго порядка для лучшей оценки опционов» (PDF) . Материалы 13-й Международной конференции по системам обработки нейронной информации (NIPS'00) . MIT Press: 451–457. Поскольку сигмоид h имеет положительную первую производную, его примитив, который мы называем softplus, выпуклый.
^ "Прямой слой сглаживающего выпрямителя (SmoothReLU)" . Руководство разработчика для библиотеки Intel Data Analytics Acceleration . 2017 . Проверено 4 декабря 2018 .
^ а б Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2015). «Углубляясь в выпрямители: превосходя человеческий уровень по классификации Image Net ». arXiv : 1502.01852 [ cs.CV ].
^ Клеверт, Джорк-Арне; Унтертинер, Томас; Хохрайтер, Зепп (2015). «Быстрое и точное глубокое обучение сети с помощью экспоненциальных линейных единиц (ELU)». arXiv : 1511.07289 [ cs.LG ].

[Fukushima1969-1] Фукусима, К. (1969). «Выделение визуальных признаков многослойной сетью аналоговых пороговых элементов». IEEE Transactions по системной науке и кибернетике . 5 (4): 322–333.

[Fukushima1982-2] Фукусима, К .; Мияке, С. (1982). «Неокогнитрон: модель самоорганизующейся нейронной сети для механизма распознавания визуальных образов». in Конкуренция и сотрудничество в нейронных сетях . Springer: 267–285.

[Hahnloser2000-3] Hahnloser, R .; Sarpeshkar, R .; Маховальд, Массачусетс; Дуглас, Р.Дж.; Сын, HS (2000). «Цифровая селекция и аналоговое усиление сосуществуют в кремниевой схеме, вдохновленной корой головного мозга». Природа . 405 (6789): 947–951. Bibcode : 2000Natur.405..947H . DOI : 10.1038 / 35016072 . PMID 10879535 . S2CID 4399014 .

[Hahnloser2001-4] Hahnloser, R .; Сын, HS (2001). Разрешенные и запрещенные множества в симметричных порогово-линейных сетях . НИПС 2001.

[glorot2011-5] а б в г д Ксавье Глорот, Антуан Бордес и Йошуа Бенжио (2011). Нейронные сети с глубоким разреженным выпрямителем (PDF) . АИСТАТС. Выпрямитель и функции активации softplus. Второй - это плавный вариант первого. CS1 maint: uses authors parameter (link)

[6] Лекун , Леон Ботта , Женевьева Б. Орр и Клаус-Роберт Мюллер (1998). «Эффективный BackProp» (PDF) . У Г. Орра; К. Мюллер (ред.). Нейронные сети: хитрости . Springer. CS1 maint: uses authors parameter (link)

[7] Рамачандран, Праджит; Баррет, Зоф; Куок, В. Ле (16 октября 2017 г.). «Поиск функций активации». arXiv : 1710.05941 [ cs.NE ].

[nair2010-8] Винод Наир и Джеффри Хинтон (2010). Выпрямленные линейные устройства улучшают машины Больцмана с ограничениями (PDF) . ICML . CS1 maint: uses authors parameter (link)

[tothl2013-9] Ласло Тот (2013). Распознавание телефонов с помощью нейронных сетей глубокого разреженного выпрямителя (PDF) . ICASSP . CS1 maint: uses authors parameter (link)

[maas2014-10] а б Эндрю Л. Маас, Авни Ю. Ханнун, Эндрю Ю. Нг (2014). Нелинейность выпрямителя улучшает акустические модели нейронной сети .

[hansel2002-11] Hansel, D .; ван Фрисвейк, К. (2002). «Как шум способствует контрастной инвариантности настройки ориентации зрительной коры головного мозга кошек» . J. Neurosci. 22 (12): 5118–5128. DOI : 10.1523 / JNEUROSCI.22-12-05118.2002 . PMC 6757721 . PMID 12077207 .

[12] Кадмон, Джонатан; Сомполинский, Хаим (19.11.2015). «Переход к хаосу в случайных нейронных сетях». Physical Review X . 5 (4): 041030. arXiv : 1508.06486 . Bibcode : 2015PhRvX ... 5d1030K . DOI : 10.1103 / PhysRevX.5.041030 . S2CID 7813832 .

[13] Энгелькен, Райнер; Вольф, Фред; Эбботт, Л.Ф. (03.06.2020). «Спектры Ляпунова хаотических рекуррентных нейронных сетей». arXiv : 2006.02427 [ nlin.CD ].

[NeuralAbstractionPyramid-14] Behnke, Sven (2003). Иерархические нейронные сети для интерпретации изображений . Конспект лекций по информатике. 2766 . Springer. DOI : 10.1007 / b11963 . ISBN 978-3-540-40722-5. S2CID 1304548 .

[ReferenceA-15] Хендрикс, Дэн; Гимпель, Кевин (2016). «Линейные единицы с ошибкой Гаусса (GELU)». arXiv : 1606.08415 [ cs.LG ].

[16] Дугас, Чарльз; Бенхио, Йошуа; Белисль, Франсуа; Надо, Клод; Гарсия, Рене (1 января 2000 г.). «Использование функциональных знаний второго порядка для лучшей оценки опционов» (PDF) . Материалы 13-й Международной конференции по системам обработки нейронной информации (NIPS'00) . MIT Press: 451–457. Поскольку сигмоид h имеет положительную первую производную, его примитив, который мы называем softplus, выпуклый.

[17] "Прямой слой сглаживающего выпрямителя (SmoothReLU)" . Руководство разработчика для библиотеки Intel Data Analytics Acceleration . 2017 . Проверено 4 декабря 2018 .

[prelu-18] а б Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2015). «Углубляясь в выпрямители: превосходя человеческий уровень по классификации Image Net ». arXiv : 1502.01852 [ cs.CV ].

[19] Клеверт, Джорк-Арне; Унтертинер, Томас; Хохрайтер, Зепп (2015). «Быстрое и точное глубокое обучение сети с помощью экспоненциальных линейных единиц (ELU)». arXiv : 1511.07289 [ cs.LG ].

[1]