Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
График функций выпрямителя ReLU (синий) и GELU (зеленый) около x = 0

В контексте искусственных нейронных сетей , то выпрямитель является функция активации определяется как положительная часть аргумента:

где x - вход нейрона. Это также известно как функция линейного нарастания и аналогично полуволновому выпрямлению в электротехнике.

Эта функция активации начала проявляться в контексте извлечения визуальных признаков в иерархических нейронных сетях, начиная с конца 1960-х годов. [1] [2] Позже утверждалось, что у него есть сильные биологические мотивы и математическое обоснование. [3] [4] В 2011 году было обнаружено, что он позволяет лучше обучать более глубокие сети [5] по сравнению с широко используемыми функциями активации до 2011 года, например, логистической сигмоидой (которая вдохновлена теорией вероятности ; см. Логистическую регрессию ) и его более практичный [6] аналог, гиперболический тангенс. Выпрямитель по состоянию на 2017 год является самой популярной функцией активации для глубоких нейронных сетей . [7]

Блок, использующий выпрямитель, также называется выпрямленным линейным блоком ( ReLU ). [8]

Выпрямленные линейные блоки находят применение в компьютерном зрении [5] и распознавании речи [9] [10] с использованием глубоких нейронных сетей и вычислительной нейробиологии . [11] [12] [13]

Преимущества [ править ]

  • Биологическая правдоподобность: Односторонний, по сравнению с антисимметричностью из TANH . [ non sequitur ]
  • Разреженная активация: например, в случайно инициализированной сети активируется только около 50% скрытых модулей (с ненулевым выходом).
  • Лучшее распространение градиента: меньше проблем с исчезающим градиентом по сравнению с сигмоидальными функциями активации, которые насыщаются в обоих направлениях. [5]
  • Эффективные вычисления: только сравнение, сложение и умножение.
  • Масштабно-инвариантный: .

Выпрямляющие функции активации использовались для разделения специфического возбуждения и неспецифического торможения в пирамиде нейронной абстракции, которая обучалась под наблюдением для изучения нескольких задач компьютерного зрения. [14] В 2011 году [5] было показано, что использование выпрямителя в качестве нелинейности позволяет обучать нейронные сети с глубоким контролем без необходимости предварительного обучения без учителя . Выпрямленные линейные блоки, по сравнению с сигмовидной функцией или аналогичными функциями активации, позволяют быстрее и эффективнее обучать глубокие нейронные архитектуры на больших и сложных наборах данных.

Возможные проблемы [ править ]

  • Недифференцируемый в нуле; однако она дифференцируема в любом другом месте, и значение производной в нуле может быть произвольно выбрано равным 0 или 1.
  • Не с нулевым центром.
  • Безграничный.
  • Проблема умирающего ReLU: нейроны ReLU иногда могут быть переведены в состояния, в которых они становятся неактивными практически для всех входов. В этом состоянии через нейрон не текут градиенты, и поэтому нейрон застревает в постоянно неактивном состоянии и «умирает». Это форма проблемы исчезающего градиента . В некоторых случаях большое количество нейронов в сети может застрять в мертвых состояниях, эффективно уменьшая емкость модели. Эта проблема обычно возникает, когда скорость обучения установлена ​​слишком высоко. Его можно смягчить, используя вместо этого негерметичные ReLU, которые назначают небольшой положительный наклон для x  <0, однако производительность снижается.

Варианты [ править ]

Линейная единица ошибки Гаусса (GELU) [ править ]

GELU - это плавное приближение к выпрямителю. Он имеет немонотонный «удар», когда x <0, и служит активацией по умолчанию для таких моделей, как BERT . [15]

,

где Φ (x) - кумулятивная функция распределения стандартного нормального распределения .

SiLU [ править ]

SiLU (Sigmoid Linear Unit) - еще одно гладкое приближение, впервые представленное в статье GELU. [ сомнительно ] [15]

Softplus [ править ]

Гладкой аппроксимацией выпрямителя является аналитическая функция

которая называется функцией softplus [16] [5] или SmoothReLU . [17] Для большого негатива речь идет о так чуть выше 0, в то время как при больших положительных примерно так чуть выше .

Параметр резкости может быть включен:

Производной softplus является логистическая функция . Начиная с параметрической версии,

Логистическая сигмоидальная функция представляет собой гладкую аппроксимацию производной выпрямителя, ступенчатой ​​функции Хевисайда .

Многопараметрическое обобщение softplus с одной переменной - это LogSumExp с первым аргументом, установленным в ноль:

Функция LogSumExp

а его градиент - softmax ; softmax с первым аргументом, установленным в ноль, является многовариантным обобщением логистической функции. И LogSumExp, и softmax используются в машинном обучении.

Leaky ReLU [ править ]

Утечки ReLU допускают небольшой положительный градиент, когда устройство неактивно. [10]

Параметрическое ReLU [ править ]

Параметрические ReLU (PReLU) развивают эту идею, превращая коэффициент утечки в параметр, который изучается вместе с другими параметрами нейронной сети. [18]

Обратите внимание, что для a ≤ 1 это эквивалентно

и таким образом имеет отношение к сетям "maxout". [18]

ELU [ править ]

Экспоненциальные линейные единицы пытаются приблизить среднее значение активаций к нулю, что ускоряет обучение. Было показано, что ELU могут получить более высокую точность классификации, чем ReLU. [19]

где - настраиваемый гиперпараметр , а - ограничение.

ELU можно рассматривать как сглаженную версию смещенного ReLU (SReLU), которая имеет форму, аналогичную интерпретации .

См. Также [ править ]

  • Функция Softmax
  • Сигмовидная функция
  • Модель Tobit
  • Слой (глубокое обучение)

Ссылки [ править ]

  1. Фукусима, К. (1969). «Выделение визуальных признаков многослойной сетью аналоговых пороговых элементов». IEEE Transactions по системной науке и кибернетике . 5 (4): 322–333.
  2. ^ Фукусима, К .; Мияке, С. (1982). «Неокогнитрон: модель самоорганизующейся нейронной сети для механизма распознавания визуальных образов». in Конкуренция и сотрудничество в нейронных сетях . Springer: 267–285.
  3. ^ Hahnloser, R .; Sarpeshkar, R .; Маховальд, Массачусетс; Дуглас, Р.Дж.; Сын, HS (2000). «Цифровая селекция и аналоговое усиление сосуществуют в кремниевой схеме, вдохновленной корой головного мозга». Природа . 405 (6789): 947–951. Bibcode : 2000Natur.405..947H . DOI : 10.1038 / 35016072 . PMID 10879535 . S2CID 4399014 .  
  4. ^ Hahnloser, R .; Сын, HS (2001). Разрешенные и запрещенные множества в симметричных порогово-линейных сетях . НИПС 2001.
  5. ^ а б в г д Ксавье Глорот, Антуан Бордес и Йошуа Бенжио (2011). Нейронные сети с глубоким разреженным выпрямителем (PDF) . АИСТАТС. Выпрямитель и функции активации softplus. Второй - это плавный вариант первого. CS1 maint: uses authors parameter (link)
  6. ^ Лекун , Леон Ботта , Женевьева Б. Орр и Клаус-Роберт Мюллер (1998). «Эффективный BackProp» (PDF) . У Г. Орра; К. Мюллер (ред.). Нейронные сети: хитрости . Springer. CS1 maint: uses authors parameter (link)
  7. ^ Рамачандран, Праджит; Баррет, Зоф; Куок, В. Ле (16 октября 2017 г.). «Поиск функций активации». arXiv : 1710.05941 [ cs.NE ].
  8. ^ Винод Наир и Джеффри Хинтон (2010). Выпрямленные линейные устройства улучшают машины Больцмана с ограничениями (PDF) . ICML . CS1 maint: uses authors parameter (link)
  9. Ласло Тот (2013). Распознавание телефонов с помощью нейронных сетей глубокого разреженного выпрямителя (PDF) . ICASSP . CS1 maint: uses authors parameter (link)
  10. ^ а б Эндрю Л. Маас, Авни Ю. Ханнун, Эндрю Ю. Нг (2014). Нелинейность выпрямителя улучшает акустические модели нейронной сети .
  11. ^ Hansel, D .; ван Фрисвейк, К. (2002). «Как шум способствует контрастной инвариантности настройки ориентации зрительной коры головного мозга кошек» . J. Neurosci. 22 (12): 5118–5128. DOI : 10.1523 / JNEUROSCI.22-12-05118.2002 . PMC 6757721 . PMID 12077207 .   
  12. Кадмон, Джонатан; Сомполинский, Хаим (19.11.2015). «Переход к хаосу в случайных нейронных сетях». Physical Review X . 5 (4): 041030. arXiv : 1508.06486 . Bibcode : 2015PhRvX ... 5d1030K . DOI : 10.1103 / PhysRevX.5.041030 . S2CID 7813832 . 
  13. ^ Энгелькен, Райнер; Вольф, Фред; Эбботт, Л.Ф. (03.06.2020). «Спектры Ляпунова хаотических рекуррентных нейронных сетей». arXiv : 2006.02427 [ nlin.CD ].
  14. ^ Behnke, Sven (2003). Иерархические нейронные сети для интерпретации изображений . Конспект лекций по информатике. 2766 . Springer. DOI : 10.1007 / b11963 . ISBN 978-3-540-40722-5. S2CID  1304548 .
  15. ^ a b Хендрикс, Дэн; Гимпель, Кевин (2016). «Линейные единицы с ошибкой Гаусса (GELU)». arXiv : 1606.08415 [ cs.LG ].
  16. ^ Дугас, Чарльз; Бенхио, Йошуа; Белисль, Франсуа; Надо, Клод; Гарсия, Рене (1 января 2000 г.). «Использование функциональных знаний второго порядка для лучшей оценки опционов» (PDF) . Материалы 13-й Международной конференции по системам обработки нейронной информации (NIPS'00) . MIT Press: 451–457. Поскольку сигмоид h имеет положительную первую производную, его примитив, который мы называем softplus, выпуклый.
  17. ^ "Прямой слой сглаживающего выпрямителя (SmoothReLU)" . Руководство разработчика для библиотеки Intel Data Analytics Acceleration . 2017 . Проверено 4 декабря 2018 .
  18. ^ а б Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2015). «Углубляясь в выпрямители: превосходя человеческий уровень по классификации Image Net ». arXiv : 1502.01852 [ cs.CV ].
  19. ^ Клеверт, Джорк-Арне; Унтертинер, Томас; Хохрайтер, Зепп (2015). «Быстрое и точное глубокое обучение сети с помощью экспоненциальных линейных единиц (ELU)». arXiv : 1511.07289 [ cs.LG ].