Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Слева : байесовская нейронная сеть с двумя скрытыми слоями, преобразующая трехмерный вход (внизу) в двухмерный выходной (вверху). Справа : выходная функция плотности вероятности, индуцированная случайными весами сети. Видео : по мере увеличения ширины сети выходное распределение упрощается, в конечном итоге сходясь к многомерной нормали в пределе бесконечной ширины.

Байесовские сети - это инструмент моделирования для присвоения вероятностей событиям и, таким образом, характеристики неопределенности в прогнозах модели. Глубокое обучение и искусственные нейронные сети - это подходы, используемые в машинном обучении для создания вычислительных моделей, которые учатся на обучающих примерах. Байесовские нейронные сети объединяют эти поля. Они представляют собой тип искусственной нейронной сети, параметры и прогнозы которой являются вероятностными. [1] [2] В то время как стандартные искусственные нейронные сети часто придают высокую степень достоверности даже неверным предсказаниям, [3] байесовские нейронные сети могут более точно оценить, насколько вероятно, что их предсказания будут правильными.

Гауссовские процессы в нейронных сетях (NNGP) эквивалентны байесовским нейронным сетям в определенном пределе [4] [5] [6] [7] [8] [9] [10] [11] [12]] и обеспечивают замкнутую форму. способ оценки байесовских нейронных сетей. Они представляют собой распределение вероятностей гауссовского процесса, которое описывает распределение прогнозов, сделанных соответствующей байесовской нейронной сетью. Вычисления в искусственных нейронных сетях обычно организованы в последовательные слои искусственных нейронов.. Количество нейронов в слое называется шириной слоя. Эквивалентность между NNGP и байесовскими нейронными сетями возникает, когда слои в байесовской нейронной сети становятся бесконечно широкими (см. Рисунок). Этот предел большой ширины представляет практический интерес, поскольку нейронные сети конечной ширины обычно работают строго лучше при увеличении ширины слоя. [13] [14] [8] [15]

NNGP также появляется в нескольких других контекстах: он описывает распределение по предсказаниям, сделанным широкими небайесовскими искусственными нейронными сетями после случайной инициализации их параметров, но до обучения; он появляется как член в уравнениях предсказания нейронного касательного ядра ; он используется при глубоком распространении информации, чтобы определить, можно ли обучать гиперпараметры и архитектуры. [16] Это связано с другими ограничениями большой ширины нейронных сетей .

Карикатура [ править ]

Когда параметры сети бесконечной ширины многократно отбираются от их предшествующих значений , результирующее распределение по выходам сети описывается гауссовским процессом.

Каждая настройка параметров нейронной сети соответствует определенной функции, вычисляемой нейронной сетью. Следовательно, априорное распределение по параметрам нейронной сети соответствует априорному распределению по функциям, вычисленным сетью. Поскольку нейронные сети делают бесконечно широкими, это распределение по функциям сходится к гауссовскому процессу для многих архитектур.

На рисунке справа изображены одномерные выходы нейронной сети для двух входов и друг против друга. Черные точки показывают функцию, вычисленную нейронной сетью на этих входных данных для случайных выборок параметров из . Красные линии - это изовероятностные контуры для совместного распределения по выходам сети и индуцированные . Это распределение в функциональном пространстве, соответствующее распределению в пространстве параметров, а черные точки - это образцы из этого распределения. Для бесконечно широких нейронных сетей, поскольку распределение по функциям, вычисляемым нейронной сетью, является гауссовским процессом, совместное распределение по выходным данным сети является многомерным гауссовым для любого конечного набора входных данных сети.

Обозначения, используемые в этом разделе, такие же, как обозначения, используемые ниже для получения соответствия между NNGP и полносвязными сетями, и более подробную информацию можно найти там.

Архитектура, соответствующая NNGP [ править ]

Эквивалентность между бесконечно широкими байесовскими нейронными сетями и NNGP, как было показано, сохраняется для: одиночных скрытых слоев [4] и глубоких [6] [7] полностью связанных сетей, поскольку количество единиц на слой доведено до бесконечности; сверточные нейронные сети, так как количество каналов доведено до бесконечности; [8] [9] [10] трансформаторные сети, так как количество внимательных голов доведено до бесконечности; [17] рекуррентные сети, поскольку количество единиц доведено до бесконечности. [12]Фактически, это NNGP-соответствие выполняется почти для любой архитектуры: как правило, если архитектура может быть выражена исключительно через матричное умножение и покоординатную нелинейность (т. Е. Тензорную программу ), то она имеет GP бесконечной ширины. [12] Это, в частности, включает все нейронные сети с прямой связью или рекуррентные нейронные сети, состоящие из многослойного персептрона, рекуррентных нейронных сетей (например, LSTM , GRU ), свертки (nD или графа) , объединения, пропуска соединения, внимания, пакетной нормализации и / или нормализации уровня .

Соответствие между бесконечно широкой полносвязной сетью и гауссовским процессом [ править ]

В этом разделе подробно рассматривается соответствие между бесконечно широкими нейронными сетями и гауссовскими процессами для конкретного случая полносвязной архитектуры. В нем представлен контрольный набросок, объясняющий, почему соответствие сохраняется, и представлена ​​конкретная функциональная форма NNGP для полносвязных сетей. Схема доказательства полностью соответствует подходу Новака и др., 2018 . [8]

Спецификация сетевой архитектуры [ править ]

Производный NNGP эквивалентен байесовской нейронной сети с этой полностью связанной архитектурой.

Рассмотрим полностью связанную искусственную нейронную сеть со входами , параметрами, состоящими из весов и смещений для каждого слоя в сети, предварительными активациями (преднелинейность) , активациями (постнелинейность) , точечной нелинейностью и шириной слоя . Для простоты ширина считываемого вектора принята равной 1. Параметры этой сети имеют априорное распределение , которое состоит из изотропного гауссова уравнения для каждого веса и смещения, причем дисперсия весов масштабируется обратно пропорционально ширине слоя. Эта сеть проиллюстрирована на рисунке справа и описывается следующей системой уравнений:

это гауссовский процесс [ править ]

Сначала мы заметим, что предварительные активации описываются гауссовским процессом, обусловленным предыдущими активациями . Этот результат верен даже при конечной ширине. Каждая предварительная активация представляет собой взвешенную сумму гауссовских случайных величин, соответствующих весам и смещениям , где коэффициенты для каждой из этих гауссовских переменных являются предыдущими активациями . Поскольку они представляют собой взвешенную сумму гауссианов с нулевым средним, они сами являются гауссианами с нулевым средним (обусловленными коэффициентами ). Поскольку вместе являются гауссовыми для любого набора , они описываются гауссовским процессом, обусловленным предыдущими активациями.. Ковариация или ядро ​​этого гауссовского процесса зависит от дисперсии веса и смещения и , а также от второй матрицы моментов предыдущих активаций ,

Эффект весовой шкалы заключается в изменении масштаба вклада в ковариационную матрицу от , в то время как смещение разделяется для всех входных данных, и, таким образом, делает для разных точек данных более похожими и делает ковариационную матрицу более похожей на постоянную матрицу.

это гауссовский процесс [ править ]

Предварительные активации зависят только от его второй матрицы моментов . Из-за этого мы можем сказать, что это гауссовский процесс, обусловленный , а не обусловленный ,

По ширине слоя , становится детерминированной [ редактировать ]

Как было определено ранее, это вторая матрица моментов . Поскольку это вектор активации после применения нелинейности , его можно заменить на , что приведет к модифицированному уравнению, выражающему для через ,

Мы уже определили, что это гауссовский процесс. Это означает, что определение суммы является средним по выборкам из гауссовского процесса, который является функцией ,

Поскольку ширина слоя стремится к бесконечности, это среднее значение по выборкам из гауссовского процесса можно заменить интегралом по гауссовскому процессу:

Так, в бесконечной ширины ограничивает вторую матрицу моментов для каждой пары входов и может быть выражена как интеграл по 2d гауссовой, произведения и . Существует ряд ситуаций, в которых эта проблема решена аналитически, например, когда является нелинейностью ReLU [18] или функции ошибок [5] . Даже если его нельзя решить аналитически, поскольку это 2-й интеграл, его, как правило, можно эффективно вычислить численно. [6] Этот интеграл детерминирован, поэтому он детерминирован.

Для краткости мы определяем функционал , который соответствует вычислению этого 2-го интеграла для всех пар входных данных и который отображается в ,

является NNGP [ править ]

По рекурсивно применяя наблюдение , что является детерминированным , как , может быть записана в виде детерминированной функции ,

где означает последовательное применение функционала раз. Комбинируя это выражение с дополнительными наблюдениями, что матрица второго момента входного слоя является детерминированной функцией входа , и это гауссовский процесс, выход нейронной сети может быть выражен как гауссовский процесс с точки зрения его входа,

Программные библиотеки [ править ]

Neural Tangents - это бесплатная библиотека Python с открытым исходным кодом, используемая для вычислений и выполнения логических выводов с помощью NNGP и ядра нейронных касательных, соответствующих различным распространенным архитектурам ANN. [19]

Ссылки [ править ]

  1. ^ Маккей, Дэвид JC (1992). «Практическая байесовская структура для сетей обратного распространения» . Нейронные вычисления . 4 (3): 448–472. DOI : 10.1162 / neco.1992.4.3.448 . ISSN  0899-7667 . S2CID  16543854 .
  2. ^ Нил, Рэдфорд М. (2012). Байесовское обучение для нейронных сетей . Springer Science and Business Media.
  3. ^ Го, Чуань; Плейс, Джефф; Вс, Ю; Вайнбергер, Килиан К. (2017). «О калибровке современных нейронных сетей». Труды 34-й Международной конференции по машинному обучению-Том 70 . arXiv : 1706.04599 .
  4. ^ a b Нил, Рэдфорд М. (1996), "Priors for Infinite Networks", Bayesian Learning for Neural Networks , Lecture Notes in Statistics, 118 , Springer New York, pp. 29–53, doi : 10.1007 / 978-1- 4612-0745-0_2 , ISBN 978-0-387-94724-2
  5. ^ a b Уильямс, Кристофер KI (1997). «Вычисления с бесконечными сетями». Системы обработки нейронной информации .
  6. ^ a b c Ли, Джэхун; Бахри, Ясаман; Новак, Роман; Schoenholz, Samuel S .; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (2017). «Глубокие нейронные сети как гауссовские процессы». Международная конференция по обучающим представительствам . arXiv : 1711.00165 . Bibcode : 2017arXiv171100165L .
  7. ^ a b Г. де Г. Мэтьюз, Александр; Роуленд, Марк; Хрон, Иржи; Тернер, Ричард Э .; Гахрамани, Зубин (2017). «Поведение гауссовского процесса в широких глубоких нейронных сетях». Международная конференция по обучающим представительствам . arXiv : 1804.11271 . Bibcode : 2018arXiv180411271M .
  8. ^ a b c d Новак, Роман; Сяо, Лехао; Ли, Джэхун; Бахри, Ясаман; Ян, Грег; Аболафия, Дан; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (2018). «Байесовские глубокие сверточные сети с множеством каналов - это гауссовские процессы». Международная конференция по обучающим представительствам . arXiv : 1810.05148 . Bibcode : 2018arXiv181005148N .
  9. ^ a b Гаррига-Алонсо, Адриа; Эйчисон, Лоуренс; Расмуссен, Карл Эдвард (2018). «Глубокие сверточные сети как мелкие гауссовские процессы». Международная конференция по обучающим представительствам . arXiv : 1808.05587 . Bibcode : 2018arXiv180805587G .
  10. ^ a b Боровых, Анастасия (2018). "Взгляд гауссовского процесса на сверточные нейронные сети". arXiv : 1810.10798 [ stat.ML ].
  11. ^ Цучида, Рассел; Пирс, Тим; ван дер Хайде, Кристофер; Рооста, Фред; Галлахер, Маркус (2020). «Избегание фиксированных точек ядра: вычисления с использованием бесконечных сетей ELU и GELU». arXiv : 2002.08517 [ cs.LG ].
  12. ^ a b c Ян, Грег (2019). «Тензорные программы I: нейронные сети с широкой прямой связью или рекуррентные нейронные сети любой архитектуры являются гауссовскими процессами» (PDF) . Достижения в системах обработки нейронной информации . arXiv : 1910.12478 . Bibcode : 2019arXiv191012478Y .
  13. ^ Новак, Роман; Бахри, Ясаман; Abolafia, Daniel A .; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (15.02.2018). «Чувствительность и обобщение в нейронных сетях: эмпирическое исследование» . Международная конференция по обучающим представительствам . arXiv : 1802.08760 . Bibcode : 2018arXiv180208760N .
  14. ^ Канциани, Альфредо; Пашке, Адам; Кулурчелло, Эухенио (4 ноября 2016 г.). «Анализ моделей глубоких нейронных сетей для практических приложений» . arXiv : 1605.07678 . Bibcode : 2016arXiv160507678C . Cite journal requires |journal= (help)
  15. ^ Нейшабур, Бехнам; Ли, Чжиюань; Бходжанапалли, Шринадх; ЛеКун, Янн; Сребро, Натан (2019). «К пониманию роли чрезмерной параметризации в обобщении нейронных сетей». Международная конференция по обучающим представительствам . arXiv : 1805.12076 . Bibcode : 2018arXiv180512076N .
  16. ^ Schoenholz, Samuel S .; Гилмер, Джастин; Гангули, Сурья; Золь-Дикштейн, Яша (2016). «Глубинное распространение информации». Международная конференция по обучающим представительствам . arXiv : 1611.01232 .
  17. ^ Хрон, Иржи; Бахри, Ясаман; Золь-Дикштейн, Яша; Новак, Роман (18.06.2020). «Бесконечное внимание: NNGP и NTK для сетей глубокого внимания». Международная конференция по машинному обучению . 2020 . arXiv : 2006.10540 . Bibcode : 2020arXiv200610540H .
  18. ^ Чо, Ёнмин; Сол, Лоуренс К. (2009). «Методы ядра для глубокого обучения» . Системы обработки нейронной информации : 342–350.
  19. ^ Новак, Роман; Сяо, Лехао; Хрон, Иржи; Ли, Джэхун; Alemi, Александр А .; Золь-Дикштейн, Яша; Шёнхольц, Самуэль С. (2019-12-05), «Нейронные касательные: быстрые и простые бесконечные нейронные сети в Python», Международная конференция по обучающим представлениям (ICLR) , 2020 , arXiv : 1912.02803 , Bibcode : 2019arXiv191202803N