Универсальная аппроксимационная теорема

В математической теории искусственных нейронных сетей , универсальные теоремы приближения являются результатами ^[1] , устанавливающих плотность в алгоритмический сгенерированном классе функций в пределах данного функционального пространства , представляющего интереса. Обычно эти результаты относятся к возможностям аппроксимации архитектуры с прямой связью в пространстве непрерывных функций между двумя евклидовыми пространствами , и приближение относится к топологии компактной сходимости . Однако существует также множество результатов между неевклидовыми пространствами ^[2]и другие часто используемые архитектуры и, в более общем плане, алгоритмически сгенерированные наборы функций, такие как архитектура сверточной нейронной сети (CNN), ^[3]^[4] радиальные базисные функции ^[5] или нейронные сети с определенными свойствами. ^[6] Большинство универсальных аппроксимационных теорем можно разделить на два класса. Первый количественно оценивает аппроксимационные возможности нейронных сетей с произвольным количеством искусственных нейронов ( случай « произвольной ширины »), а второй фокусируется на случае с произвольным количеством скрытых слоев, каждый из которых содержит ограниченное количество искусственных нейронов (« произвольная глубина» " дело).

Универсальные аппроксимационные теоремы подразумевают, что нейронные сети могут представлять широкий спектр интересных функций, если им заданы соответствующие веса. С другой стороны, они обычно не предоставляют конструкции для грузов, а просто заявляют, что такая конструкция возможна.

История

Одна из первых версий случая произвольной ширины была доказана Георгием Цибенко в 1989 году для сигмовидных функций активации. ^[7] Курт Хорник показал в 1991 г. ^[8], что это не конкретный выбор функции активации, а сама многослойная архитектура с прямой связью, которая дает нейронным сетям возможность быть универсальными аппроксиматорами. Моше Лешно и др. В 1993 г. ^[9] и позже Аллан Пинкус в 1999 г. ^[10] показали, что свойство универсальной аппроксимации эквивалентно наличию неполиномиальной функции активации.

Произвольной глубины случай был также изучен многими авторами, такими как Zhou Lu и др в 2017 году, ^[11] Борис Ханин и Марк Sellke в 2018 году, ^[12] и Патрик Kidger и Терри Лайонс в 2020 г. ^[13] Результат минимален ширина на слой была уточнена в ^[14] и в ^[15] для остаточных сетей.

Существует несколько расширений теоремы, например, для функций прерывистой активации, ^[9] некомпактных доменов, ^[13] сертифицированных сетей ^[16] и альтернативных сетевых архитектур и топологий. ^[13]^[17]

Случай произвольной ширины

Классическая форма универсальной аппроксимационной теоремы для произвольной ширины и ограниченной глубины выглядит следующим образом. ^[7]^[8]^[18]^[19] Он расширяет ^[10] классические результаты Джорджа Цибенко и Курта Хорника .

Универсальная аппроксимационная теорема: зафиксируйте непрерывную функцию ${\ Displaystyle \ sigma: \ mathbb {R} \ rightarrow \ mathbb {R}}$ (функция активации) и положительные целые числа ${\ displaystyle d, D}$ . Функция ${\ displaystyle \ sigma}$ не является полиномом тогда и только тогда, когда для любой непрерывной функции ${\ displaystyle f: \ mathbb {R} ^ {d} \ to \ mathbb {R} ^ {D}}$ (целевая функция), каждое компактное подмножество ${\ displaystyle K}$ из ${\ Displaystyle \ mathbb {R} ^ {d}}$ , и каждый ${\ displaystyle \ epsilon> 0}$ существует непрерывная функция ${\ displaystyle f _ {\ epsilon}: \ mathbb {R} ^ {d} \ to \ mathbb {R} ^ {D}}$ (выход слоя) с представлением
${\ displaystyle f _ {\ epsilon} = W_ {2} \ circ \ sigma \ circ W_ {1},}$
где ${\ displaystyle W_ {2}, W_ {1}}$ являются составными аффинными отображениями и ${\ displaystyle \ circ}$ обозначает покомпонентный состав, такой, что граница аппроксимации
${\ Displaystyle \ sup _ {х \ в К} \, \ | е (х) -f _ {\ epsilon} (х) \ | <\ varepsilon}$
справедливо для любого ${\ displaystyle \ epsilon}$ сколь угодно малое (расстояние от ${\ displaystyle f}$ к ${\ displaystyle f _ {\ epsilon}}$ может быть бесконечно малым).

Теорема утверждает, что результат первого слоя ${\ displaystyle f _ {\ epsilon}}$ может аппроксимировать любую хорошо управляемую функцию ${\ displaystyle f}$ . Такую функцию с хорошим поведением можно также аппроксимировать сетью большей глубины, используя ту же конструкцию для первого слоя и аппроксимируя функцию идентичности с более поздними уровнями.

Случай произвольной глубины

«Двойственные» версии теоремы рассматривают сети ограниченной ширины и произвольной глубины. Вариант универсальной аппроксимационной теоремы для случая произвольной глубины был доказан Чжоу Лу и др. в 2017. ^[11] Они показали, что сети шириной n + 4 с функциями активации ReLU могут аппроксимировать любую интегрируемую по Лебегу функцию на n -мерном входном пространстве относительно ${\ displaystyle L ^ {1}}$ расстояние, если разрешено увеличение глубины сети. Также было показано, что существует ограниченная выразительная сила, если ширина меньше или равна n . Все интегрируемые по Лебегу функции, за исключением множества с нулевой мерой, не могут быть аппроксимированы сетями ReLU ширины n . В той же работе ^[11] было показано, что сети ReLU шириной n + 1 достаточны для аппроксимации любой непрерывной функции n -мерных входных переменных. ^[20] Следующее уточнение определяет оптимальную минимальную ширину, для которой такое приближение возможно, и связано с ^[21]

Универсальная аппроксимационная теорема (расстояние L1, активация ReLU, произвольная глубина, минимальная ширина). Для любой p-интегрируемой функции Бохнера - Лебега ${\ displaystyle f: \ mathbb {R} ^ {n} \ rightarrow \ mathbb {R} ^ {m}}$ и любой ${\ displaystyle \ epsilon> 0}$ , существует полностью подключенная сеть ReLU ${\ displaystyle F}$ ширины ровно ${\ Displaystyle d_ {м} = \ макс \ {{п + 1}, м \}}$ , удовлетворяющий
${\ displaystyle \ int _ {\ mathbb {R} ^ {n}} \ left \ | f (x) -F _ {} (x) \ right \ | ^ {p} \ mathrm {d} x <\ epsilon}$ .
Более того, существует функция ${\ displaystyle f \ in L ^ {p} (\ mathbb {R} ^ {n}, \ mathbb {R} ^ {m})}$ и немного ${\ displaystyle \ epsilon> 0}$ , для которой не существует полносвязной сети ReLU шириной менее ${\ Displaystyle d_ {м} = \ макс \ {{п + 1}, м \}}$ удовлетворяющие приведенной выше оценке приближения.

Вместе центральный результат ^[13] дает следующую универсальную аппроксимационную теорему для сетей с ограниченной шириной.

Универсальная аппроксимационная теорема ( неаффинная активация, произвольная глубина , ограниченная ширина). Позволять ${\ Displaystyle {\ mathcal {X}}}$ быть компактным подмножеством ${\ Displaystyle \ mathbb {R} ^ {d}}$ . Позволять ${\ Displaystyle \ sigma: \ mathbb {R} \ to \ mathbb {R}}$ - любая неаффинная непрерывная функция, непрерывно дифференцируемая хотя бы в одной точке с ненулевой производной в этой точке. Позволять ${\ displaystyle {\ mathcal {N}} _ {d, D: d + D + 2} ^ {\ sigma}}$ обозначают пространство нейронных сетей с прямой связью с ${\ displaystyle d}$ входные нейроны, ${\ displaystyle D}$ выходных нейронов и произвольное количество скрытых слоев, каждый с ${\ displaystyle d + D + 2}$ нейроны, так что каждый скрытый нейрон имеет функцию активации ${\ displaystyle \ sigma}$ и каждый выходной нейрон имеет идентичность в качестве своей функции активации с входным слоем ${\ displaystyle \ phi}$ , и выходной слой ${\ displaystyle \ rho}$ . Тогда при любом ${\ displaystyle \ varepsilon> 0}$ и любой ${\ Displaystyle е \ в С ({\ mathcal {X}}, \ mathbb {R} ^ {D})}$ , Существует ${\ displaystyle {\ hat {f}} \ in {\ mathcal {N}} _ {d, D: d + D + 2} ^ {\ sigma}}$ такой, что
${\ displaystyle \ sup _ {x \ in {\ mathcal {X}}} \, \ left \ | {\ hat {f}} (x) -f (x) \ right \ | <\ varepsilon.}$
Другими словами, ${\ Displaystyle {\ mathcal {N}}}$ является плотным в ${\ Displaystyle С ({\ mathcal {X}}; \ mathbb {R} ^ {D})}$ относительно равномерной топологии ^{[ неоднозначности необходимо ]} .

Были установлены некоторые необходимые условия для случая ограниченной ширины, произвольной глубины, но все еще существует разрыв между известными достаточными и необходимыми условиями. ^[11]^[12]^[22]

Ввод графика

Достижение полезной универсальной аппроксимации функций на графах (или, скорее, на классах изоморфизма графов ) было давней проблемой. Популярные сверточные нейронные сети с графами (GCN или GNN) могут быть такими же различительными, как тест изоморфизма графов Вайсфейлера – Лемана. ^[23] В 2020 г. ^[24] Брюль-Габриэльсон установил результат теоремы об универсальной аппроксимации, показывающий, что представления графа с некоторыми инъективными свойствами достаточно для универсальной аппроксимации функций на ограниченных графах и ограниченной универсальной аппроксимации функций на неограниченных графах с сопутствующими ${\ displaystyle O (}$ #edges ${\ displaystyle \ times}$ # узлы ${\ displaystyle)}$ -runtime метод, который выполнялся по последнему слову техники на коллекции тестов.

Смотрите также

Рекомендации

^ Хорник, Курт; Тинчкомб, Максвелл; Белый, Халберт (1989). Многослойные сети с прямой связью - это универсальные аппроксиматоры (PDF) . Нейронные сети . 2 . Pergamon Press. С. 359–366.
^ Крациос, Анастасис; Билокопытов, Евгений (2020). Неевклидово универсальное приближение (PDF) . Достижения в системах обработки нейронной информации . 33 . Curran Associates.
^ Чжоу, Дин-Сюань (2020). «Универсальность глубоких сверточных нейронных сетей». Прикладной и вычислительный гармонический анализ . 48 (2): 787–794. arXiv : 1805.10769 . DOI : 10.1016 / j.acha.2019.06.004 . S2CID 44113176 .
^ Хайнеке, Андреас; Хо, Джинн; Хван, Вэнь-Лян (2020). «Уточнение и универсальное приближение с помощью слабо связанных сверточных сетей ReLU». Письма об обработке сигналов IEEE . 27 : 1175–1179. Bibcode : 2020ISPL ... 27.1175H . DOI : 10,1109 / LSP.2020.3005051 . S2CID 220669183 .
^ Park, J .; Сандберг, И. В. (1991). «Универсальное приближение с использованием сетей радиальной базисной функции». Нейронные вычисления . 3 (2): 246–257. DOI : 10.1162 / neco.1991.3.2.246 . PMID 31167308 . S2CID 34868087 .
^ Яроцкий, Дмитрий (2021). «Универсальные аппроксимации инвариантных отображений нейронными сетями». Конструктивная аппроксимация . arXiv : 1804.10306 . DOI : 10.1007 / s00365-021-09546-1 .
^ ^а ^б Цибенко, Г. (1989). «Аппроксимация суперпозициями сигмоидальной функции». Математика управления, сигналов и систем . 2 (4): 303–314. CiteSeerX 10.1.1.441.7873 . DOI : 10.1007 / BF02551274 . S2CID 3958369 .
^ ^а ^б Хорник, Курт (1991). «Аппроксимационные возможности многослойных сетей прямого распространения». Нейронные сети . 4 (2): 251–257. DOI : 10.1016 / 0893-6080 (91) 90009-Т .
^ ^а ^б Лешно, Моше; Линь Владимир Яковлевич .; Пинкус, Аллан; Шокен, Шимон (январь 1993 г.). «Многослойные сети с прямой связью с неполиномиальной функцией активации могут аппроксимировать любую функцию». Нейронные сети . 6 (6): 861–867. DOI : 10.1016 / S0893-6080 (05) 80131-5 . S2CID 206089312 .
^ ^а ^б Пинкус, Аллан (январь 1999 г.). «Теория приближений модели MLP в нейронных сетях». Acta Numerica . 8 : 143–195. Bibcode : 1999AcNum ... 8..143P . DOI : 10.1017 / S0962492900002919 .
^ ^а ^б ^в ^г Лу, Чжоу; Пу, Хомгминг; Ван, Фэйчэн; Ху, Чжицян; Ван, Ливэй (2017). «Выразительная сила нейронных сетей: взгляд со стороны» . Достижения в системах обработки нейронной информации . Curran Associates. 30 : 6231–6239. arXiv : 1709.02540 .
^ ^а ^б Ханин, Борис; Селлке, Марк (март 2019 г.). «Приближение непрерывных функций сетями ReLU минимальной ширины» . Математика . MDPI. 7 (10): 992. arXiv : 1710.11278 . DOI : 10,3390 / math7100992 .
^ ^а ^б ^в ^г Кидгер, Патрик; Лион, Терри (июль 2020 г.). Универсальное приближение с глубокими узкими сетями . Конференция по теории обучения. arXiv : 1905.08539 .
^ Парк, Седжун; Юн, Чулхи; Ли, Джэхо; Шин, Джину (октябрь 2020 г.). Минимальная ширина для универсального приближения . Конференция по теории обучения. arXiv : 1905.08539 .
^ Табуада, Пауло; Гаресифард, Бахман (2020). Универсальная аппроксимирующая способность глубоких остаточных нейронных сетей с помощью теории нелинейного управления . ICLR. arXiv : 2007.06007 .
^ Баадер, Максимилиан; Мирман, Мэтью; Вечев, Мартин (2020). Универсальное приближение с сертифицированными сетями . ICLR.
^ Линь, Хунчжоу; Жегелка, Стефани (2018). ResNet со скрытыми слоями с одним нейроном представляет собой универсальный аппроксиматор . Достижения в системах обработки нейронной информации . 30 . Curran Associates. С. 6169–6178.
^ Хайкин, Саймон (1998). Нейронные сети: Всеобъемлющая основа , Том 2, Prentice Hall. ISBN 0-13-273350-1 .
^ Hassoun, M. (1995) Основы искусственных нейронных сетей MIT Press, стр. 48
^ Ханин, Б. (2018). Аппроксимация непрерывных функций сетями ReLU минимальной ширины . Препринт arXiv arXiv: 1710.11278.
^ Пак, Юн, Ли, Шин, Седжун, Чулхи, Джэхо, Джину (2020-09-28). «Минимальная ширина для универсального приближения» . ICLR . arXiv : 2006.08859 .CS1 maint: несколько имен: список авторов ( ссылка )
^ Джонсон, Джесси (2019). Глубокие, тощие нейронные сети не являются универсальными приближениями . Международная конференция по обучающим представительствам.
^ Сюй, Кейулу; Ху, Вэйхуа; Лесковец, Юре; Jegelka, Stefanie (2019). Насколько мощны графические нейронные сети? . Международная конференция по обучающим представительствам .
^ Брюль-Габриэльссон, Рикард (2020). Универсальная аппроксимация функций на графах . Достижения в системах обработки нейронной информации . 33 . Curran Associates.

[MLP-UA-1] Хорник, Курт; Тинчкомб, Максвелл; Белый, Халберт (1989). Многослойные сети с прямой связью - это универсальные аппроксиматоры (PDF) . Нейронные сети . 2 . Pergamon Press. С. 359–366.

[NonEuclidean-2] Крациос, Анастасис; Билокопытов, Евгений (2020). Неевклидово универсальное приближение (PDF) . Достижения в системах обработки нейронной информации . 33 . Curran Associates.

[3] Чжоу, Дин-Сюань (2020). «Универсальность глубоких сверточных нейронных сетей». Прикладной и вычислительный гармонический анализ . 48 (2): 787–794. arXiv : 1805.10769 . DOI : 10.1016 / j.acha.2019.06.004 . S2CID 44113176 .

[4] Хайнеке, Андреас; Хо, Джинн; Хван, Вэнь-Лян (2020). «Уточнение и универсальное приближение с помощью слабо связанных сверточных сетей ReLU». Письма об обработке сигналов IEEE . 27 : 1175–1179. Bibcode : 2020ISPL ... 27.1175H . DOI : 10,1109 / LSP.2020.3005051 . S2CID 220669183 .

[5] Park, J .; Сандберг, И. В. (1991). «Универсальное приближение с использованием сетей радиальной базисной функции». Нейронные вычисления . 3 (2): 246–257. DOI : 10.1162 / neco.1991.3.2.246 . PMID 31167308 . S2CID 34868087 .

[6] Яроцкий, Дмитрий (2021). «Универсальные аппроксимации инвариантных отображений нейронными сетями». Конструктивная аппроксимация . arXiv : 1804.10306 . DOI : 10.1007 / s00365-021-09546-1 .

[cyb-7] а ^б Цибенко, Г. (1989). «Аппроксимация суперпозициями сигмоидальной функции». Математика управления, сигналов и систем . 2 (4): 303–314. CiteSeerX 10.1.1.441.7873 . DOI : 10.1007 / BF02551274 . S2CID 3958369 .

[horn-8] а ^б Хорник, Курт (1991). «Аппроксимационные возможности многослойных сетей прямого распространения». Нейронные сети . 4 (2): 251–257. DOI : 10.1016 / 0893-6080 (91) 90009-Т .

[leshno-9] а ^б Лешно, Моше; Линь Владимир Яковлевич .; Пинкус, Аллан; Шокен, Шимон (январь 1993 г.). «Многослойные сети с прямой связью с неполиномиальной функцией активации могут аппроксимировать любую функцию». Нейронные сети . 6 (6): 861–867. DOI : 10.1016 / S0893-6080 (05) 80131-5 . S2CID 206089312 .

[pinkus-10] а ^б Пинкус, Аллан (январь 1999 г.). «Теория приближений модели MLP в нейронных сетях». Acta Numerica . 8 : 143–195. Bibcode : 1999AcNum ... 8..143P . DOI : 10.1017 / S0962492900002919 .

[ZhouLu-11] а ^б ^в ^г Лу, Чжоу; Пу, Хомгминг; Ван, Фэйчэн; Ху, Чжицян; Ван, Ливэй (2017). «Выразительная сила нейронных сетей: взгляд со стороны» . Достижения в системах обработки нейронной информации . Curran Associates. 30 : 6231–6239. arXiv : 1709.02540 .

[hanin-12] а ^б Ханин, Борис; Селлке, Марк (март 2019 г.). «Приближение непрерывных функций сетями ReLU минимальной ширины» . Математика . MDPI. 7 (10): 992. arXiv : 1710.11278 . DOI : 10,3390 / math7100992 .

[kidger-13] а ^б ^в ^г Кидгер, Патрик; Лион, Терри (июль 2020 г.). Универсальное приближение с глубокими узкими сетями . Конференция по теории обучения. arXiv : 1905.08539 .

[park-14] Парк, Седжун; Юн, Чулхи; Ли, Джэхо; Шин, Джину (октябрь 2020 г.). Минимальная ширина для универсального приближения . Конференция по теории обучения. arXiv : 1905.08539 .

[tabuada-15] Табуада, Пауло; Гаресифард, Бахман (2020). Универсальная аппроксимирующая способность глубоких остаточных нейронных сетей с помощью теории нелинейного управления . ICLR. arXiv : 2007.06007 .

[16] Баадер, Максимилиан; Мирман, Мэтью; Вечев, Мартин (2020). Универсальное приближение с сертифицированными сетями . ICLR.

[17] Линь, Хунчжоу; Жегелка, Стефани (2018). ResNet со скрытыми слоями с одним нейроном представляет собой универсальный аппроксиматор . Достижения в системах обработки нейронной информации . 30 . Curran Associates. С. 6169–6178.

[18] Хайкин, Саймон (1998). Нейронные сети: Всеобъемлющая основа , Том 2, Prentice Hall. ISBN 0-13-273350-1 .

[19] Hassoun, M. (1995) Основы искусственных нейронных сетей MIT Press, стр. 48

[20] Ханин, Б. (2018). Аппроксимация непрерывных функций сетями ReLU минимальной ширины . Препринт arXiv arXiv: 1710.11278.

[21] Пак, Юн, Ли, Шин, Седжун, Чулхи, Джэхо, Джину (2020-09-28). «Минимальная ширина для универсального приближения» . ICLR . arXiv : 2006.08859 .CS1 maint: несколько имен: список авторов ( ссылка )

[johnson-22] Джонсон, Джесси (2019). Глубокие, тощие нейронные сети не являются универсальными приближениями . Международная конференция по обучающим представительствам.

[PowerGNNs-23] Сюй, Кейулу; Ху, Вэйхуа; Лесковец, Юре; Jegelka, Stefanie (2019). Насколько мощны графические нейронные сети? . Международная конференция по обучающим представительствам .

[UniversalGraphs-24] Брюль-Габриэльссон, Рикард (2020). Универсальная аппроксимация функций на графах . Достижения в системах обработки нейронной информации . 33 . Curran Associates.