В математической теории искусственных нейронных сетей , универсальные теоремы приближения являются результатами [1] , устанавливающих плотность в алгоритмический сгенерированном классе функций в пределах данного функционального пространства , представляющего интереса. Обычно эти результаты относятся к возможностям аппроксимации архитектуры с прямой связью в пространстве непрерывных функций между двумя евклидовыми пространствами , и приближение относится к топологии компактной сходимости . Однако существует также множество результатов между неевклидовыми пространствами [2]и другие часто используемые архитектуры и, в более общем плане, алгоритмически сгенерированные наборы функций, такие как архитектура сверточной нейронной сети (CNN), [3] [4] радиальные базисные функции [5] или нейронные сети с определенными свойствами. [6] Большинство универсальных аппроксимационных теорем можно разделить на два класса. Первый количественно оценивает аппроксимационные возможности нейронных сетей с произвольным количеством искусственных нейронов ( случай « произвольной ширины »), а второй фокусируется на случае с произвольным количеством скрытых слоев, каждый из которых содержит ограниченное количество искусственных нейронов (« произвольная глубина» " дело).
Универсальные аппроксимационные теоремы подразумевают, что нейронные сети могут представлять широкий спектр интересных функций, если им заданы соответствующие веса. С другой стороны, они обычно не предоставляют конструкции для грузов, а просто заявляют, что такая конструкция возможна.
История
Одна из первых версий случая произвольной ширины была доказана Георгием Цибенко в 1989 году для сигмовидных функций активации. [7] Курт Хорник показал в 1991 г. [8], что это не конкретный выбор функции активации, а сама многослойная архитектура с прямой связью, которая дает нейронным сетям возможность быть универсальными аппроксиматорами. Моше Лешно и др. В 1993 г. [9] и позже Аллан Пинкус в 1999 г. [10] показали, что свойство универсальной аппроксимации эквивалентно наличию неполиномиальной функции активации.
Произвольной глубины случай был также изучен многими авторами, такими как Zhou Lu и др в 2017 году, [11] Борис Ханин и Марк Sellke в 2018 году, [12] и Патрик Kidger и Терри Лайонс в 2020 г. [13] Результат минимален ширина на слой была уточнена в [14] и в [15] для остаточных сетей.
Существует несколько расширений теоремы, например, для функций прерывистой активации, [9] некомпактных доменов, [13] сертифицированных сетей [16] и альтернативных сетевых архитектур и топологий. [13] [17]
Случай произвольной ширины
Классическая форма универсальной аппроксимационной теоремы для произвольной ширины и ограниченной глубины выглядит следующим образом. [7] [8] [18] [19] Он расширяет [10] классические результаты Джорджа Цибенко и Курта Хорника .
Универсальная аппроксимационная теорема: зафиксируйте непрерывную функцию (функция активации) и положительные целые числа . Функцияне является полиномом тогда и только тогда, когда для любой непрерывной функции(целевая функция), каждое компактное подмножество из , и каждый существует непрерывная функция (выход слоя) с представлением
где являются составными аффинными отображениями и обозначает покомпонентный состав, такой, что граница аппроксимации
справедливо для любого сколь угодно малое (расстояние от к может быть бесконечно малым).
Теорема утверждает, что результат первого слоя может аппроксимировать любую хорошо управляемую функцию . Такую функцию с хорошим поведением можно также аппроксимировать сетью большей глубины, используя ту же конструкцию для первого слоя и аппроксимируя функцию идентичности с более поздними уровнями.
Случай произвольной глубины
«Двойственные» версии теоремы рассматривают сети ограниченной ширины и произвольной глубины. Вариант универсальной аппроксимационной теоремы для случая произвольной глубины был доказан Чжоу Лу и др. в 2017. [11] Они показали, что сети шириной n + 4 с функциями активации ReLU могут аппроксимировать любую интегрируемую по Лебегу функцию на n -мерном входном пространстве относительнорасстояние, если разрешено увеличение глубины сети. Также было показано, что существует ограниченная выразительная сила, если ширина меньше или равна n . Все интегрируемые по Лебегу функции, за исключением множества с нулевой мерой, не могут быть аппроксимированы сетями ReLU ширины n . В той же работе [11] было показано, что сети ReLU шириной n + 1 достаточны для аппроксимации любой непрерывной функции n -мерных входных переменных. [20] Следующее уточнение определяет оптимальную минимальную ширину, для которой такое приближение возможно, и связано с [21]
Универсальная аппроксимационная теорема (расстояние L1, активация ReLU, произвольная глубина, минимальная ширина). Для любой p-интегрируемой функции Бохнера - Лебега и любой , существует полностью подключенная сеть ReLU ширины ровно , удовлетворяющий
- .
Более того, существует функция и немного , для которой не существует полносвязной сети ReLU шириной менееудовлетворяющие приведенной выше оценке приближения.
Вместе центральный результат [13] дает следующую универсальную аппроксимационную теорему для сетей с ограниченной шириной.
Универсальная аппроксимационная теорема ( неаффинная активация, произвольная глубина , ограниченная ширина). Позволятьбыть компактным подмножеством. Позволять- любая неаффинная непрерывная функция, непрерывно дифференцируемая хотя бы в одной точке с ненулевой производной в этой точке. Позволять обозначают пространство нейронных сетей с прямой связью с входные нейроны, выходных нейронов и произвольное количество скрытых слоев, каждый с нейроны, так что каждый скрытый нейрон имеет функцию активации и каждый выходной нейрон имеет идентичность в качестве своей функции активации с входным слоем, и выходной слой . Тогда при любом и любой , Существует такой, что
Другими словами, является плотным вотносительно равномерной топологии [ неоднозначности необходимо ] .
Были установлены некоторые необходимые условия для случая ограниченной ширины, произвольной глубины, но все еще существует разрыв между известными достаточными и необходимыми условиями. [11] [12] [22]
Ввод графика
Достижение полезной универсальной аппроксимации функций на графах (или, скорее, на классах изоморфизма графов ) было давней проблемой. Популярные сверточные нейронные сети с графами (GCN или GNN) могут быть такими же различительными, как тест изоморфизма графов Вайсфейлера – Лемана. [23] В 2020 г. [24] Брюль-Габриэльсон установил результат теоремы об универсальной аппроксимации, показывающий, что представления графа с некоторыми инъективными свойствами достаточно для универсальной аппроксимации функций на ограниченных графах и ограниченной универсальной аппроксимации функций на неограниченных графах с сопутствующими#edges# узлы-runtime метод, который выполнялся по последнему слову техники на коллекции тестов.
Смотрите также
Рекомендации
- ^ Хорник, Курт; Тинчкомб, Максвелл; Белый, Халберт (1989). Многослойные сети с прямой связью - это универсальные аппроксиматоры (PDF) . Нейронные сети . 2 . Pergamon Press. С. 359–366.
- ^ Крациос, Анастасис; Билокопытов, Евгений (2020). Неевклидово универсальное приближение (PDF) . Достижения в системах обработки нейронной информации . 33 . Curran Associates.
- ^ Чжоу, Дин-Сюань (2020). «Универсальность глубоких сверточных нейронных сетей». Прикладной и вычислительный гармонический анализ . 48 (2): 787–794. arXiv : 1805.10769 . DOI : 10.1016 / j.acha.2019.06.004 . S2CID 44113176 .
- ^ Хайнеке, Андреас; Хо, Джинн; Хван, Вэнь-Лян (2020). «Уточнение и универсальное приближение с помощью слабо связанных сверточных сетей ReLU». Письма об обработке сигналов IEEE . 27 : 1175–1179. Bibcode : 2020ISPL ... 27.1175H . DOI : 10,1109 / LSP.2020.3005051 . S2CID 220669183 .
- ^ Park, J .; Сандберг, И. В. (1991). «Универсальное приближение с использованием сетей радиальной базисной функции». Нейронные вычисления . 3 (2): 246–257. DOI : 10.1162 / neco.1991.3.2.246 . PMID 31167308 . S2CID 34868087 .
- ^ Яроцкий, Дмитрий (2021). «Универсальные аппроксимации инвариантных отображений нейронными сетями». Конструктивная аппроксимация . arXiv : 1804.10306 . DOI : 10.1007 / s00365-021-09546-1 .
- ^ а б Цибенко, Г. (1989). «Аппроксимация суперпозициями сигмоидальной функции». Математика управления, сигналов и систем . 2 (4): 303–314. CiteSeerX 10.1.1.441.7873 . DOI : 10.1007 / BF02551274 . S2CID 3958369 .
- ^ а б Хорник, Курт (1991). «Аппроксимационные возможности многослойных сетей прямого распространения». Нейронные сети . 4 (2): 251–257. DOI : 10.1016 / 0893-6080 (91) 90009-Т .
- ^ а б Лешно, Моше; Линь Владимир Яковлевич .; Пинкус, Аллан; Шокен, Шимон (январь 1993 г.). «Многослойные сети с прямой связью с неполиномиальной функцией активации могут аппроксимировать любую функцию». Нейронные сети . 6 (6): 861–867. DOI : 10.1016 / S0893-6080 (05) 80131-5 . S2CID 206089312 .
- ^ а б Пинкус, Аллан (январь 1999 г.). «Теория приближений модели MLP в нейронных сетях». Acta Numerica . 8 : 143–195. Bibcode : 1999AcNum ... 8..143P . DOI : 10.1017 / S0962492900002919 .
- ^ а б в г Лу, Чжоу; Пу, Хомгминг; Ван, Фэйчэн; Ху, Чжицян; Ван, Ливэй (2017). «Выразительная сила нейронных сетей: взгляд со стороны» . Достижения в системах обработки нейронной информации . Curran Associates. 30 : 6231–6239. arXiv : 1709.02540 .
- ^ а б Ханин, Борис; Селлке, Марк (март 2019 г.). «Приближение непрерывных функций сетями ReLU минимальной ширины» . Математика . MDPI. 7 (10): 992. arXiv : 1710.11278 . DOI : 10,3390 / math7100992 .
- ^ а б в г Кидгер, Патрик; Лион, Терри (июль 2020 г.). Универсальное приближение с глубокими узкими сетями . Конференция по теории обучения. arXiv : 1905.08539 .
- ^ Парк, Седжун; Юн, Чулхи; Ли, Джэхо; Шин, Джину (октябрь 2020 г.). Минимальная ширина для универсального приближения . Конференция по теории обучения. arXiv : 1905.08539 .
- ^ Табуада, Пауло; Гаресифард, Бахман (2020). Универсальная аппроксимирующая способность глубоких остаточных нейронных сетей с помощью теории нелинейного управления . ICLR. arXiv : 2007.06007 .
- ^ Баадер, Максимилиан; Мирман, Мэтью; Вечев, Мартин (2020). Универсальное приближение с сертифицированными сетями . ICLR.
- ^ Линь, Хунчжоу; Жегелка, Стефани (2018). ResNet со скрытыми слоями с одним нейроном представляет собой универсальный аппроксиматор . Достижения в системах обработки нейронной информации . 30 . Curran Associates. С. 6169–6178.
- ^ Хайкин, Саймон (1998). Нейронные сети: Всеобъемлющая основа , Том 2, Prentice Hall. ISBN 0-13-273350-1 .
- ^ Hassoun, M. (1995) Основы искусственных нейронных сетей MIT Press, стр. 48
- ^ Ханин, Б. (2018). Аппроксимация непрерывных функций сетями ReLU минимальной ширины . Препринт arXiv arXiv: 1710.11278.
- ^ Пак, Юн, Ли, Шин, Седжун, Чулхи, Джэхо, Джину (2020-09-28). «Минимальная ширина для универсального приближения» . ICLR . arXiv : 2006.08859 .CS1 maint: несколько имен: список авторов ( ссылка )
- ^ Джонсон, Джесси (2019). Глубокие, тощие нейронные сети не являются универсальными приближениями . Международная конференция по обучающим представительствам.
- ^ Сюй, Кейулу; Ху, Вэйхуа; Лесковец, Юре; Jegelka, Stefanie (2019). Насколько мощны графические нейронные сети? . Международная конференция по обучающим представительствам .
- ^ Брюль-Габриэльссон, Рикард (2020). Универсальная аппроксимация функций на графах . Достижения в системах обработки нейронной информации . 33 . Curran Associates.