Из Википедии, бесплатной энциклопедии
  (Перенаправлено с Универсального аппроксиматора )
Перейти к навигации Перейти к поиску

В математической теории искусственных нейронных сетей , универсальные теоремы приближения являются результатами [1] , устанавливающих плотность в алгоритмический сгенерированном классе функций в пределах данного функционального пространства , представляющего интереса. Обычно эти результаты относятся к возможностям аппроксимации архитектуры с прямой связью в пространстве непрерывных функций между двумя евклидовыми пространствами , и приближение относится к топологии компактной сходимости . Однако существует также множество результатов между неевклидовыми пространствами [2]и другие часто используемые архитектуры и, в более общем плане, алгоритмически сгенерированные наборы функций, такие как архитектура сверточной нейронной сети (CNN), [3] [4] радиальные базисные функции [5] или нейронные сети с определенными свойствами. [6] Большинство универсальных аппроксимационных теорем можно разделить на два класса. Первый количественно оценивает аппроксимационные возможности нейронных сетей с произвольным количеством искусственных нейронов ( случай « произвольной ширины »), а второй фокусируется на случае с произвольным количеством скрытых слоев, каждый из которых содержит ограниченное количество искусственных нейронов (« произвольная глубина» " дело).

Универсальные аппроксимационные теоремы подразумевают, что нейронные сети могут представлять широкий спектр интересных функций, если им заданы соответствующие веса. С другой стороны, они обычно не предоставляют конструкции для грузов, а просто заявляют, что такая конструкция возможна.

История [ править ]

Одна из первых версий случая произвольной ширины была доказана Георгием Цибенко в 1989 году для сигмовидных функций активации. [7] Курт Хорник показал в 1991 г. [8], что это не конкретный выбор функции активации, а сама многослойная архитектура с прямой связью, которая дает нейронным сетям возможность быть универсальными аппроксиматорами. Моше Лешно и др. В 1993 г. [9] и позже Аллан Пинкус в 1999 г. [10] показали, что свойство универсальной аппроксимации [11] эквивалентно наличию неполиномиальной функции активации.

Произвольной глубины случай был также изучен многими авторами, такими как Zhou Lu и др в 2017 году, [12] Борис Ханин и Марк Sellke в 2018 году, [13] и Патрик Kidger и Терри Лайонс в 2020 г. [14] Результат минимален ширина на слой была уточнена в [15] и в [16] для остаточных сетей.

Существует несколько расширений теоремы, например, для функций прерывистой активации, [9] некомпактных доменов, [14] сертифицированных сетей [17] и альтернативных сетевых архитектур и топологий. [14] [18] Полная характеристика свойства универсальной аппроксимации на общих функциональных пространствах дана А. Крациосом в [11].

Случай произвольной ширины [ править ]

Классическая форма универсальной аппроксимационной теоремы для произвольной ширины и ограниченной глубины выглядит следующим образом. [7] [8] [19] [20] Он расширяет [10] классические результаты Джорджа Цибенко и Курта Хорника .

Универсальная аппроксимационная теорема: зафиксируйте непрерывную функцию (функцию активации) и положительные целые числа . Функция не является многочленом тогда и только тогда, когда для каждой непрерывной функции (целевая функция), каждый компактного подмножества из , и каждый существует непрерывная функция (выходного слоя) с представлением

где - составные аффинные отображения и обозначает покомпонентную композицию, такую, что оценка аппроксимации

выполняется для любого сколь угодно малого (расстояние от до может быть бесконечно малым).

Теорема утверждает, что результат первого слоя может аппроксимировать любую функцию с хорошим поведением . Такую функцию с хорошим поведением можно также аппроксимировать сетью большей глубины, используя ту же конструкцию для первого слоя и аппроксимируя функцию идентичности с более поздними уровнями.

Случай произвольной глубины [ править ]

«Двойственные» версии теоремы рассматривают сети ограниченной ширины и произвольной глубины. Вариант универсальной аппроксимационной теоремы для случая произвольной глубины был доказан Чжоу Лу и др. в 2017. [12] Они показали, что сети шириной n + 4 с функциями активации ReLU могут аппроксимировать любую интегрируемую функцию Лебега на n- мерном входном пространстве по отношению к расстоянию, если глубина сети может расти. Также было показано, что существует ограниченная выразительная сила, если ширина меньше или равна n . Все интегрируемые по Лебегу функции, за исключением множества нулевой меры, не могут быть аппроксимированы ReLU. L 1 {\displaystyle L^{1}} сети шириной n . В той же статье [12] было показано, что сети ReLU шириной n + 1 достаточны для аппроксимации любой непрерывной функции n -мерных входных переменных. [21] Следующее уточнение определяет оптимальную минимальную ширину, для которой такое приближение возможно, и связано с [22]

Универсальная аппроксимационная теорема (расстояние L1, активация ReLU, произвольная глубина, минимальная ширина). Для любой p-интегрируемой функции Бохнера-Лебега и любого существует полносвязная сеть ReLU точно ширины , удовлетворяющая

.

Более того, существует функция и некоторые функции , для которых не существует полносвязной сети ReLU с шириной меньше, чем удовлетворяющая приведенной выше оценке приближения.

Вместе основные результаты из [14] и [2] дают следующую общую универсальную аппроксимационную теорему для сетей с ограниченной шириной между общими входными и выходными пространствами.

Универсальная аппроксимационная теорема ( неаффинная активация, произвольная глубина , неевклидовость ). Пусть быть компактным топологическим пространство, быть метрическим пространством, непрерывное и инъективное отображение функции и пусть непрерывное отображение считывания с раздела , имея плотный образ с (возможно , пустым) воротничком границы. Пусть - любая неаффинная непрерывная функция, которая непрерывно дифференцируема хотя бы в одной точке с ненулевой производной в этой точке. Позволять обозначают пространство нейронных сетей с прямой связью с входными нейронами, выходными нейронами и произвольным количеством скрытых слоев, каждый с нейронами, так что каждый скрытый нейрон имеет функцию активации, а каждый выходной нейрон имеет идентичность в качестве своей функции активации с входным слоем , и выходной слой . Тогда для любого и любого существует такое, что

Другими словами, это плотно в относительно равномерного расстояния.

Были установлены некоторые необходимые условия для случая ограниченной ширины, произвольной глубины, но все еще существует разрыв между известными достаточными и необходимыми условиями. [12] [13] [23]

См. Также [ править ]

  • Теорема Колмогорова – Арнольда о представлении
  • Теорема о представителях
  • Теорема о бесплатном обеде
  • Теорема Стоуна – Вейерштрасса
  • Ряд Фурье

Ссылки [ править ]

  1. ^ Balázs Csanád Csáji (2001) Аппроксимация с искусственными нейронными сетями; Способность наук; Университет Этвёша Лоранда, Венгрия
  2. ^ a b Крациос, Анастасис; Билокопытов, Евгений (2020). Неевклидово универсальное приближение (PDF) . Достижения в системах обработки нейронной информации 33 . Curran Associates, Inc.
  3. ^ Чжоу, Дин-Сюань (2020) Универсальность глубоких сверточных нейронных сетей; Прикладной и вычислительный гармонический анализ 48.2 (2020): 787-794.
  4. A. Heinecke, J. Ho и W. Hwang (2020); Уточнение и универсальное приближение с помощью слабо связанных сверточных сетей ReLU; Письма об обработке сигналов IEEE, т. 27, с. 1175-1179.
  5. ^ Парк, Jooyoung и Ирвин У. Сандберг (1991); Универсальная аппроксимация с использованием сетей радиальных базисных функций; Нейронные вычисления 3.2, 246-257.
  6. Яроцкий, Дмитрий (2018); Универсальные аппроксимации инвариантных отображений нейронными сетями.
  7. ^ a b Цибенко, Г. (1989) "Аппроксимация суперпозициями сигмоидальной функции" , Математика управления, сигналов и систем , 2 (4), 303–314. DOI : 10.1007 / BF02551274
  8. ^ a b Курт Хорник (1991) « [1] », Нейронные сети , 4 (2), 251–257. DOI : 10.1016 / 0893-6080 (91) 90009-Т
  9. ^ а б Лешно, Моше; Лин, Владимир Я .; Пинкус, Аллан; Шокен, Шимон (январь 1993 г.). «Многослойные сети с прямой связью с неполиномиальной функцией активации могут аппроксимировать любую функцию». Нейронные сети . 6 (6): 861–867. DOI : 10.1016 / S0893-6080 (05) 80131-5 . S2CID 206089312 . 
  10. ^ a b Пинкус, Аллан (январь 1999 г.). «Теория приближений модели MLP в нейронных сетях». Acta Numerica . 8 : 143–195. Bibcode : 1999AcNum ... 8..143P . DOI : 10.1017 / S0962492900002919 .
  11. ^ a b Крациос, Анастасис (27 ноября 2020 г.). «Свойство универсальной аппроксимации» . Анналы математики и искусственного интеллекта . DOI : 10.1007 / s10472-020-09723-1 - через Springer.
  12. ^ а б в г Лу, Чжоу; Пу, Хомгминг; Ван, Фэйчэн; Ху, Чжицян; Ван, Ливэй (2017). «Выразительная сила нейронных сетей: взгляд со стороны» . Достижения в системах обработки нейронной информации 30 . Curran Associates, Inc .: 6231–6239. arXiv : 1709.02540 .
  13. ^ а б Ханин, Борис; Селлке, Марк (март 2019 г.). «Приближение непрерывных функций сетями ReLU минимальной ширины» . Математика . MDPI. arXiv : 1710.11278 .
  14. ^ a b c d Кидгер, Патрик; Лион, Терри (июль 2020 г.). Универсальное приближение с глубокими узкими сетями . Конференция по теории обучения. arXiv : 1905.08539 .
  15. ^ Парк, Седжун; Юн, Чулхи; Ли, Джэхо; Шин, Джину (октябрь 2020 г.). Минимальная ширина для универсального приближения . Конференция по теории обучения. arXiv : 1905.08539 .
  16. ^ Табуада, Пауло; Гаресифард, Бахман (2020). Универсальная аппроксимирующая способность глубоких остаточных нейронных сетей с помощью теории нелинейного управления . ICLR. arXiv : 2007.06007 .
  17. ^ Баадер, Максимилиан; Мирман, Мэтью; Вечев, Мартин (2020). Универсальное приближение с сертифицированными сетями . ICLR.
  18. ^ Линь, Хунчжоу; Жегелка, Стефани (2018). ResNet со скрытыми слоями с одним нейроном представляет собой универсальный аппроксиматор . Достижения в системах обработки нейронной информации 30 . Curran Associates, Inc., стр. 6169–6178.
  19. ^ Хайкин, Саймон (1998). Нейронные сети: Всеобъемлющая основа , Том 2, Prentice Hall. ISBN 0-13-273350-1 . 
  20. ^ Hassoun, M. (1995) Основы искусственных нейронных сетей MIT Press, стр. 48
  21. ^ Ханин, Б. (2018). Аппроксимация непрерывных функций сетями ReLU минимальной ширины . Препринт arXiv arXiv: 1710.11278.
  22. ^ Парк Юн, Ли Шин, Sejun, Chulhee, Jaeho, Jinwoo (2020-09-28). «Минимальная ширина для универсального приближения» . ICLR . arXiv : 2006.08859 .CS1 maint: multiple names: authors list (link)
  23. ^ Джонсон, Джесси (2019). Глубокие, тощие нейронные сети не являются универсальными приближениями . Международная конференция по обучающим представительствам.