Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Машины с экстремальным обучением - это нейронные сети с прямой связью для классификации , регрессии , кластеризации , разреженного приближения , сжатия и изучения функций с одним или несколькими уровнями скрытых узлов, где требуются параметры скрытых узлов (а не только веса, соединяющие входы со скрытыми узлами) не настраиваться. Эти скрытые узлы могут назначаться случайным образом и никогда не обновляться (т.е. они представляют собой случайную проекциюно с нелинейными преобразованиями) или могут быть унаследованы от своих предков без изменения. В большинстве случаев выходные веса скрытых узлов обычно изучаются за один шаг, что по сути сводится к изучению линейной модели. Название «машина экстремального обучения» (ELM) таким моделям дал их главный изобретатель Гуан-Бинь Хуанг.

По словам их создателей, эти модели способны обеспечить хорошую производительность обобщения и обучаться в тысячи раз быстрее, чем сети, обученные с использованием обратного распространения ошибки . [1] В литературе также показано, что эти модели могут превосходить опорные векторные машины как в классификационных, так и в регрессионных приложениях. [2] [3] [4]

История [ править ]

С 2001 по 2010 годы исследования ELM в основном были сосредоточены на единой обучающей среде для «обобщенных» нейронных сетей прямого распространения с одним скрытым уровнем (SLFN), включая, помимо прочего, сигмовидные сети, RBF-сети, пороговые сети, [5] тригонометрические сети, нечеткие системы вывода, ряды Фурье, [6] [7] преобразование Лапласа, вейвлет-сети, [8] и т. д. Одним из значительных достижений тех лет является успешное доказательство универсальных аппроксимационных и классификационных возможностей ELM в теории. [6] [9] [10]

С 2010 по 2015 годы исследования ELM распространились на унифицированную среду обучения для обучения ядра, SVM и несколько типичных методов обучения функциям, таких как анализ главных компонентов (PCA) и неотрицательная матричная факторизация (NMF). Показано, что SVM на самом деле предоставляет неоптимальные решения по сравнению с ELM, а ELM может предоставлять отображение ядра белого ящика, которое реализуется посредством отображения случайных функций ELM, вместо ядра черного ящика, используемого в SVM. PCA и NMF можно рассматривать как частные случаи, когда в ELM используются линейные скрытые узлы. [11] [12]

С 2015 по 2017 год повышенное внимание уделялось иерархическим реализациям [13] [14] ELM. Кроме того, с 2011 года были проведены значительные биологические исследования, подтверждающие определенные теории ELM. [15] [16] [17]

С 2017 года, чтобы преодолеть проблему низкой конвергенции в процессе обучения разложение LU , разложение хессенбергова и QR - разложение на основе подходов с регуляризации начали привлекать внимание [18] [19] [20]

В объявлении Google Scholar от 2017 года : « Классические статьи: статьи, выдержавшие испытание временем », две статьи по ELM были включены в « 10 лучших работ по искусственному интеллекту за 2006 год », заняв позиции 2 и 7.

Алгоритмы [ править ]

Учитывая единственный скрытый слой ELM, предположим, что функция вывода -го скрытого узла есть , где и - параметры -го скрытого узла. Функция вывода ELM для SLFN со скрытыми узлами:

, где - выходной вес -го скрытого узла.

является отображением вывода скрытого слоя ELM. С учетом обучающих выборок выходная матрица скрытого слоя ELM имеет следующий вид:

и - целевая матрица обучающих данных:

Вообще говоря, ELM - это разновидность нейронных сетей регуляризации, но с ненастроенными отображениями скрытых слоев (образованными случайными скрытыми узлами, ядрами или другими реализациями) его целевая функция:

где .

Различные комбинации , , и может быть использован и в результате различных алгоритмов обучения для регрессии, классификации, разреженного кодирования, сжатия, функция обучения и кластеризации.

В качестве особого случая простейший алгоритм обучения ELM изучает модель формы (для нейронных сетей сигмовидной формы с одним скрытым слоем):

где W 1 - матрица весов входных и скрытых слоев, - функция активации, а W 2 - матрица весов скрытых для выходных слоев. Алгоритм работает следующим образом:

  1. Заполните W 1 случайными значениями (например, гауссовским случайным шумом );
  2. оцените W 2 методом наименьших квадратов, аппроксимирующим матрицу переменных отклика Y , вычисленную с использованием псевдообратной матрицы + , при заданной матрице плана X :

Архитектура [ править ]

В большинстве случаев ELM используется как сеть прямого распространения со скрытым уровнем (SLFN), включая, помимо прочего, сигмовидные сети, сети RBF, пороговые сети, сети нечеткого вывода, сложные нейронные сети, вейвлет-сети, преобразование Фурье, преобразование Лапласа и т. Д. Из-за различных реализаций алгоритмов обучения для регрессии, классификации, разреженного кодирования, сжатия, изучения функций и кластеризации, мульти-ELM использовались для формирования многоуровневых сетей со скрытым уровнем, глубокого обучения или иерархических сетей. [13] [14] [21]

Скрытый узел в ELM - это вычислительный элемент, который не обязательно рассматривать как классический нейрон. Скрытый узел в ELM может быть классическими искусственными нейронами, базовыми функциями или подсетью, образованной некоторыми скрытыми узлами. [9]

Теории [ править ]

Возможности универсального приближения и классификации [2] [3] были доказаны для ELM в литературе. В частности, Гуан-Бинь Хуан и его команда потратили почти семь лет (2001-2008) на строгие доказательства универсальной аппроксимационной способности ELM. [6] [9] [10]

Возможность универсального приближения [ править ]

Теоретически любая непостоянная кусочно-непрерывная функция может использоваться в качестве функции активации в скрытых узлах ELM, такая функция активации не обязательно должна быть дифференциальной. Если настройка параметров скрытых узлов может заставить SLFN аппроксимировать любую целевую функцию , тогда параметры скрытых узлов могут быть сгенерированы случайным образом в соответствии с любой вероятностью непрерывного распределения и сохраняются с вероятностью один с соответствующими выходными весами .

Возможность классификации [ править ]

Учитывая любую непостоянную кусочно-непрерывную функцию в качестве функции активации в SLFN, если настройка параметров скрытых узлов может заставить SLFN аппроксимировать любую целевую функцию , тогда SLFN со случайным отображением скрытых слоев могут разделять произвольные непересекающиеся области любой формы.

Нейроны [ править ]

В скрытых нейронах ELM можно использовать широкий тип нелинейных кусочно-непрерывных функций , например:

Настоящий домен [ править ]

Сигмовидная функция:

Функция Фурье:

Функция жесткого ограничения:

Функция Гаусса:

Функция мультиквадриков:

Вейвлет: где - вейвлет-функция матери-одиночки.

Сложный домен [ править ]

Круговые функции:

Обратные круговые функции:

Гиперболические функции:

Обратные гиперболические функции:

Надежность [ править ]

Черный ящик характер нейронных сетей в целом и экстремальные учебные машины (ELM) , в частности , является одной из основных проблем , которые отпугивают инженер из применения в опасных задачах автоматизации. К этой конкретной проблеме подошли с помощью нескольких различных методов. Один из подходов - уменьшить зависимость от случайного входа. [22] [23] Другой подход фокусируется на включении постоянных ограничений в процесс обучения ELM [24] [25]которые основаны на предварительных знаниях о конкретной задаче. Это разумно, потому что решения машинного обучения должны гарантировать безопасную работу во многих областях приложений. Упомянутые исследования показали, что особая форма ELM с ее функциональным разделением и линейными весами считывания особенно хорошо подходит для эффективного включения непрерывных ограничений в заранее определенных областях входного пространства.

Противоречие [ править ]

Со стороны академического сообщества есть две основные жалобы на эту работу: первая касается «переосмысления и игнорирования предыдущих идей», вторая - «неправильного наименования и популяризации», как было показано в некоторых дебатах в 2008 и 2015 годах [26]. В частности, в письме [27] редактору IEEE Transactions on Neural Networks было указано, что идея использования скрытого слоя, связанного со входами с помощью случайных необученных весов, уже предлагалась в исходных статьях по RBF-сетям в конец 1980-х; Гуан-Бинь Хуан ответил, указав на тонкие различия. [28] В статье 2015 г. [3]Хуанг ответил на жалобы об изобретении им названия ELM для уже существующих методов, жалуясь на «очень негативные и бесполезные комментарии к ELM ни в академической, ни в профессиональной манере из-за различных причин и намерений», а также на «безответственную анонимную атаку, направленную на уничтожение. среда исследования гармонии », утверждая, что его работа« обеспечивает объединяющую платформу обучения »для различных типов нейронных сетей [3], включая иерархически структурированный ELM. [21] В 2015 году Хуан также дал формальное опровержение тому, что он считал «злым умыслом и нападением». [29] Недавние исследования заменяют случайные веса на случайные веса с ограничениями. [2] [30]

Открытые источники [ править ]

  • Библиотека Matlab
  • Библиотека Python [31]

См. Также [ править ]

  • Пластовые вычисления
  • Случайная проекция
  • Случайная матрица

Ссылки [ править ]

  1. ^ Хуанг, Гуан-Бинь; Чжу, Цинь-Ю; Сью, Чи-Кхеонг (2006). «Экстремальная обучающая машина: теория и приложения». Нейрокомпьютеры . 70 (1): 489–501. CiteSeerX  10.1.1.217.3692 . DOI : 10.1016 / j.neucom.2005.12.126 .
  2. ^ a b c Хуан, Гуан-Бинь; Хунмин Чжоу; Сяоцзянь Дин; и Руи Чжан (2012). «Экстремальная обучающая машина для регрессии и многоклассовой классификации» (PDF) . IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics . 42 (2): 513–529. CiteSeerX 10.1.1.298.1213 . DOI : 10.1109 / tsmcb.2011.2168604 . PMID 21984515 . S2CID 15037168 .    
  3. ^ а б в г Хуанг, Гуан-Бинь (2015). «Что такое машины экстремального обучения? Заполнение разрыва между мечтой Фрэнка Розенблатта и головоломкой Джона фон Неймана» (PDF) . Когнитивные вычисления . 7 (3): 263–278. DOI : 10.1007 / s12559-015-9333-0 . S2CID 13936498 .  
  4. ^ Хуанг, Гуан-Бинь (2014). «Взгляд на машины с экстремальным обучением: случайные нейроны, случайные особенности и ядра» (PDF) . Когнитивные вычисления . 6 (3): 376–390. DOI : 10.1007 / s12559-014-9255-2 . S2CID 7419259 .  
  5. Хуан, Гуан-Бин, Цинь-Ю Чжу, КЗ Мао, Чи-Кхеонг Сью, П. Саратчандран и Н. Сундарараджан (2006). "Можно ли обучать пороговые сети напрямую?" (PDF) . IEEE Transactions on Circuits and Systems-II: Express Briefs . 53 (3): 187–191. DOI : 10.1109 / tcsii.2005.857540 . S2CID 18076010 .  
  6. ^ a b c Хуанг, Гуан-Бин, Лей Чен и Чи-Кхеонг Сью (2006). «Универсальное приближение с использованием инкрементальных конструктивных сетей с прямой связью со случайными скрытыми узлами» (PDF) . IEEE-транзакции в нейронных сетях . 17 (4): 879–892. DOI : 10.1109 / tnn.2006.875977 . PMID 16856652 .  
  7. ^ Рахими, Али, и Бенджамин Рехт (2008). «Взвешенные суммы случайных кухонных раковин: замена минимизации случайным образом в обучении» (PDF) . Достижения в системах обработки нейронной информации 21 .
  8. ^ Цао, Jiuwen, Zhiping Лин, Гуан-Bin Huang (2010). "Составные функции вейвлет-нейронных сетей с экстремальной обучающей машиной". Нейрокомпьютеры . 73 (7–9): 1405–1416. DOI : 10.1016 / j.neucom.2009.12.007 .
  9. ^ a b c Хуан, Гуан-Бинь, Лэй Чен (2007). "Выпуклая инкрементальная машина экстремального обучения" (PDF) . Нейрокомпьютеры . 70 (16–18): 3056–3062. DOI : 10.1016 / j.neucom.2007.02.009 .
  10. ^ а б Хуанг, Гуан-Бинь и Лэй Чен (2008). «Улучшенная машина для инкрементального экстремального обучения на основе случайного поиска» (PDF) . Нейрокомпьютеры . 71 (16–18): 3460–3468. CiteSeerX 10.1.1.217.3009 . DOI : 10.1016 / j.neucom.2007.10.008 .  
  11. ^ Он, Цин, Xin Jin, Changying Du, Fuzhen Чжуан, Zhongzhi Ши (2014). «Кластеризация в пространстве возможностей машин экстремального обучения» (PDF) . Нейрокомпьютеры . 128 : 88–95. DOI : 10.1016 / j.neucom.2012.12.063 .
  12. ^ Kasun, Liyanaarachchi Lekamalage Чамара, Ян Ян, Гуан-бен Хуанг и Zhengyou Жанг (2016). «Уменьшение размеров с помощью экстремальной обучающей машины» (PDF) . IEEE Transactions по обработке изображений . 25 (8): 3906–3918. Bibcode : 2016ITIP ... 25.3906K . DOI : 10.1109 / tip.2016.2570569 . PMID 27214902 . S2CID 1803922 .   
  13. ^ а б Хуанг, Гуан-Бин, Цзо Бай и Лиянаараччи Лекамалаге Чамара Касун и Чи Ман Вонг (2015). «Машина экстремального обучения на основе локальных восприимчивых полей» (PDF) . Журнал IEEE Computational Intelligence Magazine . 10 (2): 18–29. DOI : 10.1109 / mci.2015.2405316 . S2CID 1417306 .  
  14. ^ a b Тан, Цзесюн, Ченвэй Дэн и Гуан-Бинь Хуан (2016). "Экстремальная обучающая машина для многослойного персептрона" (PDF) . Транзакции IEEE в нейронных сетях и обучающих системах . 27 (4): 809–821. DOI : 10.1109 / tnnls.2015.2424995 . PMID 25966483 . S2CID 206757279 .   
  15. ^ Барак, Омри; Риготти, Маттиа; и Фуси, Стефано (2013). «Редкость нейронов со смешанной селективностью контролирует компромисс между обобщением и дискриминацией» . Журнал неврологии . 33 (9): 3844–3856. DOI : 10.1523 / jneurosci.2753-12.2013 . PMC 6119179 . PMID 23447596 .  
  16. ^ Риготти, Маттиа; Барак, Омри; Уорден, Мелисса Р .; Ван, Сяо-Цзин; Доу, Натаниэль Д.; Миллер, Эрл К .; и Фуси, Стефано (2013). «Важность смешанной избирательности в сложных когнитивных задачах» . Природа . 497 (7451): 585–590. Bibcode : 2013Natur.497..585R . DOI : 10,1038 / природа12160 . PMC 4412347 . PMID 23685452 .  
  17. ^ Фузи, Стефано, Эрл К. Миллер и Маттиа Риготти (2015). «Почему смешиваются нейроны: высокая размерность для более высокого познания» (PDF) . Текущее мнение в нейробиологии . 37 : 66–74. DOI : 10.1016 / j.conb.2016.01.010 . PMID 26851755 . S2CID 13897721 .   
  18. ^ Кутлу, Якуп Кутлу, Апдулла Яйик, Эсен Йылдырым и Сердар Йылдырым (2017). «Машина экстремального обучения триангуляризации LU в классификации когнитивных задач ЭЭГ». Нейронные вычисления и приложения . 31 (4): 1117–1126. DOI : 10.1007 / s00521-017-3142-1 . S2CID 6572895 . 
  19. ^ Yayık, Apdullah Yayık, Yakup Kutlu и Гекхан Алтан (2019). «Регуляризованное измерение HessELM и наклонной энтропии для прогнозирования застойной сердечной недостаточности». arXiv : 1907.05888 . Bibcode : 2019arXiv190705888Y . Cite journal requires |journal= (help)
  20. ^ Алтан, Гекхан Алтан, Якуп Кутлу, Аднан Озхан Пекмезчи и Апдулла Яйик (2018). «Диагностика хронической обструктивной болезни легких с использованием машин глубокого экстремального обучения с ядром автоэнкодера LU» . Международная конференция по передовым технологиям .
  21. ^ a b Zhu, W .; Miao, J .; Qing, L .; Хуанг, Великобритания (01.07.2015). Иерархическая машина экстремального обучения для неконтролируемого обучения представлениям . 2015 Международная совместная конференция по нейронным сетям (IJCNN) . С. 1–8. DOI : 10.1109 / IJCNN.2015.7280669 . ISBN 978-1-4799-1960-4. S2CID  14222151 .
  22. ^ Нойман, Клаус; Стейл, Йохен Дж. (2011). «Пакетная внутренняя пластичность для машин с экстремальным обучением» . Proc. Международной конференции по искусственным нейронным сетям : 339–346.
  23. ^ Нойман, Клаус; Стейл, Йохен Дж. (2013). «Оптимизация экстремальных обучающих машин с помощью регрессии гребня и собственной пластичности партии» . Нейрокомпьютеры . 102 : 23–30. DOI : 10.1016 / j.neucom.2012.01.041 .
  24. ^ Нойман, Клаус; Рольф, Матиас; Стейл, Йохен Дж. (2013). «Надежная интеграция непрерывных ограничений в экстремальные обучающие машины» . Международный журнал неопределенности, нечеткости и систем, основанных на знаниях . 21 (supp02): 35–50. DOI : 10.1142 / S021848851340014X . ISSN 0218-4885 . 
  25. Перейти ↑ Neumann, Klaus (2014). Надежность . Библиотека университета Билефельда. С. 49–74.
  26. ^ "Официальная домашняя страница происхождения машин экстремального обучения (ELM)" . Проверено 15 декабря 2018 года .
  27. ^ Wang, Lipo P .; Ван, Чунру Р. (2008). "Комментарии к" Экстремальной обучающей машине " ". IEEE Trans. Нейронные сети . 19 (8): 1494–5, ответ автора 1495–6. CiteSeerX 10.1.1.217.2330 . DOI : 10.1109 / TNN.2008.2002273 . PMID 18701376 .  
  28. ^ Хуанг, Гуан-Бинь (2008). "Reply to" комментирует "экстремальную обучающуюся машину" " ". IEEE-транзакции в нейронных сетях . 19 (8): 1495–1496. DOI : 10.1109 / tnn.2008.2002275 . S2CID 14720232 . 
  29. Перейти ↑ Guang-Bin, Huang (2015). «КТО стоит за злым умыслом и нападением на ВЯЗ, ЦЕЛЬ атаки и СУТЬ ВЯЗА» (PDF) . www.extreme-learning-machines.org .
  30. ^ Чжу, Вт .; Miao, J .; Цин, Л. (2014-07-01). Машина с ограниченным экстремальным обучением: новая высокодискриминационная нейронная сеть со случайной прямой связью . 2014 г. Международная совместная конференция по нейронным сетям (IJCNN) . С. 800–807. DOI : 10.1109 / IJCNN.2014.6889761 . ISBN 978-1-4799-1484-5. S2CID  5769519 .
  31. ^ Акусок, Антон; Бьорк, Кай-Микаэль; Миш, Йоан; Лендасс, Амори (2015). «Высокопроизводительные машины для экстремального обучения: полный набор инструментов для приложений с большими данными» . Доступ IEEE . 3 : 1011–1025. DOI : 10,1109 / access.2015.2450498 .