Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

История искусственных нейронных сетей ( ИНС) начала с Уорреном McCulloch и Walter Pitts [1] (1943) , который создал вычислительную модель нейронных сетей на основе алгоритмов , называемых пороговой логикой . Эта модель позволила разделить исследования на два подхода. Один подход был сосредоточен на биологических процессах, а другой - на применении нейронных сетей в искусственном интеллекте . Эта работа привела к работе над нервными сетями и их связью с конечными автоматами . [2]

Hebbian Learning [ править ]

В конце 1940-х годов Д.О. Хебб [3] создал гипотезу обучения, основанную на механизме нейронной пластичности, которая стала известна как обучение Хебба . Hebbian обучение - это обучение без учителя . Это превратилось в модели для долгосрочного потенцирования . Исследователи начали применять эти идеи вычислительных моделей в 1948 году с B-типа машин Тьюринга . Фарли и Кларк [4] (1954) сначала использовали вычислительные машины, тогда называемые «калькуляторами», для моделирования сети Хебба. Другие вычислительные машины нейронных сетей были созданы Рочестером , Холландом, Хабитом и Дудой (1956). [5] Розенблатт[6] (1958) создал перцептрон , алгоритм распознавания образов. В математической нотации Розенблатт описал схему, не входящую в базовый перцептрон, напримерсхему исключающего ИЛИ, которая не могла быть обработана нейронными сетями в то время. [7] В 1959 году биологическая модель, предложенная лауреатами Нобелевской премии Хьюбелем и Визелем, была основана на открытии ими двух типов клеток первичной зрительной коры : простых клеток и сложных клеток . [8] Первые функциональные сети со многими уровнями были опубликованы Ивахненко и Лапой в 1965 г. какГрупповой метод обработки данных . [9] [10] [11]

Исследования застопорились после исследования машинного обучения, проведенного Мински и Папертом (1969), [12], которые обнаружили две ключевые проблемы с вычислительными машинами, которые обрабатывают нейронные сети. Во-первых, базовые перцептроны неспособны обрабатывать схему исключающего ИЛИ. Во-вторых, компьютерам не хватало вычислительной мощности для эффективного выполнения работы, необходимой для больших нейронных сетей. Исследования нейронных сетей замедлились, пока компьютеры не достигли гораздо большей вычислительной мощности. Большая часть искусственного интеллекта была сосредоточена на высокоуровневых (символических) моделях, обрабатываемых с помощью явных алгоритмов , например, экспертных систем.со знаниями, воплощенными в правилах « если-то» , пока в конце 1980-х исследования не расширились до низкоуровневого (субсимвольного) машинного обучения , характеризуемого знаниями, воплощенными в параметрах когнитивной модели . [ необходима цитата ]

Обратное распространение [ править ]

Ключевым триггером для возобновления интереса к нейронным сетям и обучению стал алгоритм обратного распространения ошибки Werbos (1975) , который позволил практическое обучение многослойным сетям. При обратном распространении термин ошибки распределяется обратно по слоям, изменяя веса в каждом узле. [7]

В середине 1980-х параллельная распределенная обработка стала популярной под названием коннекционизм . Рамелхарт и Макклелланд (1986) описали использование коннекционизма для моделирования нейронных процессов. [13]

Поддержка векторных машин и более простые методы, такие как линейные классификаторы, постепенно вытеснили нейронные сети. Однако нейронные сети трансформировали такие области, как предсказание белковых структур. [14] [15]

В 1992 году было введено максимальное объединение, чтобы помочь с наименьшей инвариантностью сдвига и толерантностью к деформации, чтобы помочь в распознавании трехмерных объектов . [16] [17] [18] В 2010 году обучение обратному распространению через max-pooling было ускорено графическими процессорами и показало, что оно работает лучше, чем другие варианты объединения. [19]

Проблема исчезающего градиента затрагивает многоуровневые сети прямого распространения, в которых используется обратное распространение, а также рекуррентные нейронные сети (RNN). [20] [21] По мере того, как ошибки распространяются от уровня к уровню, они экспоненциально сокращаются с увеличением количества слоев, что затрудняет настройку весов нейронов, основанную на этих ошибках, особенно влияя на глубокие сети.

Чтобы преодолеть эту проблему, Шмидхубер принял многоуровневую иерархию сетей (1992), предварительно обучая один уровень за раз путем неконтролируемого обучения и тонко настраиваясь с помощью обратного распространения ошибки . [22] Бенке (2003) полагался только на знак градиента ( Rprop ) [23] при решении таких задач, как реконструкция изображения и локализация лица.

Hinton et al. (2006) предложили изучить высокоуровневое представление с использованием последовательных слоев двоичных или действительных латентных переменных с помощью ограниченной машины Больцмана [24] для моделирования каждого слоя. Как только изучено достаточно много уровней, глубокая архитектура может использоваться в качестве генеративной модели путем воспроизведения данных при выборке модели («наследственный проход») из активаций функций верхнего уровня. [25] [26] В 2012 году Нг и Дин создали сеть, которая научилась распознавать понятия более высокого уровня, такие как кошки, только путем просмотра немаркированных изображений, взятых из видео на YouTube . [27]

Более ранние проблемы обучения глубоких нейронных сетей были успешно решены с помощью таких методов, как неконтролируемое предварительное обучение, в то время как доступная вычислительная мощность увеличивалась за счет использования графических процессоров и распределенных вычислений . Нейронные сети были широко развернуты, особенно в задачах распознавания изображений и визуального распознавания. Это стало известно как « глубокое обучение ». [ необходима цитата ]

Аппаратные конструкции [ править ]

Разработка очень крупномасштабной интеграции (СБИС) металл-оксид-полупроводник (МОП) в форме дополнительной технологии МОП (КМОП) позволила разработать практические искусственные нейронные сети в 1980-х годах. [28]

Вычислительные устройства были созданы в CMOS , как для биофизического моделирования, так и для нейроморфных вычислений . Наноустройства [29] для очень крупномасштабного анализа основных компонентов и свертки могут создать новый класс нейронных вычислений, потому что они в основном аналоговые, а не цифровые (даже при том, что первые реализации могут использовать цифровые устройства). [30] Чиресан и его коллеги (2010) [31] в группе Шмидхубера показали, что, несмотря на проблему исчезающего градиента, графические процессоры делают возможным обратное распространение в многоуровневых нейронных сетях с прямой связью.

Конкурсы [ править ]

В период с 2009 по 2012 год рекуррентные нейронные сети и нейронные сети с прямой связью, разработанные исследовательской группой Шмидхубера, выиграли восемь международных конкурсов по распознаванию образов и машинному обучению . [32] [33] Например, двунаправленный и многомерный длинные кратковременная память (LSTM) [34] [35] [36] [37] из Graves и соавт. выиграл три конкурса по распознаванию связного почерка на Международной конференции по анализу и распознаванию документов (ICDAR) в 2009 году , не имея каких-либо предварительных знаний о трех языках, которые необходимо выучить.[36] [35]

Чиресан и его коллеги выиграли соревнования по распознаванию образов , в том числе соревнования по распознаванию дорожных знаков IJCNN 2011 [38], соревнования ISBI 2012 «Сегментация нейронных структур в стеках электронной микроскопии» [39] и другие. Их нейронные сети были первыми распознавателями образов, которые достигли конкурентоспособной / сверхчеловеческой производительности [40] в тестах, таких как распознавание дорожных знаков (IJCNN 2012) или проблема рукописных цифр MNIST .

Исследователи продемонстрировали (2010), что глубокие нейронные сети, взаимодействующие со скрытой марковской моделью с контекстно-зависимыми состояниями, которые определяют выходной уровень нейронной сети, могут значительно уменьшить количество ошибок в задачах распознавания речи с большим словарным запасом, таких как голосовой поиск. [ необходима цитата ]

GPU на основе реализации [41] этого подхода выиграл много конкурсов распознавания образов, в том числе IJCNN 2011 Вход конкуренции, движения Recognition [38] ISBI 2012 Сегментация нейрональных структур в EM стеки вызов, [39] ImageNet конкуренции [42] и другие.

Глубокие, сильно нелинейные нейронные архитектуры, подобные неокогнитрону [43] и «стандартной архитектуре зрения» [44], вдохновленные простыми и сложными клетками , были предварительно обучены неконтролируемыми методами Хинтоном. [45] [25] Команда из его лаборатории выиграла в 2012 году спонсируемый Merck конкурс на разработку программного обеспечения, которое поможет найти молекулы, которые могут идентифицировать новые лекарства. [46]

Сверточные нейронные сети [ править ]

По состоянию на 2011 год в современных сетях прямого обучения с глубоким обучением чередовались сверточные уровни и уровни максимального объединения [41] [47], увенчанные несколькими полностью или редко связанными слоями, за которыми следует последний слой классификации. Обучение обычно проводится без предварительной подготовки без присмотра. Сверточный слой включает фильтры, которые свертываются с вводом. Каждый фильтр эквивалентен вектору весов, который необходимо обучить.

Такие контролируемые методы глубокого обучения были первыми, кто добился конкурентоспособных результатов в определенных практических приложениях. [40]

ИНС смогли гарантировать инвариантность сдвига для работы с маленькими и большими естественными объектами в больших загроможденных сценах, только когда инвариантность выходила за рамки сдвига, на все изученные ИНС концепции, такие как местоположение, тип (метка класса объекта), масштаб, освещение и другие. . Это было реализовано в Сети развития (DN) [48] , воплощением которых являются сети Where-What Networks, от WWN-1 (2008) [49] до WWN-7 (2013). [50]

Ссылки [ править ]

  1. ^ Маккаллох, Уоррен; Уолтер Питтс (1943). «Логический расчет идей, присущих нервной деятельности». Вестник математической биофизики . 5 (4): 115–133. DOI : 10.1007 / BF02478259 .
  2. Перейти ↑ Kleene, SC (1956). «Представление событий в нервных сетях и конечных автоматах» . Анналы математических исследований (34). Издательство Принстонского университета. С. 3–41 . Проверено 17 июня 2017 .
  3. ^ Хебб, Дональд (1949). Организация поведения . Нью-Йорк: Вили. ISBN 978-1-135-63190-1.
  4. ^ Фарли, BG; У. А. Кларк (1954). «Моделирование самоорганизующихся систем с помощью цифрового компьютера». Сделки IRE по теории информации . 4 (4): 76–84. DOI : 10.1109 / TIT.1954.1057468 .
  5. ^ Рочестер, N .; JH Holland; LH Habit; В. Л. Дуда (1956). «Тесты по теории сборки клеток деятельности мозга с использованием большого цифрового компьютера». Сделки IRE по теории информации . 2 (3): 80–93. DOI : 10.1109 / TIT.1956.1056810 .
  6. ^ Розенблатт, Ф. (1958). «Персептрон: вероятностная модель для хранения и организации информации в мозге». Психологический обзор . 65 (6): 386–408. CiteSeerX 10.1.1.588.3775 . DOI : 10.1037 / h0042519 . PMID 13602029 .  
  7. ↑ a b Werbos, PJ (1975). За пределами регрессии: новые инструменты для прогнозирования и анализа в поведенческих науках .
  8. Дэвид Хьюбел и Торстен Н. Визель (2005). Мозг и визуальное восприятие: история 25-летнего сотрудничества . Oxford University Press, США. п. 106. ISBN 978-0-19-517618-6.
  9. ^ Шмидхубер, J. (2015). «Глубокое обучение в нейронных сетях: обзор». Нейронные сети . 61 : 85–117. arXiv : 1404,7828 . DOI : 10.1016 / j.neunet.2014.09.003 . PMID 25462637 . S2CID 11715509 .  
  10. Ивахненко, АГ (1973). Кибернетические предсказательные устройства . Информационная корпорация СКК.
  11. ^ Ивахненко, АГ; Григорьевич Лапа, Валентин (1967). Кибернетика и методы прогнозирования . Американский паб Elsevier. Co.
  12. ^ Минский, Марвин; Паперт, Сеймур (1969). Персептроны: введение в вычислительную геометрию . MIT Press. ISBN 978-0-262-63022-1.
  13. ^ Rumelhart, DE; Макклелланд, Джеймс (1986). Параллельная распределенная обработка: исследования микроструктуры познания . Кембридж: MIT Press. ISBN 978-0-262-63110-5.
  14. ^ Qian, N .; Сейновски, Т.Дж. (1988). «Предсказание вторичной структуры глобулярных белков с использованием моделей нейронных сетей» (PDF) . Журнал молекулярной биологии . 202 (4): 865–884. DOI : 10.1016 / 0022-2836 (88) 90564-5 . PMID 3172241 . Qian1988.  
  15. ^ Рост, Б .; Сандер, К. (1993). «Прогнозирование вторичной структуры белка с точностью выше 70%» (PDF) . Журнал молекулярной биологии . 232 (2): 584–599. DOI : 10.1006 / jmbi.1993.1413 . PMID 8345525 . Рост1993 г.  
  16. ^ J. Вэн, Н. Ахадж и Т. С. Хуанг, « Cresceptron: самоорганизующаяся нейронная сеть , которая растет адаптивно ,» Proc. Международная объединенная конференция по нейронным сетям , Балтимор, Мэриленд, том I, стр. 576–581, июнь 1992 г.
  17. J. Weng, N. Ahuja и TS Huang, " Обучение распознаванию и сегментации трехмерных объектов из двумерных изображений ", Proc. 4-я Международная конф. Компьютерное зрение , Берлин, Германия, стр. 121–128, май 1993 г.
  18. ^ Дж. Венг, Н. Ахуджа и Т.С. Хуанг, « Распознавание обучения и сегментация с использованием Cresceptron », Международный журнал компьютерного зрения , вып. 25, нет. 2. С. 105–139, ноябрь 1997 г.
  19. ^ Доминик Шерер, Андреас К. Мюллер и Свен Бенке: « Оценка операций объединения в сверточные архитектуры для распознавания объектов », на 20-й Международной конференции по искусственным нейронным сетям (ICANN) , стр. 92–101, 2010 г. doi : 10.1007 / 978 -3-642-15825-4_10 .
  20. ^ S. Hochreiter., " Untersuchungen zu Dynamischen Neuronalen Netzen ", дипломная работа. Institut f. Informatik, Technische Univ. Мюнхен. Советник: Я. Шмидхубер , 1991.
  21. ^ Hochreiter, S .; и другие. (15 января 2001 г.). «Градиентный поток в повторяющихся сетях: трудность изучения долгосрочных зависимостей» . В Колене, Джон Ф .; Кремер, Стефан С. (ред.). Полевое руководство по динамическим рекуррентным сетям . Джон Вили и сыновья. ISBN 978-0-7803-5369-5.
  22. J. Schmidhuber., «Обучающие сложные, расширенные последовательности с использованием принципа сжатия истории», Neural Computing , 4, pp. 234–242, 1992.
  23. ^ Sven Behnke (2003). Иерархические нейронные сети для интерпретации изображений (PDF) . Конспект лекций по информатике. 2766 . Springer.
  24. ^ Смоленский, П. (1986). «Обработка информации в динамических системах: основы теории гармонии». . В DE Rumelhart; JL McClelland; Исследовательская группа PDP (ред.). Параллельная распределенная обработка: исследования микроструктуры познания . 1 . С.  194–281 . ISBN 9780262680530.
  25. ^ а б Хинтон, GE ; Осиндеро, С .; Тех, Ю. (2006). «Алгоритм быстрого обучения для сетей глубоких убеждений» (PDF) . Нейронные вычисления . 18 (7): 1527–1554. CiteSeerX 10.1.1.76.1541 . DOI : 10.1162 / neco.2006.18.7.1527 . PMID 16764513 . S2CID 2309950 .    
  26. Перейти ↑ Hinton, G. (2009). «Сети глубоких убеждений» . Scholarpedia . 4 (5): 5947. Bibcode : 2009SchpJ ... 4.5947H . DOI : 10,4249 / scholarpedia.5947 .
  27. ^ Нг, Эндрю; Дин, Джефф (2012). «Создание высокоуровневых функций с использованием крупномасштабного обучения без учителя». arXiv : 1112.6209 [ cs.LG ].
  28. ^ Мид, Карвер А .; Исмаил, Мохаммед (8 мая 1989 г.). Аналоговая реализация нейронных систем на СБИС (PDF) . Kluwer International Series в области инженерии и информатики. 80 . Норвелл, Массачусетс: Kluwer Academic Publishers . DOI : 10.1007 / 978-1-4613-1639-8 . ISBN  978-1-4613-1639-8.
  29. ^ Ян, JJ; Пикетт, Мэриленд; Ли, ХМ; Ольберг, DAA; Стюарт, Д.Р .; Уильямс, RS (2008). «Мемристивный механизм переключения для наноустройств металл / оксид / металл». Nat. Nanotechnol . 3 (7): 429–433. DOI : 10.1038 / nnano.2008.160 . PMID 18654568 . 
  30. ^ Струков, ДБ; Снайдер, GS; Стюарт, Д.Р .; Уильямс, RS (2008). «Найден пропавший мемристор». Природа . 453 (7191): 80–83. Bibcode : 2008Natur.453 ... 80С . DOI : 10,1038 / природа06932 . PMID 18451858 . S2CID 4367148 .  
  31. ^ Cireşan, Dan Клаудиа; Мейер, Ули; Гамбарделла, Лука Мария; Шмидхубер, Юрген (21 сентября 2010 г.). «Глубокие, большие, простые нейронные сети для распознавания рукописных цифр». Нейронные вычисления . 22 (12): 3207–3220. arXiv : 1003.0358 . DOI : 10.1162 / neco_a_00052 . ISSN 0899-7667 . PMID 20858131 . S2CID 1918673 .   
  32. ^ 2012 Курцвейл AI Интервью архивации 2018-08-31 в Wayback Machine с Юргеном Шмидхубером на восемь соревнованиях выиграли его командой Deep Learning 2009-2012
  33. ^ «Как глубокое обучение, вдохновленное биологией, продолжает побеждать в соревнованиях | KurzweilAI» . www.kurzweilai.net . Архивировано из оригинала на 2018-08-31 . Проверено 16 июня 2017 .
  34. ^ Грейвс, Алекс; и Шмидхубер, Юрген; Автономное распознавание рукописного ввода с помощью многомерных рекуррентных нейронных сетей , Бенжио, Йошуа; Шурманс, Дейл; Лафферти, Джон; Уильямс, Крис К.И.; и Кулотта, Арон (ред.), « Достижения в системах обработки нейронной информации» 22 (NIPS'22), 7–10 декабря 2009 г., Ванкувер, Британская Колумбия, Фонд нейронных систем обработки информации (NIPS), 2009 г., стр. 545–552.
  35. ^ a b Graves, A .; Liwicki, M .; Fernandez, S .; Bertolami, R .; Bunke, H .; Шмидхубер, Дж. (2009). «Новая система коннекционистов для улучшения неограниченного распознавания рукописного ввода» (PDF) . IEEE Transactions по анализу шаблонов и машинному анализу . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . DOI : 10.1109 / tpami.2008.137 . PMID 19299860 . S2CID 14635907 .    
  36. ^ a b Грейвс, Алекс; Шмидхубер, Юрген (2009). Бенхио, Йошуа; Шурманс, Дейл; Лафферти, Джон; Уильямс, Крис редактор-KI; Кулотта, Арон (ред.). «Распознавание рукописного ввода в автономном режиме с помощью многомерных рекуррентных нейронных сетей» . Фонд нейронных систем обработки информации (NIPS) . Curran Associates, Inc: 545–552.
  37. ^ Graves, A .; Liwicki, M .; Fernández, S .; Bertolami, R .; Bunke, H .; Шмидхубер, Дж. (Май 2009 г.). «Новая система коннекционистов для неограниченного распознавания почерка». IEEE Transactions по анализу шаблонов и машинному анализу . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . DOI : 10.1109 / tpami.2008.137 . ISSN 0162-8828 . PMID 19299860 . S2CID 14635907 .    
  38. ^ a b Чирешан, Дан; Мейер, Ули; Маски, Джонатан; Шмидхубер, Юрген (август 2012 г.). «Многоколоночная глубокая нейронная сеть для классификации дорожных знаков». Нейронные сети . Избранные статьи из IJCNN 2011. 32 : 333–338. CiteSeerX 10.1.1.226.8219 . DOI : 10.1016 / j.neunet.2012.02.023 . PMID 22386783 .  
  39. ^ a b Чиресан, Дан; Джусти, Алессандро; Gambardella, Luca M .; Шмидхубер, Юрген (2012). Pereira, F .; Берджес, CJC; Bottou, L .; Weinberger, KQ (ред.). Достижения в системах обработки нейронной информации 25 (PDF) . Curran Associates, Inc., стр. 2843–2851.
  40. ^ a b Чиресан, Дан; Meier, U .; Шмидхубер, Дж. (Июнь 2012 г.). Многоколоночные глубокие нейронные сети для классификации изображений . Конференция IEEE 2012 года по компьютерному зрению и распознаванию образов . С. 3642–3649. arXiv : 1202.2745 . Bibcode : 2012arXiv1202.2745C . CiteSeerX 10.1.1.300.3283 . DOI : 10.1109 / cvpr.2012.6248110 . ISBN  978-1-4673-1228-8. S2CID  2161592 .
  41. ^ а б Чиресан, округ Колумбия; Meier, U .; Masci, J .; Gambardella, LM; Шмидхубер, Дж. (2011). «Гибкие, высокопроизводительные сверточные нейронные сети для классификации изображений» (PDF) . Международная совместная конференция по искусственному интеллекту . DOI : 10.5591 / 978-1-57735-516-8 / ijcai11-210 .
  42. ^ Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри (2012). «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF) . NIPS 2012: Системы обработки нейронной информации, Озеро Тахо, Невада .
  43. Перейти ↑ Fukushima, K. (1980). «Неокогнитрон: модель самоорганизующейся нейронной сети для механизма распознавания образов, не подверженного изменению положения». Биологическая кибернетика . 36 (4): 93–202. DOI : 10.1007 / BF00344251 . PMID 7370364 . S2CID 206775608 .  
  44. ^ Riesenhuber, M; Поджио, Т. (1999). «Иерархические модели распознавания объектов в коре головного мозга». Природа Неврологии . 2 (11): 1019–1025. DOI : 10.1038 / 14819 . PMID 10526343 . S2CID 8920227 .  
  45. Хинтон, Джеффри (31 мая 2009 г.). «Сети глубоких убеждений» . Scholarpedia . 4 (5): 5947. Bibcode : 2009SchpJ ... 4.5947H . DOI : 10,4249 / scholarpedia.5947 . ISSN 1941-6016 . 
  46. ^ Markoff, Джон (23 ноября 2012). «Ученые видят перспективу в программах глубокого обучения» . Нью-Йорк Таймс .
  47. ^ Мартинес, H .; Bengio, Y .; Яннакакис, GN (2013). «Изучение глубинных физиологических моделей аффекта» . Журнал IEEE Computational Intelligence Magazine (Представленная рукопись). 8 (2): 20–33. DOI : 10.1109 / mci.2013.2247823 . S2CID 8088093 . 
  48. ^ Дж. Вэн, « Почему мы прошли« Нейронные сети плохо абстрагируются »? », Natural Intelligence: the INNS Magazine , vol. 2011. № 1. С. 13–22.
  49. Z. Ji, J. Weng и D. Prokhorov, " Where-What Network 1: Где и что помогают друг другу через нисходящие соединения ", Proc. 7-я Международная конференция по развитию и обучению (ICDL'08) , Монтерей, Калифорния, 9–12 августа, стр. 1–6, 2008 г.
  50. X. Wu, G. Guo и J. Weng, « Автономное развитие с закрытым черепом: WWN-7, имеющая дело с весами », Proc. Международная конференция по мозгу и разуму , 27–28 июля, Ист-Лансинг, Мичиган, стр. 1–9, 2013 г.

Внешние ссылки [ править ]

  • "Lecun 2019-7-11 ACM Tech Talk" . Документы Google . Проверено 13 февраля 2020 .