Из Википедии, бесплатной энциклопедии
  (Перенаправлено из рекуррентных нейронных сетей )
Перейти к навигации Перейти к поиску

Рецидивирующий нейронная сеть ( РННЫ ) является классом искусственных нейронных сетей , где соединение между узлами образуют ориентированный граф вдоль временной последовательности. Это позволяет ему демонстрировать динамическое поведение во времени. Полученные из нейронных сетей прямого распространения, RNN могут использовать свое внутреннее состояние (память) для обработки последовательностей входных данных переменной длины. [1] [2] [3] Это делает их применимыми для таких задач, как несегментированное, связанное распознавание рукописного ввода [4] или распознавание речи . [5] [6]

Термин «рекуррентная нейронная сеть» используется без разбора для обозначения двух широких классов сетей с аналогичной общей структурой, где одна - конечный импульс, а другой - бесконечный импульс . Оба класса сетей демонстрируют динамическое поведение во времени . [7] Конечная импульсная рекуррентная сеть - это направленный ациклический граф, который можно развернуть и заменить нейронной сетью со строго прямой связью, в то время как бесконечная импульсная рекуррентная сеть - это направленный циклический граф, который нельзя развернуть.

Как конечные импульсные, так и бесконечные импульсные рекуррентные сети могут иметь дополнительные сохраненные состояния, и хранилище может находиться под непосредственным контролем нейронной сети. Хранилище также может быть заменено другой сетью или графиком, если он включает временные задержки или имеет петли обратной связи. Такие контролируемые состояния называются стробированными состояниями или стробируемой памятью и являются частью сетей долгосрочной краткосрочной памяти (LSTM) и стробированных рекуррентных единиц . Это также называется нейронной сетью с обратной связью (FNN).

История [ править ]

Рекуррентные нейронные сети были основаны на работе Дэвида Рамелхарта в 1986 году. [8] Сети Хопфилда - особый вид RNN - были обнаружены Джоном Хопфилдом в 1982 году. В 1993 году система компрессора нейронной истории решила задачу «очень глубокого обучения». для этого потребовалось более 1000 последующих слоев в RNN, развернутых во времени. [9]

LSTM [ править ]

Сети с долговременной краткосрочной памятью (LSTM) были изобретены Хохрайтером и Шмидхубером в 1997 году и установили рекорды точности во многих областях применения. [10]

Примерно в 2007 году LSTM начала революцию в распознавании речи , превзойдя традиционные модели в некоторых речевых приложениях. [11] В 2009 году сеть LSTM, обученная по методологии Connectionist Temporal Classification (CTC), стала первой RNN, выигравшей соревнования по распознаванию образов, когда она выиграла несколько соревнований по распознаванию рукописного ввода . [12] [13] В 2014 году китайская компания Baidu использовала RNN, обученные CTC, чтобы преодолеть тест набора данных распознавания речи Switchboard Hub5'00 без использования каких-либо традиционных методов обработки речи. [14]

LSTM также улучшил распознавание речи с большим словарем [5] [6] и синтез текста в речь [15] и использовался в Google Android . [12] [16] По сообщениям, в 2015 году производительность распознавания речи Google резко выросла на 49% [ необходима цитата ] благодаря LSTM, обученному CTC. [17]

LSTM побил все рекорды по улучшению машинного перевода , [18] Язык моделирования [19] и многоязычные языка обработки. [20] LSTM в сочетании со сверточными нейронными сетями (CNN) улучшили автоматические титры изображений . [21] Учитывая накладные расходы на вычисления и память при запуске LSTM, были предприняты усилия по ускорению LSTM с помощью аппаратных ускорителей. [22]

Архитектура [ править ]

RNN бывают разных вариантов.

Полностью повторяющийся [ править ]

Развернутая базовая рекуррентная нейронная сеть

Полностью рекуррентные нейронные сети (FRNN) соединяют выходы всех нейронов со входами всех нейронов. Это наиболее общая топология нейронной сети, потому что все другие топологии могут быть представлены путем установки весов некоторых соединений на ноль для имитации отсутствия соединений между этими нейронами. Иллюстрация справа может ввести в заблуждение многих, потому что практические топологии нейронных сетей часто организованы в «слои», и рисунок дает такой вид. Однако то, что кажется слоями , на самом деле представляет собой разные шаги во времени одной и той же полностью рекуррентной нейронной сети. Крайний левый элемент на иллюстрации показывает повторяющиеся соединения в виде дуги с меткой «v». Он «разворачивается» во времени, чтобы создать вид слоев .

Сети Элмана и сети Джордана [ править ]

Сеть Эльмана

Эльман сеть представляет собой трехслойную сеть (расположены горизонтально , как х , у и г на рисунке) с добавлением множества контекстов единиц ( U на рисунке). Средний (скрытый) слой связан с этими блоками контекста с весом, равным единице. [23] На каждом временном шаге ввод передается вперед, и правило обученияприменяется. Фиксированные обратные соединения сохраняют копию предыдущих значений скрытых единиц в единицах контекста (поскольку они распространяются по соединениям до применения правила обучения). Таким образом, сеть может поддерживать своего рода состояние, позволяя ей выполнять такие задачи, как прогнозирование последовательности, которые выходят за рамки возможностей стандартного многослойного персептрона .

Сети Jordan похожи на сети Элмана. Единицы контекста загружаются из выходного слоя вместо скрытого. Блоки контекста в сети Иордании также называются уровнем состояния. У них есть постоянная связь с собой. [23]

Сети Элмана и Джордана также известны как «Простые рекуррентные сети» (SRN).

Сеть Эльмана [24]
Сеть в Иордании [25]

Переменные и функции

  • : входной вектор
  • : вектор скрытого слоя
  • : выходной вектор
  • , и : матрицы параметров и вектор
  • и : Функции активации

Хопфилд [ править ]

Сеть Хопфилда - это RNN, в которой все соединения симметричны. Он требует стационарных входов и, следовательно, не является обычной RNN, так как не обрабатывает последовательности шаблонов. Это гарантирует, что он сойдется. Если соединения обучаются с использованием обучения Hebbian, тогда сеть Hopfield может работать как надежная адресно-адресная память , устойчивая к изменению соединения.

Двунаправленная ассоциативная память [ править ]

Представленная Бартом Коско [26] сеть с двунаправленной ассоциативной памятью (BAM) представляет собой вариант сети Хопфилда, в которой ассоциативные данные хранятся в виде вектора. Двунаправленность возникает из-за прохождения информации через матрицу и ее транспонирования . Обычно биполярное кодирование предпочтительнее двоичного кодирования ассоциативных пар. Недавно стохастические модели BAM с использованием марковского шага были оптимизированы для повышения стабильности сети и соответствия реальным приложениям. [27]

Сеть BAM имеет два уровня, каждый из которых может использоваться как вход для вызова ассоциации и создания выходных данных на другом уровне. [28]

Состояние эха [ править ]

Сеть состояний эха (ESN) имеет редко связанный случайный скрытый слой. Веса выходных нейронов - единственная часть сети, которая может изменяться (обучаться). ESN хорошо воспроизводят определенные временные ряды . [29] Вариант импульсов нейронов известен как машина с жидким состоянием . [30]

Самостоятельно RNN (IndRNN) [ править ]

Независимо рекуррентная нейронная сеть (IndRNN) [31] решает проблемы исчезновения и увеличения градиента в традиционной полносвязной RNN. Каждый нейрон в одном слое получает только свое прошлое состояние в качестве контекстной информации (вместо полной связи со всеми другими нейронами в этом слое), и, таким образом, нейроны не зависят от истории друг друга. Обратное распространение градиента можно регулировать, чтобы избежать исчезновения и увеличения градиента, чтобы сохранить долгосрочную или краткосрочную память. Информация о кросс-нейронах исследуется на следующих уровнях. IndRNN можно надежно обучить с помощью ненасыщенных нелинейных функций, таких как ReLU. С помощью пропуска соединений можно обучать глубокие сети.

Рекурсивный [ править ]

Рекурсивная нейронная сеть [32] создается путем применения того же набора весов рекурсивны над дифференцируемым графом-подобной структурой путем обхода структуры в топологическом порядке . Такие сети обычно также обучаются с помощью обратного режима автоматического дифференцирования . [33] [34] Они могут обрабатывать распределенные представления структуры, такие как логические термины . Частным случаем рекурсивных нейронных сетей является РНС, структура которой соответствует линейной цепочке. Рекурсивные нейронные сети применялись для обработки естественного языка . [35]Рекурсивная нейронная тензорная сеть использует функцию композиции на основе тензора для всех узлов в дереве. [36]

Компрессор нейронной истории [ править ]

Компрессор нейронной истории представляет собой неконтролируемый стек RNN. [37] На уровне ввода он учится предсказывать свой следующий ввод на основе предыдущих вводов. Только непредсказуемые входы некоторой RNN в иерархии становятся входами для RNN следующего более высокого уровня, которая поэтому повторно вычисляет свое внутреннее состояние только изредка. Таким образом, каждая RNN более высокого уровня изучает сжатое представление информации в RNN ниже. Это делается таким образом, чтобы входная последовательность могла быть точно реконструирована из представления на самом высоком уровне.

Система эффективно минимизирует длину описания или отрицательный логарифм вероятности данных. [38] Учитывая большую предсказуемость обучения в последовательности входящих данных, RNN самого высокого уровня может использовать контролируемое обучение, чтобы легко классифицировать даже глубокие последовательности с длинными интервалами между важными событиями.

Можно разделить иерархию RNN на две RNN: «сознательный» блок (более высокий уровень) и «подсознательный» автоматизатор (более низкий уровень). [37] После того, как блокировка научилась предсказывать и сжимать входные данные, непредсказуемые автоматизатором, автоматизатор можно заставить на следующей фазе обучения предсказывать или имитировать с помощью дополнительных блоков скрытые блоки более медленно изменяющегося блока. Это позволяет автоматизатору легко запоминать подходящие, редко меняющиеся воспоминания через длительные промежутки времени. В свою очередь, это помогает автоматизатору сделать многие из его некогда непредсказуемых входных данных предсказуемыми, так что блок может сосредоточиться на оставшихся непредсказуемых событиях. [37]

Порождающая модель частично преодолела исчезающий градиент проблемы [39] из автоматического дифференцирования или обратного распространения в нейронных сетях в 1992 г. В 1993 г. такой система решена «Очень Глубокое изучение» задача , которые требуют более 1000 последующих слоев в РНН развернулась во время . [9]

РНС второго порядка [ править ]

RNN второго порядка используют веса более высокого порядка вместо стандартных , и состояния могут быть продуктом. Это позволяет выполнять прямое отображение на конечный автомат как в обучении, так и в стабильности и в представлении. [40] [41] Долговременная кратковременная память является примером этого, но не имеет таких формальных отображений или доказательства стабильности.

Кратковременная долговременная память [ править ]

Блок долговременной кратковременной памяти

Долгая краткосрочная память (LSTM) - это система глубокого обучения , которая позволяет избежать проблемы исчезающего градиента . LSTM обычно дополняется повторяющимися воротами, называемыми «воротами забывания». [42] LSTM предотвращает исчезновение или распространение ошибок с обратным распространением. [39] Вместо этого ошибки могут течь в обратном направлении через неограниченное количество виртуальных слоев, развернутых в пространстве. То есть LSTM может изучать задачи [12] , требующие воспоминаний о событиях, которые произошли на тысячи или даже миллионы дискретных временных шагов ранее. Топологии, подобные LSTM, могут быть разработаны для конкретных задач. [43] LSTM работает даже при больших задержках между важными событиями и может обрабатывать сигналы, в которых смешиваются низкочастотные и высокочастотные компоненты.

Многие приложения используют стеки LSTM RNN [44] и обучают их с помощью Connectionist Temporal Classification (CTC) [45], чтобы найти весовую матрицу RNN, которая максимизирует вероятность последовательностей меток в обучающем наборе, учитывая соответствующие входные последовательности. СТС добивается согласованности и признания.

LSTM может научиться распознавать контекстно-зависимые языки, в отличие от предыдущих моделей, основанных на скрытых марковских моделях (HMM) и подобных концепциях. [46]

Закрытый повторяющийся блок [ править ]

Закрытый рекуррентный блок

Стробирующие рекуррентные блоки (ГРУ) - это стробирующий механизм в рекуррентных нейронных сетях, представленных в 2014 году. Они используются в полной форме и в нескольких упрощенных вариантах. [47] [48] Их работа по моделированию полифонической музыки и моделирования речевых сигналов оказалась аналогичной работе с долговременной краткосрочной памятью. [49] У них меньше параметров, чем у LSTM, так как у них отсутствует выходной вентиль. [50]

Двунаправленный [ править ]

Двунаправленные RNN используют конечную последовательность для прогнозирования или маркировки каждого элемента последовательности на основе прошлого и будущего контекстов элемента. Это делается путем объединения выходных данных двух RNN, одна обрабатывает последовательность слева направо, а другая - справа налево. Комбинированные выходные данные - это предсказания заданных учителем целевых сигналов. Этот метод оказался особенно полезным в сочетании с LSTM RNN. [51] [52]

Непрерывное время [ править ]

Рекуррентная нейронная сеть с непрерывным временем (CTRNN) использует систему обыкновенных дифференциальных уравнений для моделирования воздействия на нейрон входящей последовательности импульсов.

Для нейрона в сети с активацией скорость изменения активации определяется выражением:

Где:

  •  : Постоянная времени постсинаптического узла
  •  : Активация постсинаптического узла
  •  : Скорость изменения активации постсинаптического узла.
  •  : Вес соединения от пре до постсинаптического узла
  •  : Сигмовидный элемент x, например .
  •  : Активация пресинаптического узла
  •  : Смещение пресинаптического узла.
  •  : Вход (если есть) в узел

CTRNN применялись в эволюционной робототехнике, где они использовались для решения проблем зрения, [53] сотрудничества [54] и минимального когнитивного поведения. [55]

Обратите внимание, что согласно теореме выборки Шеннона , рекуррентные нейронные сети с дискретным временем могут рассматриваться как рекуррентные нейронные сети с непрерывным временем, в которых дифференциальные уравнения преобразованы в эквивалентные разностные уравнения . [56] Это преобразование может рассматриваться как происходящее после того, как функции активации постсинаптического узла были отфильтрованы низкими частотами, но до отбора проб.

Иерархический [ править ]

Иерархические RNN соединяют свои нейроны различными способами, чтобы разложить иерархическое поведение на полезные подпрограммы. [37] [57] Такие иерархические структуры познания присутствуют в теориях памяти, представленных философом Анри Бергсоном , чьи философские взгляды вдохновили иерархические модели. [58]

Рекуррентная многослойная сеть персептронов [ править ]

Как правило, сеть рекуррентной многослойной сети персептронов (RMLP) состоит из каскадных подсетей, каждая из которых содержит несколько уровней узлов. Каждая из этих подсетей является прямой, за исключением последнего уровня, который может иметь обратные связи. Каждая из этих подсетей соединена только прямыми соединениями. [59]

Модель с несколькими временными шкалами [ править ]

Рекуррентная нейронная сеть с несколькими временными шкалами (MTRNN) - это нейронная вычислительная модель, которая может моделировать функциональную иерархию мозга посредством самоорганизации, которая зависит от пространственной связи между нейронами и от различных типов активности нейронов, каждый из которых имеет свои временные свойства. [60] [61] При таком разнообразии нейронной активности непрерывные последовательности любого набора поведений сегментируются в примитивы многократного использования, которые, в свою очередь, гибко интегрируются в различные последовательные поведения. Биологическое одобрение такого типа иерархии обсуждалось в теории предсказания функций мозга Хокинса в его книге « Об интеллекте» . [ необходима цитата ]Такая иерархия также согласуется с теориями памяти, выдвинутыми философом Анри Бергсоном , которые были включены в модель MTRNN. [62] [63]

Нейронные машины Тьюринга [ править ]

Нейронные машины Тьюринга (NTM) - это метод расширения рекуррентных нейронных сетей путем связывания их с внешними ресурсами памяти, с которыми они могут взаимодействовать посредством процессов внимания . Комбинированная система аналогична машине Тьюринга или архитектуре фон Неймана, но отличается сквозной дифференциацией , что позволяет эффективно обучать ее с помощью градиентного спуска . [64]

Дифференцируемый нейронный компьютер [ править ]

Дифференцируемые нейронные компьютеры (DNC) - это расширение нейронных машин Тьюринга, позволяющее использовать нечеткие объемы каждого адреса памяти и запись хронологии.

Автоматические выталкивающие устройства нейронной сети [ править ]

Нейронные сети выталкивающих автоматов (NNPDA) похожи на NTM, но ленты заменяются аналоговыми стеками, которые дифференцируются и обучаются. В этом смысле они похожи по сложности на распознаватели контекстно-свободных грамматик (CFG). [65]

Memristive Networks [ править ]

Грег Снайдер из HP Labs описывает систему корковых вычислений с мемристивными наноустройствами. [66] В пизасторах (резисторы памяти) реализованы с помощью тонких пленочных материалов , в которых сопротивление электрический настроенные с помощью переноса ионов или вакансий кислорода внутри пленки. DARPA «s Проект Synapse финансировала IBM Research и HP Labs в сотрудничестве с Университетом Департамента Бостонского когнитивных и нейронных систем (ЦНС), для разработки neuromorphic архитектуры , которые могут быть основаны на memristive системах. Мемристивные сети - это особый тип физической нейронной сети.которые имеют очень похожие свойства на (Литтл-) сети Хопфилда, поскольку они имеют непрерывную динамику, имеют ограниченный объем памяти и естественным образом расслабляются за счет минимизации функции, которая является асимптотической по отношению к модели Изинга. В этом смысле динамика мемристической схемы имеет преимущество по сравнению с схемой резистор-конденсатор в том, что она имеет более интересное нелинейное поведение. С этой точки зрения разработка аналоговых мемристивных сетей представляет собой особый тип нейроморфной инженерии, в которой поведение устройства зависит от схемы подключения или топологии.[67] [68]

Обучение [ править ]

Градиентный спуск [ править ]

Градиентный спуск - это итеративный алгоритм оптимизации первого порядка для поиска минимума функции. В нейронных сетях, он может быть использован , чтобы свести к минимуму ошибки термина, изменяя каждый вес в пропорции к производному от ошибки по отношению к этой массе, при условии , что нелинейные функции активаций являются дифференцируемы . Различные методы для этого были разработаны в 1980-х и начале 1990-х годов Вербосом , Уильямсом , Робинсоном , Шмидхубером , Хохрайтером , Перлмуттером и другими.

Стандартный метод называется « обратное распространение во времени » или BPTT и является обобщением обратного распространения для сетей с прямой связью. [69] [70] Подобно этому методу, это пример автоматического дифференцирования в режиме обратного накопления принципа минимума Понтрягина . Более затратный с точки зрения вычислений онлайн-вариант называется «Рекуррентное обучение в реальном времени» или RTRL [71] [72], который представляет собой пример автоматического дифференцирования в режиме прямого накопления со сложенными касательными векторами. В отличие от BPTT, этот алгоритм является локальным во времени, но не локальным в пространстве.

В этом контексте локальный в пространстве означает, что вектор весов единицы может быть обновлен с использованием только информации, хранящейся в подключенных единицах и самой единице, так что сложность обновления отдельной единицы линейна по размерности вектора весов. Локальный по времени означает, что обновления происходят постоянно (онлайн) и зависят только от самого последнего временного шага, а не от нескольких временных шагов в пределах заданного временного горизонта, как в BPTT. Биологические нейронные сети кажутся локальными как во времени, так и в пространстве. [73] [74]

Для рекурсивного вычисления частных производных RTRL имеет временную сложность O (количество скрытых x, количество весов) за временной шаг для вычисления якобианских матриц , в то время как BPTT принимает только O (количество весов) за временной шаг, за счет запоминания всех последующих активаций в пределах заданного временного горизонта. [75] Существует онлайн-гибрид между BPTT и RTRL с промежуточной сложностью, [76] [77] вместе с вариантами для непрерывного времени. [78]

Основная проблема с градиентным спуском для стандартных архитектур RNN заключается в том, что градиенты ошибок исчезают экспоненциально быстро с увеличением временного интервала между важными событиями. [39] [79] LSTM в сочетании с гибридным методом обучения BPTT / RTRL пытается решить эти проблемы. [10] Эта проблема также решается в независимой рекуррентной нейронной сети (IndRNN) [31] за счет сведения контекста нейрона к его собственному прошлому состоянию, а информация о кросс-нейронах может быть затем исследована на следующих уровнях. Воспоминания различного диапазона, включая долговременную память, могут быть изучены без проблемы исчезновения и взрыва градиента.

Он-лайн алгоритм, называемый причинно-рекурсивным обратным распространением (CRBP), реализует и объединяет парадигмы BPTT и RTRL для локально рекуррентных сетей. [80] Он работает с наиболее общими локально повторяющимися сетями. Алгоритм CRBP может минимизировать глобальную ошибку. Этот факт повышает стабильность алгоритма, обеспечивая единый взгляд на методы расчета градиента для рекуррентных сетей с локальной обратной связью.

Один из подходов к вычислению градиентной информации в RNN с произвольной архитектурой основан на схематическом выводе графов потоков сигналов. [81] Он использует пакетный алгоритм BPTT, основанный на теореме Ли для расчета чувствительности сети. [82] Его предложили Ван и Бофайс, а его быстрая онлайн-версия была предложена Камполуччи, Унчини и Пьяцца. [82]

Методы глобальной оптимизации [ править ]

Обучение весов в нейронной сети можно смоделировать как задачу нелинейной глобальной оптимизации . Целевая функция может быть сформирована для оценки соответствия или ошибки конкретного вектора весов следующим образом: сначала веса в сети устанавливаются в соответствии с вектором весов. Затем сеть сравнивается с обучающей последовательностью. Обычно сумма квадратов разности между предсказаниями и целевыми значениями, указанными в обучающей последовательности, используется для представления ошибки текущего вектора весовых коэффициентов. Затем можно использовать произвольные методы глобальной оптимизации для минимизации этой целевой функции.

Наиболее распространенный метод глобальной оптимизации для обучения RNN - это генетические алгоритмы , особенно в неструктурированных сетях. [83] [84] [85]

Первоначально генетический алгоритм кодируется с помощью весов нейронной сети предопределенным образом, где один ген в хромосоме представляет одну весовую связь. Вся сеть представлена ​​в виде одной хромосомы. Фитнес-функция оценивается следующим образом:

  • Каждый вес, закодированный в
назначается соответствующему весовому звену сети.
  • Обучающий набор передается в сеть, которая распространяет входные сигналы вперед.
  • Среднеквадратичная ошибка возвращается в фитнес-функцию.
  • Эта функция управляет процессом генетического отбора.

Многие хромосомы составляют популяцию; поэтому многие разные нейронные сети развиваются до тех пор, пока не будет удовлетворен критерий остановки. Распространенная схема остановки:

  • Когда нейронная сеть изучила определенный процент обучающих данных или
  • Когда минимальное значение среднеквадратичной ошибки удовлетворяется или
  • Когда достигнуто максимальное количество обучающих поколений.

Критерий остановки оценивается функцией приспособленности, поскольку она получает обратную величину среднеквадратичной ошибки от каждой сети во время обучения. Следовательно, цель генетического алгоритма - максимизировать функцию приспособленности, уменьшая среднеквадратичную ошибку.

Другие глобальные (и / или эволюционные) методы оптимизации могут использоваться для поиска хорошего набора весов, таких как имитация отжига или оптимизация роя частиц .

Связанные поля и модели [ править ]

RNN могут вести себя хаотично . В таких случаях для анализа может использоваться теория динамических систем .

На самом деле это рекурсивные нейронные сети с определенной структурой: линейной цепочкой. В то время как рекурсивные нейронные сети работают с любой иерархической структурой, объединяя дочерние представления в родительские представления, рекуррентные нейронные сети работают с линейной прогрессией времени, комбинируя предыдущий временной шаг и скрытое представление в представление для текущего временного шага.

В частности, RNN могут появляться как нелинейные версии фильтров с конечной импульсной характеристикой и бесконечной импульсной характеристикой, а также как нелинейная авторегрессионная экзогенная модель (NARX). [86]

Библиотеки [ править ]

  • Apache Singa
  • Кафе : Создано Центром изучения и видения Беркли (BVLC). Он поддерживает как CPU, так и GPU. Разработан на C ++ и имеет оболочки Python и MATLAB .
  • Chainer : первая стабильная библиотека глубокого обучения, поддерживающая динамические нейронные сети, определяемые по запуску. Полностью на Python, производственная поддержка CPU, GPU, распределенное обучение.
  • Deeplearning4j : глубокое обучение на Java и Scala на Spark с поддержкой нескольких графических процессоров . Универсальная библиотека глубокого обучения для производственного стека JVM, работающая на механизме научных вычислений C ++ . Позволяет создавать собственные слои. Интегрируется с Hadoop и Kafka .
  • Dynet : набор инструментов для динамических нейронных сетей.
  • Flux : включает интерфейсы для RNN, включая GRU и LSTM, написанные на Julia .
  • Keras : высокоуровневый, простой в использовании API, обеспечивающий оболочку для многих других библиотек глубокого обучения.
  • Microsoft Cognitive Toolkit
  • MXNet : современная среда глубокого обучения с открытым исходным кодом, используемая для обучения и развертывания глубоких нейронных сетей.
  • Paddle Paddle ( https://github.com/paddlepaddle/paddle ): PaddlePaddle (параллельное распределенное глубокое обучение) - это платформа глубокого обучения, которая изначально была разработана учеными и инженерами Baidu с целью применения глубокого обучения ко многим продуктам Baidu. .
  • PyTorch : тензорные и динамические нейронные сети на Python с сильным ускорением графического процессора.
  • TensorFlow : Theano-подобная библиотека под лицензией Apache 2.0 с поддержкой CPU, GPU и патентованного TPU Google , [87] мобильный
  • Theano : эталонная библиотека глубокого обучения для Python с API, в значительной степени совместимая с популярной библиотекой NumPy . Позволяет пользователю писать символьные математические выражения, а затем автоматически генерировать их производные, избавляя пользователя от необходимости кодировать градиенты или обратное распространение. Эти символьные выражения автоматически компилируются в код CUDA для быстрой реализации на GPU.
  • Torch ( www.torch.ch ): научная вычислительная среда с широкой поддержкой алгоритмов машинного обучения, написанная на C и lua . Основным автором является Ронан Коллобер, и теперь он используется в Facebook AI Research и Twitter.

Приложения [ править ]

Приложения рекуррентных нейронных сетей включают:

  • Машинный перевод [18]
  • Управление роботом [88]
  • Прогнозирование временных рядов [89] [90] [91]
  • Распознавание речи [92] [93] [94]
  • Синтез речи [95]
  • Обнаружение аномалий временных рядов [96]
  • Обучение ритму [97]
  • Музыкальное произведение [98]
  • Изучение грамматики [99] [100] [101]
  • Распознавание рукописного ввода [102] [103]
  • Признание деятельности человека [104]
  • Обнаружение гомологии белков [105]
  • Предсказание субклеточной локализации белков [52]
  • Несколько задач прогнозирования в области управления бизнес-процессами [106]
  • Прогнозирование путей оказания медицинской помощи [107]

Ссылки [ править ]

  1. ^ Dupond, Самуэль (2019). «Подробный обзор современного развития нейронных сетевых структур» . Ежегодные обзоры под контролем . 14 : 200–230.
  2. ^ Abiodun, Oludare Исаак; Джантан, Аман; Омолара, Абиодун Эстер; Дада, Кеми Виктория; Мохамед, Начаат Абделатиф; Аршад, Хумаира (01.11.2018). «Современное состояние приложений искусственных нейронных сетей: обзор» . Гелион . 4 (11): e00938. DOI : 10.1016 / j.heliyon.2018.e00938 . ISSN 2405-8440 . PMC 6260436 . PMID 30519653 .   
  3. ^ Тилаб, Ахмед (2018-12-01). «Прогнозирование временных рядов с использованием методологий искусственных нейронных сетей: систематический обзор» . Журнал «Вычислительная техника и информатика будущего» . 3 (2): 334–340. DOI : 10.1016 / j.fcij.2018.10.003 . ISSN 2314-7288 . 
  4. Грейвс, Алекс ; Ливицки, Маркус; Фернандес, Сантьяго; Бертолами, Роман; Бунке, Хорст; Шмидхубер, Юрген (2009). «Новая система коннекционистов для улучшения неограниченного распознавания рукописного ввода» (PDF) . IEEE Transactions по анализу шаблонов и машинному анализу . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . DOI : 10.1109 / tpami.2008.137 . PMID 19299860 . S2CID 14635907 .    
  5. ^ а б Сак, Хашим; Старший, Андрей; Бофай, Франсуаза (2014). «Рекуррентные архитектуры нейронных сетей с кратковременной памятью для крупномасштабного акустического моделирования» (PDF) .
  6. ^ а б Ли, Сянган; У, Сихун (2014-10-15). «Построение глубоких рекуррентных нейронных сетей на основе кратковременной памяти для распознавания речи с большим словарным запасом». arXiv : 1410.4281 [ cs.CL ].
  7. ^ Miljanović, Милош (февраль-март 2012). "Сравнительный анализ нейронных сетей с рекуррентным и конечным импульсным откликом в прогнозировании временных рядов" (PDF) . Индийский журнал компьютеров и инженерии . 3 (1).
  8. ^ Уильямс, Рональд Дж .; Хинтон, Джеффри Э .; Румелхарт, Дэвид Э. (октябрь 1986 г.). «Изучение представлений путем обратного распространения ошибок». Природа . 323 (6088): 533–536. Bibcode : 1986Natur.323..533R . DOI : 10.1038 / 323533a0 . ISSN 1476-4687 . S2CID 205001834 .  
  9. ^ a b Шмидхубер, Юрген (1993). Докторская диссертация: Системное моделирование и оптимизация (PDF) . Страница 150 и далее демонстрирует присвоение кредитов по эквиваленту 1200 уровней в развернутой RNN.
  10. ^ a b Хохрайтер, Зепп ; Шмидхубер, Юрген (1 ноября 1997 г.). «Кратковременная долговременная память». Нейронные вычисления . 9 (8): 1735–1780. DOI : 10.1162 / neco.1997.9.8.1735 . PMID 9377276 . S2CID 1915014 .  
  11. ^ Фернандес, Сантьяго; Грейвс, Алекс; Шмидхубер, Юрген (2007). Применение рекуррентных нейронных сетей для распознавания ключевых слов . Материалы 17-й Международной конференции по искусственным нейронным сетям . ICANN'07. Берлин, Гейдельберг: Springer-Verlag. С. 220–229. ISBN 978-3-540-74693-5.
  12. ^ a b c Шмидхубер, Юрген (январь 2015 г.). «Глубокое обучение в нейронных сетях: обзор». Нейронные сети . 61 : 85–117. arXiv : 1404,7828 . DOI : 10.1016 / j.neunet.2014.09.003 . PMID 25462637 . S2CID 11715509 .  
  13. Грейвс, Алекс; Шмидхубер, Юрген (2009). Бенхио, Йошуа; Шурманс, Дейл; Лафферти, Джон; Уильямс, Крис редактор-KI; Кулотта, Арон (ред.). «Автономное распознавание рукописного ввода с помощью многомерных рекуррентных нейронных сетей» . Фонд нейронных систем обработки информации (NIPS): 545–552. Cite journal requires |journal= (help)
  14. ^ Ханнун, Авни; Кейс, Карл; Каспер, Джаред; Катандзаро, Брайан; Диамос, Грег; Эльзен, Эрих; Пренгер, Райан; Сатиш, Санджив; Сенгупта, Шубхо (17 декабря 2014 г.). «Глубокая речь: масштабирование сквозного распознавания речи». arXiv : 1412.5567 [ cs.CL ].
  15. ^ Фан, Бо; Ван, Лицзюань; Сунг, Фрэнк К .; Се, Лэй (2015) «Фотореалистичная говорящая голова с глубоким двунаправленным LSTM», в материалах ICASSP 2015
  16. ^ Дзен, Хейга; Сак, Хашим (2015). «Однонаправленная рекуррентная нейронная сеть с долговременной краткосрочной памятью с рекуррентным выходным слоем для синтеза речи с малой задержкой» (PDF) . Google.com . ICASSP. С. 4470–4474.
  17. ^ Сак, Хашим; Старший, Андрей; Рао, Канишка; Бофейс, Франсуаза; Шалквик, Йохан (сентябрь 2015 г.). «Голосовой поиск Google: быстрее и точнее» .
  18. ^ a b Суцкевер Илья; Виньялс, Ориол; Ле, Куок В. (2014). «Последовательность для последовательного обучения с помощью нейронных сетей» (PDF) . Электронные материалы конференции по системам обработки нейронной информации . 27 : 5346. arXiv : 1409.3215 . Bibcode : 2014arXiv1409.3215S .
  19. ^ Юзефович, Рафал; Виньялс, Ориол; Шустер, Майк; Шазир, Ноам; У Юнхуэй (07.02.2016). «Изучение границ языкового моделирования». arXiv : 1602.02410 [ cs.CL ].
  20. ^ Гиллик, Дэн; Бранк, Клифф; Виньялс, Ориол; Субраманья, Амарнаг (30 ноября 2015 г.). «Многоязычная обработка байтов». arXiv : 1512.00103 [ cs.CL ].
  21. ^ Виньялс, Ориол; Тошев Александр; Бенджио, Сами; Эрхан, Думитру (17 ноября 2014 г.). «Покажи и расскажи: генератор заголовков нейронных изображений». arXiv : 1411.4555 [ cs.CV ].
  22. ^ «Обзор аппаратных ускорителей и методов оптимизации для RNN», JSA, 2020 PDF
  23. ^ a b Круз, Холк; Нейронные сети как кибернетические системы , 2-е и исправленное издание
  24. ^ Эльман, Джеффри Л. (1990). «Нахождение структуры во времени» . Когнитивная наука . 14 (2): 179–211. DOI : 10.1016 / 0364-0213 (90) 90002-E .
  25. ^ Джордан, Майкл I. (1997-01-01). «Последовательный порядок: подход с параллельной распределенной обработкой». Нейросетевые модели познания - биоповеденческие основы . Успехи в психологии . Нейросетевые модели познания. 121 . С. 471–495. DOI : 10.1016 / s0166-4115 (97) 80111-2 . ISBN 9780444819314.
  26. ^ Коско, Барт (1988). «Двунаправленные ассоциативные воспоминания». IEEE Transactions по системам, человеку и кибернетике . 18 (1): 49–60. DOI : 10.1109 / 21.87054 . S2CID 59875735 . 
  27. ^ Rakkiyappan, Rajan; Чандрасекар, Аруначалам; Лакшманан, Субраманиан; Пак, Джу Х. (2 января 2015 г.). «Экспоненциальная устойчивость для марковских скачкообразных стохастических нейронных сетей BAM с зависимыми от режима вероятностными изменяющимися во времени задержками и импульсным управлением». Сложность . 20 (3): 39–65. Bibcode : 2015Cmplx..20c..39R . DOI : 10.1002 / cplx.21503 .
  28. ^ Рохас, Рауль (1996). Нейронные сети: систематическое введение . Springer. п. 336. ISBN. 978-3-540-60505-8.
  29. ^ Jaeger, Герберт; Хаас, Харальд (2004-04-02). «Использование нелинейности: прогнозирование хаотических систем и экономия энергии в беспроводной связи». Наука . 304 (5667): 78–80. Bibcode : 2004Sci ... 304 ... 78J . CiteSeerX 10.1.1.719.2301 . DOI : 10.1126 / science.1091277 . PMID 15064413 . S2CID 2184251 .   
  30. ^ Маасс, Вольфганг; Натшлегер, Томас; Маркрам, Генри (20 августа 2002). «Новый взгляд на вычисления в реальном времени в общих рекуррентных нейронных цепях». Технический отчет. Институт теоретической информатики, Технический университет Граца. Cite journal requires |journal= (help)
  31. ^ а б Ли, Шуай; Ли, Ванцин; Кук, Крис; Zhu, Ce; Янбо, Гао (2018). «Независимо рекуррентная нейронная сеть (IndRNN): создание более длинной и глубокой RNN». arXiv : 1803.04831 [ cs.CV ].
  32. ^ Голлер, Кристоф; Кюхлер, Андреас (1996). Изучение распределенных представлений, зависящих от задачи, путем обратного распространения через структуру . Международная конференция IEEE по нейронным сетям . 1 . п. 347. CiteSeerX 10.1.1.52.4759 . DOI : 10.1109 / ICNN.1996.548916 . ISBN  978-0-7803-3210-2. S2CID  6536466 .
  33. ^ Linnainmaa, Сеппо (1970). Представление совокупной ошибки округления алгоритма в виде разложения Тейлора локальных ошибок округления . M.Sc. защитил диссертацию (на финском языке) в Хельсинкском университете.
  34. ^ Griewank, Andreas; Вальтер, Андреа (2008). Оценка производных: принципы и методы алгоритмической дифференциации (второе изд.). СИАМ. ISBN 978-0-89871-776-1.
  35. ^ Socher, Ричард; Лин, Клифф; Ng, Andrew Y .; Маннинг, Кристофер Д., «Анализ естественных сцен и естественного языка с помощью рекурсивных нейронных сетей» (PDF) , 28-я Международная конференция по машинному обучению (ICML 2011)
  36. ^ Socher, Ричард; Перелыгин Алексей; Wu, Jean Y .; Чуанг, Джейсон; Мэннинг, Кристофер Д.; Ng, Andrew Y .; Поттс, Кристофер. «Рекурсивные глубинные модели для семантической композиционности по банку дерева настроений» (PDF) . Emnlp 2013 .
  37. ^ a b c d Шмидхубер, Юрген (1992). «Изучение сложных, расширенных последовательностей с использованием принципа сжатия истории» (PDF) . Нейронные вычисления . 4 (2): 234–242. DOI : 10.1162 / neco.1992.4.2.234 . S2CID 18271205 .  
  38. ^ Шмидхубер, Юрген (2015). «Глубокое обучение» . Scholarpedia . 10 (11): 32832. Bibcode : 2015SchpJ..1032832S . DOI : 10,4249 / scholarpedia.32832 .
  39. ^ a b c Hochreiter, Sepp (1991), Untersuchungen zu Dynamischen Neuronalen Netzen , дипломная работа, Institut f. Informatik, Technische Univ. Мюнхен, советник Юрген Шмидхубер
  40. ^ Джайлз, К. Ли; Миллер, Клиффорд Б .; Чен, Донг; Чен, Синь-Хен; Сунь, Го-Чжэн; Ли, Йи-Чун (1992). «Изучение и извлечение конечных автоматов с рекуррентными нейронными сетями второго порядка» (PDF) . Нейронные вычисления . 4 (3): 393–405. DOI : 10.1162 / neco.1992.4.3.393 . S2CID 19666035 .  
  41. ^ Омлин, Кристиан В .; Джайлз, К. Ли (1996). «Построение детерминированных конечных автоматов в рекуррентных нейронных сетях». Журнал ACM . 45 (6): 937–972. CiteSeerX 10.1.1.32.2364 . DOI : 10.1145 / 235809.235811 . S2CID 228941 .  
  42. ^ Gers, Felix A .; Schraudolph, Nicol N .; Шмидхубер, Юрген (2002). «Изучение точного времени с помощью рекуррентных сетей LSTM» (PDF) . Журнал исследований машинного обучения . 3 : 115–143 . Проверено 13 июня 2017 .
  43. ^ Байер, Джастин; Виерстра, Даан; Тогелиус, Юлиан; Шмидхубер, Юрген (14 сентября 2009 г.). Развивающиеся структуры ячеек памяти для последовательного обучения (PDF) . Искусственные нейронные сети - ICANN 2009 . Конспект лекций по информатике. 5769 . Берлин, Гейдельберг: Springer. С. 755–764. DOI : 10.1007 / 978-3-642-04277-5_76 . ISBN  978-3-642-04276-8.
  44. ^ Фернандес, Сантьяго; Грейвс, Алекс; Шмидхубер, Юрген (2007). «Маркировка последовательностей в структурированных доменах с иерархическими рекуррентными нейронными сетями». Proc. 20-я международная совместная конференция по искусственному контролю, Иджчай, 2007 : 774–779. CiteSeerX 10.1.1.79.1887 . 
  45. Грейвс, Алекс; Фернандес, Сантьяго; Гомес, Фаустино Дж. (2006). «Временная классификация коннекционистов: маркировка несегментированных данных последовательности с помощью рекуррентных нейронных сетей». Труды Международной конференции по машинному обучению : 369–376. CiteSeerX 10.1.1.75.6306 . 
  46. ^ Gers, Felix A .; Шмидхубер, Юрген (ноябрь 2001 г.). «Рекуррентные сети LSTM изучают простые контекстно-зависимые и контекстно-зависимые языки» . IEEE-транзакции в нейронных сетях . 12 (6): 1333–1340. DOI : 10.1109 / 72.963769 . ISSN 1045-9227 . PMID 18249962 . S2CID 10192330 .   
  47. ^ Черт возьми, Джоэл; Салем, Фатхи М. (12 января 2017 г.). «Упрощенные минимальные вариации стробированных единиц для рекуррентных нейронных сетей». arXiv : 1701.03452 [ cs.NE ].
  48. ^ Дей, Рахул; Салем, Фатхи М. (20 января 2017 г.). "Gate-варианты нейронных сетей Gated Recurrent Unit (GRU)". arXiv : 1701.05923 [ cs.NE ].
  49. ^ Чунг, Чжунён; Гульчере, Чаглар; Чо, Кён Хён; Бенжио, Йошуа (2014). «Эмпирическая оценка стробированных рекуррентных нейронных сетей при моделировании последовательности». arXiv : 1412.3555 [ cs.NE ].
  50. ^ Бритц, Денни (27 октября 2015). «Учебное пособие по рекуррентным нейронным сетям, часть 4 - Реализация GRU / LSTM RNN с Python и Theano - WildML» . Wildml.com . Проверено 18 мая, 2016 .
  51. Грейвс, Алекс; Шмидхубер, Юрген (1 июля 2005 г.). «Покадровая классификация фонем с двунаправленным LSTM и другими архитектурами нейронных сетей». Нейронные сети . IJCNN 2005. 18 (5): 602–610. CiteSeerX 10.1.1.331.5800 . DOI : 10.1016 / j.neunet.2005.06.042 . PMID 16112549 .  
  52. ^ а б Тиреу, Триас; Рецко, Мартин (июль 2007 г.). «Двунаправленные сети долгосрочной краткосрочной памяти для прогнозирования субклеточной локализации эукариотических белков». Протоколы IEEE / ACM по вычислительной биологии и биоинформатике . 4 (3): 441–446. DOI : 10.1109 / tcbb.2007.1015 . PMID 17666763 . S2CID 11787259 .  
  53. ^ Харви, Инман; Мужья, Фил; Клифф, Дэйв (1994), «Увидеть свет: искусственная эволюция, реальное видение» , 3-я международная конференция по моделированию адаптивного поведения: от животных к аниматам 3 , стр. 392–401
  54. ^ Куинн, Мэтью (2001). «Развитие коммуникации без выделенных каналов связи». Успехи в искусственной жизни . Конспект лекций по информатике. 2159 . С. 357–366. CiteSeerX 10.1.1.28.5890 . DOI : 10.1007 / 3-540-44811-X_38 . ISBN  978-3-540-42567-0. Отсутствует или пусто |title=( справка )
  55. Перейти ↑ Beer, Randall D. (1997). «Динамика адаптивного поведения: исследовательская программа». Робототехника и автономные системы . 20 (2–4): 257–289. DOI : 10.1016 / S0921-8890 (96) 00063-2 .
  56. ^ Шерстинский, Алекс (2018-12-07). Блум-Редди, Бенджамин; Пейдж, Брукс; Куснер, Мэтт; Каруана, Рич; Рейнфорт, Том; Тех, Йи Уай (ред.). Получение определения рекуррентной нейронной сети и развертывание RNN с использованием обработки сигналов . Воркшоп «Критика и коррекция тенденций в машинном обучении» на NeurIPS-2018 .
  57. ^ Пейн, Райнер W .; Тани, июн (01.09.2005). «Как самоорганизуется иерархическое управление в искусственных адаптивных системах». Адаптивное поведение . 13 (3): 211–225. DOI : 10.1177 / 105971230501300303 . S2CID 9932565 . 
  58. ^ "Бернс, Бенюро, Тани (2018) Адаптивная постоянная времени, вдохновленная Бергсоном для модели рекуррентной нейронной сети с несколькими временными масштабами. JNNS" .
  59. ^ Tutschku, Курт (июнь 1995 года). Рекуррентные многослойные персептроны для идентификации и управления: путь к приложениям . Отчет об исследованиях Института компьютерных наук. 118 . Университет Вюрцбурга на Хубланде. CiteSeerX 10.1.1.45.3527 . CS1 maint: date and year (link)
  60. ^ Ямасита, Юичи; Тани, июн (07.11.2008). «Появление функциональной иерархии в модели нейронной сети с несколькими временными шкалами: эксперимент с гуманоидным роботом» . PLOS Вычислительная биология . 4 (11): e1000220. Bibcode : 2008PLSCB ... 4E0220Y . DOI : 10.1371 / journal.pcbi.1000220 . PMC 2570613 . PMID 18989398 .  
  61. ^ Альнаджар Fady; Ямасита, Юичи; Тани, июн (2013). «Иерархическая и функциональная взаимосвязь когнитивных механизмов более высокого порядка: нейроботическая модель для исследования стабильности и гибкости рабочей памяти» . Границы нейроробототехники . 7 : 2. дои : 10,3389 / fnbot.2013.00002 . PMC 3575058 . PMID 23423881 .  
  62. ^ "Бернс, Бенюро, Тани (2018) Адаптивная постоянная времени, вдохновленная Бергсоном для модели рекуррентной нейронной сети с несколькими временными масштабами. JNNS" .
  63. ^ «Труды 28-й ежегодной конференции Японского общества нейронных сетей (октябрь 2018 г.)» (PDF) .
  64. Грейвс, Алекс; Уэйн, Грег; Данихелка, Иво (2014). «Нейронные машины Тьюринга». arXiv : 1410.5401 [ cs.NE ].
  65. Сунь, Го-Чжэн; Джайлз, К. Ли; Чен, Син-Хен (1998). «Автомат нейронной сети: архитектура, динамика и обучение». В Джайлсе, К. Ли; Гори, Марко (ред.). Адаптивная обработка последовательностей и структур данных . Конспект лекций по информатике. Берлин, Гейдельберг: Springer. С. 296–345. CiteSeerX 10.1.1.56.8723 . DOI : 10.1007 / bfb0054003 . ISBN  9783540643418.
  66. ^ Снайдер, Грег (2008), "Кортикальные вычисления с мемристическими наноустройствами" , Sci-DAC Review , 10 : 58–65
  67. ^ Каравелли, Франческо; Траверса, Фабио Лоренцо; Ди Вентра, Массимилиано (2017). «Сложная динамика мемристических схем: аналитические результаты и универсальная медленная релаксация». Physical Review E . 95 (2): 022140. arXiv : 1608.08651 . Bibcode : 2017PhRvE..95b2140C . DOI : 10.1103 / PhysRevE.95.022140 . PMID 28297937 . S2CID 6758362 .  
  68. ^ Caravelli, Франческо (2019-11-07). «Асимптотическое поведение мемристических цепей» . Энтропия . 21 (8): 789. Bibcode : 2019Entrp..21..789C . DOI : 10.3390 / e21080789 . ЧВК 789 . PMID 33267502 .  
  69. ^ Werbos, Paul J. (1988). «Обобщение обратного распространения ошибки применительно к повторяющейся модели газового рынка» . Нейронные сети . 1 (4): 339–356. DOI : 10.1016 / 0893-6080 (88) 90007-х .
  70. ^ Rumelhart, David E. (1985). Изучение внутренних представлений путем распространения ошибок . Сан-Диего (Калифорния): Институт когнитивных наук Калифорнийского университета.
  71. ^ Робинсон, Энтони Дж .; Фолсайд, Фрэнк (1987). Сеть распространения динамических ошибок, управляемая служебными программами . Технический отчет CUED / F-INFENG / TR.1. Департамент инженерии Кембриджского университета.
  72. ^ Уильямс, Рональд Дж .; Ципсер, Д. (1 февраля 2013 г.). «Алгоритмы обучения на основе градиентов для рекуррентных сетей и их вычислительная сложность». В Шовене, Ив; Румелхарт, Дэвид Э. (ред.). Обратное распространение: теория, архитектура и приложения . Психология Press. ISBN 978-1-134-77581-1.
  73. ^ Шмидхубер, Юрген (1989-01-01). «Локальный алгоритм обучения для динамических сетей с прямой связью и рекуррентных сетей». Связь науки . 1 (4): 403–412. DOI : 10.1080 / 09540098908915650 . S2CID 18721007 . 
  74. ^ Príncipe, José C .; Euliano, Neil R .; Лефевр, В. Курт (2000). Нейронные и адаптивные системы: основы моделирования . Вайли. ISBN 978-0-471-35167-2.
  75. ^ Янн, Оливье; Таллек, Корентин; Шарпи, Гийом (28 июля 2015). «Обучение рекуррентных сетей в режиме онлайн без возврата». arXiv : 1507.07680 [ cs.NE ].
  76. ^ Шмидхубер, Юрген (1992-03-01). «Алгоритм обучения с фиксированным размером хранилища O (n3) времени для полностью рекуррентных, постоянно работающих сетей». Нейронные вычисления . 4 (2): 243–248. DOI : 10.1162 / neco.1992.4.2.243 . S2CID 11761172 . 
  77. ^ Уильямс, Рональд Дж. (1989). «Сложность алгоритмов вычисления точных градиентов для рекуррентных нейронных сетей» . Технический отчет NU-CCS-89-27. Бостон (MA): Северо-Восточный университет, Колледж компьютерных наук. Cite journal requires |journal= (help)
  78. ^ Перлмуттер, Барак А. (1989-06-01). "Изучение траекторий пространства состояний в рекуррентных нейронных сетях" . Нейронные вычисления . 1 (2): 263–269. DOI : 10.1162 / neco.1989.1.2.263 . S2CID 16813485 . 
  79. ^ Hochreiter, Зепп; и другие. (15 января 2001 г.). «Градиентный поток в повторяющихся сетях: трудность изучения долгосрочных зависимостей» . В Колене, Джон Ф .; Кремер, Стефан С. (ред.). Полевое руководство по динамическим рекуррентным сетям . Джон Вили и сыновья. ISBN 978-0-7803-5369-5.
  80. ^ Камполуччи, Паоло; Унчини, Аурелио; Пьяцца, Франческо; Рао, Бхаскар Д. (1999). «Алгоритмы онлайн-обучения для локально рекуррентных нейронных сетей». IEEE-транзакции в нейронных сетях . 10 (2): 253–271. CiteSeerX 10.1.1.33.7550 . DOI : 10.1109 / 72.750549 . PMID 18252525 .  
  81. ^ Ван, Эрик А .; Бофай, Франсуаза (1996). «Схематический вывод градиентных алгоритмов для нейронных сетей». Нейронные вычисления . 8 : 182–201. DOI : 10.1162 / neco.1996.8.1.182 . S2CID 15512077 . 
  82. ^ a b Камполуччи, Паоло; Унчини, Аурелио; Пьяцца, Франческо (2000). «Подход сигнально-потокового графа к онлайн-расчету градиента». Нейронные вычисления . 12 (8): 1901–1927. CiteSeerX 10.1.1.212.5406 . DOI : 10.1162 / 089976600300015196 . PMID 10953244 . S2CID 15090951 .   
  83. ^ Гомес, Фаустино Дж .; Мииккулайнен, Ристо (1999), «Решение немарковских задач управления с помощью нейроэволюции» (PDF) , IJCAI 99 , Morgan Kaufmann , получено 5 августа 2017 г.
  84. Сайед, Омар (май 1995 г.). «Применение генетических алгоритмов к рекуррентным нейронным сетям для изучения сетевых параметров и архитектуры» . M.Sc. докторская диссертация, факультет электротехники, Западный резервный университет Кейс, советник Йошиясу Такефудзи.
  85. ^ Гомес, Фаустино Дж .; Шмидхубер, Юрген; Мииккулайнен, Ристо (июнь 2008 г.). «Ускоренная нейронная эволюция через кооперативно коэволюционирующие синапсы» . Журнал исследований в области машинного обучения . 9 : 937–965.
  86. ^ Siegelmann, Hava T .; Хорн, Билл Дж .; Джайлз, К. Ли (1995). «Вычислительные возможности рекуррентных нейронных сетей NARX» . IEEE Transactions по системам, человеку и кибернетике, часть B (кибернетика) . 27 (2): 208–15. CiteSeerX 10.1.1.48.7468 . DOI : 10.1109 / 3477.558801 . PMID 18255858 .  
  87. ^ Metz, Кейд (18 мая 2016). «Google построил свои собственные чипы для работы своих ботов с ИИ» . Проводной .
  88. ^ Майер, Германн; Гомес, Фаустино Дж .; Виерстра, Даан; Надь, Иштван; Кнолль, Алоис; Шмидхубер, Юрген (октябрь 2006 г.). Система для роботизированной кардиохирургии, которая учится связывать узлы с помощью рекуррентных нейронных сетей . 2006 Международная конференция IEEE / RSJ по интеллектуальным роботам и системам . С. 543–548. CiteSeerX 10.1.1.218.3399 . DOI : 10.1109 / IROS.2006.282190 . ISBN  978-1-4244-0258-8. S2CID  12284900 .
  89. ^ Виерстра, Даан; Шмидхубер, Юрген; Гомес, Фаустино Дж. (2005). "Evolino: гибридная нейроэволюция / Оптимальный линейный поиск для последовательного обучения" . Труды 19-й Международной совместной конференции по искусственному интеллекту (IJCAI), Эдинбург : 853–858.
  90. ^ Petneházi, Габор (2019-01-01). «Рекуррентные нейронные сети для прогнозирования временных рядов». arXiv : 1901.00069 [ cs.LG ].
  91. ^ Hewamalage, Hansika; Бергмейр, Кристоф; Бандара, Касун (2020). «Рекуррентные нейронные сети для прогнозирования временных рядов: текущее состояние и будущие направления». Международный журнал прогнозирования . 37 : 388–427. arXiv : 1909.00590 . DOI : 10.1016 / j.ijforecast.2020.06.008 . S2CID 202540863 . 
  92. ^ Грейвс, Алекс; Шмидхубер, Юрген (2005). «Покадровая классификация фонем с двунаправленным LSTM и другими архитектурами нейронных сетей». Нейронные сети . 18 (5–6): 602–610. CiteSeerX 10.1.1.331.5800 . DOI : 10.1016 / j.neunet.2005.06.042 . PMID 16112549 .  
  93. ^ Фернандес, Сантьяго; Грейвс, Алекс; Шмидхубер, Юрген (2007). Применение рекуррентных нейронных сетей для распознавания ключевых слов . Материалы 17-й Международной конференции по искусственным нейронным сетям . ICANN'07. Берлин, Гейдельберг: Springer-Verlag. С. 220–229. ISBN 978-3540746935.
  94. Грейвс, Алекс; Мохамед, Абдель-Рахман; Хинтон, Джеффри Э. (2013). «Распознавание речи с глубокими рекуррентными нейронными сетями». Акустика, речь и обработка сигналов (ICASSP), Международная конференция IEEE, 2013 г., тел .: 6645–6649. arXiv : 1303,5778 . Bibcode : 2013arXiv1303.5778G . DOI : 10.1109 / ICASSP.2013.6638947 . ISBN 978-1-4799-0356-6. S2CID  206741496 .
  95. ^ Чанг, Эдвард Ф .; Чартье, Джош; Ануманчипалли, Гопала К. (24 апреля 2019 г.). «Синтез речи из нейронного декодирования устных предложений». Природа . 568 (7753): 493–498. Bibcode : 2019Natur.568..493A . DOI : 10.1038 / s41586-019-1119-1 . ISSN 1476-4687 . PMID 31019317 . S2CID 129946122 .   
  96. ^ Малхотра, Панкадж; Виг, Ловекеш; Шрофф, Гаутам; Агарвал, Пунит (апрель 2015 г.). «Сети с долгосрочной краткосрочной памятью для обнаружения аномалий во временных рядах» (PDF) . Европейский симпозиум по искусственным нейронным сетям, вычислительному интеллекту и машинному обучению - ESANN 2015 .
  97. ^ Gers, Felix A .; Schraudolph, Nicol N .; Шмидхубер, Юрген (2002). «Изучение точного времени с помощью повторяющихся сетей LSTM» (PDF) . Журнал исследований машинного обучения . 3 : 115–143.
  98. ^ Эк, Дуглас; Шмидхубер, Юрген (28 августа 2002). Изучение долгосрочной структуры блюза . Искусственные нейронные сети - ICANN 2002 . Конспект лекций по информатике. 2415 . Берлин, Гейдельберг: Springer. С. 284–289. CiteSeerX 10.1.1.116.3620 . DOI : 10.1007 / 3-540-46084-5_47 . ISBN  978-3540460848.
  99. ^ Шмидхубер, Юрген; Gers, Felix A .; Экк, Дуглас (2002). «Изучение нерегулярных языков: сравнение простых повторяющихся сетей и LSTM». Нейронные вычисления . 14 (9): 2039–2041. CiteSeerX 10.1.1.11.7369 . DOI : 10.1162 / 089976602320263980 . PMID 12184841 . S2CID 30459046 .   
  100. ^ Gers, Felix A .; Шмидхубер, Юрген (2001). «Рекуррентные сети LSTM изучают простые контекстно-свободные и контекстно-зависимые языки» (PDF) . IEEE-транзакции в нейронных сетях . 12 (6): 1333–1340. DOI : 10.1109 / 72.963769 . PMID 18249962 .  
  101. ^ Перес-Ортис, Хуан Антонио; Gers, Felix A .; Эк, Дуглас; Шмидхубер, Юрген (2003). «Фильтры Калмана улучшают производительность сети LSTM в задачах, не решаемых традиционными повторяющимися сетями». Нейронные сети . 16 (2): 241–250. CiteSeerX 10.1.1.381.1992 . DOI : 10.1016 / s0893-6080 (02) 00219-8 . PMID 12628609 .  
  102. ^ Грейвс, Алекс; Шмидхубер, Юрген (2009). «Распознавание рукописного ввода в автономном режиме с помощью многомерных рекуррентных нейронных сетей». Достижения в системах обработки нейронной информации 22, НИПС'22 . Ванкувер (Британская Колумбия): MIT Press: 545–552.
  103. ^ Грейвс, Алекс; Фернандес, Сантьяго; Ливицки, Маркус; Бунке, Хорст; Шмидхубер, Юрген (2007). Неограниченное распознавание рукописного ввода в Интернете с помощью рекуррентных нейронных сетей . Материалы 20-й Международной конференции по системам обработки нейронной информации . НИПС'07. Curran Associates Inc., стр. 577–584. ISBN 9781605603520.
  104. ^ Baccouche, Moez; Мамалет, Франк; Вольф, Кристиан; Гарсия, Кристоф; Баскурт, Атилла (2011). Салах, Альберт Али; Лепри, Бруно (ред.). «Последовательное глубокое обучение для распознавания действий человека». 2-й Международный семинар по пониманию человеческого поведения (HBU) . Конспект лекций по информатике. Амстердам, Нидерланды: Springer. 7065 : 29–39. DOI : 10.1007 / 978-3-642-25446-8_4 . ISBN 978-3-642-25445-1.
  105. ^ Hochreiter, Зепп; Heusel, Martin; Обермайер, Клаус (2007). «Быстрое определение гомологии белков на основе модели без выравнивания» . Биоинформатика . 23 (14): 1728–1736. DOI : 10.1093 / биоинформатики / btm247 . PMID 17488755 . 
  106. ^ Налог, Ник; Веренич Илья; Ла Роза, Марчелло; Дюма, Марлон (2017). Прогнозный мониторинг бизнес-процессов с помощью нейронных сетей LSTM . Труды Международной конференции по передовой инженерии информационных систем (CAiSE) . Конспект лекций по информатике. 10253 . С. 477–492. arXiv : 1612.02130 . DOI : 10.1007 / 978-3-319-59536-8_30 . ISBN 978-3-319-59535-1. S2CID  2192354 .
  107. ^ Цой, Эдвард; Бахадори, Мохаммад Таха; Шуэц, Энди; Стюарт, Уолтер Ф .; Сунь, Цзимэн (2016). «Доктор AI: Прогнозирование клинических событий с помощью рекуррентных нейронных сетей» . Материалы 1-й конференции по машинному обучению для здравоохранения . 56 : 301–318. arXiv : 1511.05942 . Bibcode : 2015arXiv151105942C . PMC 5341604 . PMID 28286600 .  

Дальнейшее чтение [ править ]

  • Мандич, Данило П. и Чемберс, Джонатон А. (2001). Рекуррентные нейронные сети для прогнозирования: алгоритмы обучения, архитектуры и стабильность . Вайли. ISBN 978-0-471-49517-8.

Внешние ссылки [ править ]

  • Seq2SeqSharp LSTM / BiLSTM / Платформа рекуррентных нейронных сетей, работающая на процессорах и графических процессорах, для задач от последовательности к последовательности ( C # , .NET )
  • CRF RNNSharp на основе рекуррентных нейронных сетей ( C # , .NET )
  • Рекуррентные нейронные сети с более чем 60 работами по RNN, подготовленными группой Юргена Шмидхубера в Институте исследований искусственного интеллекта Далле Молле
  • Реализация нейронной сети Эльмана для WEKA
  • Рекуррентные нейронные сети и LSTM в Java
  • альтернативная попытка получения полного RNN / вознаграждения