Долговременная кратковременная память

Машинное обучение и интеллектуальный анализ данных
Часть серии по

Проблемы Классификация Кластеризация Регресс Обнаружение аномалий AutoML Правила ассоциации Обучение с подкреплением Структурированный прогноз Разработка функций Особенности обучения Онлайн обучение Полу-контролируемое обучение Обучение без учителя Учимся ранжировать Введение в грамматику
Обучение с учителем ( классификация • регрессия ) Деревья решений Ансамбли Упаковка Повышение Случайный лес k -NN Линейная регрессия Наивный байесовский Искусственные нейронные сети Логистическая регрессия Перцептрон Вектор релевантности (RVM) Машина опорных векторов (SVM)
Кластеризация БЕРЕЗА ИЗЛЕЧИВАТЬ Иерархический k- означает Ожидание – максимизация (EM) DBSCAN ОПТИКА Средний сдвиг
Снижение размерности Факторный анализ CCA ICA LDA NMF PCA PGD t-SNE
Структурированный прогноз Графические модели Сеть Байеса Условное случайное поле Скрытый Марков
Обнаружение аномалий k -NN Фактор локального выброса
Искусственная нейронная сеть Автоэнкодер Когнитивные вычисления Глубокое обучение DeepDream Многослойный перцептрон RNN LSTM ГРУ ESN Ограниченная машина Больцмана GAN SOM Сверточная нейронная сеть U-Net Трансформатор Пиковая нейронная сеть Мемтранзистор Электрохимическая RAM (ECRAM)
Обучение с подкреплением Q-обучение SARSA Временная разница (TD)
Теория Компромисс смещения и дисперсии Теория вычислительного обучения Минимизация эмпирического риска Обучение Оккама PAC обучение Статистическое обучение Теория ВК
Площадки для машинного обучения NeurIPS ICML ML JMLR ArXiv: cs.LG
Глоссарий искусственного интеллекта Глоссарий искусственного интеллекта
Статьи по Теме Список наборов данных для исследований в области машинного обучения Схема машинного обучения
v т е

Ячейка долгосрочной краткосрочной памяти (LSTM) может обрабатывать данные последовательно и сохранять свое скрытое состояние во времени.

Долговременная краткосрочная память ( LSTM ) - это архитектура искусственной рекуррентной нейронной сети (RNN) ^[1], используемая в области глубокого обучения . В отличие от стандартных нейронных сетей с прямой связью, LSTM имеет обратную связь. Он может обрабатывать не только отдельные точки данных (например, изображения), но и целые последовательности данных (например, речь или видео). Например, LSTM применим для таких задач, как несегментированное, связное распознавание рукописного ввода , ^[2] распознавание речи ^[3]^[4] и обнаружение аномалий в сетевом трафике или IDS (системы обнаружения вторжений).

Обычный блок LSTM состоит из ячейки , входного элемента , выходного элемента и элемента забывания . Ячейка запоминает значения за произвольные интервалы времени, а три ворот регулируют поток информации в ячейку и из нее.

Сети LSTM хорошо подходят для классификации , обработки и прогнозирования на основе данных временных рядов , поскольку между важными событиями временного ряда могут быть запаздывания неизвестной продолжительности. LSTM были разработаны для решения проблемы исчезающего градиента, с которой можно столкнуться при обучении традиционных RNN. Относительная нечувствительность к длине промежутка является преимуществом LSTM перед RNN, скрытыми марковскими моделями и другими методами обучения последовательностям во многих приложениях. ^{[ необходима цитата ]}

История [ править ]

1995 - 1997: LSTM был предложен Зеппом Хохрайтером и Юргеном Шмидхубером . ^[5]^[6]^[1] Введя блоки карусели с постоянной ошибкой (CEC), LSTM решает проблему исчезающего градиента . Первоначальная версия блока LSTM включала ячейки, входные и выходные вентили. ^[7]

1999: Феликс Герс и его советник Юрген Шмидхубер и Фред Камминс представили шлюз забывания (также называемый «шлюзом сохранения») в архитектуру LSTM ^[8], позволяющий LSTM сбрасывать свое состояние. ^[7]

2000: Gers & Schmidhuber & Cummins добавили в архитектуру глазковые соединения (соединения от камеры к воротам). ^[9] Кроме того, функция активации выхода была опущена. ^[7]

2009: Модель на основе LSTM победила в конкурсе ICDAR по распознаванию рукописного ввода. Три такие модели представил руководитель группы Алекс Грейвс . ^[10] Одна модель была самой точной в конкурсе, а другая - самой быстрой. ^[11]

2013: Сети LSTM были основным компонентом сети, которая достигла рекордной частоты ошибок фонем 17,7% в классическом наборе данных естественной речи TIMIT . ^[12]

2014: Кёнхён Чо и др. выдвинул упрощенный вариант под названием Gated recurrent unit (GRU). ^[13]

2015: Google начал использовать LSTM для распознавания речи в Google Voice. ^[14]^[15] Согласно официальному сообщению в блоге, новая модель сократила ошибки транскрипции на 49%. ^[16]

2016: Google начал использовать LSTM, чтобы предлагать сообщения в приложении беседы Allo. ^[17] В том же году Google выпустила систему нейронного машинного перевода Google для Google Translate, которая использовала LSTM для уменьшения ошибок перевода на 60%. ^[18]^[19]^[20]

Apple объявила на своей Всемирной конференции разработчиков , что начнет использовать LSTM для быстрого ввода ^[21]^[22]^[23] в iPhone и Siri. ^[24]^[25]

Amazon выпустила Polly , который генерирует голоса позади Alexa, используя двунаправленный LSTM для технологии преобразования текста в речь. ^[26]

2017: Facebook выполнял около 4,5 миллиардов автоматических переводов каждый день с использованием сетей долговременной краткосрочной памяти. ^[27]

Исследователи из Университета штата Мичиган , IBM Research и Корнельского университета опубликовали исследование на конференции Knowledge Discovery and Data Mining (KDD). ^[28]^[29]^{[30] В} их исследовании описана новая нейронная сеть, которая работает лучше с определенными наборами данных, чем широко используемая нейронная сеть с долговременной краткосрочной памятью.

Microsoft сообщила о достижении 94,9% точности распознавания в корпусе Switchboard , включающем словарный запас в 165 000 слов. В подходе используется «диалоговая сессия на основе долговременной краткосрочной памяти». ^[31]

2019: Исследователи из Университета Ватерлоо предложили связанную архитектуру RNN, которая представляет непрерывные окна времени. Он был получен с использованием полиномов Лежандра и превосходит LSTM в некоторых тестах, связанных с памятью. ^[32]

Модель LSTM поднялась на третье место в тесте сжатия большого текста. ^[33]^[34]

Идея [ править ]

Теоретически классические (или «ванильные») RNN могут отслеживать произвольные долгосрочные зависимости во входных последовательностях. Проблема с ванильными RNN носит вычислительный (или практический) характер: при обучении ванильных RNN с использованием обратного распространения градиенты, которые распространяются в обратном направлении, могут «исчезнуть» (то есть стремиться к нулю) или «взорваться» ( то есть они могут стремиться к бесконечности) из-за вычислений, задействованных в процессе, в которых используются числа конечной точности . RNN, использующие блоки LSTM, частично решают проблему исчезающего градиента , потому что блоки LSTM позволяют градиентам также течь без изменений . Однако сети LSTM все еще могут страдать от проблемы взрывного градиента.^[35]

Варианты [ править ]

В приведенных ниже уравнениях переменные в нижнем регистре представляют векторы. Матрицы и содержат, соответственно, веса входных и рекуррентных соединений, где нижний индекс может быть входным вентилем , выходным вентилем , вентилем забывания или ячейкой памяти , в зависимости от вычисляемой активации. Таким образом, в этом разделе мы используем "векторные обозначения". Так, например, это не просто одна ячейка одного блока LSTM, а содержит ячейки блока LSTM. ${\ displaystyle W_ {q}}$ ${\ displaystyle U_ {q}}$ ${\ displaystyle _ {q}}$ ${\ displaystyle i}$ ${\ displaystyle o}$ ${\ displaystyle f}$ ${\ displaystyle c}$ ${\ displaystyle c_ {t} \ in \ mathbb {R} ^ {h}}$ ${\ displaystyle h}$

LSTM с воротами забыть [ править ]

Компактные формы уравнений для прямого прохода блока LSTM с затвором забывания: ^[1]^[9]

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}x_{t}+U_{f}h_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}x_{t}+U_{i}h_{t-1}+b_{i})\\o_{t}&=\sigma _{g}(W_{o}x_{t}+U_{o}h_{t-1}+b_{o})\\{\tilde {c}}_{t}&=\sigma _{c}(W_{c}x_{t}+U_{c}h_{t-1}+b_{c})\\c_{t}&=f_{t}\circ c_{t-1}+i_{t}\circ {\tilde {c}}_{t}\\h_{t}&=o_{t}\circ \sigma _{h}(c_{t})\end{aligned}}

где начальные значения - и, а оператор обозначает произведение Адамара (поэлементное произведение). Нижний индекс указывает временной шаг. $c_{0}=0$ $h_{0}=0$ $\circ$ $t$

Переменные [ править ]

$x_{t}\in \mathbb {R} ^{d}$ : входной вектор в модуль LSTM
$f_{t}\in \mathbb {R} ^{h}$ : забыть вектор активации ворот
$i_{t}\in \mathbb {R} ^{h}$ : ввод / обновление вектора активации ворот
$o_{t}\in \mathbb {R} ^{h}$ : вектор активации выходного затвора
$h_{t}\in \mathbb {R} ^{h}$ : вектор скрытого состояния, также известный как выходной вектор модуля LSTM
${\tilde {c}}_{t}\in \mathbb {R} ^{h}$ : вектор активации ввода ячейки
$c_{t}\in \mathbb {R} ^{h}$ : вектор состояния ячейки
$W\in \mathbb {R} ^{h\times d}$ , и : весовые матрицы и параметры вектора смещения, которые необходимо изучить во время обучения. $U\in \mathbb {R} ^{h\times h}$ $b\in \mathbb {R} ^{h}$

где верхние индексы и относятся к количеству входных функций и количеству скрытых единиц соответственно. $d$ $h$

Функции активации [ править ]

$\sigma _{g}$ : сигмовидная функция .
$\sigma _{c}$ : функция гиперболического тангенса .
$\sigma _{h}$ : Функция гиперболического тангенса или, как глазки LSTM бумага ^[36]^[37] наводит на мысль, . $\sigma _{h}(x)=x$

Глазок LSTM [ править ]

Блок LSTM с глазком с входными (т.е. ), выходными (т.е. ) и забытыми (т.е. ) воротами. Каждый из этих ворот можно рассматривать как «стандартный» нейрон в нейронной сети с прямой связью (или многоуровневой): то есть они вычисляют активацию (с использованием функции активации) взвешенной суммы. и представляют активацию входных, выходных и забытых вентилей соответственно на временном шаге . 3 стрелки выхода из ячейки памяти к 3 воротам и представляют собой соединения глазка . Эти соединения-глазки фактически обозначают вклад активации ячейки памяти на временном шаге , то есть вклад (а не

i

o

f

i_{t},o_{t}

f_{t}

t

c

i,o

f

c

t-1

c_{t-1}

c_{t}

, как видно на картинке). Другими словами, ворота и рассчитать их активации на шаге времени (т.е., соответственно, и ) также рассматривает активацию ячейки памяти на шаге по времени , то есть . Единственная стрелка слева направо, выходящая из ячейки памяти, не является глазком и обозначает . Маленькие кружки, содержащие символ, представляют собой поэлементное умножение его входов. Большие кружки, содержащие S- образную кривую, представляют приложение дифференцируемой функции (например, сигмовидной функции) к взвешенной сумме. Есть много других типов LSTM. ^[7]

i,o

f

t

i_{t},o_{t}

f_{t}

c

t-1

c_{t-1}

c_{t}

\times

Рисунок справа - это графическое представление блока LSTM с отверстиями для подключения глазка (например, LSTM-глазок). ^[36]^[37] Соединения с глазком позволяют шлюзу получить доступ к карусели постоянных ошибок (CEC), активация которой является состоянием ячейки. ^[38] не используется, вместо него используется в большинстве мест. $h_{t-1}$ $c_{t-1}$

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}x_{t}+U_{f}c_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}x_{t}+U_{i}c_{t-1}+b_{i})\\o_{t}&=\sigma _{g}(W_{o}x_{t}+U_{o}c_{t-1}+b_{o})\\c_{t}&=f_{t}\circ c_{t-1}+i_{t}\circ \sigma _{c}(W_{c}x_{t}+b_{c})\\h_{t}&=o_{t}\circ \sigma _{h}(c_{t})\end{aligned}}

Сверточный LSTM с глазком [ править ]

Сверточный глазок LSTM. ^[39] Символ обозначает оператор свертки . $*$

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}*x_{t}+U_{f}*h_{t-1}+V_{f}\circ c_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}*x_{t}+U_{i}*h_{t-1}+V_{i}\circ c_{t-1}+b_{i})\\c_{t}&=f_{t}\circ c_{t-1}+i_{t}\circ \sigma _{c}(W_{c}*x_{t}+U_{c}*h_{t-1}+b_{c})\\o_{t}&=\sigma _{g}(W_{o}*x_{t}+U_{o}*h_{t-1}+V_{o}\circ c_{t}+b_{o})\\h_{t}&=o_{t}\circ \sigma _{h}(c_{t})\end{aligned}}

Обучение [ править ]

RNN, использующий блоки LSTM, может быть обучен контролируемым образом, на наборе обучающих последовательностей, с использованием алгоритма оптимизации, такого как градиентный спуск , в сочетании с обратным распространением во времени для вычисления градиентов, необходимых в процессе оптимизации, для изменения каждого веса. сети LSTM пропорционально производной ошибки (на выходном уровне сети LSTM) по соответствующему весу.

Проблема с использованием градиентного спуска для стандартных RNN заключается в том, что градиенты ошибок исчезают экспоненциально быстро с увеличением временного интервала между важными событиями. Это обусловлено , если спектральный радиус из меньше 1. ^[40]^[41] $\lim _{n\to \infty }W^{n}=0$ $W$

Однако с модулями LSTM, когда значения ошибок передаются обратно от выходного уровня, ошибка остается в ячейке модуля LSTM. Эта «карусель ошибок» непрерывно передает ошибку обратно каждому шлюзу модуля LSTM, пока они не научатся обрезать значение.

Функция оценки CTC [ править ]

Многие приложения используют стеки LSTM RNN ^[42] и обучают их с помощью временной классификации коннекционистов (CTC) ^[43], чтобы найти весовую матрицу RNN, которая максимизирует вероятность последовательностей меток в обучающем наборе, учитывая соответствующие входные последовательности. СТС добивается согласованности и признания.

Альтернативы [ править ]

Иногда может быть полезно обучить (части) LSTM с помощью нейроэволюции ^[44] или с помощью методов градиента политики, особенно когда нет «учителя» (то есть ярлыков обучения).

Успех [ править ]

Было несколько успешных историй обучения без присмотра RNN с модулями LSTM.

В 2018 году Билл Гейтс назвал это «огромной вехой в развитии искусственного интеллекта», когда боты, разработанные OpenAI, смогли победить людей в игре Dota 2. ^[45] OpenAI Five состоит из пяти независимых, но скоординированных нейронных сетей. Каждая сеть обучается методом градиента политики без участия учителя и содержит однослойную долговременную память на 1024 единицы, которая видит текущее состояние игры и передает действия через несколько возможных заголовков действий. ^[45]

В 2018 году OpenAI также обучил аналогичный LSTM с помощью градиентов политики для управления рукой робота, похожего на человека, который манипулирует физическими объектами с беспрецедентной ловкостью. ^[46]

В 2019 году программа AlphaStar DeepMind использовала глубокое ядро LSTM, чтобы преуспеть в сложной видеоигре Starcraft II . ^[47] Это рассматривалось как значительный прогресс в направлении общего искусственного интеллекта. ^[47]

Приложения [ править ]

Приложения LSTM включают:

Управление роботом ^[48]
Прогнозирование временных рядов ^[44]
Распознавание речи ^[49]^[50]^[51]
Обучение ритму ^[37]
Музыкальное произведение ^[52]
Изучение грамматики ^[53]^[36]^[54]
Распознавание рукописного ввода ^[55]^[56]
Признание деятельности человека ^[57]
Перевод на язык жестов ^[58]
Определение гомологии белков ^[59]
Предсказание субклеточной локализации белков ^[60]
Обнаружение аномалий временных рядов ^[61]
Несколько задач прогнозирования в области управления бизнес-процессами ^[62]
Прогнозирование путей оказания медицинской помощи ^[63]
Семантический анализ ^[64]
Совместная сегментация объектов ^[65]^[66]
Управление пассажирами в аэропорту ^[67]
Краткосрочный прогноз трафика ^[68]
Дизайн лекарств ^[69]

См. Также [ править ]

Рекуррентная нейронная сеть
Глубокое обучение
Закрытый рекуррентный блок
Дифференцируемый нейронный компьютер
Долгосрочное потенцирование
Рабочая память базальных ганглиев префронтальной коры
Временные ряды
Seq2seq
Сеть автомагистралей

Ссылки [ править ]

^ a b c Зепп Хохрайтер ; Юрген Шмидхубер (1997). «Долговременная кратковременная память» . Нейронные вычисления . 9 (8): 1735–1780. DOI : 10.1162 / neco.1997.9.8.1735 . PMID 9377276 . S2CID 1915014 .
^ Graves, A .; Liwicki, M .; Fernandez, S .; Bertolami, R .; Bunke, H .; Шмидхубер, Дж. (2009). «Новая система коннекционистов для улучшения неограниченного распознавания рукописного ввода» (PDF) . IEEE Transactions по анализу шаблонов и машинному анализу . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . DOI : 10.1109 / tpami.2008.137 . PMID 19299860 . S2CID 14635907 .
^ Сак, Хасим; Старший, Андрей; Бофэ, Франсуаза (2014). «Рекуррентные архитектуры нейронных сетей с кратковременной памятью для крупномасштабного акустического моделирования» (PDF) . Архивировано из оригинального (PDF) 24 апреля 2018 года.
^ Ли, Сянган; У, Сихун (2014-10-15). «Построение глубоких рекуррентных нейронных сетей на основе кратковременной памяти для распознавания речи с большим словарным запасом». arXiv : 1410.4281 [ cs.CL ].
^ Зепп Хохрайтер ; Юрген Шмидхубер (21 августа 1995 г.), Долгосрочная память , Wikidata Q98967430
^ Зепп Хохрайтер ; Юрген Шмидхубер (1997). «LSTM может решить серьезные проблемы с длительным запаздыванием» (PDF) . Достижения в системах обработки нейронной информации 9 . Достижения в системах обработки нейронной информации. Викиданные Q77698282 .
^ a b c d Клаус Грефф; Рупеш Кумар Шривастава; Ян Кутник; Бас Р. Стенебринк; Юрген Шмидхубер (2015). "LSTM: космическая одиссея поиска". Транзакции IEEE в нейронных сетях и обучающих системах . 28 (10): 2222–2232. arXiv : 1503.04069 . Bibcode : 2015arXiv150304069G . DOI : 10.1109 / TNNLS.2016.2582924 . PMID 27411231 . S2CID 3356463 .
Перейти ↑ Gers, FA (1999). «Учимся забывать: постоянное предсказание с LSTM». 9-я Международная конференция по искусственным нейронным сетям: ICANN '99 . 1999 . С. 850–855. DOI : 10.1049 / ф: 19991218 . ISBN 0-85296-721-7.
^ a b Феликс А. Жерс; Юрген Шмидхубер; Фред Камминс (2000). «Учимся забывать: постоянное предсказание с LSTM». Нейронные вычисления . 12 (10): 2451–2471. CiteSeerX 10.1.1.55.5709 . DOI : 10.1162 / 089976600300015015 . PMID 11032042 . S2CID 11598600 .
^ Graves, A .; Liwicki, M .; Fernández, S .; Bertolami, R .; Bunke, H .; Шмидхубер, Дж. (Май 2009 г.). «Новая система коннекционистов для неограниченного распознавания почерка». IEEE Transactions по анализу шаблонов и машинному анализу . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . DOI : 10.1109 / tpami.2008.137 . ISSN 0162-8828 . PMID 19299860 . S2CID 14635907 .
^ Märgner, Volker; Абед, Хайкал Эль (июль 2009 г.). «Конкурс распознавания арабского почерка ICDAR 2009». 2009 10-я Международная конференция по анализу и распознаванию документов : 1383–1387. DOI : 10.1109 / ICDAR.2009.256 . ISBN 978-1-4244-4500-4. S2CID 52851337 .
↑ Грейвс, Алекс; Мохамед, Абдель-Рахман; Хинтон, Джеффри (22 марта 2013 г.). «Распознавание речи с глубокими рекуррентными нейронными сетями». arXiv : 1303.5778 [ cs.NE ].
^ Чо, Кёнхён; ван Мерриенбоер, Барт; Гульчере, Чаглар; Богданов, Дмитрий; Бугарес, Фетхи; Швенк, Хольгер; Бенжио, Йошуа (2014). «Изучение представлений фраз с использованием кодировщика-декодера RNN для статистического машинного перевода». arXiv : 1406.1078 [ cs.CL ].
^ Beaufays, Франсуаза (11 августа 2015). «Нейронные сети, лежащие в основе транскрипции Google Voice» . Блог исследований . Проверено 27 июня 2017 .
^ Сак, Хашим; Старший, Андрей; Рао, Канишка; Бофейс, Франсуаза; Шалквик, Йохан (24 сентября 2015 г.). «Голосовой поиск Google: быстрее и точнее» . Блог исследований . Проверено 27 июня 2017 .
^ "Неоновый рецепт ... вернее, Новая транскрипция для Google Voice" . Официальный блог Google . Проверено 25 апреля 2020 .
^ Khaitan, Pranav (18 мая 2016). «Общайтесь с Allo умнее» . Блог исследований . Проверено 27 июня 2017 .
^ Ву, Юнхуэй; Шустер, Майк; Чен, Чжифэн; Le, Quoc V .; Норузи, Мохаммад; Машери, Вольфганг; Крикун, Максим; Цао, юань; Гао Цинь (26.09.2016). «Система нейронного машинного перевода Google: устранение разрыва между человеческим и машинным переводом». arXiv : 1609.08144 [ cs.CL ].
^ Metz, Кейд (27 сентября 2016). "Вливание ИИ делает Google Переводчик более мощным, чем когда-либо | ПРОВОДНОЙ" . Проводной . Проверено 27 июня 2017 .
^ «Нейронная сеть для машинного перевода в масштабе производства» . Блог Google AI . Проверено 25 апреля 2020 .
^ Efrati, Amir (13 июня 2016). «Машины Apple тоже могут учиться» . Информация . Проверено 27 июня 2017 .
↑ Рейнджер, Стив (14 июня 2016 г.). «iPhone, AI и большие данные: вот как Apple планирует защитить вашу конфиденциальность | ZDNet» . ZDNet . Проверено 27 июня 2017 .
^ «Может ли глобальный семантический контекст улучшить модели нейронного языка? - Apple» . Журнал Apple Machine Learning Journal . Проверено 30 апреля 2020 .
^ Смит, Крис (13.06.2016). «iOS 10: Siri теперь работает в сторонних приложениях, поставляется с дополнительными функциями AI» . BGR . Проверено 27 июня 2017 .
^ Кейпс, Тим; Коулз, Пол; Конки, Алистер; Голипур, Ладан; Хаджитархани, Абие; Ху, Цюн; Хаддлстон, Нэнси; Хант, Мелвин; Ли, Цзянчуань; Нирахер, Матиас; Прахаллад, Кишор (2017-08-20). «Система преобразования текста в речь Siri на устройстве с помощью глубокого обучения и выбора устройства» . Интерспич 2017 . ISCA: 4011–4015. DOI : 10,21437 / Interspeech.2017-1798 .
^ Vogels, Вернер (30 ноября 2016). «Привнесение магии Amazon AI и Alexa в приложения на AWS. - Все распределено» . www.allthingsdistributed.com . Проверено 27 июня 2017 .
Рианна Онг, Туи (4 августа 2017 г.). «Переводы Facebook теперь полностью выполняются с помощью ИИ» . www.allthingsdistributed.com . Проверено 15 февраля 2019 .
^ «Определение подтипов пациентов через Time-Aware LSTM Networks» (PDF) . msu.edu . Проверено 21 ноя 2018 .
^ «Определение подтипов пациентов через сети LSTM, ориентированные на время» . Kdd.org . Проверено 24 мая 2018 .
^ "SIGKDD" . Kdd.org . Проверено 24 мая 2018 .
^ Haridy, Рич (21 августа 2017). «Система распознавания речи Microsoft теперь не хуже человека» . newatlas.com . Проверено 27 августа 2017 .
^ Voelker, Аарон Р .; Каич, Ивана; Элиасмит, Крис (2019). Единицы памяти Лежандра: представление в непрерывном времени в рекуррентных нейронных сетях (PDF) . Достижения в системах обработки нейронной информации .
^ «Тест сжатия большого текста» . Проверено 13 января 2017 .
^ Фабрис Беллард (2019), « Сжатие данных без потерь с помощью нейронных сетей »
^ братан, н. «Почему RNN с модулями LSTM также могут страдать от« взрывных градиентов »?» . Перекрестная проверка . Проверено 25 декабря 2018 .
^ a b c Gers, FA; Шмидхубер, Дж. (2001). «Рекуррентные сети LSTM изучают простые контекстно-свободные и контекстно-зависимые языки» (PDF) . IEEE-транзакции в нейронных сетях . 12 (6): 1333–1340. DOI : 10.1109 / 72.963769 . PMID 18249962 .
^ a b c Gers, F .; Schraudolph, N .; Шмидхубер, Дж. (2002). «Изучение точного времени с помощью повторяющихся сетей LSTM» (PDF) . Журнал исследований в области машинного обучения . 3 : 115–143.
^ Gers, FA; Шмидхубер, Э. (ноябрь 2001 г.). «Повторяющиеся сети LSTM изучают простые контекстно-зависимые и контекстно-зависимые языки» (PDF) . IEEE-транзакции в нейронных сетях . 12 (6): 1333–1340. DOI : 10.1109 / 72.963769 . ISSN 1045-9227 . PMID 18249962 .
^ Синцзянь Ши; Чжуронг Чен; Хао Ван; Дит-Ян Юнг; Вай-кин Вонг; Ван-чун У (2015). «Сверточная сеть LSTM: подход машинного обучения для прогнозирования текущей погоды». Труды 28-й Международной конференции по системам обработки нейронной информации : 802–810. arXiv : 1506.04214 . Bibcode : 2015arXiv150604214S .
^ С. Хохрайтер. Untersuchungen zu Dynamischen Neuronalen Netzen. Дипломная работа, Institut f. Informatik, Technische Univ. Мюнхен, 1991 г.
^ Hochreiter, S .; Bengio, Y .; Frasconi, P .; Шмидхубер, Дж. (2001). «Градиентный поток в рекуррентных сетях: трудность изучения долгосрочных зависимостей (доступна загрузка PDF-файла)» . В г. Кремер и Южная Каролина; Колен, Дж. Ф. (ред.). Полевое руководство по динамическим рекуррентным нейронным сетям . IEEE Press.
^ Фернандес, Сантьяго; Грейвс, Алекс; Шмидхубер, Юрген (2007). «Маркировка последовательностей в структурированных доменах с иерархическими рекуррентными нейронными сетями». Proc. 20-й Int. Совместная конф. Об искусственном интеллекте, Иджчай 2007 : 774–779. CiteSeerX 10.1.1.79.1887 .
↑ Грейвс, Алекс; Фернандес, Сантьяго; Гомес, Фаустино (2006). «Временная классификация коннекционистов: маркировка несегментированных данных последовательности с помощью рекуррентных нейронных сетей». В материалах Международной конференции по машинному обучению, ICML 2006 : 369–376. CiteSeerX 10.1.1.75.6306 .
^ а б Виерстра, Даан; Schmidhuber, J .; Гомес, FJ (2005). "Evolino: Гибридная нейроэволюция / Оптимальный линейный поиск для последовательного обучения" . Труды 19-й Международной совместной конференции по искусственному интеллекту (IJCAI), Эдинбург : 853–858.
^ a b Родригес, Хесус (2 июля 2018 г.). «Наука, стоящая за OpenAI Five, которая только что произвела один из величайших достижений в истории искусственного интеллекта» . К науке о данных . Проверено 15 января 2019 .
^ «Ловкость обучения» . Блог OpenAI . 30 июля 2018 . Проверено 15 января 2019 .
^ Б Стэнфорд, Стейси (25 января 2019). «AI DeepMind, AlphaStar демонстрирует значительный прогресс на пути к AGI» . Medium ML Memoirs . Проверено 15 января 2019 .
^ Mayer, H .; Gomez, F .; Wierstra, D .; Nagy, I .; Knoll, A .; Шмидхубер, Дж. (Октябрь 2006 г.). Система для роботизированной кардиохирургии, которая учится связывать узлы с помощью рекуррентных нейронных сетей . 2006 Международная конференция IEEE / RSJ по интеллектуальным роботам и системам . С. 543–548. CiteSeerX 10.1.1.218.3399 . DOI : 10.1109 / IROS.2006.282190 . ISBN 978-1-4244-0258-8. S2CID 12284900 .
^ Graves, A .; Шмидхубер, Дж. (2005). «Покадровая классификация фонем с двунаправленным LSTM и другими архитектурами нейронных сетей». Нейронные сети . 18 (5–6): 602–610. CiteSeerX 10.1.1.331.5800 . DOI : 10.1016 / j.neunet.2005.06.042 . PMID 16112549 .
^ Фернандес, Сантьяго; Грейвс, Алекс; Шмидхубер, Юрген (2007). Применение рекуррентных нейронных сетей для распознавания ключевых слов . Материалы 17-й Международной конференции по искусственным нейронным сетям . ICANN'07. Берлин, Гейдельберг: Springer-Verlag. С. 220–229. ISBN 978-3540746935.
↑ Грейвс, Алекс; Мохамед, Абдель-Рахман; Хинтон, Джеффри (2013). «Распознавание речи с глубокими рекуррентными нейронными сетями». Акустика, речь и обработка сигналов (ICASSP), Международная конференция IEEE, 2013 г., тел .: 6645–6649. arXiv : 1303,5778 . DOI : 10.1109 / ICASSP.2013.6638947 . ISBN 978-1-4799-0356-6. S2CID 206741496 .
^ Эк, Дуглас; Шмидхубер, Юрген (28 августа 2002). Изучение долгосрочной структуры блюза . Искусственные нейронные сети - ICANN 2002 . Конспект лекций по информатике. 2415 . Шпрингер, Берлин, Гейдельберг. С. 284–289. CiteSeerX 10.1.1.116.3620 . DOI : 10.1007 / 3-540-46084-5_47 . ISBN 978-3540460848.
^ Schmidhuber, J .; Gers, F .; Eck, D .; Schmidhuber, J .; Герс, Ф. (2002). «Изучение нерегулярных языков: сравнение простых повторяющихся сетей и LSTM». Нейронные вычисления . 14 (9): 2039–2041. CiteSeerX 10.1.1.11.7369 . DOI : 10.1162 / 089976602320263980 . PMID 12184841 . S2CID 30459046 .
^ Перес-Ортис, JA; Gers, FA; Eck, D .; Шмидхубер, Дж. (2003). «Фильтры Калмана улучшают производительность сети LSTM в задачах, не решаемых традиционными повторяющимися сетями». Нейронные сети . 16 (2): 241–250. CiteSeerX 10.1.1.381.1992 . DOI : 10.1016 / s0893-6080 (02) 00219-8 . PMID 12628609 .
^ А. Грейвс, Дж. Шмидхубер. Распознавание рукописного ввода в автономном режиме с помощью многомерных рекуррентных нейронных сетей. Достижения в системах обработки нейронной информации 22, NIPS'22, стр 545–552, Ванкувер, MIT Press, 2009.
↑ Грейвс, Алекс; Фернандес, Сантьяго; Ливицки, Маркус; Бунке, Хорст; Шмидхубер, Юрген (2007). Неограниченное распознавание рукописного ввода в Интернете с помощью рекуррентных нейронных сетей . Материалы 20-й Международной конференции по системам обработки нейронной информации . НИПС'07. США: Curran Associates Inc., стр. 577–584. ISBN 9781605603520.
^ М. Баккуш, Ф. Мамалет, С. Вольф, К. Гарсия, А. Баскурт. Последовательное глубокое обучение для распознавания действий человека. 2-й Международный семинар по пониманию человеческого поведения (HBU), AA Salah, B. Lepri ed. Амстердам, Нидерланды. С. 29–39. Конспект лекций по информатике 7065. Springer. 2011 г.
^ Хуанг, Цзе; Чжоу, Венган; Чжан, Цилинь; Ли, Хоуцян; Ли, Вэйпин (30.01.2018). «Распознавание жестового языка на основе видео без временной сегментации». arXiv : 1801.10111 [ cs.CV ].
^ Hochreiter, S .; Heusel, M .; Обермайер, К. (2007). «Быстрое определение гомологии белков на основе модели без выравнивания» . Биоинформатика . 23 (14): 1728–1736. DOI : 10.1093 / биоинформатики / btm247 . PMID 17488755 .
^ Thireou, T .; Рецко, М. (2007). «Двунаправленные сети долгосрочной краткосрочной памяти для предсказания субклеточной локализации эукариотических белков» . Протоколы IEEE / ACM по вычислительной биологии и биоинформатике . 4 (3): 441–446. DOI : 10.1109 / tcbb.2007.1015 . PMID 17666763 . S2CID 11787259 .
^ Малхотра, Панкадж; Виг, Ловекеш; Шрофф, Гаутам; Агарвал, Пунит (апрель 2015 г.). «Сети с долгосрочной краткосрочной памятью для обнаружения аномалий во временных рядах» (PDF) . Европейский симпозиум по искусственным нейронным сетям, вычислительному интеллекту и машинному обучению - ESANN 2015 .
^ Налог, N .; Веренич, И .; La Rosa, M .; Дюма, М. (2017). Прогнозный мониторинг бизнес-процессов с помощью нейронных сетей LSTM . Труды Международной конференции по передовой инженерии информационных систем (CAiSE) . Конспект лекций по информатике. 10253 . С. 477–492. arXiv : 1612.02130 . DOI : 10.1007 / 978-3-319-59536-8_30 . ISBN 978-3-319-59535-1. S2CID 2192354 .
^ Choi, E .; Bahadori, MT; Schuetz, E .; Стюарт, В .; Солнце, Дж. (2016). «Доктор AI: Прогнозирование клинических событий с помощью рекуррентных нейронных сетей» . Материалы 1-й конференции по машинному обучению для здравоохранения . 56 : 301–318. arXiv : 1511.05942 . Bibcode : 2015arXiv151105942C . PMC 5341604 . PMID 28286600 .
^ Цзя, Робин; Лян, Перси (2016-06-11). «Рекомбинация данных для нейросемантического анализа» . arXiv: 1606.03622 [cs] .
^ Ван, Ле; Дуань, Сюйхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, банда; Чжэн, Наньнин (22.05.2018). «Сегмент-трубка: пространственно-временная локализация действия в видео без обрезки с покадровой сегментацией» (PDF) . Датчики . 18 (5): 1657. DOI : 10,3390 / s18051657 . ISSN 1424-8220 . PMC 5982167 . PMID 29789447 .
^ Дуань, Сюйхуань; Ван, Ле; Чжай, Чанбо; Чжэн, Наньнин; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Банда (2018). Совместная пространственно-временная локализация действий в видео без обрезки с покадровой сегментацией . 25-я Международная конференция IEEE по обработке изображений (ICIP). DOI : 10,1109 / icip.2018.8451692 . ISBN 978-1-4799-7061-2.
^ Орсини, Ф .; Гастальди, М .; Mantecchini, L .; Росси, Р. (2019). Нейронные сети обученных с WiFi трасс для прогнозирования поведения пассажиров аэропорта . 6-я Международная конференция по моделям и технологиям интеллектуальных транспортных систем. Краков: IEEE. arXiv : 1910.14026 . DOI : 10.1109 / MTITS.2019.8883365 . 8883365.
^ Чжао, З .; Chen, W .; Wu, X .; Чен, PCY; Лю, Дж. (2017). «Сеть LSTM: подход глубокого обучения для краткосрочного прогнозирования трафика». Интеллектуальные транспортные системы ИЭПП . 11 (2): 68–75. DOI : 10,1049 / МТВ-its.2016.0208 .
^ Гупта А, Müller AT, Huisman BJH, Fuchs JA, Schneider P, Schneider G (2018). «Генеративные рекуррентные сети для разработки лекарств De Novo» . Мол Информ . 37 (1–2). DOI : 10.1002 / minf.201700111 . PMC 5836943 . PMID 29095571 . CS1 maint: multiple names: authors list (link)

Внешние ссылки [ править ]

Рекуррентные нейронные сети с более чем 30 документами LSTM группы Юргена Шмидхубера в IDSIA
Герс, Феликс (2001). «Долговременная кратковременная память в рекуррентных нейронных сетях» (PDF) . Кандидатская диссертация .
Gers, Felix A .; Schraudolph, Nicol N .; Шмидхубер, Юрген (август 2002 г.). «Изучение точного времени с помощью повторяющихся сетей LSTM» (PDF) . Журнал исследований в области машинного обучения . 3 : 115–143.
Абидогун, Олусола Адени (2005). Интеллектуальный анализ данных, обнаружение мошенничества и мобильные телекоммуникации: анализ шаблонов вызовов с помощью неконтролируемых нейронных сетей . Магистерская диссертация (Диссертация). Университет Западного Кейпа. hdl : 11394/249 . Архивировано 22 мая 2012 г. (PDF) .
- оригинал с двумя главами, посвященными объяснению рекуррентных нейронных сетей, особенно LSTM.
Моннер, Дерек Д .; Реджиа, Джеймс А. (2010). «Обобщенный алгоритм обучения, подобный LSTM, для рекуррентных нейронных сетей второго порядка» (PDF) . Нейронные сети . 25 (1): 70–83. DOI : 10.1016 / j.neunet.2011.07.003 . PMC 3217173 . PMID 21803542 . Высокопроизводительное расширение LSTM, которое было упрощено до одного типа узла и может обучать произвольные архитектуры
Дельфин, Р. "Сети LSTM - подробное объяснение" . Статья .
Герта, Кристиан. «Как реализовать LSTM в Python с помощью Theano» . Учебник .

[lstm1997-1] Зепп Хохрайтер ; Юрген Шмидхубер (1997). «Долговременная кратковременная память» . Нейронные вычисления . 9 (8): 1735–1780. DOI : 10.1162 / neco.1997.9.8.1735 . PMID 9377276 . S2CID 1915014 .

[2] Graves, A .; Liwicki, M .; Fernandez, S .; Bertolami, R .; Bunke, H .; Шмидхубер, Дж. (2009). «Новая система коннекционистов для улучшения неограниченного распознавания рукописного ввода» (PDF) . IEEE Transactions по анализу шаблонов и машинному анализу . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . DOI : 10.1109 / tpami.2008.137 . PMID 19299860 . S2CID 14635907 .

[sak2014-3] Сак, Хасим; Старший, Андрей; Бофэ, Франсуаза (2014). «Рекуррентные архитектуры нейронных сетей с кратковременной памятью для крупномасштабного акустического моделирования» (PDF) . Архивировано из оригинального (PDF) 24 апреля 2018 года.

[liwu2015-4] Ли, Сянган; У, Сихун (2014-10-15). «Построение глубоких рекуррентных нейронных сетей на основе кратковременной памяти для распознавания речи с большим словарным запасом». arXiv : 1410.4281 [ cs.CL ].

[5] Зепп Хохрайтер ; Юрген Шмидхубер (21 августа 1995 г.), Долгосрочная память , Wikidata Q98967430

[6] Зепп Хохрайтер ; Юрген Шмидхубер (1997). «LSTM может решить серьезные проблемы с длительным запаздыванием» (PDF) . Достижения в системах обработки нейронной информации 9 . Достижения в системах обработки нейронной информации. Викиданные Q77698282 .

[ASearchSpaceOdyssey-7] Клаус Грефф; Рупеш Кумар Шривастава; Ян Кутник; Бас Р. Стенебринк; Юрген Шмидхубер (2015). "LSTM: космическая одиссея поиска". Транзакции IEEE в нейронных сетях и обучающих системах . 28 (10): 2222–2232. arXiv : 1503.04069 . Bibcode : 2015arXiv150304069G . DOI : 10.1109 / TNNLS.2016.2582924 . PMID 27411231 . S2CID 3356463 .

[lstm1999-8] Перейти ↑ Gers, FA (1999). «Учимся забывать: постоянное предсказание с LSTM». 9-я Международная конференция по искусственным нейронным сетям: ICANN '99 . 1999 . С. 850–855. DOI : 10.1049 / ф: 19991218 . ISBN 0-85296-721-7.

[lstm2000-9] Феликс А. Жерс; Юрген Шмидхубер; Фред Камминс (2000). «Учимся забывать: постоянное предсказание с LSTM». Нейронные вычисления . 12 (10): 2451–2471. CiteSeerX 10.1.1.55.5709 . DOI : 10.1162 / 089976600300015015 . PMID 11032042 . S2CID 11598600 .

[10] Graves, A .; Liwicki, M .; Fernández, S .; Bertolami, R .; Bunke, H .; Шмидхубер, Дж. (Май 2009 г.). «Новая система коннекционистов для неограниченного распознавания почерка». IEEE Transactions по анализу шаблонов и машинному анализу . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . DOI : 10.1109 / tpami.2008.137 . ISSN 0162-8828 . PMID 19299860 . S2CID 14635907 .

[11] Märgner, Volker; Абед, Хайкал Эль (июль 2009 г.). «Конкурс распознавания арабского почерка ICDAR 2009». 2009 10-я Международная конференция по анализу и распознаванию документов : 1383–1387. DOI : 10.1109 / ICDAR.2009.256 . ISBN 978-1-4244-4500-4. S2CID 52851337 .

[12] Грейвс, Алекс; Мохамед, Абдель-Рахман; Хинтон, Джеффри (22 марта 2013 г.). «Распознавание речи с глубокими рекуррентными нейронными сетями». arXiv : 1303.5778 [ cs.NE ].

[13] Чо, Кёнхён; ван Мерриенбоер, Барт; Гульчере, Чаглар; Богданов, Дмитрий; Бугарес, Фетхи; Швенк, Хольгер; Бенжио, Йошуа (2014). «Изучение представлений фраз с использованием кодировщика-декодера RNN для статистического машинного перевода». arXiv : 1406.1078 [ cs.CL ].

[Beau15-14] Beaufays, Франсуаза (11 августа 2015). «Нейронные сети, лежащие в основе транскрипции Google Voice» . Блог исследований . Проверено 27 июня 2017 .

[GoogleVoiceSearch-15] Сак, Хашим; Старший, Андрей; Рао, Канишка; Бофейс, Франсуаза; Шалквик, Йохан (24 сентября 2015 г.). «Голосовой поиск Google: быстрее и точнее» . Блог исследований . Проверено 27 июня 2017 .

[16] "Неоновый рецепт ... вернее, Новая транскрипция для Google Voice" . Официальный блог Google . Проверено 25 апреля 2020 .

[GoogleAllo-17] Khaitan, Pranav (18 мая 2016). «Общайтесь с Allo умнее» . Блог исследований . Проверено 27 июня 2017 .

[GoogleTranslate-18] Ву, Юнхуэй; Шустер, Майк; Чен, Чжифэн; Le, Quoc V .; Норузи, Мохаммад; Машери, Вольфганг; Крикун, Максим; Цао, юань; Гао Цинь (26.09.2016). «Система нейронного машинного перевода Google: устранение разрыва между человеческим и машинным переводом». arXiv : 1609.08144 [ cs.CL ].

[WiredGoogleTranslate-19] Metz, Кейд (27 сентября 2016). "Вливание ИИ делает Google Переводчик более мощным, чем когда-либо | ПРОВОДНОЙ" . Проводной . Проверено 27 июня 2017 .

[20] «Нейронная сеть для машинного перевода в масштабе производства» . Блог Google AI . Проверено 25 апреля 2020 .

[AppleQuicktype-21] Efrati, Amir (13 июня 2016). «Машины Apple тоже могут учиться» . Информация . Проверено 27 июня 2017 .

[AppleQuicktype2-22] Рейнджер, Стив (14 июня 2016 г.). «iPhone, AI и большие данные: вот как Apple планирует защитить вашу конфиденциальность | ZDNet» . ZDNet . Проверено 27 июня 2017 .

[23] «Может ли глобальный семантический контекст улучшить модели нейронного языка? - Apple» . Журнал Apple Machine Learning Journal . Проверено 30 апреля 2020 .

[AppleSiri-24] Смит, Крис (13.06.2016). «iOS 10: Siri теперь работает в сторонних приложениях, поставляется с дополнительными функциями AI» . BGR . Проверено 27 июня 2017 .

[25] Кейпс, Тим; Коулз, Пол; Конки, Алистер; Голипур, Ладан; Хаджитархани, Абие; Ху, Цюн; Хаддлстон, Нэнси; Хант, Мелвин; Ли, Цзянчуань; Нирахер, Матиас; Прахаллад, Кишор (2017-08-20). «Система преобразования текста в речь Siri на устройстве с помощью глубокого обучения и выбора устройства» . Интерспич 2017 . ISCA: 4011–4015. DOI : 10,21437 / Interspeech.2017-1798 .

[AmazonAlexa-26] Vogels, Вернер (30 ноября 2016). «Привнесение магии Amazon AI и Alexa в приложения на AWS. - Все распределено» . www.allthingsdistributed.com . Проверено 27 июня 2017 .

[FacebookTranslate-27] Рианна Онг, Туи (4 августа 2017 г.). «Переводы Facebook теперь полностью выполняются с помощью ИИ» . www.allthingsdistributed.com . Проверено 15 февраля 2019 .

[28] «Определение подтипов пациентов через Time-Aware LSTM Networks» (PDF) . msu.edu . Проверено 21 ноя 2018 .

[29] «Определение подтипов пациентов через сети LSTM, ориентированные на время» . Kdd.org . Проверено 24 мая 2018 .

[30] "SIGKDD" . Kdd.org . Проверено 24 мая 2018 .

[31] Haridy, Рич (21 августа 2017). «Система распознавания речи Microsoft теперь не хуже человека» . newatlas.com . Проверено 27 августа 2017 .

[32] Voelker, Аарон Р .; Каич, Ивана; Элиасмит, Крис (2019). Единицы памяти Лежандра: представление в непрерывном времени в рекуррентных нейронных сетях (PDF) . Достижения в системах обработки нейронной информации .

[33] «Тест сжатия большого текста» . Проверено 13 января 2017 .

[34] Фабрис Беллард (2019), « Сжатие данных без потерь с помощью нейронных сетей »

[35] братан, н. «Почему RNN с модулями LSTM также могут страдать от« взрывных градиентов »?» . Перекрестная проверка . Проверено 25 декабря 2018 .

[peepholeLSTM-36] Gers, FA; Шмидхубер, Дж. (2001). «Рекуррентные сети LSTM изучают простые контекстно-свободные и контекстно-зависимые языки» (PDF) . IEEE-транзакции в нейронных сетях . 12 (6): 1333–1340. DOI : 10.1109 / 72.963769 . PMID 18249962 .

[peephole2002-37] Gers, F .; Schraudolph, N .; Шмидхубер, Дж. (2002). «Изучение точного времени с помощью повторяющихся сетей LSTM» (PDF) . Журнал исследований в области машинного обучения . 3 : 115–143.

[38] Gers, FA; Шмидхубер, Э. (ноябрь 2001 г.). «Повторяющиеся сети LSTM изучают простые контекстно-зависимые и контекстно-зависимые языки» (PDF) . IEEE-транзакции в нейронных сетях . 12 (6): 1333–1340. DOI : 10.1109 / 72.963769 . ISSN 1045-9227 . PMID 18249962 .

[39] Синцзянь Ши; Чжуронг Чен; Хао Ван; Дит-Ян Юнг; Вай-кин Вонг; Ван-чун У (2015). «Сверточная сеть LSTM: подход машинного обучения для прогнозирования текущей погоды». Труды 28-й Международной конференции по системам обработки нейронной информации : 802–810. arXiv : 1506.04214 . Bibcode : 2015arXiv150604214S .

[40] С. Хохрайтер. Untersuchungen zu Dynamischen Neuronalen Netzen. Дипломная работа, Institut f. Informatik, Technische Univ. Мюнхен, 1991 г.

[gradf-41] Hochreiter, S .; Bengio, Y .; Frasconi, P .; Шмидхубер, Дж. (2001). «Градиентный поток в рекуррентных сетях: трудность изучения долгосрочных зависимостей (доступна загрузка PDF-файла)» . В г. Кремер и Южная Каролина; Колен, Дж. Ф. (ред.). Полевое руководство по динамическим рекуррентным нейронным сетям . IEEE Press.

[fernandez2007-42] Фернандес, Сантьяго; Грейвс, Алекс; Шмидхубер, Юрген (2007). «Маркировка последовательностей в структурированных доменах с иерархическими рекуррентными нейронными сетями». Proc. 20-й Int. Совместная конф. Об искусственном интеллекте, Иджчай 2007 : 774–779. CiteSeerX 10.1.1.79.1887 .

[graves2006-43] Грейвс, Алекс; Фернандес, Сантьяго; Гомес, Фаустино (2006). «Временная классификация коннекционистов: маркировка несегментированных данных последовательности с помощью рекуррентных нейронных сетей». В материалах Международной конференции по машинному обучению, ICML 2006 : 369–376. CiteSeerX 10.1.1.75.6306 .

[wierstra2005-44] а б Виерстра, Даан; Schmidhuber, J .; Гомес, FJ (2005). "Evolino: Гибридная нейроэволюция / Оптимальный линейный поиск для последовательного обучения" . Труды 19-й Международной совместной конференции по искусственному интеллекту (IJCAI), Эдинбург : 853–858.

[OpenAIfive-45] Родригес, Хесус (2 июля 2018 г.). «Наука, стоящая за OpenAI Five, которая только что произвела один из величайших достижений в истории искусственного интеллекта» . К науке о данных . Проверено 15 января 2019 .

[OpenAIhand-46] «Ловкость обучения» . Блог OpenAI . 30 июля 2018 . Проверено 15 января 2019 .

[alphastar-47] Б Стэнфорд, Стейси (25 января 2019). «AI DeepMind, AlphaStar демонстрирует значительный прогресс на пути к AGI» . Medium ML Memoirs . Проверено 15 января 2019 .

[48] Mayer, H .; Gomez, F .; Wierstra, D .; Nagy, I .; Knoll, A .; Шмидхубер, Дж. (Октябрь 2006 г.). Система для роботизированной кардиохирургии, которая учится связывать узлы с помощью рекуррентных нейронных сетей . 2006 Международная конференция IEEE / RSJ по интеллектуальным роботам и системам . С. 543–548. CiteSeerX 10.1.1.218.3399 . DOI : 10.1109 / IROS.2006.282190 . ISBN 978-1-4244-0258-8. S2CID 12284900 .

[49] Graves, A .; Шмидхубер, Дж. (2005). «Покадровая классификация фонем с двунаправленным LSTM и другими архитектурами нейронных сетей». Нейронные сети . 18 (5–6): 602–610. CiteSeerX 10.1.1.331.5800 . DOI : 10.1016 / j.neunet.2005.06.042 . PMID 16112549 .

[50] Фернандес, Сантьяго; Грейвс, Алекс; Шмидхубер, Юрген (2007). Применение рекуррентных нейронных сетей для распознавания ключевых слов . Материалы 17-й Международной конференции по искусственным нейронным сетям . ICANN'07. Берлин, Гейдельберг: Springer-Verlag. С. 220–229. ISBN 978-3540746935.

[ReferenceA-51] Грейвс, Алекс; Мохамед, Абдель-Рахман; Хинтон, Джеффри (2013). «Распознавание речи с глубокими рекуррентными нейронными сетями». Акустика, речь и обработка сигналов (ICASSP), Международная конференция IEEE, 2013 г., тел .: 6645–6649. arXiv : 1303,5778 . DOI : 10.1109 / ICASSP.2013.6638947 . ISBN 978-1-4799-0356-6. S2CID 206741496 .

[52] Эк, Дуглас; Шмидхубер, Юрген (28 августа 2002). Изучение долгосрочной структуры блюза . Искусственные нейронные сети - ICANN 2002 . Конспект лекций по информатике. 2415 . Шпрингер, Берлин, Гейдельберг. С. 284–289. CiteSeerX 10.1.1.116.3620 . DOI : 10.1007 / 3-540-46084-5_47 . ISBN 978-3540460848.

[53] Schmidhuber, J .; Gers, F .; Eck, D .; Schmidhuber, J .; Герс, Ф. (2002). «Изучение нерегулярных языков: сравнение простых повторяющихся сетей и LSTM». Нейронные вычисления . 14 (9): 2039–2041. CiteSeerX 10.1.1.11.7369 . DOI : 10.1162 / 089976602320263980 . PMID 12184841 . S2CID 30459046 .

[54] Перес-Ортис, JA; Gers, FA; Eck, D .; Шмидхубер, Дж. (2003). «Фильтры Калмана улучшают производительность сети LSTM в задачах, не решаемых традиционными повторяющимися сетями». Нейронные сети . 16 (2): 241–250. CiteSeerX 10.1.1.381.1992 . DOI : 10.1016 / s0893-6080 (02) 00219-8 . PMID 12628609 .

[55] А. Грейвс, Дж. Шмидхубер. Распознавание рукописного ввода в автономном режиме с помощью многомерных рекуррентных нейронных сетей. Достижения в системах обработки нейронной информации 22, NIPS'22, стр 545–552, Ванкувер, MIT Press, 2009.

[56] Грейвс, Алекс; Фернандес, Сантьяго; Ливицки, Маркус; Бунке, Хорст; Шмидхубер, Юрген (2007). Неограниченное распознавание рукописного ввода в Интернете с помощью рекуррентных нейронных сетей . Материалы 20-й Международной конференции по системам обработки нейронной информации . НИПС'07. США: Curran Associates Inc., стр. 577–584. ISBN 9781605603520.

[57] М. Баккуш, Ф. Мамалет, С. Вольф, К. Гарсия, А. Баскурт. Последовательное глубокое обучение для распознавания действий человека. 2-й Международный семинар по пониманию человеческого поведения (HBU), AA Salah, B. Lepri ed. Амстердам, Нидерланды. С. 29–39. Конспект лекций по информатике 7065. Springer. 2011 г.

[58] Хуанг, Цзе; Чжоу, Венган; Чжан, Цилинь; Ли, Хоуцян; Ли, Вэйпин (30.01.2018). «Распознавание жестового языка на основе видео без временной сегментации». arXiv : 1801.10111 [ cs.CV ].

[59] Hochreiter, S .; Heusel, M .; Обермайер, К. (2007). «Быстрое определение гомологии белков на основе модели без выравнивания» . Биоинформатика . 23 (14): 1728–1736. DOI : 10.1093 / биоинформатики / btm247 . PMID 17488755 .

[60] Thireou, T .; Рецко, М. (2007). «Двунаправленные сети долгосрочной краткосрочной памяти для предсказания субклеточной локализации эукариотических белков» . Протоколы IEEE / ACM по вычислительной биологии и биоинформатике . 4 (3): 441–446. DOI : 10.1109 / tcbb.2007.1015 . PMID 17666763 . S2CID 11787259 .

[61] Малхотра, Панкадж; Виг, Ловекеш; Шрофф, Гаутам; Агарвал, Пунит (апрель 2015 г.). «Сети с долгосрочной краткосрочной памятью для обнаружения аномалий во временных рядах» (PDF) . Европейский симпозиум по искусственным нейронным сетям, вычислительному интеллекту и машинному обучению - ESANN 2015 .

[62] Налог, N .; Веренич, И .; La Rosa, M .; Дюма, М. (2017). Прогнозный мониторинг бизнес-процессов с помощью нейронных сетей LSTM . Труды Международной конференции по передовой инженерии информационных систем (CAiSE) . Конспект лекций по информатике. 10253 . С. 477–492. arXiv : 1612.02130 . DOI : 10.1007 / 978-3-319-59536-8_30 . ISBN 978-3-319-59535-1. S2CID 2192354 .

[63] Choi, E .; Bahadori, MT; Schuetz, E .; Стюарт, В .; Солнце, Дж. (2016). «Доктор AI: Прогнозирование клинических событий с помощью рекуррентных нейронных сетей» . Материалы 1-й конференции по машинному обучению для здравоохранения . 56 : 301–318. arXiv : 1511.05942 . Bibcode : 2015arXiv151105942C . PMC 5341604 . PMID 28286600 .

[64] Цзя, Робин; Лян, Перси (2016-06-11). «Рекомбинация данных для нейросемантического анализа» . arXiv: 1606.03622 [cs] .

[Wang_Duan_Zhang_Niu_p=1657-65] Ван, Ле; Дуань, Сюйхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, банда; Чжэн, Наньнин (22.05.2018). «Сегмент-трубка: пространственно-временная локализация действия в видео без обрезки с покадровой сегментацией» (PDF) . Датчики . 18 (5): 1657. DOI : 10,3390 / s18051657 . ISSN 1424-8220 . PMC 5982167 . PMID 29789447 .

[Duan_Wang_Zhai_Zheng_2018_p.-66] Дуань, Сюйхуань; Ван, Ле; Чжай, Чанбо; Чжэн, Наньнин; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Банда (2018). Совместная пространственно-временная локализация действий в видео без обрезки с покадровой сегментацией . 25-я Международная конференция IEEE по обработке изображений (ICIP). DOI : 10,1109 / icip.2018.8451692 . ISBN 978-1-4799-7061-2.

[67] Орсини, Ф .; Гастальди, М .; Mantecchini, L .; Росси, Р. (2019). Нейронные сети обученных с WiFi трасс для прогнозирования поведения пассажиров аэропорта . 6-я Международная конференция по моделям и технологиям интеллектуальных транспортных систем. Краков: IEEE. arXiv : 1910.14026 . DOI : 10.1109 / MTITS.2019.8883365 . 8883365.

[68] Чжао, З .; Chen, W .; Wu, X .; Чен, PCY; Лю, Дж. (2017). «Сеть LSTM: подход глубокого обучения для краткосрочного прогнозирования трафика». Интеллектуальные транспортные системы ИЭПП . 11 (2): 68–75. DOI : 10,1049 / МТВ-its.2016.0208 .

[pmid29095571-69] Гупта А, Müller AT, Huisman BJH, Fuchs JA, Schneider P, Schneider G (2018). «Генеративные рекуррентные сети для разработки лекарств De Novo» . Мол Информ . 37 (1–2). DOI : 10.1002 / minf.201700111 . PMC 5836943 . PMID 29095571 . CS1 maint: multiple names: authors list (link)