Рекуррентная нейронная сеть

Рекуррентные нейронные сети (РНС, англ. Recurrent neural network, RNN) — вид нейронных сетей, где связи между элементами образуют направленную последовательность. Благодаря этому появляется возможность обрабатывать серии событий во времени или последовательные пространственные цепочки. В отличие от многослойных перцептронов, рекуррентные сети могут использовать свою внутреннюю память для обработки последовательностей произвольной длины. Поэтому сети RNN применимы в таких задачах, где нечто целостное разбито на части, например: распознавание рукописного текста^[1] или распознавание речи^[2]^[3]. Было предложено много различных архитектурных решений для рекуррентных сетей от простых до сложных. В последнее время наибольшее распространение получили сеть с долговременной и кратковременной памятью (LSTM) и управляемый рекуррентный блок (GRU).

Джон Хопфилд в 1982 предложил Сеть Хопфилда. В 1993 нейронная система запоминания и сжатия исторических данных смогла решить задачу «очень глубокого обучения», в которой в рекуррентной сети разворачивалось более 1000 последовательных слоёв.^[4]

Сеть с долговременной и кратковременной памятью (англ. Long short-term memory, LSTM).^[5] нашла применение в различных приложениях.

Начиная с 2007 года LSTM приобрела популярность и смогла вывести на новый уровень распознавание речи, показав существенное улучшение по сравнению с традиционными моделями.^[6] В 2009 году появился подход классификации по рейтингу (англ. Connectionist temporal classification, CTC). Этот метод позволил рекуррентным сетям подключить анализ контекста при распознавании рукописного текста.^[7] В 2014 году китайская энциклопедия и поисковая система Baidu, используя рекуррентные сети с обучением по CTC, смогли поднять на новый уровень показатели Switchboard Hub5’00, опередив традиционные методы.^[8]

LSTM привела также к улучшению распознавания речи с большими словарями^[2]^[3] и улучшения синтеза речи по тексту^[9] и нашла также применение в операционной системе Google Android.^[10] В 2015 году распознавание речи у Google значительно повысило показатели вплоть до 49 %, причиной того стало использование специальной системы обучения LSTM на базе CTC в системе Google Voice Search^[англ.].^[11]

LSTM вывело на новый уровень качество машинного перевода,^[12], построения языковых моделей и^[13] обработки многоязычного текста.^[14] Сочетание LSTM со свёрточными нейронными сетями (CNN) позволило усовершенствовать автоматическое описание изображений.^[15]