Глубокое обучение с подкреплением

Глубокое обучение с подкреплением ( Deep RL ) - это подраздел машинного обучения , сочетающий обучение с подкреплением (RL) и глубокое обучение . RL рассматривает проблему научения вычислительного агента принимать решения методом проб и ошибок. Deep RL включает в себя глубокое обучение в решение, позволяя агентам принимать решения на основе неструктурированных входных данных без ручного проектирования пространства состояний.. Алгоритмы глубокого RL могут принимать очень большие входные данные (например, каждый пиксель, отображаемый на экране в видеоигре) и решать, какие действия выполнять для оптимизации цели (например, максимизировать игровой счет). Глубокое обучение с подкреплением использовалось для разнообразного набора приложений, включая, помимо прочего, робототехнику , видеоигры , обработку естественного языка , компьютерное зрение , образование, транспорт, финансы и здравоохранение . ^[1]

Обзор [ править ]

Глубокое обучение [ править ]

Изображение базовой искусственной нейронной сети

Глубокое обучение - это форма машинного обучения, которая использует нейронную сеть для преобразования набора входных данных в набор выходных данных через искусственную нейронную сеть . Было показано, что методы глубокого обучения, часто использующие контролируемое обучение с помеченными наборами данных, позволяют решать задачи, связанные с обработкой сложных многомерных необработанных входных данных, таких как изображения, с меньшим количеством ручного проектирования функций, чем предыдущие методы, что обеспечивает значительный прогресс в нескольких областях, включая компьютер зрение и обработка естественного языка .

Обучение с подкреплением [ править ]

Схема цикла, повторяющегося в алгоритмах обучения с подкреплением

Обучение с подкреплением - это процесс, в котором агент учится принимать решения методом проб и ошибок. Эта проблема часто моделируется математически как марковский процесс принятия решений (MDP), где агент на каждом временном шаге находится в состоянии , предпринимает действия , получает скалярное вознаграждение и переходит в следующее состояние в соответствии с динамикой среды . Агент пытается изучить политику или сопоставить наблюдения с действиями, чтобы максимизировать отдачу (ожидаемую сумму вознаграждений). В обучении с подкреплением (в отличие от оптимального управления ) алгоритм имеет доступ к динамике только через выборку. ${\ displaystyle s}$ ${\ displaystyle a}$ ${\ displaystyle s '}$ ${\ displaystyle p (s '| s, a)}$ ${\ Displaystyle \ пи (а | с)}$ ${\ displaystyle p (s '| s, a)}$

Глубокое обучение с подкреплением [ править ]

Во многих практических задачах принятия решений состояния MDP являются многомерными (например, изображения с камеры или необработанный поток датчика от робота) и не могут быть решены с помощью традиционных алгоритмов RL. Алгоритмы глубокого обучения с подкреплением включают глубокое обучение для решения таких MDP, часто представляя политику или другие изученные функции в виде нейронной сети и разрабатывая специализированные алгоритмы, которые хорошо работают в этих условиях. ${\ displaystyle s}$ ${\ Displaystyle \ пи (а | с)}$

История [ править ]

Наряду с растущим интересом к нейронным сетям, начиная с середины 1980-х годов, вырос интерес к глубокому обучению с подкреплением, когда нейронная сеть используется для представления политик или функций ценностей. Как и в такой системе, весь процесс принятия решений от датчиков до двигателей в роботе или агенте включает в себя однослойную нейронную сеть , это иногда называют сквозным обучением с подкреплением. ^[2] Одним из первых успешных приложений обучения с подкреплением с помощью нейронных сетей была компьютерная программа TD-Gammon , разработанная в 1992 году для игры в нарды . ^[3]Четыре входа использовались для количества элементов данного цвета в заданном месте на плате, всего 198 входных сигналов. Имея нулевые знания, сеть научилась играть в игру на промежуточном уровне с помощью самостоятельной игры и TD ( ) λ {\ displaystyle \ lambda} .

Базовые учебники Саттона и Барто по обучению с подкреплением ^[4] Бертсекас и Цитиклис по нейродинамическому программированию ^[5] и др. ^[6] расширяют знания и интерес к этой области. Группа Кацунари Шибата показала, что в этой структуре возникают различные функции ^[7]^[8]^[9], включая распознавание изображений, постоянство цвета, сенсорное движение (активное распознавание), зрительно-моторную координацию и движение рук, объяснение деятельности мозга, знания. передача, память, ^[10] избирательное внимание, предсказание и исследование. ^[8]^[11]

Примерно с 2013 года DeepMind показала впечатляющие результаты обучения с использованием глубокого RL для видеоигр Atari . ^[12]^[13] Компьютерный игрок в нейронную сеть, обученную с использованием алгоритма глубокого RL, глубокой версии Q-обучения, которую они назвали глубокими Q-сетями (DQN), с результатом игры в качестве награды. Они использовали глубокую сверточную нейронную сеть для обработки 4-х кадровых пикселей RGB (84x84) в качестве входных данных. Все 49 игр были изучены с использованием одной и той же сетевой архитектуры и с минимальными предварительными знаниями, которые превосходят конкурирующие методы почти во всех играх и работают на уровне, сопоставимом или превосходящем с уровнем профессионального тестировщика игр. ^[13]

Глубокое обучение с подкреплением достигло рубеж в 2015 году , когда AlphaGo , ^[14] компьютерная программа обучена с глубоким RL играть Go , стала первой компьютерной программой Go бить человек профессионального игрока Go без гандикапа на полноразмерный 19 × 19 борту. В последующем проекте в 2017 году AlphaZero улучшила производительность в Go, а также продемонстрировала, что они могут использовать тот же алгоритм, чтобы научиться играть в шахматы и сёги на уровне, конкурентоспособном или превосходящем существующие компьютерные программы для этих игр, и снова улучшились в 2019 году с MuZero . ^[15] Отдельно еще одна веха была достигнута исследователями из Университета Карнеги-Меллона.в 2019 году разработал Pluribus , компьютерную программу для игры в покер, которая первой победила профессионалов в многопользовательской игре в безлимитный техасский холдем . OpenAI Five , программа для игры пять на пять в Dota 2, обыграла предыдущих чемпионов мира в демонстрационном матче в 2019 году.

Глубокое обучение с подкреплением также применяется во многих областях, помимо игр. В робототехнике он использовался, чтобы позволить роботам выполнять простые домашние задачи ^[16] и решать кубик Рубика с помощью руки робота. ^[17]^[18] Deep RL также нашла приложения для обеспечения устойчивости, которые используются для снижения энергопотребления в центрах обработки данных. ^[19] Deep RL для автономного вождения - активная область исследований в академических кругах и промышленности. ^[20] Loon исследовали глубокий RL для автономной навигации на своих высотных аэростатах. ^[21]

Алгоритмы [ править ]

Существуют различные методы обучения политик решению задач с помощью алгоритмов глубокого обучения с подкреплением, каждый из которых имеет свои преимущества. На самом высоком уровне существует различие между обучением с подкреплением на основе моделей и без модели, которое относится к тому, пытается ли алгоритм изучить прямую модель динамики среды.

В основе модели алгоритмов глубокого обучения с подкреплением, вперед модель динамики среды оценивается, как правило , путем контролируемого обучения с использованием нейронной сети. Затем действия получаются с помощью прогнозирующего управления модели с использованием изученной модели. Поскольку истинная динамика среды обычно отличается от изученной динамики, агент часто перепланирует свои действия при выполнении действий в среде. Выбранные действия могут быть оптимизированы с использованием методов Монте-Карло, таких как метод кросс-энтропии , или комбинации обучения модели с методами без модели.

В модели свободных алгоритмов глубокого обучения с подкреплением, политика познается без явного моделирования вперед динамики. Политика может быть оптимизирована для максимизации прибыли путем непосредственной оценки градиента политики ^[22], но страдает от высокой дисперсии, что делает ее непрактичной для использования с аппроксимацией функций в глубоких RL. Последующие алгоритмы были разработаны для более стабильного обучения и широко применяются. ^[23]^[24] Другой класс алгоритмов безмодельного обучения с глубоким подкреплением основывается на динамическом программировании , вдохновленном обучением с разницей во времени и Q-обучением . В пространствах дискретных действий эти алгоритмы обычно изучают Q-функцию нейронной сети. ${\ Displaystyle \ пи (а | с)}$ ${\ Displaystyle Q (s, а)}$ который оценивает будущую прибыль, предпринимаемую государством . ^[12] В непрерывных пространствах эти алгоритмы часто изучают как оценку стоимости, так и политику. ^[25]^[26]^[27] ${\ displaystyle a}$ ${\ displaystyle s}$

Исследование [ править ]

Глубокое обучение с подкреплением - это активная область исследований, в которой можно исследовать несколько направлений.

Исследование [ править ]

Агент RL должен уравновесить компромисс между исследованием и эксплуатацией: проблема принятия решения о том, предпринимать ли действия, которые, как известно, приносят высокие вознаграждения, или исследовать другие действия, чтобы получить более высокие вознаграждения. Агенты RL обычно собирают данные с помощью некоторого типа стохастической политики, такой как распределение Больцмана в пространствах дискретных действий или распределение Гаусса в пространствах непрерывных действий, вызывая базовое исследовательское поведение. Идея, лежащая в основе исследования, основанного на новизне или любопытстве, дает агенту стимул исследовать неизвестные результаты, чтобы найти лучшие решения. Это делается путем «изменения функции потерь (или даже сетевой архитектуры) путем добавления терминов, стимулирующих исследования». ^[28]Агенту также можно помочь в исследовании, используя демонстрацию успешных траекторий или формирование вознаграждения, давая агенту промежуточные вознаграждения, которые настраиваются в соответствии с задачей, которую он пытается выполнить. ^[29]

Обучение с подкреплением вне политики [ править ]

Важное различие в RL - это разница между алгоритмами на основе политики, которые требуют оценки или улучшения политики, которая собирает данные, и алгоритмами вне политики, которые могут изучать политику из данных, сгенерированных произвольной политикой. Как правило, методы, основанные на функциях ценности, такие как Q-обучение , лучше подходят для обучения вне политики и имеют лучшую эффективность выборки - объем данных, необходимых для изучения задачи, уменьшается, поскольку данные повторно используются для обучения. В крайнем случае, автономный (или «пакетный») RL рассматривает изучение политики из фиксированного набора данных без дополнительного взаимодействия со средой.

Обратное обучение с подкреплением [ править ]

Обратный RL относится к выводу функции вознаграждения агента с учетом его поведения. Обратное обучение с подкреплением можно использовать для обучения на демонстрациях (или в процессе обучения ) путем определения вознаграждения демонстратора и последующей оптимизации политики для максимизации отдачи от RL. Подходы глубокого обучения использовались для различных форм имитационного обучения и обратного RL. ^[30]

Обучение с подкреплением, обусловленное целью [ править ]

Другая активная область исследований - изучение политик, обусловленных целью, также называемых контекстными или универсальными политиками, которые принимают дополнительную цель в качестве входных данных для сообщения желаемой цели агенту. ^[31] Воспроизведение ретроспективного опыта - это метод для обусловленного целью RL, который включает в себя сохранение и извлечение уроков из предыдущих неудачных попыток выполнить задачу. ^[32] Несмотря на то, что неудачная попытка могла не достичь намеченной цели, она может послужить уроком о том, как достичь непреднамеренного результата путем перемаркировки задним числом. ${\ Displaystyle \ пи (а | с, г)}$ ${\ displaystyle g}$

Многоагентное обучение с подкреплением [ править ]

Многие приложения обучения с подкреплением включают не только одного агента, а скорее набор агентов, которые учатся вместе и совместно адаптируются. Эти агенты могут быть конкурентными, как во многих играх, или кооперативными, как во многих реальных многоагентных системах. Многоагентное обучение изучает проблемы, возникающие в этой настройке.

Обобщение [ править ]

Обещание использования инструментов глубокого обучения в обучении с подкреплением является обобщением: способность правильно работать с ранее невидимыми входными данными. Например, нейронные сети, обученные распознаванию изображений, могут распознать, что изображение содержит птицу, даже если они никогда не видели это конкретное изображение или даже эту конкретную птицу. Поскольку глубокий RL позволяет использовать в качестве входных данных необработанные данные (например, пиксели), уменьшается потребность в предварительном определении среды, что позволяет обобщить модель для нескольких приложений. С помощью этого уровня абстракции алгоритмы глубокого обучения с подкреплением могут быть разработаны таким образом, чтобы они были общими, а одну и ту же модель можно было использовать для разных задач. ^[33] Одним из методов повышения способности политик, обученных с помощью политик глубокого RL, обобщать, является включениерепрезентативное обучение .

Ссылки [ править ]

^ Франсуа-Лаве, Винсент; Хендерсон, Питер; Ислам, Риашат; Bellemare, Marc G .; Пино, Жоэль (2018). «Введение в глубокое обучение с подкреплением». Основы и тенденции в машинном обучении . 11 (3–4): 219–354. arXiv : 1811.12560 . Bibcode : 2018arXiv181112560F . DOI : 10.1561 / 2200000071 . ISSN 1935-8237 . S2CID 54434537 .
↑ Демис, Хассабис (11 марта 2016 г.). Искусственный интеллект и будущее (речь).
^ Тесауро, Джеральд (март 1995). «Обучение временной разнице и TD-Gammon» . Коммуникации ACM . 38 (3): 58–68. DOI : 10.1145 / 203330.203343 . S2CID 8763243 . Архивировано из оригинала на 2010-02-09 . Проверено 10 марта 2017 .
^ Саттон, Ричард; Барто, Эндрю (сентябрь 1996 г.). Обучение с подкреплением: Введение . Афина Сайентифик.
^ Берцекас, Джон; Цициклис, Дмитрий (сентябрь 1996 г.). Нейродинамическое программирование . Афина Сайентифик. ISBN 1-886529-10-8.
^ Миллер, В. Томас; Вербос, Пол; Саттон, Ричард (1990). Нейронные сети для управления .
^ Шибата, Кацунари; Окабе, Йоичи (1997). Обучение с подкреплением, когда зрительные сенсорные сигналы поступают непосредственно в качестве входных данных (PDF) . Международная конференция по нейронным сетям (ICNN) 1997.
^ а б Шибата, Кацунари; Иида, Масару (2003). Приобретение Box Pushing с помощью обучения с подкреплением на основе Direct-Vision (PDF) . Ежегодная конференция SICE 2003.
↑ Сибата, Кацунари (7 марта 2017 г.). «Функции, возникающие в результате непрерывного обучения с подкреплением». arXiv : 1703.02239 [ cs.AI ].
^ Уцуномия, Хироки; Шибата, Кацунари (2008). Контекстное поведение и внутренние представления, полученные при обучении с подкреплением с помощью рекуррентной нейронной сети в задаче непрерывного состояния и пространства действий (PDF) . Международная конференция по обработке нейронной информации (ICONIP) '08.
^ Шибата, Кацунари; Кавано, Томохико (2008). Изучение создания действий из необработанных изображений с камеры в реальной среде путем простого соединения обучения с подкреплением и нейронной сети (PDF) . Международная конференция по обработке нейронной информации (ICONIP) '08.
^ a b Мних, Владимир; и другие. (Декабрь 2013). Игра в Atari с глубоким обучением с подкреплением (PDF) . NIPS Deep Learning Workshop 2013.
^ a b Мних, Владимир; и другие. (2015). «Контроль на уровне человека посредством глубокого обучения с подкреплением». Природа . 518 (7540): 529–533. Bibcode : 2015Natur.518..529M . DOI : 10,1038 / природа14236 . PMID 25719670 . S2CID 205242740 .
↑ Сильвер, Дэвид ; Хуанг, Аджа ; Мэддисон, Крис Дж .; Гез, Артур; Сифре, Лоран; Дрише, Джордж ван ден; Шриттвизер, Джулиан; Антоноглоу, Иоаннис; Паннеершелвам, Веда; Ланкто, Марк; Дилеман, Сандер; Греве, Доминик; Нхам, Джон; Кальхбреннер, Нал; Суцкевер, Илья ; Лилликрап, Тимоти; Лич, Мадлен; Кавукчуоглу, Корай; Грэпель, Тор; Хассабис, Демис (28 января 2016 г.). «Освоение игры в го с глубокими нейронными сетями и поиском по дереву». Природа . 529 (7587): 484–489. Bibcode : 2016Natur.529..484S . DOI : 10,1038 / природа16961 . ISSN 0028-0836 . PMID 26819042 . S2CID 515925 .
^ Шриттвизер, Джулиан; Антоноглоу, Иоаннис; Хьюберт, Томас; Симонян, Карен; Сифре, Лоран; Шмитт, Саймон; Гез, Артур; Локхарт, Эдвард; Хассабис, Демис; Грэпель, Тор; Лилликрап, Тимоти; Сильвер, Дэвид (23 декабря 2020 г.). «Освоение Атари, Го, шахмат и сёги путём планирования с учёной моделью» . Природа . 588 (7839): 604–609. arXiv : 1911.08265 . DOI : 10.1038 / s41586-020-03051-4 .
↑ Левин, Сергей; Финн, Челси; Даррелл, Тревор; Аббель, Питер (январь 2016 г.). «Сквозное обучение глубокой зрительно-моторной политике» (PDF) . JMLR . 17 . arXiv : 1504.00702 .
^ «OpenAI - Решение кубика Рубика с помощью руки робота» . OpenAI .
^ OpenAI; и другие. (2019). Сборка кубика Рубика с помощью руки робота .
^ «DeepMind AI снижает счет за охлаждение центра обработки данных Google на 40%» . DeepMind .
^ Хотз, Джордж (сентябрь 2019). «Победа - подход к обучению с подкреплением» (интервью). Беседовал Лекс Фридман.
^ Беллемар, Марк; Кандидо, Сальваторе; Кастро, Пабло; Гонг, июнь; Мачадо, Марлос; Мойтра, Субходип; Понда, Самира; Ван, Цзыюй (2 декабря 2020 г.). «Автономная навигация стратосферных аэростатов с использованием обучения с подкреплением» . Природа . 588 : 77–82. DOI : 10.1038 / s41586-020-2939-8 .
^ Уильямс, Рональд Дж (1992). «Простые статистические алгоритмы следования градиентам для обучения с подкреплением коннекционистов» . Машинное обучение . 8 (3–4): 229–256. DOI : 10.1007 / BF00992696 . S2CID 2332513 .
^ Шульман, Джон; Левин, Сергей; Мориц, Филипп; Джордан, Майкл; Аббель, Питер (2015). Оптимизация политики доверительного региона . Международная конференция по машинному обучению (ICML).
^ Шульман, Джон; Вольски, Филип; Дхаривал, Прафулла; Рэдфорд, Алек; Климов, Олег (2017). Алгоритмы оптимизации проксимальной политики .
^ Lillicrap, Тимоти; Хант, Джонатан; Прицель, Александр; Хесс, Николас; Эрез, Том; Тасса, Юваль; Сильвер, Дэвид; Виерстра, Даан (2016). Непрерывный контроль с глубоким обучением с подкреплением . Международная конференция по обучающим представительствам (ICLR).
^ Мних, Владимир; Пуигдоменек Бадиа, Адрия; Мирзи, Мехди; Грейвс, Алекс; Харли, Тим; Лилликрап, Тимоти; Сильвер, Дэвид; Кавукчуоглу, Корай (2016). Асинхронные методы обучения с глубоким подкреплением . Международная конференция по машинному обучению (ICML).
^ Хаарноя, Туомас; Чжоу, Аурик; Левин, Сергей; Аббель, Питер (2018). Мягкий критик-субъект: обучение с глубоким подкреплением с максимальной энтропией вне политики со стохастическим субъектом . Международная конференция по машинному обучению (ICML).
^ Райзингер, Патрик; Семеньей, Мартон (23.10.2019). «Исследование, основанное на внимании и любопытстве, в обучении с глубоким подкреплением». arXiv : 1910.10840 [ cs.LG ].
^ Wiewiora, Эрик (2010), «Формирование награды» , Саммут, Клод; Уэбб, Джеффри И. (ред.), Энциклопедия машинного обучения , Boston, MA: Springer США, С. 863-865,. DOI : 10.1007 / 978-0-387-30164-8_731 , ISBN 978-0-387-30164-8, получено 16.11.2020
^ Вульфмайер, Маркус; Ондруска, Петр; Познер, Ингмар (2015). «Максимальная энтропия глубокого обучения с обратным подкреплением». arXiv : 1507.04888 [ cs.LG ].
^ Шауль, Том; Хорган, Дэниел; Грегор, Кароль; Серебро, Дэвид (2015). Универсальные аппроксиматоры функции ценности . Международная конференция по машинному обучению (ICML).
^ Андрыхович, Марцин; Вольски, Филип; Рэй, Алекс; Шнайдер, Йонас; Фонг, Рэйчел; Велиндер, Питер; МакГрю, Боб; Тобин, Джош; Аббель, Питер; Заремба, Войцех (2018). Воспроизведение ретроспективного опыта . Достижения в системах обработки нейронной информации (NeurIPS). arXiv : 1707.01495 .
^ Пакер, Чарльз; Гао, Кейтлин; Кос, Йерней; Крахенбюль, Филипп; Колтун, Владлен; Песня, Рассвет (2019-03-15). «Оценка обобщения в обучении с глубоким подкреплением». arXiv : 1810.12282 [ cs.LG ].

[francoislavet2018-1] Франсуа-Лаве, Винсент; Хендерсон, Питер; Ислам, Риашат; Bellemare, Marc G .; Пино, Жоэль (2018). «Введение в глубокое обучение с подкреплением». Основы и тенденции в машинном обучении . 11 (3–4): 219–354. arXiv : 1811.12560 . Bibcode : 2018arXiv181112560F . DOI : 10.1561 / 2200000071 . ISSN 1935-8237 . S2CID 54434537 .

[Hassabis-2] Демис, Хассабис (11 марта 2016 г.). Искусственный интеллект и будущее (речь).

[TD-Gammon-3] Тесауро, Джеральд (март 1995). «Обучение временной разнице и TD-Gammon» . Коммуникации ACM . 38 (3): 58–68. DOI : 10.1145 / 203330.203343 . S2CID 8763243 . Архивировано из оригинала на 2010-02-09 . Проверено 10 марта 2017 .

[sutton1996-4] Саттон, Ричард; Барто, Эндрю (сентябрь 1996 г.). Обучение с подкреплением: Введение . Афина Сайентифик.

[tsitsiklis1996-5] Берцекас, Джон; Цициклис, Дмитрий (сентябрь 1996 г.). Нейродинамическое программирование . Афина Сайентифик. ISBN 1-886529-10-8.

[miller1990-6] Миллер, В. Томас; Вербос, Пол; Саттон, Ричард (1990). Нейронные сети для управления .

[Shibata3-7] Шибата, Кацунари; Окабе, Йоичи (1997). Обучение с подкреплением, когда зрительные сенсорные сигналы поступают непосредственно в качестве входных данных (PDF) . Международная конференция по нейронным сетям (ICNN) 1997.

[Shibata4-8] а б Шибата, Кацунари; Иида, Масару (2003). Приобретение Box Pushing с помощью обучения с подкреплением на основе Direct-Vision (PDF) . Ежегодная конференция SICE 2003.

[Shibata2-9] Сибата, Кацунари (7 марта 2017 г.). «Функции, возникающие в результате непрерывного обучения с подкреплением». arXiv : 1703.02239 [ cs.AI ].

[Shibata5-10] Уцуномия, Хироки; Шибата, Кацунари (2008). Контекстное поведение и внутренние представления, полученные при обучении с подкреплением с помощью рекуррентной нейронной сети в задаче непрерывного состояния и пространства действий (PDF) . Международная конференция по обработке нейронной информации (ICONIP) '08.

[Shibata6-11] Шибата, Кацунари; Кавано, Томохико (2008). Изучение создания действий из необработанных изображений с камеры в реальной среде путем простого соединения обучения с подкреплением и нейронной сети (PDF) . Международная конференция по обработке нейронной информации (ICONIP) '08.

[DQN1-12] Мних, Владимир; и другие. (Декабрь 2013). Игра в Atari с глубоким обучением с подкреплением (PDF) . NIPS Deep Learning Workshop 2013.

[DQN2-13] Мних, Владимир; и другие. (2015). «Контроль на уровне человека посредством глубокого обучения с подкреплением». Природа . 518 (7540): 529–533. Bibcode : 2015Natur.518..529M . DOI : 10,1038 / природа14236 . PMID 25719670 . S2CID 205242740 .

[AlphaGo-14] Сильвер, Дэвид ; Хуанг, Аджа ; Мэддисон, Крис Дж .; Гез, Артур; Сифре, Лоран; Дрише, Джордж ван ден; Шриттвизер, Джулиан; Антоноглоу, Иоаннис; Паннеершелвам, Веда; Ланкто, Марк; Дилеман, Сандер; Греве, Доминик; Нхам, Джон; Кальхбреннер, Нал; Суцкевер, Илья ; Лилликрап, Тимоти; Лич, Мадлен; Кавукчуоглу, Корай; Грэпель, Тор; Хассабис, Демис (28 января 2016 г.). «Освоение игры в го с глубокими нейронными сетями и поиском по дереву». Природа . 529 (7587): 484–489. Bibcode : 2016Natur.529..484S . DOI : 10,1038 / природа16961 . ISSN 0028-0836 . PMID 26819042 . S2CID 515925 .

[muzero-15] Шриттвизер, Джулиан; Антоноглоу, Иоаннис; Хьюберт, Томас; Симонян, Карен; Сифре, Лоран; Шмитт, Саймон; Гез, Артур; Локхарт, Эдвард; Хассабис, Демис; Грэпель, Тор; Лилликрап, Тимоти; Сильвер, Дэвид (23 декабря 2020 г.). «Освоение Атари, Го, шахмат и сёги путём планирования с учёной моделью» . Природа . 588 (7839): 604–609. arXiv : 1911.08265 . DOI : 10.1038 / s41586-020-03051-4 .

[levine2016-16] Левин, Сергей; Финн, Челси; Даррелл, Тревор; Аббель, Питер (январь 2016 г.). «Сквозное обучение глубокой зрительно-моторной политике» (PDF) . JMLR . 17 . arXiv : 1504.00702 .

[openaihand-17] «OpenAI - Решение кубика Рубика с помощью руки робота» . OpenAI .

[openaihandarxiv-18] OpenAI; и другие. (2019). Сборка кубика Рубика с помощью руки робота .

[deepmindcooling-19] «DeepMind AI снижает счет за охлаждение центра обработки данных Google на 40%» . DeepMind .

[hotzinterview-20] Хотз, Джордж (сентябрь 2019). «Победа - подход к обучению с подкреплением» (интервью). Беседовал Лекс Фридман.

[loonrl-21] Беллемар, Марк; Кандидо, Сальваторе; Кастро, Пабло; Гонг, июнь; Мачадо, Марлос; Мойтра, Субходип; Понда, Самира; Ван, Цзыюй (2 декабря 2020 г.). «Автономная навигация стратосферных аэростатов с использованием обучения с подкреплением» . Природа . 588 : 77–82. DOI : 10.1038 / s41586-020-2939-8 .

[williams1992-22] Уильямс, Рональд Дж (1992). «Простые статистические алгоритмы следования градиентам для обучения с подкреплением коннекционистов» . Машинное обучение . 8 (3–4): 229–256. DOI : 10.1007 / BF00992696 . S2CID 2332513 .

[schulman2015trpo-23] Шульман, Джон; Левин, Сергей; Мориц, Филипп; Джордан, Майкл; Аббель, Питер (2015). Оптимизация политики доверительного региона . Международная конференция по машинному обучению (ICML).

[schulman2017ppo-24] Шульман, Джон; Вольски, Филип; Дхаривал, Прафулла; Рэдфорд, Алек; Климов, Олег (2017). Алгоритмы оптимизации проксимальной политики .

[lillicrap2015ddpg-25] Lillicrap, Тимоти; Хант, Джонатан; Прицель, Александр; Хесс, Николас; Эрез, Том; Тасса, Юваль; Сильвер, Дэвид; Виерстра, Даан (2016). Непрерывный контроль с глубоким обучением с подкреплением . Международная конференция по обучающим представительствам (ICLR).

[mnih2016a3c-26] Мних, Владимир; Пуигдоменек Бадиа, Адрия; Мирзи, Мехди; Грейвс, Алекс; Харли, Тим; Лилликрап, Тимоти; Сильвер, Дэвид; Кавукчуоглу, Корай (2016). Асинхронные методы обучения с глубоким подкреплением . Международная конференция по машинному обучению (ICML).

[haarnoja2018sac-27] Хаарноя, Туомас; Чжоу, Аурик; Левин, Сергей; Аббель, Питер (2018). Мягкий критик-субъект: обучение с глубоким подкреплением с максимальной энтропией вне политики со стохастическим субъектом . Международная конференция по машинному обучению (ICML).

[28] Райзингер, Патрик; Семеньей, Мартон (23.10.2019). «Исследование, основанное на внимании и любопытстве, в обучении с глубоким подкреплением». arXiv : 1910.10840 [ cs.LG ].

[29] Wiewiora, Эрик (2010), «Формирование награды» , Саммут, Клод; Уэбб, Джеффри И. (ред.), Энциклопедия машинного обучения , Boston, MA: Springer США, С. 863-865,. DOI : 10.1007 / 978-0-387-30164-8_731 , ISBN 978-0-387-30164-8, получено 16.11.2020

[deepirl-30] Вульфмайер, Маркус; Ондруска, Петр; Познер, Ингмар (2015). «Максимальная энтропия глубокого обучения с обратным подкреплением». arXiv : 1507.04888 [ cs.LG ].

[schaul2015uva-31] Шауль, Том; Хорган, Дэниел; Грегор, Кароль; Серебро, Дэвид (2015). Универсальные аппроксиматоры функции ценности . Международная конференция по машинному обучению (ICML).

[andrychowicz2017her-32] Андрыхович, Марцин; Вольски, Филип; Рэй, Алекс; Шнайдер, Йонас; Фонг, Рэйчел; Велиндер, Питер; МакГрю, Боб; Тобин, Джош; Аббель, Питер; Заремба, Войцех (2018). Воспроизведение ретроспективного опыта . Достижения в системах обработки нейронной информации (NeurIPS). arXiv : 1707.01495 .

[packer2019-33] Пакер, Чарльз; Гао, Кейтлин; Кос, Йерней; Крахенбюль, Филипп; Колтун, Владлен; Песня, Рассвет (2019-03-15). «Оценка обобщения в обучении с глубоким подкреплением». arXiv : 1810.12282 [ cs.LG ].

[1]