Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Обучение с подкреплением ( RL ) является областью машинного обучения касается того , как интеллектуальные агенты должны принимать меры в среде с целью максимизации понятие совокупного вознаграждения. [1] Обучение с подкреплением - одна из трех основных парадигм машинного обучения, наряду с обучением с учителем и обучением без учителя .

Обучение с подкреплением отличается от обучения с учителем тем, что не требует представления помеченных пар ввода / вывода и не требует явного исправления неоптимальных действий. Вместо этого основное внимание уделяется поиску баланса между исследованием (неизведанной территории) и эксплуатацией (текущих знаний). [2]

Среда обычно описывается в форме марковского процесса принятия решений (MDP), потому что многие алгоритмы обучения с подкреплением для этого контекста используют методы динамического программирования . [3] Основное различие между классическими методами динамического программирования и алгоритмами обучения с подкреплением заключается в том, что последние не предполагают знания точной математической модели MDP и нацелены на большие MDP, где точные методы становятся невозможными.

Введение [ править ]

Типичная структура сценария обучения с подкреплением (RL): агент выполняет действия в среде, которая интерпретируется в вознаграждение и представление состояния, которые передаются обратно агенту.

Благодаря своей общности, обучение с подкреплением изучается во многих дисциплинах, такие , как теория игр , теория управления , исследование операций , теория информации , моделирование на основе оптимизация , многоагентные системы , роя разведка и статистика . В литературе по исследованию операций и контролю обучение с подкреплением называется приближенным динамическим программированием или нейродинамическим программированием. Интересующие нас проблемы обучения с подкреплением изучались также в теории оптимального управления., который касается в основном существования и характеристики оптимальных решений и алгоритмов для их точного вычисления, и меньше - обучения или аппроксимации, особенно при отсутствии математической модели среды. В экономике и теории игр обучение с подкреплением может использоваться для объяснения того, как может возникнуть равновесие при ограниченной рациональности .

Базовое усиление моделируется как марковский процесс принятия решений (MDP) :

  • набор состояний среды и агента, S ;
  • набор действий A агента;
  • - вероятность перехода (во время ) из состояния в состояние под действием .
  • это немедленная награда после перехода от к действию .

Агент обучения с подкреплением взаимодействует со своей средой дискретными временными шагами. В каждый момент времени t агент получает текущее состояние и вознаграждение . Затем он выбирает действие из набора доступных действий, которое впоследствии отправляется в среду. Среда переходит в новое состояние, и определяется вознаграждение, связанное с переходом . Цель учебного армирования агента является изучение политики : , которая максимизирует ожидаемое кумулятивное вознаграждение.

Формулировка проблемы в виде MDP предполагает, что агент непосредственно наблюдает за текущим состоянием окружающей среды; в этом случае говорят, что проблема полностью наблюдаема . Если агент имеет доступ только к подмножеству состояний или если наблюдаемые состояния искажены шумом, говорят, что агент имеет частичную наблюдаемость , и формально проблема должна быть сформулирована как частично наблюдаемый марковский процесс принятия решений . В обоих случаях набор действий, доступных агенту, может быть ограничен. Например, состояние баланса счета может быть ограничено положительным; если текущее значение состояния равно 3, а переход состояния пытается уменьшить значение на 4, переход не будет разрешен.

Когда производительность агента сравнивается с производительностью агента, который действует оптимально, разница в производительности порождает понятие сожаления . Чтобы действовать почти оптимально, агент должен рассуждать о долгосрочных последствиях своих действий (т. Е. Максимизировать будущий доход), хотя немедленное вознаграждение, связанное с этим, может быть отрицательным.

Таким образом, обучение с подкреплением особенно хорошо подходит для задач, которые включают долгосрочное и краткосрочное вознаграждение. Он успешно применяется для решения различных задач, включая управление роботами , планирование работы лифта, телекоммуникации , нарды , шашки [4] и Go ( AlphaGo ).

Два элемента делают обучение с подкреплением мощным: использование примеров для оптимизации производительности и использование аппроксимации функций для работы с большими средами. Благодаря этим двум ключевым компонентам обучение с подкреплением можно использовать в больших средах в следующих ситуациях:

  • Модель окружающей среды известна, но аналитическое решение отсутствует;
  • Дана только имитационная модель среды (предмет оптимизации на основе симуляции ); [5]
  • Единственный способ собрать информацию об окружающей среде - это взаимодействовать с ней.

Первые две из этих проблем можно рассматривать как проблемы планирования (поскольку существует некоторая форма модели), а последнюю можно рассматривать как настоящую проблему обучения. Однако обучение с подкреплением превращает обе проблемы планирования в проблемы машинного обучения .

Исследование [ править ]

Компромисс между разведкой и эксплуатацией был наиболее тщательно изучен с помощью проблемы многорукого бандита и для MDP в пространстве состояний в Burnetas and Katehakis (1997). [6]

Обучение с подкреплением требует умных механизмов исследования; случайный выбор действий без ссылки на оценочное распределение вероятностей показывает низкую производительность. Случай (малых) конечных марковских процессов принятия решений относительно хорошо изучен. Однако из-за отсутствия алгоритмов, которые хорошо масштабируются с количеством состояний (или масштабируются до проблем с бесконечными пространствами состояний), простые методы исследования являются наиболее практичными.

Один из таких методов - -greedy, где это параметр, управляющий объемом разведки и эксплуатации. С вероятностью выбирается эксплуатация, и агент выбирает действие, которое, по его мнению, имеет лучший долгосрочный эффект (связи между действиями разрываются равномерно и случайным образом). Альтернативно, с вероятностью , выбирается исследование, и действие выбирается равномерно случайным образом. обычно является фиксированным параметром, но его можно отрегулировать либо по расписанию (заставляя агент все меньше исследовать), либо адаптивно на основе эвристики. [7]

Алгоритмы управления обучением [ править ]

Даже если пренебречь проблемой разведки и даже если состояние было наблюдаемым (предполагается, что в дальнейшем), проблема остается в использовании прошлого опыта, чтобы выяснить, какие действия приводят к более высоким совокупным вознаграждениям.

Критерий оптимальности [ править ]

Политика [ править ]

Выбор действия агента моделируется в виде карты, называемой политикой :

Карта политик дает вероятность принятия мер в состоянии . [8] : 61 Есть еще и непредсказуемые политики.

Функция состояния-значения [ править ]

Функция значения определяется как ожидаемый возврат, начиная с состояния , т. Е. И последовательно следуя политике . Следовательно, грубо говоря, функция ценности оценивает, «насколько хорошо» находиться в данном состоянии. [8] : 60

где случайная величина обозначает доходность и определяется как сумма будущих дисконтированных вознаграждений (гамма меньше 1, по мере того, как конкретное состояние становится старше, его влияние на более поздние состояния становится все меньше и меньше. Таким образом, мы дисконтируем его эффект) .

где - вознаграждение на шаге , - ставка дисконтирования .

Алгоритм должен найти политику с максимальной ожидаемой доходностью. Из теории MDP известно, что без потери общности поиск можно ограничить набором так называемых стационарных политик. Политика является стационарной, если возвращаемое ею распределение действий зависит только от последнего посещенного состояния (из истории агента наблюдения). В дальнейшем поиск можно ограничить детерминированными стационарными политиками. Детерминированная стационарная политика детерминировано выбирает действия , основанные на текущем состоянии. Поскольку любую такую ​​политику можно идентифицировать с помощью отображения набора состояний на набор действий, эти политики можно идентифицировать с помощью таких отображений без потери общности.

Грубая сила [ править ]

Перебор подход предусматривает два этапа:

  • Для каждой возможной политики образец возвращается, следуя ему
  • Выберите полис с наибольшей ожидаемой доходностью

Одна из проблем заключается в том, что количество политик может быть большим или даже бесконечным. Другой заключается в том, что разброс доходностей может быть большим, что требует множества выборок для точной оценки доходности каждого полиса.

Эти проблемы можно решить, если мы примем некоторую структуру и позволим выборкам, созданным из одной политики, влиять на оценки, сделанные для других. Двумя основными подходами к достижению этого являются оценка функции ценности и прямой поиск политики .

Функция значения [ править ]

Подходы с функцией ценности пытаются найти политику, которая максимизирует отдачу, поддерживая набор оценок ожидаемой отдачи для некоторой политики (обычно либо «текущей» [по политике], либо оптимальной [вне политики]).

Эти методы основаны на теории MDP, где оптимальность определяется в более сильном смысле, чем описанный выше: политика называется оптимальной, если она обеспечивает наилучший ожидаемый доход из любого начального состояния (т. Е. Начальные распределения не играют в этом роли определение). Опять же, среди стационарных политик всегда можно найти оптимальную политику.

Чтобы определить оптимальность формальным образом, определите ценность политики следующим образом:

где означает отдачу, связанную со следующим из начального состояния . Определяя как максимально возможное значение , где разрешено изменение,

Политика, которая достигает этих оптимальных значений в каждом состоянии, называется оптимальной . Ясно, что политика, оптимальная в этом сильном смысле, также оптимальна в том смысле, что она максимизирует ожидаемую доходность , поскольку , где - состояние, произвольно выбираемое из распределения [ требуется пояснение ] .

Хотя значений состояния достаточно для определения оптимальности, полезно определить значения действия. Принимая во внимание состояние , действие и политику , действие-значение пары Under определяется

где теперь означает случайный возврат, связанный с первым действием в состоянии и последующим после него.

Теория MDP гласит, что если это оптимальная политика, мы действуем оптимально (предпринимаем оптимальное действие), выбирая действие из с наибольшим значением в каждом состоянии ,. Функция ценности действия такой оптимальной политики ( ) называется оптимальной функцией ценности действия и обычно обозначается как . Таким образом, одного знания оптимальной функции действия и ценности достаточно, чтобы знать, как действовать оптимально.

Предполагая , что полное знание о MDP, два основных подхода для вычисления функции оптимального действия значения является значение итерации и политика итерация . Оба алгоритма вычисляют последовательность функций ( ), которые сходятся к . Вычисление этих функций включает в себя вычисление ожиданий по всему пространству состояний, что непрактично для всех, кроме самых маленьких (конечных) MDP. В методах обучения с подкреплением ожидания аппроксимируются путем усреднения по выборкам и использования методов аппроксимации функций, чтобы справиться с необходимостью представления функций ценности в больших пространствах состояния и действия.

Методы Монте-Карло [ править ]

Методы Монте-Карло можно использовать в алгоритме, имитирующем итерацию политики. Политика итерация состоит из двух этапов: оценки политики и усовершенствование политики .

Монте-Карло используется на этапе оценки политики. На этом шаге, учитывая стационарную детерминированную политику , цель состоит в том, чтобы вычислить значения функции (или хорошее приближение к ним) для всех пар состояние-действие . Предположим (для простоты), что MDP конечен, что имеется достаточно памяти для размещения значений действия и что проблема носит эпизодический характер и после каждого эпизода новый начинается с некоторого случайного начального состояния. Затем оценка значения данной пары состояние-действие может быть вычислена путем усреднения выборок возвратов, полученных с течением времени. Таким образом, при наличии достаточного времени эта процедура может построить точную оценку функции значение-действие . На этом описание этапа оценки политики заканчивается.

На этапе улучшения политики следующая политика получается путем вычисления жадной политики в отношении : При заданном состоянии эта новая политика возвращает действие, которое максимизирует . На практике ленивая оценка может отложить вычисление максимизирующих действий до того момента, когда они потребуются.

Проблемы с этой процедурой включают:

  • Процедура может потратить слишком много времени на оценку неоптимальной политики.
  • Он использует выборки неэффективно, поскольку длинная траектория улучшает оценку только одной пары состояние-действие, которая начала траекторию.
  • Когда доходность по траекториям имеет большой разброс , сходимость происходит медленно.
  • Работает только в эпизодических задачах ;
  • Он работает только в небольших конечных MDP.

Методы временного различия [ править ]

Первая проблема исправляется, позволяя процедуре изменять политику (в некоторых или во всех состояниях) до того, как значения установятся. Это тоже может быть проблематичным, поскольку может помешать сближению. Большинство современных алгоритмов делают это, что дает начало классу обобщенных алгоритмов итерации политики . К этой категории относятся многие методы актерской критики .

Вторую проблему можно исправить, позволив траекториям вносить вклад в любую пару состояние-действие в них. Это также может до некоторой степени помочь с третьей проблемой, хотя лучшим решением, когда доходность имеет высокую дисперсию , являются методы временной разницы (TD) Саттона, основанные на рекурсивном уравнении Беллмана . [9] [10] Вычисление в методах TD может быть инкрементным (когда после каждого перехода память изменяется и переход отбрасывается) или пакетным (когда переходы группируются и оценки вычисляются один раз на основе пакета) . Пакетные методы, такие как метод временных разностей наименьших квадратов, [11]может лучше использовать информацию из выборок, в то время как инкрементные методы являются единственным выбором, когда пакетные методы невозможны из-за их высокой вычислительной сложности или сложности памяти. Некоторые методы пытаются объединить два подхода. Методы, основанные на временных различиях, также решают четвертую проблему.

Для решения пятой проблемы используются методы аппроксимации функций . Приближение линейной функции начинается с отображения, которое назначает конечномерный вектор каждой паре состояние-действие. Затем значения действия пары состояние-действие получаются путем линейного комбинирования компонентов с некоторыми весами :

Затем алгоритмы корректируют веса, а не корректируют значения, связанные с отдельными парами состояние-действие. Были исследованы методы, основанные на идеях непараметрической статистики (которые можно увидеть для построения собственных характеристик).

Итерация значений также может использоваться в качестве отправной точки, что дает начало алгоритму Q-обучения и его многочисленным вариантам. [12]

Проблема с использованием значений действия состоит в том, что им могут потребоваться очень точные оценки значений конкурирующих действий, которые может быть трудно получить, когда результаты зашумлены, хотя эта проблема в некоторой степени смягчается методами временной разницы. Использование так называемого метода аппроксимации совместимых функций ставит под угрозу общность и эффективность. Другая проблема, характерная для TD, связана с их опорой на рекурсивное уравнение Беллмана. Большинство методов TD имеют так называемый параметр, который может непрерывно интерполировать между методами Монте-Карло, которые не полагаются на уравнения Беллмана, и основными методами TD, которые полностью полагаются на уравнения Беллмана. Это может быть эффективным средством решения этой проблемы.

Прямой поиск политики [ править ]

Альтернативный метод - это поиск непосредственно в (некотором подмножестве) пространства политики, и в этом случае проблема становится случаем стохастической оптимизации . Доступны два подхода: методы на основе градиента и методы без градиента.

Градиент основанных методы ( градиентные методы политики ) начинаются с отображением из конечномерных (параметра) пространств в пространство политики: учитывая вектор параметров , позволяющие обозначают политику , связанную с . Определение функции производительности с помощью

в мягких условиях эта функция будет дифференцируемой как функция вектора параметров . Если бы градиент был известен, можно было бы использовать градиентный подъем . Поскольку аналитическое выражение для градиента недоступно, доступна только зашумленная оценка. Такая оценка может быть построена разными способами, что приводит к появлению таких алгоритмов, как метод REINFORCE Уильямса [13] (который в литературе по оптимизации на основе моделирования известен как метод отношения правдоподобия ). [14] Методы поиска политики использовались в контексте робототехники . [15] Многие методы поиска политики могут застрять в локальных оптимумах (так как они основаны на локальном поиске ).

Большой класс методов позволяет не полагаться на информацию о градиенте. К ним относятся моделирование отжига , кросс-энтропийный поиск или методы эволюционных вычислений . Многие безградиентные методы могут достичь (теоретически и в пределе) глобального оптимума.

Методы поиска политики могут медленно сходиться при наличии зашумленных данных. Например, это происходит в эпизодических задачах, когда траектории длинные и разброс доходностей велик. В этом случае могут помочь методы, основанные на функциях значений, которые полагаются на временные различия. В последние годы были предложены методы «актер – критик», которые хорошо себя зарекомендовали при решении различных проблем. [16]

Теория [ править ]

Как асимптотика, так и поведение большинства алгоритмов на основе конечной выборки хорошо изучены. Известны алгоритмы с доказуемо хорошей производительностью в сети (решающие проблему исследования).

Эффективное исследование MDP дано в Burnetas and Katehakis (1997). [6] Ограничения производительности за конечное время также появились для многих алгоритмов, но ожидается, что эти границы будут довольно неопределенными, и, следовательно, требуется дополнительная работа, чтобы лучше понять относительные преимущества и ограничения.

Для инкрементальных алгоритмов вопросы асимптотической сходимости решены [ требуется пояснение ] . Алгоритмы, основанные на временных различиях, сходятся при более широком наборе условий, чем это было возможно ранее (например, при использовании с произвольным приближением гладких функций).

Исследование [ править ]

Темы исследования включают

  • адаптивные методы, которые работают с меньшим количеством параметров (или без них) в большом количестве условий
  • решение проблемы геологоразведки в крупных МДП
  • комбинации с логическими структурами [17]
  • крупномасштабные эмпирические оценки
  • обучение и действия в соответствии с частичной информацией (например, с использованием прогнозируемого представления состояния )
  • модульное и иерархическое обучение с подкреплением [18]
  • улучшение существующих методов поиска по функциям ценности и политике
  • алгоритмы, которые хорошо работают с большими (или непрерывными) пространствами действий
  • трансферное обучение [19]
  • обучение на протяжении всей жизни
  • эффективное планирование на основе выборки (например, на основе поиска по дереву Монте-Карло ).
  • обнаружение ошибок в программных проектах [20]
  • Внутренняя мотивация, которая отличает стремление к информации, поведение типа любопытства от поведения, зависящего от задачи (как правило), путем введения функции вознаграждения, основанной на максимальном использовании новой информации [21] [22] [23]
  • Когнитивное моделирование с использованием обучения с подкреплением активно используется в вычислительной психологии [24].
  • Многоагентное или распределенное обучение с подкреплением - это интересная тема. Приложения расширяются. [25]
  • Актер-критик обучение с подкреплением
  • Алгоритмы обучения с подкреплением, такие как TD-обучение, исследуются как модель для обучения мозга на основе допамина . В этой модели дофаминергические проекции из черной субстанции в базальные ганглии действуют как ошибка прогноза. Обучение с подкреплением использовалось как часть модели обучения человеческим навыкам, особенно в отношении взаимодействия между неявным и явным обучением при приобретении навыков (первая публикация этого приложения была в 1995–1996 годах). [26]
  • Ориентированное на пассажира управление
  • Алгоритмическая торговля и оптимальное исполнение. [27]

Сравнение алгоритмов обучения с подкреплением [ править ]

Ассоциативное обучение с подкреплением [ править ]

Задачи ассоциативного обучения с подкреплением сочетают в себе аспекты задач стохастических обучающих автоматов и задач классификации моделей контролируемого обучения. В задачах обучения с ассоциативным подкреплением обучающая система взаимодействует с окружающей средой по замкнутому циклу. [28]

Глубокое обучение с подкреплением [ править ]

Этот подход расширяет возможности обучения с подкреплением за счет использования глубокой нейронной сети и без явного проектирования пространства состояний. [29] Работа по изучению игр ATARI с помощью Google DeepMind повысила внимание к глубокому обучению с подкреплением или сквозному обучению с подкреплением . [30]

Обратное обучение с подкреплением [ править ]

В обучении с обратным подкреплением (IRL) функция вознаграждения отсутствует. Вместо этого функция вознаграждения выводится на основе наблюдаемого поведения эксперта. Идея состоит в том, чтобы имитировать наблюдаемое поведение, которое часто бывает оптимальным или близким к оптимальному. [31]

Безопасное обучение с подкреплением [ править ]

Безопасное обучение с подкреплением (SRL) можно определить как процесс обучения политикам, которые максимизируют ожидание отдачи от проблем, в которых важно обеспечить разумную производительность системы и / или соблюдать ограничения безопасности во время процессов обучения и / или развертывания. [32]

См. Также [ править ]

  • Обучение разнице во времени
  • Q-обучение
  • Состояние – действие – награда – состояние – действие (SARSA)
  • Фиктивная игра
  • Система обучающих классификаторов
  • Оптимальный контроль
  • Динамические режимы лечения
  • Обучение на основе ошибок
  • Многоагентная система
  • Распределенный искусственный интеллект
  • Внутренняя мотивация
  • Генетические алгоритмы
  • ученичество

Ссылки [ править ]

  1. ^ Ху, J .; Niu, H .; Карраско, Дж .; Lennox, B .; Арвин, Ф. (2020). «Автономное исследование с использованием нескольких роботов на базе Вороного в неизвестных средах посредством глубокого обучения с подкреплением» . IEEE Transactions по автомобильной технологии . 69 (12): 14413-14423.
  2. ^ Kaelbling, Лесли П .; Литтман, Майкл Л .; Мур, Эндрю В. (1996). «Обучение с подкреплением: обзор» . Журнал исследований искусственного интеллекта . 4 : 237–285. arXiv : cs / 9605103 . DOI : 10.1613 / jair.301 . S2CID 1708582 . Архивировано из оригинала на 2001-11-20. 
  3. ^ ван Оттерло, М .; Виринг, М. (2012). Обучение с подкреплением и марковские процессы принятия решений . Обучение с подкреплением . Адаптация, обучение и оптимизация. 12 . С. 3–42. DOI : 10.1007 / 978-3-642-27645-3_1 . ISBN 978-3-642-27644-6.
  4. Перейти ↑ Sutton & Barto 1998 , Глава 11.
  5. ^ Gosavi, Abhijit (2003). Оптимизация на основе моделирования: методы параметрической оптимизации и армирование . Серия интерфейсов для исследования операций / информатики. Springer. ISBN 978-1-4020-7454-7.
  6. ^ a b Burnetas, Apostolos N .; Katehakis, Майкл Н. (1997), "Оптимальные адаптивные политики для марковских процессов принятия решений", Математика исследования операций , 22 : 222-255, DOI : 10.1287 / moor.22.1.222
  7. ^ Токич, Мишель; Палм, Гюнтер (2011), «Исследование, основанное на различиях ценностей: адаптивное управление между Epsilon-Greedy и Softmax» (PDF) , KI 2011: достижения в области искусственного интеллекта , конспекты лекций по компьютерным наукам, 7006 , Springer, стр. 335–346 , ISBN  978-3-642-24455-1
  8. ^ a b «Обучение с подкреплением: Введение» (PDF) .
  9. ^ Саттон, Ричард С. (1984). Временные зачетные единицы в обучении с подкреплением (кандидатская диссертация). Массачусетский университет, Амхерст, Массачусетс.
  10. ^ Саттон и Барто 1998 , §6. Обучение с временной разницей .
  11. ^ Bradtke, Стивен Дж .; Барто, Эндрю Г. (1996). «Учимся предсказывать методом временных разностей». Машинное обучение . 22 : 33–57. CiteSeerX 10.1.1.143.857 . DOI : 10,1023 / A: 1018056104778 . S2CID 20327856 .  
  12. ^ Уоткинс, Кристофер JCH (1989). Learning from Delayed Rewards (PDF) (докторская диссертация). Королевский колледж, Кембридж, Великобритания.
  13. ^ Уильямс, Рональд Дж. (1987). «Класс алгоритмов оценки градиента для обучения с подкреплением в нейронных сетях». Труды Первой международной конференции IEEE по нейронным сетям . CiteSeerX 10.1.1.129.8871 . 
  14. ^ Петерс, Ян ; Виджаякумар, Сетху ; Шаал, Стефан (2003). «Обучение с подкреплением для робототехники-гуманоидов» (PDF) . Международная конференция IEEE-RAS по роботам-гуманоидам .
  15. ^ Дайзенрот, Марк Питер ; Нойман, Герхард ; Питерс, Янв (2013). Обзор политики поиска робототехники (PDF) . Основы и тенденции в робототехнике. 2 . СЕЙЧАС Издатели. С. 1–142. DOI : 10.1561 / 2300000021 . hdl : 10044/1/12051 .
  16. ^ Джулиани, Артур (2016-12-17). «Простое обучение с подкреплением с помощью Tensorflow. Часть 8: Асинхронные критические агенты (A3C)» . Средний . Проверено 22 февраля 2018 .
  17. ^ Риверет, Регис; Гао, Ян (2019). «Вероятностная структура аргументации для агентов обучения с подкреплением». Автономные агенты и мультиагентные системы . 33 (1–2): 216–274. DOI : 10.1007 / s10458-019-09404-2 . S2CID 71147890 . 
  18. ^ Kulkarni, Tejas D .; Narasimhan, Karthik R .; Саиди, Ардаван; Тененбаум, Джошуа Б. (2016). «Иерархическое обучение с глубоким подкреплением: интеграция темпоральной абстракции и внутренней мотивации» . Материалы 30-й Международной конференции по системам нейронной обработки информации . НИПС'16. США: Curran Associates Inc .: 3682–3690. arXiv : 1604.06057 . Bibcode : 2016arXiv160406057K . ISBN 978-1-5108-3881-9.
  19. ^ Джордж Каримпанал, Томмен; Буффане, Роланд (2019). «Самоорганизующиеся карты для хранения и передачи знаний при обучении с подкреплением». Адаптивное поведение . 27 (2): 111–126. arXiv : 1811.08318 . DOI : 10.1177 / 1059712318818568 . ISSN 1059-7123 . S2CID 53774629 .  
  20. ^ «Об использовании обучения с подкреплением для тестирования игровой механики: ACM - компьютеры в развлечениях» . cie.acm.org . Проверено 27 ноября 2018 .
  21. ^ Каплан, Ф .; Аудейер, П. (2004). «Максимизация прогресса в обучении: внутренняя система вознаграждения за развитие». In Iida, F .; Pfeifer, R .; Стали, л .; Куниёси, Ю. (ред.). Воплощенный искусственный интеллект . Берлин; Гейдельберг: Springer. С. 259–270. DOI : 10.1007 / 978-3-540-27833-7_19 .
  22. ^ Клюбин, А .; Polani, D .; Неханов, Ц. (2008). «Держите ваши возможности открытыми: принцип управления сенсомоторными системами, основанный на информации» . PLOS ONE . 3 (12): e4018. DOI : 10.1371 / journal.pone.0004018 .
  23. Перейти ↑ Barto, AG (2013). «Внутренняя мотивация и обучение с подкреплением». Внутренне мотивированное обучение в естественных и искусственных системах . Берлин; Гейдельберг: Springer. С. 17–47.
  24. ^ Sun, R .; Merrill, E .; Петерсон, Т. (2001). «От неявных навыков к явным знаниям: восходящая модель обучения навыкам» . Когнитивная наука . 25 (2): 203–244. DOI : 10,1207 / s15516709cog2502_2 .
  25. ^ «Обучение с подкреплением / Успехи обучения с подкреплением» . umichrl.pbworks.com . Проверено 6 августа 2017 .
  26. ^ [1] Архивировано 26 апреля 2017 г. в Wayback Machine.
  27. ^ Дабериус, Кевин; Гранат, Эльвин; Карлссон, Патрик (2020). «Глубокое исполнение - обучение с подкреплением на основе ценности и политики для торговли и достижения рыночных показателей» . Журнал машинного обучения в финансах . 1 .
  28. ^ Соучек, Бранко. Динамическое, генетическое и хаотическое программирование: серия компьютерных технологий шестого поколения . John Wiley & Sons, Inc. стр. 38. ISBN 0-471-55717-X.
  29. ^ Франсуа-Лаве, Винсент; и другие. (2018). «Введение в глубокое обучение с подкреплением». Основы и тенденции в машинном обучении . 11 (3–4): 219–354. arXiv : 1811.12560 . Bibcode : 2018arXiv181112560F . DOI : 10.1561 / 2200000071 . S2CID 54434537 . 
  30. ^ Мних, Владимир; и другие. (2015). «Контроль на уровне человека посредством глубокого обучения с подкреплением» . Природа . 518 (7540): 529–533. Bibcode : 2015Natur.518..529M . DOI : 10,1038 / природа14236 . PMID 25719670 . S2CID 205242740 .  
  31. ^ Ng, AY; Рассел, SJ (2000). «Алгоритмы обучения с обратным подкреплением» (PDF) . Proceeding ICML '00 Труды семнадцатой международной конференции по машинному обучению . С. 663–670. ISBN  1-55860-707-2.
  32. Хори, Наото; Мацуи, Тохгорох; Морияма, Коичи; Муто, Ацуко; Инузука, Нобухиро (18.01.2019). «Многоцелевое безопасное обучение с подкреплением» . Искусственная жизнь и робототехника . DOI : 10.1007 / s10015-019-00524-2 . ISSN 1433-5298 . 

Дальнейшее чтение [ править ]

  • Ауэр, Питер ; Якш, Томас; Ортнер, Рональд (2010). «Почти оптимальные границы сожаления для обучения с подкреплением» . Журнал исследований в области машинного обучения . 11 : 1563–1600.
  • Бузониу, Лучиан; Бабушка, Роберт; Де Шуттер, Барт ; Эрнст, Дэмиен (2010). Обучение с подкреплением и динамическое программирование с использованием аппроксиматоров функций . Тейлор и Фрэнсис CRC Press. ISBN 978-1-4398-2108-4.
  • Франсуа-Лаве, Винсент; Хендерсон, Питер; Ислам, Риашат; Bellemare, Marc G .; Пино, Жоэль (2018). «Введение в глубокое обучение с подкреплением». Основы и тенденции в машинном обучении . 11 (3–4): 219–354. arXiv : 1811.12560 . Bibcode : 2018arXiv181112560F . DOI : 10.1561 / 2200000071 . S2CID  54434537 .
  • Пауэлл, Уоррен (2007). Приближенное динамическое программирование: решение проклятия размерности . Wiley-Interscience. ISBN 978-0-470-17155-4.
  • Саттон, Ричард С .; Барто, Эндрю Г. (2018). Обучение с подкреплением: Введение (2-е изд.). MIT Press. ISBN 978-0-262-03924-6.
  • Саттон, Ричард С. (1988). «Учимся предсказывать методом временных разностей» . Машинное обучение . 3 : 9–44. DOI : 10.1007 / BF00115009 .
  • Сита, Иштван; Сепесвари, Чаба (2010). «Модельное обучение с подкреплением с почти жесткими границами сложности исследования» (PDF) . ICML 2010 . Вседержительница. С. 1031–1038. Архивировано из оригинального (PDF) 14 июля 2010 года.

Внешние ссылки [ править ]

  • Репозиторий обучения с подкреплением
  • Обучение с подкреплением и искусственный интеллект (RLAI, лаборатория Рича Саттона в Университете Альберты )
  • Лаборатория автономного обучения (ALL, лаборатория Эндрю Барто в Массачусетском университете в Амхерсте )
  • Гибридное обучение с подкреплением
  • Реальные эксперименты по обучению с подкреплением в Делфтском технологическом университете
  • Лекция Эндрю Нг Стэнфордского университета по обучению с подкреплением
  • Серия сообщений в блоге Dissecting Reinforcement Learning о RL с помощью кода Python