Из Википедии, бесплатной энциклопедии
  (Перенаправлен из функции вознаграждения )
Перейти к навигации Перейти к поиску

Обучение с подкреплением ( RL ) является областью машинного обучения касается того , как интеллектуальные агенты должны принимать меры в среде с целью максимизации понятие совокупного вознаграждения. [1] Обучение с подкреплением - одна из трех основных парадигм машинного обучения, наряду с обучением с учителем и обучением без учителя .

Обучение с подкреплением отличается от обучения с учителем тем, что не требует представления помеченных пар ввода / вывода и не требует явного исправления неоптимальных действий. Вместо этого основное внимание уделяется поиску баланса между исследованием (неизведанной территории) и эксплуатацией (текущих знаний). [2]

Среда обычно описывается в форме марковского процесса принятия решений (MDP), потому что многие алгоритмы обучения с подкреплением для этого контекста используют методы динамического программирования . [3] Основное различие между классическими методами динамического программирования и алгоритмами обучения с подкреплением состоит в том, что последние не предполагают знания точной математической модели MDP и нацелены на большие MDP, где точные методы становятся невозможными.

Введение [ править ]

Типичная структура сценария обучения с подкреплением (RL): агент выполняет действия в среде, которая интерпретируется в вознаграждение и представление состояния, которые передаются обратно агенту.

Благодаря своей общности, обучение с подкреплением изучается во многих дисциплинах, такие , как теория игр , теория управления , исследование операций , теория информации , моделирование на основе оптимизация , многоагентные системы , роя разведка и статистика . В литературе по исследованию операций и контролю обучение с подкреплением называется приблизительным динамическим программированием или нейродинамическим программированием. Проблемы, представляющие интерес для обучения с подкреплением, также изучались в теории оптимального управления., который в основном связан с существованием и характеристикой оптимальных решений и алгоритмов для их точного вычисления, и в меньшей степени с обучением или приближением, особенно в отсутствие математической модели окружающей среды. В экономике и теории игр обучение с подкреплением может использоваться для объяснения того, как может возникнуть равновесие при ограниченной рациональности .

Базовое усиление моделируется как марковский процесс принятия решений (MDP) :

  • набор состояний среды и агента, S ;
  • набор действий агента A ;
  • - вероятность перехода (во время ) из состояния в состояние под действием .
  • это немедленная награда после перехода от действия к действию .

Цель обучения с подкреплением состоит в том, чтобы агент усвоил оптимальную или почти оптимальную политику, которая максимизирует «функцию вознаграждения» или другой предоставленный пользователем сигнал подкрепления, который накапливается из немедленных вознаграждений. Это похоже на процессы, которые происходят в психологии животных. Например, биологический мозг запрограммирован так, чтобы интерпретировать такие сигналы, как боль и голод, как отрицательное подкрепление, а удовольствие и прием пищи - как положительное подкрепление. В некоторых обстоятельствах животные могут научиться вести себя, оптимизируя эти награды. Это говорит о том, что животные способны к обучению с подкреплением. [4] [5]

Базовый агент обучения с подкреплением ИИ взаимодействует со своей средой дискретными временными шагами. В каждый момент времени t агент получает текущее состояние и вознаграждение . Затем он выбирает действие из набора доступных действий, которое впоследствии отправляется в среду. Среда переходит в новое состояние, и определяется вознаграждение, связанное с переходом . Цель учебного армирования агента является изучение политики : , которая максимизирует ожидаемое кумулятивное вознаграждение.

Формулировка проблемы в виде MDP предполагает, что агент непосредственно наблюдает за текущим состоянием окружающей среды; в этом случае говорят, что проблема полностью наблюдаема . Если агент имеет доступ только к подмножеству состояний или наблюдаемые состояния искажены шумом, говорят, что агент имеет частичную наблюдаемость , и формально проблема должна быть сформулирована как частично наблюдаемый марковский процесс принятия решений . В обоих случаях набор действий, доступных агенту, может быть ограничен. Например, состояние баланса счета может быть ограничено положительным; если текущее значение состояния равно 3, а переход состояния пытается уменьшить значение на 4, переход не будет разрешен.

Когда производительность агента сравнивается с эффективностью агента, который действует оптимально, разница в производительности порождает понятие сожаления . Чтобы действовать почти оптимально, агент должен рассуждать о долгосрочных последствиях своих действий (т. Е. Максимизировать будущий доход), хотя немедленное вознаграждение, связанное с этим, может быть отрицательным.

Таким образом, обучение с подкреплением особенно хорошо подходит для задач, которые включают долгосрочное и краткосрочное вознаграждение. Он успешно применяется для решения различных задач, включая управление роботами , [6] планирование работы лифта, телекоммуникации , нарды , шашки [7] и Go ( AlphaGo ).

Два элемента делают обучение с подкреплением мощным: использование образцов для оптимизации производительности и использование аппроксимации функций для работы с большими средами. Благодаря этим двум ключевым компонентам обучение с подкреплением можно использовать в больших средах в следующих ситуациях:

  • Модель окружающей среды известна, но аналитическое решение недоступно;
  • Дана только имитационная модель среды (предмет оптимизации на основе симуляции ); [8]
  • Единственный способ собрать информацию об окружающей среде - это взаимодействовать с ней.

Первые две из этих проблем можно рассматривать как проблемы планирования (поскольку существует некоторая форма модели), в то время как последнюю можно рассматривать как настоящую проблему обучения. Однако обучение с подкреплением превращает обе проблемы планирования в проблемы машинного обучения .

Исследование [ править ]

Компромисс между разведкой и эксплуатацией был наиболее тщательно изучен с помощью проблемы многорукого бандита и для MDP в пространстве состояний в Burnetas and Katehakis (1997). [9]

Обучение с подкреплением требует умных исследовательских механизмов; случайный выбор действий без ссылки на оценочное распределение вероятностей показывает низкую производительность. Случай (малых) конечных марковских процессов принятия решений относительно хорошо изучен. Однако из-за отсутствия алгоритмов, которые хорошо масштабируются с количеством состояний (или масштабируются до проблем с бесконечными пространствами состояний), простые методы исследования являются наиболее практичными.

Один из таких методов - -greedy, где это параметр, управляющий объемом разведки и эксплуатации. С вероятностью выбирается эксплуатация, и агент выбирает действие, которое, по его мнению, имеет лучший долгосрочный эффект (связи между действиями разрываются равномерно и случайным образом). Альтернативно, с вероятностью , выбирается исследование, и действие выбирается равномерно случайным образом. обычно является фиксированным параметром, но может быть скорректирован либо по расписанию (заставляя агент все меньше исследовать), либо адаптивно на основе эвристики. [10]

Алгоритмы управления обучением [ править ]

Даже если пренебречь вопросом разведки и даже если состояние было наблюдаемым (предполагается, что в дальнейшем), проблема остается в использовании прошлого опыта, чтобы выяснить, какие действия приводят к более высоким совокупным вознаграждениям.

Критерий оптимальности [ править ]

Политика [ править ]

Выбор действия агента моделируется в виде карты, называемой политикой :

Карта политик дает вероятность принятия мер в состоянии . [11] : 61 Существуют и не вероятностные политики.

Функция состояния-значения [ править ]

Функция значения определяется как ожидаемый возврат, начиная с состояния , т. Е. И последовательно следуя политике . Следовательно, грубо говоря, функция ценности оценивает, «насколько хорошо» находиться в данном состоянии. [11] : 60

где случайная величина обозначает доходность и определяется как сумма будущих дисконтированных вознаграждений (гамма меньше 1, по мере того, как конкретное состояние становится старше, его влияние на более поздние состояния становится все меньше и меньше. Таким образом, мы дисконтируем его эффект) .

где - вознаграждение на шаге , - ставка дисконтирования .

Алгоритм должен найти политику с максимальной ожидаемой доходностью. Из теории MDP известно, что без потери общности поиск можно ограничить набором так называемых стационарных политик. Политика является стационарной, если возвращаемое ею распределение действий зависит только от последнего посещенного состояния (из истории агента наблюдения). В дальнейшем поиск может быть ограничен детерминированными стационарными политиками. Детерминированная стационарная политика детерминировано выбирает действия , основанные на текущем состоянии. Поскольку любую такую ​​политику можно идентифицировать с помощью отображения набора состояний в набор действий, эти политики можно идентифицировать с помощью таких отображений без потери общности.

Грубая сила [ править ]

Перебор подход предусматривает два этапа:

  • Для каждой возможной политики образец возвращается, следуя ему
  • Выберите полис с наибольшей ожидаемой доходностью

Одна из проблем заключается в том, что количество политик может быть большим или даже бесконечным. Другая причина заключается в том, что разброс доходностей может быть большим, что требует множества выборок для точной оценки доходности каждого полиса.

Эти проблемы можно решить, если мы примем некоторую структуру и позволим выборкам, созданным из одной политики, влиять на оценки, сделанные для других. Двумя основными подходами к достижению этого являются оценка функции ценности и прямой поиск политики .

Функция значения [ править ]

Подходы с функцией ценности пытаются найти политику, которая максимизирует отдачу, поддерживая набор оценок ожидаемой отдачи для некоторой политики (обычно либо «текущей» [в соответствии с политикой], либо оптимальной [вне политики]).

Эти методы основаны на теории MDP, где оптимальность определяется в более сильном смысле, чем описанный выше: политика называется оптимальной, если она обеспечивает наилучший ожидаемый доход из любого начального состояния (т.е. определение). Опять же, среди стационарных политик всегда можно найти оптимальную политику.

Чтобы определить оптимальность формальным образом, определите ценность политики следующим образом:

где означает отдачу, связанную со следующим из начального состояния . Определяя как максимально возможное значение , где разрешено изменение,

Политика, которая достигает этих оптимальных значений в каждом состоянии, называется оптимальной . Ясно, что политика, оптимальная в этом строгом смысле, также оптимальна в том смысле, что она максимизирует ожидаемую доходность , поскольку , где - состояние, произвольно выбираемое из распределения [ требуется пояснение ] .

Хотя значений состояния достаточно для определения оптимальности, полезно определить значения действия. Принимая во внимание состояние , действие и политику , действие-значение пары Under определяется

где теперь означает случайный возврат, связанный с первым действием в состоянии и последующим последующим действием.

Теория MDP утверждает, что если это оптимальная политика, мы действуем оптимально (предпринимаем оптимальное действие), выбирая действие из с наивысшим значением в каждом состоянии ,. Функция ценности действия такой оптимальной политики ( ) называется оптимальной функцией ценности действия и обычно обозначается как . Таким образом, одного знания оптимальной функции действия и ценности достаточно, чтобы знать, как действовать оптимально.

Предполагая , что полное знание о MDP, два основных подхода для вычисления функции оптимального действия значения является значение итерации и политика итерация . Оба алгоритма вычисляют последовательность функций ( ), которые сходятся к . Вычисление этих функций включает вычисление ожиданий по всему пространству состояний, что непрактично для всех, кроме самых маленьких (конечных) MDP. В методах обучения с подкреплением ожидания аппроксимируются усреднением по выборкам и использованием методов аппроксимации функций, чтобы справиться с необходимостью представления функций ценности в больших пространствах состояния и действия.

Методы Монте-Карло [ править ]

Методы Монте-Карло можно использовать в алгоритме, имитирующем итерацию политики. Политика итерация состоит из двух этапов: оценки политики и усовершенствование политики .

Монте-Карло используется на этапе оценки политики. На этом этапе, учитывая стационарную детерминированную политику , цель состоит в том, чтобы вычислить значения функции (или хорошее приближение к ним) для всех пар состояние-действие . Предположим (для простоты), что MDP конечен, что имеется достаточно памяти для размещения значений действий и что проблема носит эпизодический характер, и после каждого эпизода новый запускается из некоторого случайного начального состояния. Затем оценка значения данной пары состояние-действие может быть вычислена путем усреднения выборочных возвратов, полученных с течением времени. Таким образом, при наличии достаточного времени эта процедура может построить точную оценку функции значение-действие . На этом завершается описание этапа оценки политики.

На этапе улучшения политики следующая политика получается путем вычисления жадной политики в отношении : При заданном состоянии эта новая политика возвращает действие, которое максимизирует . На практике ленивое вычисление может отложить вычисление максимизирующих действий до того момента, когда они потребуются.

Проблемы с этой процедурой включают:

  • Процедура может потратить слишком много времени на оценку неоптимальной политики.
  • Он использует выборки неэффективно, так как длинная траектория улучшает оценку только одной пары состояние-действие, которая начала траекторию.
  • Когда доходность по траекториям имеет большой разброс , сходимость происходит медленно.
  • Работает только в эпизодических задачах ;
  • Он работает только в небольших конечных MDP.

Методы временного различия [ править ]

Первая проблема исправляется, позволяя процедуре изменять политику (в некоторых или во всех состояниях) до того, как значения установятся. Это тоже может быть проблематичным, поскольку может помешать сближению. Большинство современных алгоритмов делают это, давая начало классу обобщенных алгоритмов итерации политики . К этой категории относятся многие методы актерской критики .

Вторую проблему можно исправить, позволив траекториям вносить вклад в любую пару состояние-действие в них. Это также может в некоторой степени помочь с третьей проблемой, хотя лучшее решение, когда доходность имеет высокую дисперсию, - это методы временной разницы (TD) Саттона, основанные на рекурсивном уравнении Беллмана . [12] [13] Вычисление в методах TD может быть инкрементным (когда после каждого перехода память изменяется и переход отбрасывается) или пакетным (когда переходы группируются и оценки вычисляются один раз на основе пакета) . Пакетные методы, такие как метод временных разностей наименьших квадратов, [14]может лучше использовать информацию из выборок, в то время как инкрементные методы являются единственным выбором, когда пакетные методы невозможны из-за их высокой вычислительной сложности или сложности памяти. Некоторые методы пытаются объединить два подхода. Методы, основанные на временных различиях, также решают четвертую проблему.

Для решения пятой проблемы используются методы аппроксимации функций . Приближение линейной функции начинается с отображения, которое назначает конечномерный вектор каждой паре состояние-действие. Затем значения действия пары состояние-действие получаются путем линейного комбинирования компонентов с некоторыми весами :

Затем алгоритмы корректируют веса вместо того, чтобы корректировать значения, связанные с отдельными парами состояние-действие. Были изучены методы, основанные на идеях непараметрической статистики (которые можно увидеть для построения собственных характеристик).

Итерация значений также может использоваться в качестве отправной точки, что дает начало алгоритму Q-обучения и его многочисленным вариантам. [15]

Проблема с использованием значений действия состоит в том, что им могут потребоваться очень точные оценки значений конкурирующих действий, которые может быть трудно получить, когда результаты зашумлены, хотя эта проблема в некоторой степени смягчается методами временной разницы. Использование так называемого метода аппроксимации совместимых функций ставит под угрозу общность и эффективность. Другая проблема, характерная для TD, связана с их опорой на рекурсивное уравнение Беллмана. Большинство методов TD имеют так называемый параметр, который может непрерывно интерполировать между методами Монте-Карло, которые не полагаются на уравнения Беллмана, и основными методами TD, которые полностью полагаются на уравнения Беллмана. Это может быть эффективным средством решения этой проблемы.

Прямой поиск политики [ править ]

Альтернативным методом является поиск непосредственно в (некотором подмножестве) пространства политики, и в этом случае проблема становится случаем стохастической оптимизации . Доступны два подхода: методы на основе градиента и методы без градиента.

Градиент основанных методы ( градиентные методы политики ) начинаются с отображением из конечномерных (параметра) пространств в пространство политики: учитывая вектор параметров , позволяющие обозначают политику , связанную с . Определение функции производительности с помощью

в мягких условиях эта функция будет дифференцируемой как функция вектора параметров . Если бы градиент был известен, можно было бы использовать градиентный подъем . Поскольку аналитическое выражение для градиента недоступно, доступна только зашумленная оценка. Такая оценка может быть построена разными способами, что приводит к появлению таких алгоритмов, как метод REINFORCE Уильямса [16] (который в литературе по оптимизации, основанной на моделировании, известен как метод отношения правдоподобия ). [17] Методы поиска политики использовались в контексте робототехники . [18] Многие методы поиска политики могут застрять в локальных оптимумах (поскольку они основаны на локальном поиске ).

Большой класс методов позволяет не полагаться на информацию о градиенте. К ним относятся моделирование отжига , кросс-энтропийный поиск или методы эволюционных вычислений . Многие безградиентные методы могут достичь (теоретически и в пределе) глобального оптимума.

Методы поиска политики могут медленно сходиться при наличии зашумленных данных. Например, это происходит в эпизодических задачах, когда траектории длинные и разброс доходностей велик. В этом случае могут помочь методы, основанные на функциях значений, которые полагаются на временные различия. В последние годы были предложены методы «актер – критик», которые хорошо себя зарекомендовали при решении различных проблем. [19]

Теория [ править ]

Как асимптотика, так и поведение большинства алгоритмов на основе конечной выборки хорошо изучены. Известны алгоритмы с доказуемо хорошей производительностью в сети (решающие проблему исследования).

Эффективное исследование MDP дано в Burnetas and Katehakis (1997). [9] Ограничения производительности за конечное время также появились для многих алгоритмов, но ожидается, что эти границы будут довольно неопределенными, и, следовательно, требуется дополнительная работа, чтобы лучше понять относительные преимущества и ограничения.

Для инкрементальных алгоритмов вопросы асимптотической сходимости решены [ требуется пояснение ] . Алгоритмы, основанные на временных различиях, сходятся при более широком наборе условий, чем это было возможно ранее (например, при использовании с произвольной аппроксимацией гладкой функции).

Исследование [ править ]

Темы исследования включают

  • адаптивные методы, которые работают с меньшим количеством параметров (или без них) в большом количестве условий
  • решение проблемы геологоразведки в крупных МДП
  • комбинации с логическими фреймворками [20]
  • крупномасштабные эмпирические оценки
  • обучение и действия в соответствии с частичной информацией (например, с использованием прогнозируемого представления состояния )
  • модульное и иерархическое обучение с подкреплением [21]
  • улучшение существующих методов поиска по функциям ценности и политике
  • алгоритмы, которые хорошо работают с большими (или непрерывными) пространствами действий
  • трансферное обучение [22]
  • обучение на протяжении всей жизни
  • эффективное планирование на основе выборки (например, на основе поиска по дереву Монте-Карло ).
  • обнаружение ошибок в программных проектах [23]
  • Внутренняя мотивация, которая отличает стремление к информации, поведение типа любопытства от зависимого от задачи поведения, направленного на достижение цели (обычно), путем введения функции вознаграждения, основанной на максимальном использовании новой информации [24] [25] [26]
  • Когнитивное моделирование с использованием обучения с подкреплением активно используется в вычислительной психологии [27].
  • Многоагентное или распределенное обучение с подкреплением - это интересная тема. Приложения расширяются. [28]
  • Актер-критик обучение с подкреплением
  • Алгоритмы обучения с подкреплением, такие как TD-обучение, исследуются как модель для обучения мозга на основе дофамина . В этой модели дофаминергические проекции из черной субстанции в базальные ганглии действуют как ошибка прогноза. Обучение с подкреплением использовалось как часть модели обучения человеческим навыкам, особенно в отношении взаимодействия между неявным и явным обучением при приобретении навыков (первая публикация этого приложения была в 1995–1996 гг.). [29]
  • Управление, ориентированное на пассажира
  • Алгоритмическая торговля и оптимальное исполнение. [30]

Сравнение алгоритмов обучения с подкреплением [ править ]

Ассоциативное обучение с подкреплением [ править ]

Задачи ассоциативного обучения с подкреплением сочетают в себе аспекты задач стохастических обучающих автоматов и задач классификации контролируемых шаблонов обучения. В задачах обучения с ассоциативным подкреплением обучающая система взаимодействует с окружающей средой по замкнутому циклу. [31]

Глубокое обучение с подкреплением [ править ]

Этот подход расширяет возможности обучения с подкреплением за счет использования глубокой нейронной сети без явного проектирования пространства состояний. [32] Работа по изучению игр ATARI с помощью Google DeepMind повысила внимание к глубокому обучению с подкреплением или сквозному обучению с подкреплением . [33]

Обратное обучение с подкреплением [ править ]

В обучении с обратным подкреплением (IRL) функция вознаграждения отсутствует. Вместо этого функция вознаграждения выводится на основе наблюдаемого поведения эксперта. Идея состоит в том, чтобы имитировать наблюдаемое поведение, которое часто бывает оптимальным или близким к оптимальному. [34]

Безопасное обучение с подкреплением [ править ]

Безопасное обучение с подкреплением (SRL) можно определить как процесс обучения политикам, которые максимизируют ожидание отдачи от проблем, в которых важно обеспечить разумную производительность системы и / или соблюдать ограничения безопасности во время процессов обучения и / или развертывания. [35]

См. Также [ править ]

  • Обучение временной разнице
  • Q-обучение
  • Состояние – действие – награда – состояние – действие (SARSA)
  • Фиктивная игра
  • Система обучающих классификаторов
  • Оптимальный контроль
  • Динамические режимы лечения
  • Обучение, управляемое ошибками
  • Многоагентная система
  • Распределенный искусственный интеллект
  • Внутренняя мотивация
  • Генетические алгоритмы
  • ученичество

Ссылки [ править ]

  1. ^ Ху, J .; Niu, H .; Карраско, Дж .; Lennox, B .; Арвин, Ф. (2020). «Автономное исследование с использованием нескольких роботов на базе Вороного в неизвестных средах с помощью глубокого обучения с подкреплением» . IEEE Transactions по автомобильной технологии . 69 (12): 14413-14423.
  2. ^ Kaelbling, Лесли П .; Литтман, Майкл Л .; Мур, Эндрю В. (1996). «Обучение с подкреплением: обзор» . Журнал исследований искусственного интеллекта . 4 : 237–285. arXiv : cs / 9605103 . DOI : 10.1613 / jair.301 . S2CID 1708582 . Архивировано из оригинала на 2001-11-20. 
  3. ^ ван Оттерло, М .; Виринг, М. (2012). Обучение с подкреплением и марковские процессы принятия решений . Обучение с подкреплением . Адаптация, обучение и оптимизация. 12 . С. 3–42. DOI : 10.1007 / 978-3-642-27645-3_1 . ISBN 978-3-642-27644-6.
  4. ^ Рассел, Стюарт Дж .; Норвиг, Питер (2010). Искусственный интеллект: современный подход (Третье изд.). Река Аппер Сэдл, Нью-Джерси. стр. 830, 831. ISBN 978-0-13-604259-4.
  5. ^ Ли, Daeyeol; Со, Хёджон; Юнг, Мин Ван (21 июля 2012 г.). «Нейронные основы обучения с подкреплением и принятия решений» . Ежегодный обзор нейробиологии . 35 (1): 287–308. DOI : 10.1146 / annurev-neuro-062111-150512 . PMC 3490621 . 
  6. ^ Се, Чжаомин и др. « ВСЕ ШАГИ: обучение навыкам « ступеньки »на основе учебной программы ». Форум компьютерной графики. Vol. 39. № 8. 2020.
  7. Перейти ↑ Sutton & Barto 1998 , Глава 11.
  8. ^ Gosavi, Abhijit (2003). Оптимизация на основе моделирования: методы параметрической оптимизации и армирование . Серия интерфейсов «Исследование операций / Информатика». Springer. ISBN 978-1-4020-7454-7.
  9. ^ a b Burnetas, Apostolos N .; Katehakis, Майкл Н. (1997), "Оптимальные адаптивные политики для марковских процессов принятия решений", Математика исследования операций , 22 : 222-255, DOI : 10.1287 / moor.22.1.222
  10. ^ Токич, Мишель; Палм, Гюнтер (2011), «Исследование на основе разницы ценностей: адаптивное управление между Epsilon-Greedy и Softmax» (PDF) , KI 2011: достижения в области искусственного интеллекта , конспект лекций по информатике, 7006 , Springer, стр. 335–346 , ISBN  978-3-642-24455-1
  11. ^ a b «Обучение с подкреплением: Введение» (PDF) .
  12. ^ Саттон, Ричард С. (1984). Временное присвоение кредитов в обучении с подкреплением (кандидатская диссертация). Массачусетский университет, Амхерст, Массачусетс.
  13. ^ Саттон и Барто 1998 , §6. Обучение с временной разницей .
  14. ^ Брадтке, Стивен Дж .; Барто, Эндрю Г. (1996). «Учимся предсказывать методом временных разностей». Машинное обучение . 22 : 33–57. CiteSeerX 10.1.1.143.857 . DOI : 10,1023 / A: 1018056104778 . S2CID 20327856 .  
  15. ^ Уоткинс, Кристофер JCH (1989). Learning from Delayed Rewards (PDF) (докторская диссертация). Королевский колледж, Кембридж, Великобритания.
  16. ^ Уильямс, Рональд Дж. (1987). «Класс алгоритмов оценки градиента для обучения с подкреплением в нейронных сетях». Труды Первой международной конференции IEEE по нейронным сетям . CiteSeerX 10.1.1.129.8871 . 
  17. ^ Петерс, Ян ; Виджаякумар, Сетху ; Шааль, Стефан (2003). «Обучение с подкреплением для робототехники-гуманоидов» (PDF) . Международная конференция IEEE-RAS по роботам-гуманоидам .
  18. ^ Дайзенрот, Марк Питер ; Нойман, Герхард ; Питерс, Янв (2013). Обзор политики поиска робототехники (PDF) . Основы и тенденции в робототехнике. 2 . СЕЙЧАС Издатели. С. 1–142. DOI : 10.1561 / 2300000021 . hdl : 10044/1/12051 .
  19. ^ Джулиани, Артур (2016-12-17). «Простое обучение с подкреплением с помощью Tensorflow, часть 8: асинхронные критические агенты (A3C)» . Средний . Проверено 22 февраля 2018 .
  20. ^ Риверет, Регис; Гао, Ян (2019). «Вероятностная структура аргументации для агентов обучения с подкреплением». Автономные агенты и мультиагентные системы . 33 (1–2): 216–274. DOI : 10.1007 / s10458-019-09404-2 . S2CID 71147890 . 
  21. ^ Kulkarni, Tejas D .; Narasimhan, Karthik R .; Саиди, Ардаван; Тененбаум, Джошуа Б. (2016). «Иерархическое обучение с глубоким подкреплением: интеграция временной абстракции и внутренней мотивации» . Материалы 30-й Международной конференции по системам обработки нейронной информации . НИПС'16. США: Curran Associates Inc.: 3682–3690. arXiv : 1604.06057 . Bibcode : 2016arXiv160406057K . ISBN 978-1-5108-3881-9.
  22. ^ Джордж Каримпанал, Томмен; Буффане, Роланд (2019). «Самоорганизующиеся карты для хранения и передачи знаний при обучении с подкреплением». Адаптивное поведение . 27 (2): 111–126. arXiv : 1811.08318 . DOI : 10.1177 / 1059712318818568 . ISSN 1059-7123 . S2CID 53774629 .  
  23. ^ «Об использовании обучения с подкреплением для тестирования игровой механики: ACM - компьютеры в развлечениях» . cie.acm.org . Проверено 27 ноября 2018 .
  24. ^ Каплан, Ф .; Аудейер, П. (2004). «Максимизация прогресса в обучении: внутренняя система вознаграждения за развитие». In Iida, F .; Pfeifer, R .; Стали, л .; Куниёси Ю. (ред.). Воплощенный искусственный интеллект . Берлин; Гейдельберг: Springer. С. 259–270. DOI : 10.1007 / 978-3-540-27833-7_19 .
  25. ^ Клюбин, А .; Polani, D .; Неханов, С. (2008). «Держите ваши возможности открытыми: принцип управления сенсомоторными системами, основанный на информации» . PLOS ONE . 3 (12): e4018. DOI : 10.1371 / journal.pone.0004018 .
  26. Перейти ↑ Barto, AG (2013). «Внутренняя мотивация и обучение с подкреплением». Внутренне мотивированное обучение в естественных и искусственных системах . Берлин; Гейдельберг: Springer. С. 17–47.
  27. ^ Sun, R .; Merrill, E .; Петерсон, Т. (2001). «От неявных навыков к явным знаниям: восходящая модель обучения навыкам» . Когнитивная наука . 25 (2): 203–244. DOI : 10,1207 / s15516709cog2502_2 .
  28. ^ «Обучение с подкреплением / Успехи обучения с подкреплением» . umichrl.pbworks.com . Проверено 6 августа 2017 .
  29. ^ [1] Архивировано 26 апреля 2017 г. в Wayback Machine.
  30. ^ Дабериус, Кевин; Гранат, Эльвин; Карлссон, Патрик (2020). «Глубокое исполнение - обучение с подкреплением на основе ценностей и политик для торговли и достижения рыночных показателей» . Журнал машинного обучения в финансах . 1 .
  31. ^ Соучек, Бранко. Динамическое, генетическое и хаотическое программирование: серия компьютерных технологий шестого поколения . John Wiley & Sons, Inc. стр. 38. ISBN 0-471-55717-X.
  32. ^ Франсуа-Лаве, Винсент; и другие. (2018). «Введение в глубокое обучение с подкреплением». Основы и тенденции в машинном обучении . 11 (3–4): 219–354. arXiv : 1811.12560 . Bibcode : 2018arXiv181112560F . DOI : 10.1561 / 2200000071 . S2CID 54434537 . 
  33. ^ Мних, Владимир; и другие. (2015). «Контроль на уровне человека посредством глубокого обучения с подкреплением» . Природа . 518 (7540): 529–533. Bibcode : 2015Natur.518..529M . DOI : 10,1038 / природа14236 . PMID 25719670 . S2CID 205242740 .  
  34. ^ Ng, AY; Рассел, SJ (2000). «Алгоритмы обучения с обратным подкреплением» (PDF) . Proceeding ICML '00 Труды семнадцатой международной конференции по машинному обучению . С. 663–670. ISBN  1-55860-707-2.
  35. Хори, Наото; Мацуи, Тохгорох; Морияма, Коичи; Муто, Ацуко; Инузука, Нобухиро (18.01.2019). «Многоцелевое безопасное обучение с подкреплением» . Искусственная жизнь и робототехника . DOI : 10.1007 / s10015-019-00524-2 . ISSN 1433-5298 . 

Дальнейшее чтение [ править ]

  • Ауэр, Питер ; Якш, Томас; Ортнер, Рональд (2010). «Почти оптимальные границы сожаления для обучения с подкреплением» . Журнал исследований в области машинного обучения . 11 : 1563–1600.
  • Бузониу, Лучиан; Бабушка, Роберт; Де Шуттер, Барт ; Эрнст, Дэмиен (2010). Обучение с подкреплением и динамическое программирование с использованием аппроксиматоров функций . Тейлор и Фрэнсис CRC Press. ISBN 978-1-4398-2108-4.
  • Франсуа-Лаве, Винсент; Хендерсон, Питер; Ислам, Риашат; Bellemare, Marc G .; Пино, Жоэль (2018). «Введение в глубокое обучение с подкреплением». Основы и тенденции в машинном обучении . 11 (3–4): 219–354. arXiv : 1811.12560 . Bibcode : 2018arXiv181112560F . DOI : 10.1561 / 2200000071 . S2CID  54434537 .
  • Пауэлл, Уоррен (2007). Приближенное динамическое программирование: решение проклятия размерности . Wiley-Interscience. ISBN 978-0-470-17155-4.
  • Саттон, Ричард С .; Барто, Эндрю Г. (2018). Обучение с подкреплением: Введение (2-е изд.). MIT Press. ISBN 978-0-262-03924-6.
  • Саттон, Ричард С. (1988). «Учимся предсказывать методом временных разностей» . Машинное обучение . 3 : 9–44. DOI : 10.1007 / BF00115009 .
  • Сита, Иштван; Сепесвари, Чаба (2010). «Модельное обучение с подкреплением с почти жесткими границами сложности исследования» (PDF) . ICML 2010 . Вседержительница. С. 1031–1038. Архивировано из оригинального (PDF) 14 июля 2010 года.

Внешние ссылки [ править ]

  • Репозиторий обучения с подкреплением
  • Обучение с подкреплением и искусственный интеллект (RLAI, лаборатория Рича Саттона в Университете Альберты )
  • Лаборатория автономного обучения (ALL, лаборатория Эндрю Барто в Массачусетском университете в Амхерсте )
  • Гибридное обучение с подкреплением
  • Реальные эксперименты по обучению с подкреплением в Делфтском технологическом университете
  • Лекция Эндрю Нг из Стэнфордского университета по обучению с подкреплением
  • Серия сообщений в блоге Dissecting Reinforcement Learning о RL с помощью кода Python