Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В обучении с подкреплением (RL) безмодельный алгоритм (в отличие от основанного на модели ) - это алгоритм, который не использует распределение вероятностей переходафункцию вознаграждения ), связанное с марковским процессом принятия решений (MDP), [ 1], который в RL представляет проблему, которую необходимо решить. Распределение вероятности перехода (или модель перехода) и функция вознаграждения часто вместе называют «моделью» среды (или MDP), отсюда и название «без модели». Безмодельный алгоритм RL можно рассматривать как «явный» алгоритм проб и ошибок . [1] Примером безмодельного алгоритма является Q-обучение..

Ключевые "безмодельные" алгоритмы обучения с подкреплением [ править ]

Ссылки [ править ]

  1. ^ а б Саттон, Ричард С .; Барто, Эндрю Г. (13 ноября 2018 г.). Обучение с подкреплением: Введение (PDF) (Второе изд.). Книга Брэдфорда. п. 552. ISBN. 0262039249. Проверено 18 февраля 2019 . CS1 maint: discouraged parameter (link)