Список наборов данных для исследований в области машинного обучения
Краткое описание машинного обучения
v
т
е
В обучении с подкреплением (RL) безмодельный алгоритм (в отличие от основанного на модели ) - это алгоритм, который не использует распределение вероятностей перехода (и функцию вознаграждения ), связанное с марковским процессом принятия решений (MDP), [ 1], который в RL представляет проблему, которую необходимо решить. Распределение вероятности перехода (или модель перехода) и функция вознаграждения часто вместе называют «моделью» среды (или MDP), отсюда и название «без модели». Безмодельный алгоритм RL можно рассматривать как «явный» алгоритм проб и ошибок . [1] Примером безмодельного алгоритма является Q-обучение..
Ключевые "безмодельные" алгоритмы обучения с подкреплением [ править ]
Двойной отложенный глубокий детерминированный градиент политики
Без модели
Вне политики
Непрерывный
Непрерывный
Q-значение
SAC
Мягкий Актер-Критик
Без модели
Вне политики
Непрерывный
Непрерывный
Преимущество
Ссылки [ править ]
^ а б Саттон, Ричард С .; Барто, Эндрю Г. (13 ноября 2018 г.). Обучение с подкреплением: Введение (PDF) (Второе изд.). Книга Брэдфорда. п. 552. ISBN. 0262039249. Проверено 18 февраля 2019 . CS1 maint: discouraged parameter (link)