Без модели (обучение с подкреплением)

Эта статья требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален.
Найти источники: Обучение с подкреплением «без моделей» - новости · газеты · книги · ученый · JSTOR ( апрель 2019 г. ) ( Узнайте, как и когда удалить это сообщение-шаблон )

Машинное обучение и интеллектуальный анализ данных
Часть серии по

Проблемы Классификация Кластеризация Регресс Обнаружение аномалий AutoML Правила ассоциации Обучение с подкреплением Структурированный прогноз Функциональная инженерия Особенности обучения Онлайн обучение Полу-контролируемое обучение Обучение без учителя Учимся ранжировать Введение в грамматику
Обучение с учителем ( классификация • регрессия ) Деревья решений Ансамбли Упаковка Повышение Случайный лес k -NN Линейная регрессия Наивный байесовский Искусственные нейронные сети Логистическая регрессия Перцептрон Вектор релевантности (RVM) Машина опорных векторов (SVM)
Кластеризация БЕРЕЗА ИЗЛЕЧИВАТЬ Иерархический k -средство Ожидание – максимизация (EM) DBSCAN ОПТИКА Средний сдвиг
Снижение размерности Факторный анализ CCA ICA LDA NMF PCA PGD t-SNE
Структурированный прогноз Графические модели Сеть Байеса Условное случайное поле Скрытый Марков
Обнаружение аномалий k -NN Фактор местного выброса
Искусственная нейронная сеть Автоэнкодер Когнитивные вычисления Глубокое обучение DeepDream Многослойный перцептрон RNN LSTM ГРУ ESN Ограниченная машина Больцмана GAN SOM Сверточная нейронная сеть U-Net Трансформатор Пиковая нейронная сеть Мемтранзистор Электрохимическая RAM (ECRAM)
Обучение с подкреплением Q-обучение SARSA Временная разница (TD)
Теория Компромисс смещения и дисперсии Теория вычислительного обучения Минимизация эмпирического риска Обучение Оккама PAC обучение Статистическое обучение Теория ВК
Площадки для машинного обучения NeurIPS ICML ML JMLR ArXiv: cs.LG
Статьи по Теме Глоссарий искусственного интеллекта Список наборов данных для исследований в области машинного обучения Краткое описание машинного обучения
v т е

В обучении с подкреплением (RL) безмодельный алгоритм (в отличие от основанного на модели ) - это алгоритм, который не использует распределение вероятностей перехода (и функцию вознаграждения ), связанное с марковским процессом принятия решений (MDP), ^{[ 1],} который в RL представляет проблему, которую необходимо решить. Распределение вероятности перехода (или модель перехода) и функция вознаграждения часто вместе называют «моделью» среды (или MDP), отсюда и название «без модели». Безмодельный алгоритм RL можно рассматривать как «явный» алгоритм проб и ошибок . ^[1] Примером безмодельного алгоритма является Q-обучение..

Ключевые "безмодельные" алгоритмы обучения с подкреплением [ править ]

Алгоритм	Описание	Модель	Политика	Пространство действий	Государственное пространство	Оператор
DQN	Сеть Deep Q	Без модели	Вне политики	Дискретный	Непрерывный	Q-значение
DDPG	Глубокий детерминированный градиент политики	Без модели	Вне политики	Непрерывный	Непрерывный	Q-значение
A3C	Алгоритм асинхронного преимущества "субъект-критик"	Без модели	В соответствии с политикой	Непрерывный	Непрерывный	Преимущество
TRPO	Оптимизация политики доверенного региона	Без модели	В соответствии с политикой	Непрерывный	Непрерывный	Преимущество
PPO	Проксимальная оптимизация политики	Без модели	В соответствии с политикой	Непрерывный	Непрерывный	Преимущество
TD3	Двойной отложенный глубокий детерминированный градиент политики	Без модели	Вне политики	Непрерывный	Непрерывный	Q-значение
SAC	Мягкий Актер-Критик	Без модели	Вне политики	Непрерывный	Непрерывный	Преимущество

Ссылки [ править ]

^ а б Саттон, Ричард С .; Барто, Эндрю Г. (13 ноября 2018 г.). Обучение с подкреплением: Введение (PDF) (Второе изд.). Книга Брэдфорда. п. 552. ISBN. 0262039249. Проверено 18 февраля 2019 . CS1 maint: discouraged parameter (link)

[sutton2018-1] а б Саттон, Ричард С .; Барто, Эндрю Г. (13 ноября 2018 г.). Обучение с подкреплением: Введение (PDF) (Второе изд.). Книга Брэдфорда. п. 552. ISBN. 0262039249. Проверено 18 февраля 2019 . CS1 maint: discouraged parameter (link)