Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Временная разница ( ТД ) обучение относится к классу безмодельного обучения подкрепления методов , которые изучают с помощью самозагрузки из текущей оценки функции цены. Эти методы выбирают из среды, как методы Монте-Карло , и выполняют обновления на основе текущих оценок, как методы динамического программирования . [1]

В то время как методы Монте-Карло корректируют свои оценки только после того, как известен окончательный результат, методы TD корректируют прогнозы для соответствия более поздним, более точным предсказаниям о будущем до того, как станет известен окончательный результат. [2] Это форма начальной загрузки , как показано в следующем примере:

«Предположим, вы хотите спрогнозировать погоду на субботу, и у вас есть некая модель, которая предсказывает погоду в субботу с учетом погоды каждого дня недели. В стандартном случае вы должны подождать до субботы, а затем скорректировать все свои модели. Однако, когда, например, пятница, вы должны иметь довольно хорошее представление о погоде в субботу - и, таким образом, иметь возможность изменить, скажем, субботнюю модель до наступления субботы ». [2]

Методы временной разницы связаны с моделью временной разницы обучения животных. [3] [4] [5] [6] [7]

Математическая формулировка [ править ]

Табличный метод TD (0) - один из самых простых методов TD. Это частный случай более общих методов стохастической аппроксимации. Он оценивает функцию значения состояния конечного марковского процесса принятия решений (MDP) в рамках политики . Пусть обозначим функцию состояния ценностный MDP с государствами , награды и ставки дисконтирования [8] в соответствии с политикой :

Для удобства мы опускаем действие из обозначений. удовлетворяет уравнению Гамильтона-Якоби-Беллмана :

так это объективная оценка для . Это наблюдение мотивирует следующий алгоритм оценки .

Алгоритм начинается с произвольной инициализации таблицы с одним значением для каждого состояния MDP. Выбрана положительная скорость обучения .

Затем мы повторно оцениваем политику , получаем вознаграждение и обновляем функцию значения для старого состояния, используя правило: [9]

где и - старое и новое состояния соответственно. Значение известно как цель TD.

TD-Lambda [ править ]

TD-Lambda - это алгоритм обучения, изобретенный Ричардом С. Саттоном на основе более ранней работы Артура Сэмюэла по изучению временной разницы . [1] Этот алгоритм был широко применен Джеральдом Тесауро для создания TD-Gammon , программы, которая научилась играть в нарды на уровне опытных игроков. [10]

Параметр lambda ( ) относится к параметру затухания следа с . Более высокие настройки приводят к более длительным следам; то есть большую долю вознаграждения можно отдать более отдаленным состояниям и действиям, когда она выше, с параллельным обучением алгоритмам Монте-Карло RL.

Алгоритм TD в неврологии [ править ]

Алгоритм TD также привлек внимание в области нейробиологии . Исследователи обнаружили, что частота активации дофаминовых нейронов в вентральной тегментальной области (VTA) и черной субстанции (SNc), по-видимому, имитирует функцию ошибки в алгоритме. [3] [4] [5] [6] [7]Функция ошибок сообщает о разнице между предполагаемым вознаграждением в любом заданном состоянии или временном шаге и фактическим полученным вознаграждением. Чем больше функция ошибок, тем больше разница между ожидаемым и фактическим вознаграждением. Когда это сочетается со стимулом, который точно отражает будущее вознаграждение, ошибку можно использовать, чтобы связать стимул с будущим вознаграждением .

Похоже, что дофаминовые клетки ведут себя аналогичным образом. В одном эксперименте измерения дофаминовых клеток были сделаны во время обучения обезьяны ассоциировать стимул с вознаграждением соком. [11] Первоначально дофаминовые клетки увеличивали скорость возбуждения, когда обезьяна получала сок, что указывает на разницу в ожидаемом и фактическом вознаграждении. Со временем это увеличение ответной реакции распространилось на самый ранний надежный стимул для вознаграждения. После того, как обезьяна была полностью обучена, после предъявления прогнозируемой награды скорость стрельбы не увеличивалась. Впоследствии скорость активации дофаминовых клеток снизилась ниже нормальной активации, когда ожидаемое вознаграждение не было получено. Это очень похоже на то, как функция ошибок в TD используется для обучения с подкреплением .

Связь между моделью и потенциальной неврологической функцией привела к исследованию, в котором пытались использовать TD для объяснения многих аспектов поведенческих исследований. [12] Он также использовался для изучения таких состояний, как шизофрения, или последствий фармакологических манипуляций с дофамином для обучения. [13]

См. Также [ править ]

  • Q-обучение
  • SARSA
  • Модель Рескорла-Вагнера
  • ПВЛВ

Примечания [ править ]

  1. ^ а б Ричард Саттон и Эндрю Барто (1998). Обучение с подкреплением . MIT Press. ISBN 978-0-585-02445-5. Архивировано из оригинала на 2017-03-30.
  2. ^ а б Ричард Саттон (1988). «Учимся предсказывать методами временных разностей» . Машинное обучение . 3 (1): 9–44. DOI : 10.1007 / BF00115009 .(Пересмотренная версия доступна на странице публикации Ричарда Саттона, заархивирована 30 марта 2017 г. в Wayback Machine )
  3. ^ a b Шульц, В., Даян, П и Монтегю, PR. (1997). «Нейронный субстрат предсказания и вознаграждения». Наука . 275 (5306): 1593–1599. CiteSeerX 10.1.1.133.6176 . DOI : 10.1126 / science.275.5306.1593 . PMID 9054347 .  CS1 maint: multiple names: authors list (link)
  4. ^ a b Монтегю, PR; Dayan, P .; Сейновски, Т.Дж. (1996-03-01). «Структура для мезэнцефальных дофаминовых систем, основанная на прогнозирующем обучении Хебба» (PDF) . Журнал неврологии . 16 (5): 1936–1947. DOI : 10.1523 / JNEUROSCI.16-05-01936.1996 . ISSN 0270-6474 . PMC 6578666 . PMID 8774460 .    
  5. ^ a b Монтегю, PR; Dayan, P .; Новлан, SJ; Pouget, A .; Сейновски, Т.Дж. (1993). «Использование апериодического подкрепления для направленной самоорганизации» (PDF) . Достижения в системах обработки нейронной информации . 5 : 969–976.
  6. ^ a b Монтегю, PR; Сейновски, Т.Дж. (1994). «Прогнозирующий мозг: временное совпадение и временной порядок в механизмах синаптического обучения». Обучение и память . 1 (1): 1–33. ISSN 1072-0502 . PMID 10467583 .  
  7. ^ а б Сейновски, Т.Дж.; Dayan, P .; Монтегю, PR (1995). «Прогнозирующее изучение хебба» (PDF) . Труды восьмой конференции ACM по вычислительной теории обучения : 15–18. DOI : 10.1145 / 225298.225300 .
  8. ^ Параметр дисконтной ставки позволяет выбрать время для получения более немедленных вознаграждений, а не для вознаграждений в отдаленном будущем
  9. ^ Обучение с подкреплением: Введение (PDF) . п. 130. Архивировано из оригинального (PDF) 12.07.2017.
  10. ^ Тесауро, Джеральд (март 1995). "Изучение временной разницы и TD-Gammon" . Коммуникации ACM . 38 (3): 58–68. DOI : 10.1145 / 203330.203343 . Проверено 8 февраля 2010 .
  11. ^ Шульц, W. (1998). «Прогнозирующий сигнал вознаграждения дофаминовых нейронов». Журнал нейрофизиологии . 80 (1): 1-27. CiteSeerX 10.1.1.408.5994 . DOI : 10.1152 / jn.1998.80.1.1 . PMID 9658025 .  
  12. ^ Даян, П. (2001). «Мотивированное обучение с подкреплением» (PDF) . Достижения в системах обработки нейронной информации . MIT Press. 14 : 11–18.
  13. ^ Смит, А., Ли, М., Беккер, С. и Капур, С. (2006). «Дофамин, ошибка предсказания и ассоциативное обучение: учет на основе модели». Сеть: вычисления в нейронных системах . 17 (1): 61–84. DOI : 10.1080 / 09548980500361624 . PMID 16613795 . CS1 maint: multiple names: authors list (link)

Библиография [ править ]

  • Саттон, Р.С., Барто А.Г. (1990). "Производные по времени модели павловской арматуры" (PDF) . Обучающая и вычислительная нейронаука: основы адаптивных сетей : 497–537.CS1 maint: multiple names: authors list (link)
  • Джеральд Тезауро (март 1995 г.). "Изучение временной разницы и TD-Gammon" . Коммуникации ACM . 38 (3): 58–68. DOI : 10.1145 / 203330.203343 .
  • Имран Гори. Обучение с подкреплением в настольных играх .
  • С.П. Мейн, 2007. Методы управления сложными сетями , Cambridge University Press, 2007. См. Последнюю главу и приложение с сокращениями Meyn & Tweedie .

Внешние ссылки [ править ]

  • Scholarpedia Разница во времени Обучение
  • TD-Gammon
  • Исследовательская группа TD-Networks
  • Апплет Connect Four TDGravity (+ версия для мобильного телефона) - самообучение с использованием метода TD-Leaf (комбинация TD-Lambda с поиском по мелкому дереву)
  • Самообучающееся веб-приложение Meta-Tic-Tac-Toe , показывающее, как обучение разнице во времени можно использовать для изучения констант оценки состояния минимаксного ИИ, играющего в простую настольную игру.
  • Задача обучения с подкреплением , документ, объясняющий, как можно использовать обучение с разницей во времени для ускорения Q-обучения.
  • TD-Simulator Симулятор разницы во времени для классической тренировки