MuZero

MuZero - это компьютерная программа, разработанная компанией DeepMind, занимающаяся исследованиями искусственного интеллекта, для освоения игр, не зная их правил. ^[1]^[2]^[3] Его выпуск в 2019 году включал тесты производительности в го , шахматах , сёги и стандартный набор игр Atari . В алгоритме используется подход, аналогичный AlphaZero . Он соответствовал производительности AlphaZero в шахматах и сёги, улучшил его производительность в го. (установив новый мировой рекорд), и улучшил состояние дел в освоении набора из 57 игр Atari (Arcade Learning Environment), визуально сложной области.

MuZero был обучен путем самостоятельной игры и игры против AlphaZero, без доступа к правилам, открывающим книгам или финальным столам. Обученный алгоритм использовал те же сверточные и остаточные алгоритмы, что и AlphaZero, но с на 20% меньше шагов вычислений на узел в дереве поиска. ^[4]

История

MuZero действительно открывает для себя, как построить модель и понять ее только из первых принципов.
- Дэвид Сильвер, DeepMind, Wired ^[5]

19 ноября 2019 года команда DeepMind выпустила препринт, представляющий MuZero.

Производные от AlphaZero

MuZero (MZ) - это сочетание высокопроизводительного планирования алгоритма AlphaZero (AZ) с подходами к обучению с подкреплением без использования моделей. Комбинация позволяет более эффективно обучаться в классических режимах планирования, таких как Go, а также обрабатывать области с гораздо более сложными входными данными на каждом этапе, например, визуальные видеоигры.

MuZero был получен непосредственно из кода AZ, разделяя его правила установки гиперпараметров . Различия между подходами включают: ^[6]

В процессе планирования АЗ используется симулятор . Симулятор знает правила игры. Это должно быть явно запрограммировано. Затем нейронная сеть предсказывает политику и ценность будущей позиции. Совершенное знание правил игры используется при моделировании переходов состояний в дереве поиска, действий, доступных в каждом узле, и завершения ветви дерева. MZ не имеет доступа к правилам и вместо этого изучает их с помощью нейронных сетей.
AZ имеет единую модель игры (от состояния доски до прогнозов); MZ имеет отдельные модели для представления текущего состояния (от состояния доски к ее внутреннему встраиванию), динамики состояний (как действия изменяют представление состояний доски) и прогнозирования политики и значения будущей позиции (с учетом представления состояния).
Скрытая модель MZ может быть сложной, и может оказаться, что она может содержать вычисления; изучение деталей скрытой модели в обученном экземпляре MZ - тема для будущих исследований.
MZ не ожидает игры двух игроков, в которой победители получают все. Он работает со стандартными сценариями обучения с подкреплением, включая среды с одним агентом с непрерывным промежуточным вознаграждением, возможно, произвольной величины и с дисконтом по времени. AZ был разработан для игр двух игроков, которые можно было выиграть, сыграть вничью или проиграть.

Сравнение с R2D2

Предыдущей современной техникой обучения игре в набор игр Atari была R2D2, Recurrent Replay Distributed DQN. ^[7]

MuZero превзошел как среднюю, так и медианную производительность R2D2 по набору игр, хотя и не во всех играх.

Обучение и результаты

MuZero использовал 16 блоков тензорной обработки ( TPU) третьего поколения для обучения и 1000 TPU для самостоятельной игры (для настольных игр с 800 симуляциями на шаг) и 8 TPU для обучения и 32 TPU для самостоятельной игры (для игр Atari, с 50 симуляциями на каждый шаг). шаг).

AlphaZero использовала 64 TPU первого поколения для обучения и 5000 TPU второго поколения для самостоятельной игры. По мере совершенствования конструкции TPU (чипы третьего поколения по отдельности в два раза мощнее чипов второго поколения, с дальнейшим улучшением пропускной способности и сетевого взаимодействия между чипами в модуле), это сопоставимые обучающие установки.

R2D2 обучался в течение 5 дней за 2 миллиона шагов обучения.

Первые результаты

MuZero сравнялся с AlphaZero в шахматах и сёги примерно после 1 миллиона тренировочных шагов. Он соответствовал показателям AZ в го после 500 тысяч тренировочных шагов и превзошел его на 1 миллион шагов. ^[6] Он соответствовал средней и средней производительности R2D2 в игровом наборе Atari после 500 тысяч тренировочных шагов и превзошел их на 1 миллион шагов; хотя он никогда не работал хорошо с 6 играми из набора.

Реакции и связанные с ними работы

MuZero рассматривался как значительный прогресс по сравнению с AlphaZero ^[8] и значительный шаг вперед в методах обучения без учителя . ^[9]^[10] Работа рассматривалась как продвижение понимания того, как составлять системы из более мелких компонентов, разработка на системном уровне больше, чем разработка чисто машинного обучения. ^[11]

Хотя команда разработчиков выпустила только псевдокод, Вернер Дюво создал на его основе реализацию с открытым исходным кодом. ^[12]

MuZero использовался в качестве эталонной реализации в других работах, например, как способ создания поведения на основе модели. ^[13]

Смотрите также

Внешние ссылки

Первоначальный препринт MuZero .
Реализации с открытым исходным кодом

[1] Wiggers, Кайл. «MuZero от DeepMind учит себя побеждать в Atari, шахматах, сёги и го» . VentureBeat . Проверено 22 июля 2020 .

[2] Фридель, Фредерик. «MuZero разбирается в шахматах, правилах и всем остальном» . ChessBase GmbH . Проверено 22 июля 2020 .

[3] Родригес, Иисус. «DeepMind представляет MuZero, нового агента, который овладел шахматами, сёги, Atari и ходил без знания правил» . KDnuggets . Проверено 22 июля 2020 .

[4] Шриттвизер, Джулиан; Антоноглоу, Иоаннис; Хьюберт, Томас; Симонян, Карен; Сифре, Лоран; Шмитт, Саймон; Гез, Артур; Локхарт, Эдвард; Хассабис, Демис; Грэпель, Тор; Лилликрап, Тимоти (2020). «Освоение Атари, Го, шахмат и сёги путем планирования с учёной моделью». Природа . 588 (7839): 604–609. arXiv : 1911.08265 . Bibcode : 2020Natur.588..604S . DOI : 10.1038 / s41586-020-03051-4 . PMID 33361790 . S2CID 208158225 .

[5] «Чему AlphaGo может научить нас о том, как люди учатся» . Проводной . ISSN 1059-1028 . Проверено 25 декабря 2020 .

[preprint-6] а б Сильвер, Дэвид ; Хьюберт, Томас; Шриттвизер, Джулиан; Антоноглоу, Иоаннис; Лай, Мэтью; Гез, Артур; Ланкто, Марк; Сифре, Лоран; Кумаран, Дхаршан ; Грэпель, Тор; Лилликрап, Тимоти; Симонян, Карен; Хассабис, Демис (5 декабря 2017 г.). «Освоение шахмат и сёги путем самостоятельной игры с использованием общего алгоритма обучения с подкреплением». arXiv : 1712.01815 [ cs.AI ].

[7] Каптуровски, Стивен; Островский, Георг; Куан, Джон; Муньос, Реми; Дабни, Уилл. ПОВТОРНЫЙ ОПЫТ В РАСПРЕДЕЛЕННОМ ОБУЧЕНИИ УСИЛЕНИЯ . ICLR 2019 - через Открытый обзор.

[8] Сократите, Коннор (2020-01-18). «Эволюция AlphaGo в MuZero» . Средний . Проверено 7 июня 2020 .

[9] «[AN # 75]: Решение Atari and Go с использованием изученных игровых моделей и мысли сотрудника MIRI - LessWrong 2.0» . www.lesswrong.com . Проверено 7 июня 2020 .

[10] Ву, Цзюнь. "Обучение с подкреплением, партнер глубокого обучения" . Forbes . Проверено 15 июля 2020 .

[11] «Машинное обучение и робототехника: мое (предвзятое) состояние в 2019 году» . cachestocaches.com . Проверено 15 июля 2020 .

[12] Duvaud, Werner (15.07.2020), werner-duvaud / muzero-general , получено 15.07.2020

[13] ван Сейен, Харм; Некоэй, Хади; Рака, Эван; Чандар, Сарат (06.07.2020). «Сожаление LoCA: постоянный показатель для оценки модельного поведения в обучении с подкреплением». arXiv : 2007.03158 [ cs.stat ].

[1]