ТД-Гаммон

TD-Gammon является компьютерная нардам программа , разработанная в 1992 году Джеральдом Тесауро в IBM «s Thomas J. Watson Research Center . Его название происходит от того факта, что это искусственная нейронная сеть, обученная с помощью метода обучения с разницей во времени , а именно TD-лямбда .

TD-Gammon достиг уровня игры чуть ниже, чем у лучших игроков в нарды того времени. В нем были изучены стратегии, которых не придерживались люди, и были достигнуты успехи в теории правильной игры в нарды.

Алгоритм игры и обучения [ править ]

Во время игры TD-Gammon проверяет на каждом ходу все возможные допустимые ходы и все их возможные ответы ( двухслойный прогноз ), передает каждую результирующую позицию на доске в свою функцию оценки и выбирает ход, который приводит к положению на доске, которое получилось самый высокий балл. В этом отношении TD-Gammon ничем не отличается от почти любой другой компьютерной программы для настольных игр. Инновация TD-Gammon заключалась в том, как она научилась выполнять свою функцию оценки.

Алгоритм обучения TD-Gammon состоит в обновлении весов в ее нейронной сети после каждого хода, чтобы уменьшить разницу между оценкой позиций доски предыдущих ходов и оценкой позиции доски в текущем ходу - отсюда и « обучение с разницей во времени ». Оценка любой позиции на доске - это набор из четырех чисел, отражающих оценку программой вероятности каждого возможного результата игры: белые обычно выигрывают, черные выигрывают нормально, белые выигрывают окорок, черные выигрывают окорок. Для окончательного положения доски в игре алгоритм сравнивает с фактическим результатом игры, а не с собственной оценкой позиции доски. ^[1]

После каждого хода алгоритм обучения обновляет каждый вес в нейронной сети в соответствии со следующим правилом:

{\ displaystyle w_ {t + 1} -w_ {t} = \ alpha (Y_ {t + 1} -Y_ {t}) \ sum _ {k = 1} ^ {t} \ lambda ^ {tk} \ nabla _ {w} Y_ {k}}

куда:

${\ displaystyle w_ {t + 1} -w_ {t}}$	это сумма изменения веса по сравнению с его значением на предыдущем ходу.
${\ displaystyle Y_ {t + 1} -Y_ {t}}$	- это разница между оценками доски текущего и предыдущего хода.
${\ displaystyle \ alpha}$	параметр « скорость обучения ».
${\ displaystyle \ lambda}$	- это параметр, который влияет на то, насколько существующая разница в оценках совета директоров должна соответствовать предыдущим оценкам. заставляет программу корректировать только оценку предыдущего хода; делает попытку программы скорректировать оценки на всех предыдущих ходах; а значения от 0 до 1 указывают разные скорости, с которыми важность более старых оценок должна со временем «уменьшаться». ${\ displaystyle \ lambda = 0}$ ${\ displaystyle \ lambda = 1}$ ${\ displaystyle \ lambda}$
${\ displaystyle \ nabla _ {w} Y_ {k}}$	- это градиент выхода нейронной сети по отношению к весам: то есть, насколько изменение веса влияет на выход. ^[1]

Эксперименты и этапы обучения [ править ]

В отличие от предыдущих нейросетевых программ игры в нарды, таких как Neurogammon (также написанная Тесауро), где эксперт обучал программу, предоставляя «правильную» оценку каждой позиции, TD-Gammon сначала был запрограммирован «без знаний». ^[1] В ранних экспериментах, используя только исходное кодирование платы без каких-либо функций, разработанных человеком, TD-Gammon достиг уровня игры, сравнимого с Neurogammon: уровня игрока среднего уровня в нарды.

Несмотря на то, что TD-Gammon обнаружил интересные особенности самостоятельно, Тесауро задавался вопросом, можно ли улучшить его игру, используя разработанные вручную функции, такие как Neurogammon. Действительно, самообучающийся TD-Gammon с функциями, разработанными экспертами, вскоре превзошел все предыдущие компьютерные программы для игры в нарды. Он перестал улучшаться примерно после 1 500 000 игр (самостоятельная игра) с использованием 80 скрытых юнитов. ^[2]

Успехи в теории нардов [ править ]

Эксклюзивное обучение TD-Gammon посредством игры с самим собой (а не под опекой) позволило ему изучить стратегии, которые раньше люди не рассматривали или исключали ошибочно. Его успех в использовании нестандартных стратегий оказал значительное влияние на сообщество любителей нардов. ^[1]

Например, в дебютной игре было принято считать, что при броске 2-1, 4-1 или 5-1 белые должны переместить одну шашку из пункта 6 в пункт 5. Это называется «долбление». Техника торгует риском попадания на возможность развить агрессивную позицию. TD-Gammon обнаружил, что более консервативная игра 24-23 была лучше. Турнирные игроки начали экспериментировать с ходом TD-Gammon и добились успеха. Через несколько лет игровые автоматы исчезли из турниров. (Однако теперь он снова появляется для 2-1. ^[3] )

Эксперт по нардам Кит Вулси обнаружил, что позиционное суждение TD-Gammon, особенно его соотношение риска и безопасности, было лучше его собственного или любого человеческого. ^[1]

Превосходная позиционная игра TD-Gammon подрывается случайной неудачной игрой в эндшпиле. Эндшпиль требует более аналитического подхода, иногда с подробным прогнозом. Ограничение TD-Gammon двухслойным просмотром вперед ставит потолок для того, чего он может достичь в этой части игры. Сильные и слабые стороны TD-Gammon были противоположны символическим программам искусственного интеллекта и большинству компьютерных программ в целом: он хорошо справлялся с вопросами, требующими интуитивного «ощущения», но плохо справлялся с систематическим анализом.

Ссылки [ править ]

^ ^a ^b ^c ^d ^e Тесауро, Джеральд (март 1995 г.). «Обучение временной разнице и TD-Gammon» . Коммуникации ACM . 38 (3). DOI : 10.1145 / 203330.203343 . Проверено 1 ноября 2013 года .
^ Саттон, Ричард С .; Эндрю Дж. Барто (1998). Обучение с подкреплением: Введение . MIT Press. С. Таблица 11.1.
^ «Нарды: Как играть начальные ролики» .

[CACM-1] Тесауро, Джеральд (март 1995 г.). «Обучение временной разнице и TD-Gammon» . Коммуникации ACM . 38 (3). DOI : 10.1145 / 203330.203343 . Проверено 1 ноября 2013 года .

[2] Саттон, Ричард С .; Эндрю Дж. Барто (1998). Обучение с подкреплением: Введение . MIT Press. С. Таблица 11.1.

[3] «Нарды: Как играть начальные ролики» .

[1]

vтеНастольные игры
Исторический	Ludus duodecim scriptorum Табула Жаке
Современное	Эйси-Дьюси Гуль бара Плакото Ссангрюк Сугороку Тапа
Нарды	Обозначение Открытие Chouette ФИБС Внедрение
Категории	Нарды Столы Игроки