Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

TD-Gammon является компьютерная нардам программа , разработанная в 1992 году Джеральдом Тесауро в IBM «s Thomas J. Watson Research Center . Его название происходит от того факта, что это искусственная нейронная сеть, обученная с помощью метода обучения с разницей во времени , а именно TD-лямбда .

TD-Gammon достиг уровня игры чуть ниже, чем у лучших игроков в нарды того времени. В нем были изучены стратегии, которых не придерживались люди, и были достигнуты успехи в теории правильной игры в нарды.

Алгоритм игры и обучения [ править ]

Во время игры TD-Gammon проверяет на каждом ходу все возможные допустимые ходы и все их возможные ответы ( двухслойный прогноз ), передает каждую результирующую позицию на доске в свою функцию оценки и выбирает ход, который приводит к положению на доске, которое получилось самый высокий балл. В этом отношении TD-Gammon ничем не отличается от почти любой другой компьютерной программы для настольных игр. Инновация TD-Gammon заключалась в том, как она научилась выполнять свою функцию оценки.

Алгоритм обучения TD-Gammon состоит в обновлении весов в ее нейронной сети после каждого хода, чтобы уменьшить разницу между оценкой позиций доски предыдущих ходов и оценкой позиции доски в текущем ходу - отсюда и « обучение с разницей во времени ». Оценка любой позиции на доске - это набор из четырех чисел, отражающих оценку программой вероятности каждого возможного результата игры: белые обычно выигрывают, черные выигрывают нормально, белые выигрывают окорок, черные выигрывают окорок. Для окончательного положения доски в игре алгоритм сравнивает с фактическим результатом игры, а не с собственной оценкой позиции доски. [1]

После каждого хода алгоритм обучения обновляет каждый вес в нейронной сети в соответствии со следующим правилом:

куда:

Эксперименты и этапы обучения [ править ]

В отличие от предыдущих нейросетевых программ игры в нарды, таких как Neurogammon (также написанная Тесауро), где эксперт обучал программу, предоставляя «правильную» оценку каждой позиции, TD-Gammon сначала был запрограммирован «без знаний». [1] В ранних экспериментах, используя только исходное кодирование платы без каких-либо функций, разработанных человеком, TD-Gammon достиг уровня игры, сравнимого с Neurogammon: уровня игрока среднего уровня в нарды.

Несмотря на то, что TD-Gammon обнаружил интересные особенности самостоятельно, Тесауро задавался вопросом, можно ли улучшить его игру, используя разработанные вручную функции, такие как Neurogammon. Действительно, самообучающийся TD-Gammon с функциями, разработанными экспертами, вскоре превзошел все предыдущие компьютерные программы для игры в нарды. Он перестал улучшаться примерно после 1 500 000 игр (самостоятельная игра) с использованием 80 скрытых юнитов. [2]

Успехи в теории нардов [ править ]

Эксклюзивное обучение TD-Gammon посредством игры с самим собой (а не под опекой) позволило ему изучить стратегии, которые раньше люди не рассматривали или исключали ошибочно. Его успех в использовании нестандартных стратегий оказал значительное влияние на сообщество любителей нардов. [1]

Например, в дебютной игре было принято считать, что при броске 2-1, 4-1 или 5-1 белые должны переместить одну шашку из пункта 6 в пункт 5. Это называется «долбление». Техника торгует риском попадания на возможность развить агрессивную позицию. TD-Gammon обнаружил, что более консервативная игра 24-23 была лучше. Турнирные игроки начали экспериментировать с ходом TD-Gammon и добились успеха. Через несколько лет игровые автоматы исчезли из турниров. (Однако теперь он снова появляется для 2-1. [3] )

Эксперт по нардам Кит Вулси обнаружил, что позиционное суждение TD-Gammon, особенно его соотношение риска и безопасности, было лучше его собственного или любого человеческого. [1]

Превосходная позиционная игра TD-Gammon подрывается случайной неудачной игрой в эндшпиле. Эндшпиль требует более аналитического подхода, иногда с подробным прогнозом. Ограничение TD-Gammon двухслойным просмотром вперед ставит потолок для того, чего он может достичь в этой части игры. Сильные и слабые стороны TD-Gammon были противоположны символическим программам искусственного интеллекта и большинству компьютерных программ в целом: он хорошо справлялся с вопросами, требующими интуитивного «ощущения», но плохо справлялся с систематическим анализом.

Ссылки [ править ]

  1. ^ a b c d e Тесауро, Джеральд (март 1995 г.). «Обучение временной разнице и TD-Gammon» . Коммуникации ACM . 38 (3). DOI : 10.1145 / 203330.203343 . Проверено 1 ноября 2013 года .
  2. ^ Саттон, Ричард С .; Эндрю Дж. Барто (1998). Обучение с подкреплением: Введение . MIT Press. С. Таблица 11.1.
  3. ^ «Нарды: Как играть начальные ролики» .