Выбор действия

Выбор действия — это способ описания самой основной проблемы интеллектуальных систем: что делать дальше. В искусственном интеллекте и вычислительной когнитивной науке «проблема выбора действия» обычно связана с интеллектуальными агентами и аниматами — искусственными системами, которые демонстрируют сложное поведение в среде агентов . Этот термин также иногда используется в этологии или в поведении животных.

Одной из проблем понимания выбора действия является определение уровня абстракции, используемого для указания «действия». На самом базовом уровне абстракции атомным актом может быть что угодно, от сокращения мышечной клетки до провокации войны . Как правило, для любого механизма выбора действия набор возможных действий предопределен и фиксирован.

Большинство исследователей, работающих в этой области, предъявляют к своим агентам высокие требования:

Действующий агент обычно должен выбирать свое действие в динамичной и непредсказуемой среде.
Агенты обычно действуют в режиме реального времени ; поэтому они должны своевременно принимать решения.
Агенты обычно создаются для выполнения нескольких различных задач. Эти задачи могут конфликтовать при распределении ресурсов (например, может ли агент одновременно тушить пожар и доставлять чашку кофе?)
Среда, в которой действуют агенты, может включать людей , которые могут усложнить жизнь агенту (либо намеренно, либо пытаясь помочь).
Сами агенты часто предназначены для моделирования животных или людей, а поведение животных/людей довольно сложно.

По этим причинам выбор действия не является тривиальным и требует большого количества исследований.

Характеристики задачи выбора действия

Основной проблемой выбора действия является сложность . Поскольку все вычисления занимают и время, и место (в памяти), агенты не могут учитывать все варианты, доступные им в каждый момент времени. Следовательно, они должны быть предвзятыми и каким-то образом ограничивать их поиск. Для ИИ вопрос выбора действия заключается в том, как лучше всего ограничить этот поиск ? Для биологии и этологии вопрос заключается в том, как различные виды животных ограничивают их поиски? Все ли животные используют одни и те же подходы? Почему они используют те, которые они делают?

Один фундаментальный вопрос, касающийся выбора действия, заключается в том, является ли он вообще проблемой для агента или же это просто описание эмерджентного свойства поведения разумного агента. Однако если мы рассмотрим, как мы собираемся строить интеллектуального агента, то становится очевидным, что должен быть какой -то механизм выбора действий. Этот механизм может быть сильно распределенным (как в случае распределенных организмов, таких как колонии общественных насекомых или слизевики ), или он может быть модулем специального назначения.

Механизм выбора действия (ASM) определяет не только действия агента с точки зрения воздействия на мир, но и направляет его перцептивное внимание , обновляет его память . Эти эгоцентрические действия могут, в свою очередь, привести к изменению основных поведенческих способностей агента, особенно в том, что обновление памяти подразумевает возможность некоторой формы машинного обучения . В идеале сам выбор действия также должен быть способен к обучению и адаптации, но существует множество проблем комбинаторной сложности и вычислительной податливости , которые могут потребовать ограничения пространства поиска для обучения.

В ИИ ASM также иногда называют архитектурой агента или считают ее существенной частью.

механизмы ИИ

Как правило, механизмы выбора искусственных действий можно разделить на несколько категорий: системы на основе символов, иногда называемые классическим планированием, распределенные решения и реактивное или динамическое планирование . Некоторые подходы не попадают ни в одну из этих категорий. Другие больше ориентированы на предоставление научных моделей, чем на практическое управление ИИ; последние описаны далее в следующем разделе.

Символические подходы

В начале истории искусственного интеллекта предполагалось, что лучший способ для агента выбрать, что делать дальше, — это вычислить вероятно оптимальный план, а затем выполнить этот план. Это привело к гипотезе системы физических символов, согласно которой физический агент, который может манипулировать символами, необходим и достаточен для интеллекта. Многие программные агенты до сих пор используют этот подход для выбора действия. Обычно это требует описания всех показаний датчиков, мира, всех действий и всех целей в той или иной форме логики предикатов .. Критики этого подхода жалуются, что он слишком медленный для планирования в реальном времени и что, несмотря на доказательства, он по-прежнему маловероятен для создания оптимальных планов, потому что сведение описаний реальности к логике — процесс, подверженный ошибкам.

Удовлетворение - это стратегия принятия решений, которая пытается удовлетворить критерии адекватности, а не найти оптимальное решение. Удовлетворяющая стратегия часто может быть (почти) оптимальной, если в расчете результатов учитываются затраты на сам процесс принятия решений, такие как стоимость получения полной информации.

Целеустремленные архитектуры . В этих символических архитектурах поведение агента обычно описывается набором целей. Каждая цель может быть достигнута с помощью процесса или действия, которые описываются заданным планом. Агент должен просто решить, какой процесс продолжить для достижения данной цели. План может расширяться до подцелей, что делает процесс несколько рекурсивным. Технически планы более или менее используют правила-условия. Эти архитектуры являются реактивными или гибридными. Классическими примерами целеустремленных архитектур являются реализуемые усовершенствования архитектуры убеждения-желания-намерения , такие как JAM или IVE .

Распределенные подходы

В отличие от символического подхода, распределенные системы выбора действий фактически не имеют одного «ящика» в агенте, который определяет следующее действие. По крайней мере, в своей идеализированной форме распределенные системы имеют множество модулей, работающих параллельно и определяющих наилучшие действия на основе местного опыта. Ожидается, что в этих идеализированных системах общая согласованность каким-то образом возникнет, возможно, за счет тщательного проектирования взаимодействующих компонентов. Этот подход часто вдохновлен исследованиями искусственных нейронных сетей . На практике почти всегда существует некая централизованная система, определяющая, какой модуль является «наиболее активным» или имеет наибольшую значимость. Есть свидетельства того, что настоящий биологический мозг также имеет такие системы исполнительных решений.которые оценивают, какая из конкурирующих систем заслуживает наибольшего внимания или, точнее, имеет расторможенные желаемые действия .

ASMO — это архитектура, основанная на внимании, разработанная Рони Новианто. ^[1] Он организует разнообразные модульные распределенные процессы, которые могут использовать свои собственные представления и методы для восприятия окружающей среды, обработки информации, планирования действий и предложения действий для выполнения.
Различные типы архитектур « победитель получает все », в которых одно выбранное действие полностью контролирует двигательную систему.
Активация распространения, включая Maes Nets (ANA)
Расширенная Rosenblatt & Payton — это расширяющаяся архитектура активации, разработанная Тоби Тирреллом в 1993 году. Поведение агента сохраняется в виде иерархической сети коннекционизма , которую Тиррелл назвал иерархией свободного потока. Недавно использовалась, например, de Sevin & Thalmann (2005) или Kadleček (2001).
ИИ , основанный на поведении, был ответом на медленную скорость роботов с использованием методов выбора символических действий. В этой форме отдельные модули реагируют на разные раздражители и генерируют собственные ответы. В исходной форме, архитектуре включения , они состояли из разных слоев, которые могли контролировать и подавлять входы и выходы друг друга.
Существа — это виртуальные питомцы из компьютерной игры, управляемые трехслойнойадаптивной нейронной сетью . Их механизм реактивный, так как сеть на каждом временном шаге определяет задачу, которую должен выполнить питомец. Сеть хорошо описана в статье Grand et al. (1997) и в Ресурсах для разработчиков The Creatures . См. также вики по существам .

Подходы к динамическому планированию

Поскольку чисто распределенные системы трудно построить, многие исследователи обратились к использованию явных жестко закодированных планов для определения приоритетов своей системы.

Методы динамического или реактивного планирования рассчитывают только одно следующее действие в каждый момент времени на основе текущего контекста и заранее подготовленных планов. В отличие от классических методов планирования реактивные или динамические подходы не подвержены комбинаторному взрыву . С другой стороны, их иногда считают слишком жесткими, чтобы считать их сильным ИИ , поскольку планы закодированы заранее. В то же время естественный интеллект может быть негибким в одних условиях, хотя он подвижен и способен адаптироваться в других.

Примеры механизмов динамического планирования включают:

Автоматы с конечным числом состояний Это реактивные архитектуры, используемые в основном для агентов компьютерных игр, в частности для ботов шутеров от первого лицаили для виртуальных актеров кино. Как правило, конечные автоматы иерархичны. Конкретные игровые примеры см. в статье о ботах Halo 2 Дамиана Исла (2005) или в магистерской диссертации о ботах Quake III Яна Пола ван Ваверена (2001). Пример фильма см . в Softimage .
Другие структурированные реактивные планы , как правило, немного больше похожи на обычные планы, часто со способами представления иерархической и последовательной структуры. Некоторые, такие как «акты» PRS, поддерживают частичные планы . ^[2] Многие архитектуры агентов середины 1990-х годов включали такие планы как «средний уровень», который обеспечивал организацию низкоуровневых модулей поведения , управляясь планировщиком более высокого уровня в реальном времени. Несмотря на эту предполагаемую совместимость с автоматическими планировщиками, большинство структурированных реактивных планов закодированы вручную (Брайсон, 2001, гл. 3). Примеры структурированных реактивных планов включают RAP Джеймса Фирби .Система и телеореактивные планы Нильса Нильссона . PRS, RAP и TRP больше не разрабатываются и не поддерживаются. Одним из все еще активных (по состоянию на 2006 г.) потомков этого подхода является система выбора действий с упорядоченным скользящим стеком (или POSH ) с параллельным корнем, которая является частью дизайна, ориентированного на поведение Джоанны Брайсон.

Иногда, чтобы попытаться устранить кажущуюся негибкость динамического планирования, используются гибридные методы. В них более традиционная система планирования ИИ ищет новые планы, когда у агента есть свободное время, и обновляет динамическую библиотеку планов, когда находит хорошие решения. Важным аспектом любой такой системы является то, что когда агенту нужно выбрать действие, существует некоторое решение, которое можно использовать немедленно (см. далее алгоритм в любое время ).

Другие

CogniTAO — это механизм принятия решений, основанный на BDI (вера-желание-намерение), он включает в себя встроенные возможности командной работы.
Soar — это символическая когнитивная архитектура . Он основан на правилах условного действия, известных как продукция . Программисты могут использовать набор инструментов разработки Soar для создания как реактивных, так и планирующих агентов или любого компромисса между этими двумя крайностями.
Excalibur был исследовательским проектом под руководством Александра Нареека с участием агентов по планированию компьютерных игр в любое время. Архитектура основана на удовлетворении структурных ограничений , что является передовой технологией искусственного интеллекта .
ACT-R похож на Soar. Он включает в себя байесовскую систему обучения, которая помогает расставлять приоритеты в производстве.
АБЛ/Хап
Нечеткие архитектуры Нечеткий подход к выбору действия обеспечивает более плавное поведение, чем может быть достигнуто архитектурами, использующими логические правила условного действия (такие как Soar или POSH). Эти архитектуры в основном реактивные и символические .

Теории выбора действия в природе

Многие динамические модели отбора искусственных действий изначально были вдохновлены исследованиями в области этологии . В частности, Конрад Лоренц и Николаас Тинберген выдвинули идею о врожденном механизме высвобождения для объяснения инстинктивного поведения ( паттернов фиксированного действия ). Под влиянием идей Уильяма Макдугалла Лоренц развил их в « психогидравлическую » модель мотивации поведения. В этологии эти идеи были влиятельны в 1960-х годах, но сейчас они считаются устаревшими из-за использования в них метафоры потока энергии ; нервная системаи управление поведением теперь обычно рассматривается как связанное с передачей информации, а не с потоком энергии. Динамические планы и нейронные сети больше похожи на передачу информации, а распространяющаяся активация больше похожа на диффузное управление эмоциональными/гормональными системами.

Стэн Франклин предположил, что выбор действия является правильным подходом к пониманию роли и эволюции разума . См. его страницу о парадигме выбора действий . Архивировано 9 октября 2006 г. в Wayback Machine .

ИИ-модели выбора нейронных действий

Некоторые исследователи создают сложные модели выбора нейронных действий. См., например:

Лаборатория вычислительной когнитивной неврологии (CU Boulder).
Группа исследования адаптивного поведения (Шеффилд).

Смотрите также

Язык описания действия
Искусственный интеллект в видеоиграх
Когнитивная робототехника
Экспертная система
Механизм логического вывода
Интеллектуальный агент
ОПС5
Производственная система
Обучение с подкреплением
Алгоритм Рете
Коммунальная система

использованная литература

^ Самсонович, А.В. « Внимание в когнитивной архитектуре ASMO ». Биологически вдохновленные когнитивные архитектуры (2010): 98.^{[ мертвая ссылка ]}
^ Карен Л. Майерс. «PRS-CL: система процедурного мышления» . Центр искусственного интеллекта . НИИ Интернэшнл . Проверено 13 июня 2013 г. .

дальнейшее чтение

Братман, М.: Намерение, планы и практическая причина. Кембридж, Массачусетс: Издательство Гарвардского университета (1987)
Бром К., Лукавски Дж., Шери О., Пох Т., Шафрата П.: Возможности и уровень детализации ИИ для виртуальных людей . В: Proceedings of Game Set and Match 2, Delft (2006).
Брайсон, Дж.: Интеллект по дизайну: принципы модульности и координации для инженерных сложных адаптивных агентов . Кандидатская диссертация, Массачусетский технологический институт (2001 г.)
Шампандар, А.Дж.: Разработка игр с искусственным интеллектом: синтетические существа с обучаемостью и реактивным поведением . Новые гонщики, США (2003)
Гранд С., Клифф Д., Малхотра А.: Существа: автономные программные агенты искусственной жизни для домашних развлечений . В: Джонсон, В.Л. (ред.): Материалы Первой международной конференции по автономным агентам. АКМ пресс (1997) 22-29
Хубер, М.Дж.: JAM: архитектура мобильного агента, основанная на теории BDI . В: Материалы Третьей международной конференции по автономным агентам (Агенты'99). Сиэтл (1999) 236-243
Исла, Д.: Обработка сложности в Halo 2 . В: Gamastura online, 11 марта (2005). Архивировано 08 января 2006 г. в Wayback Machine .
Мэйс, П.: Архитектура агентской сети (ANA) . В: Бюллетень SIGART, 2 (4), страницы 115–120 (1991).
Нарейек, А. Проект Excalibur
Рейнольдс, Ч. В. Стаи, стада и косяки: модель распределенного поведения . В: Компьютерная графика, 21 (4) (Материалы конференции SIGGRAPH '87) (1987) 25–34.
де Севин, Э. Тальманн, Д.: Мотивационная модель выбора действий для виртуальных людей . В: Computer Graphics International (CGI), IEEE Computer SocietyPress, Нью-Йорк (2005 г.).
Тиррелл, Т.: Вычислительные механизмы для выбора действия . Кандидат наук. Диссертация. Центр когнитивных наук Эдинбургского университета (1993 г.)
ван Ваверен, JMP: Бот Quake III Arena. Магистерская диссертация. Факультет ITS, Технологический университет Делфта (2001 г.)
Вулдридж М. Введение в мультиагентные системы . Джон Уайли и сыновья (2002)

внешняя ссылка

Университет Мемфиса: выбор агентов по действию. Архивировано 18 апреля 2006 г. в Wayback Machine .
Майкл Вулдридж: Введение в агенты и их механизмы выбора действий
Кирилл Бром: Слайды курса по селекции действий искусственных существ
Соар проект . Университет Мичигана.
Моделирование естественного отбора действий , специальный выпуск, опубликованный Королевским обществом - Философские труды Королевского общества.

[1] Самсонович, А.В. « Внимание в когнитивной архитектуре ASMO ». Биологически вдохновленные когнитивные архитектуры (2010): 98.^{[ мертвая ссылка ]}

[2] Карен Л. Майерс. «PRS-CL: система процедурного мышления» . Центр искусственного интеллекта . НИИ Интернэшнл . Проверено 13 июня 2013 г. .