AIXI ['ai̯k͡siː] - теоретический математический формализм для общего искусственного интеллекта . Он сочетает в себе индукцию Соломонова с теорией последовательных решений . AIXI был впервые предложен Маркусом Хаттером в 2000 году [1], и несколько результатов, касающихся AIXI, подтверждены в книге Хаттера « Универсальный искусственный интеллект» в 2005 году. [2]
AIXI - это агент обучения с подкреплением . Он максимизирует ожидаемые общие вознаграждения, полученные от окружающей среды. Интуитивно он одновременно рассматривает каждую вычислимую гипотезу (или среду). На каждом временном шаге он просматривает каждую возможную программу и оценивает, сколько вознаграждений она генерирует в зависимости от следующего предпринятого действия. Обещанные награды затем взвешиваются с учетом субъективной веры в то, что эта программа представляет собой истинную среду. Это убеждение рассчитывается исходя из длины программы: более длинные программы считаются менее вероятными, что соответствует бритве Оккама . Затем AIXI выбирает действие, которое имеет наибольшее ожидаемое общее вознаграждение в взвешенной сумме всех этих программ.
Определение
AIXI - это агент обучения с подкреплением, который взаимодействует с некоторой стохастической и неизвестной, но вычислимой средой. . Взаимодействие происходит во временных шагах, от к , где - срок службы агента AIXI. На временном шаге t агент выбирает действие (например, движение конечности) и выполняет его в окружающей среде, и среда отвечает «восприятием» , который состоит из "наблюдения" (например, изображение с камеры) и награда , распределенных по условной вероятности , где это «история» действий, наблюдений и наград. СредаТаким образом, математически представляется как распределение вероятностей по «восприятиям» (наблюдениям и вознаграждениям), которые зависят от полной истории, поэтому здесь нет марковского предположения (в отличие от других алгоритмов RL). Еще раз обратите внимание, что это распределение вероятностей неизвестно агенту AIXI. Кроме того, отметим еще раз, что вычислимо, то есть наблюдения и вознаграждения, полученные агентом из окружающей среды может быть вычислен некоторой программой (которая работает на машине Тьюринга ) с учетом прошлых действий агента AIXI. [3]
Только цель Aixi агента является максимизация, то есть сумма вознаграждений с временного шага 1 до m.
Агент AIXI связан со стохастической политикой. , это функция, которую он использует для выбора действий на каждом временном шаге, где это пространство всех возможных действий, которые может предпринять AIXI, и это пространство всех возможных «восприятий», которые могут быть произведены окружающей средой. Окружающая среда (или распределение вероятностей) также можно рассматривать как стохастическую политику (которая является функцией): , где - это звездная операция Клини .
В общем, на временном шаге (который колеблется от 1 до m), AIXI, предварительно выполнив действия (который в литературе часто обозначается аббревиатурой ) и наблюдая за историей восприятия (который может быть сокращен как ), выбирает и выполняет в среде действие, , определяемый следующим образом [4]
или, используя круглые скобки, чтобы устранить неоднозначность приоритетов
Интуитивно понятно, что в приведенном выше определении AIXI рассматривает сумму общего вознаграждения по всем возможным «фьючерсам» вплоть до шаг вперед по времени (то есть от к ), взвешивает каждый из них по сложности программ (то есть по ) в соответствии с прошлым агента (то есть ранее выполненными действиями, , и получил восприятия, ), который может генерировать это будущее, а затем выбирает действие, которое максимизирует ожидаемые будущие награды. [3]
Давайте разберем это определение, чтобы попытаться полностью понять его.
"восприятие" (которое состоит из наблюдения и награда ) полученный агентом AIXI на временном шаге из окружающей среды (которая неизвестна и стохастична). По аналогии, восприятие, полученное AIXI на временном шаге (последний временной шаг, на котором активен AIXI).
это сумма вознаграждений с временного шага к временному шагу , поэтому AIXI необходимо заглянуть в будущее, чтобы выбрать действие на временном шаге. .
обозначает монотонную универсальную машину Тьюринга , а распространяется по всем (детерминированным) программам на универсальной машине , который принимает на входе программу и последовательность действий (то есть все действия), и производит последовательность восприятий . Универсальная машина Тьюринга таким образом, используется для "моделирования" или вычисления реакции или восприятия окружающей среды с учетом программы (который «моделирует» среду) и все действия агента AIXI: в этом смысле среда «вычислима» (как указано выше). Обратите внимание, что, как правило, программа, которая «моделирует» текущую и фактическую среду (в которой должна действовать AIXI), неизвестна, потому что текущая среда также неизвестна.
длина программы (который кодируется как строка битов). Обратите внимание, что. Следовательно, в приведенном выше определенииследует интерпретировать как смесь (в данном случае сумму) всех вычислимых сред (которые согласуются с прошлым агента), каждое из которых взвешено по своей сложности.. Обратите внимание, что также можно записать как , а также это последовательность действий, уже выполненных в среде агентом AIXI. По аналогии,, а также представляет собой последовательность восприятий, созданных на данный момент окружающей средой.
Давайте теперь соберем все эти компоненты вместе, чтобы понять это уравнение или определение.
На временном шаге t AIXI выбирает действие где функция достигает своего максимума.
Параметры
Параметры AIXI - это универсальная машина Тьюринга U и время жизни агента m , которые необходимо выбрать. Последний параметр можно убрать с помощью дисконтирования .
Значение слова AIXI
По словам Хаттера, слово «AIXI» может иметь несколько толкований. AIXI может означать AI, основанный на распределении Соломонова, обозначаемый(греческая буква xi), или, например, это может означать AI, «скрещенный» (X) с индукцией (I). Есть и другие толкования.
Оптимальность
Производительность AIXI измеряется ожидаемым общим количеством получаемых наград. Оптимальность AIXI была подтверждена следующими способами. [2]
- Оптимальность по Парето : нет другого агента, который работает как минимум так же хорошо, как AIXI во всех средах, но при этом работает лучше как минимум в одной среде. [ необходима цитата ]
- Сбалансированная оптимальность по Парето: как оптимальность по Парето, но с учетом взвешенной суммы сред.
- Самооптимизация: политика p называется самооптимизацией для среды.если производительность p приближается к теоретическому максимуму длякогда продолжительность жизни агента (не время) стремится к бесконечности. Для классов среды, в которых существуют самооптимизирующиеся политики, AIXI самооптимизируется.
Позже Хаттер и Ян Лейке показали, что сбалансированная оптимальность по Парето субъективна и что любую политику можно считать оптимальной по Парето, что, по их словам, подрывает все предыдущие утверждения об оптимальности для AIXI. [5]
Однако у AIXI есть ограничения. Он ограничен максимизацией вознаграждения, основанной на восприятии, а не на внешних состояниях. Он также предполагает, что он взаимодействует с окружающей средой исключительно через каналы действия и восприятия, не позволяя ему рассматривать возможность повреждения или изменения. В просторечии это означает, что он не считает себя включенным в среду, с которой взаимодействует. Также предполагается, что среда вычислима. [6] Поскольку AIXI невычислим (см. Ниже), он присваивает нулевую вероятность своему собственному существованию [ необходима цитата ] .
Вычислительные аспекты
Как и индукция Соломонова , AIXI невычислима . Однако есть вычислимые приближения к нему. Одним из таких приближений является AIXI tl , который работает по крайней мере так же хорошо, как доказуемо лучший агент, ограниченный временем t и пространством l . [2] Еще одно приближение к AIXI с ограниченным классом среды - MC-AIXI (FAC-CTW) (расшифровывается как Monte Carlo AIXI FAC- Context-Tree Weighting ), который имел некоторый успех в простых играх, таких как частично наблюдаемые Pac- Человек . [3] [7]
Смотрите также
Рекомендации
- ^ Маркус Хаттер (2000). Теория универсального искусственного интеллекта, основанная на алгоритмической сложности . arXiv : cs.AI/0004001 . Bibcode : 2000cs ........ 4001H .
- ^ а б в - (2004). Универсальный искусственный интеллект: последовательные решения, основанные на алгоритмической вероятности . Тексты по теоретической информатике серии EATCS. Springer. DOI : 10.1007 / b138233 . ISBN 978-3-540-22139-5. S2CID 33352850 .
- ^ а б в Венесс, Джоэл; Ки Сионг Нг; Хаттер, Маркус; Утер, Уильям; Серебро, Дэвид (2009). «Приближение Монте-Карло AIXI». arXiv : 0909.0801 [ cs.AI ].
- ^ Универсальный искусственный интеллект
- ^ Лейке, Ян; Хаттер, Маркус (2015). Плохие универсальные приоры и понятия оптимальности (PDF) . Материалы 28-й конференции по теории обучения.
- ^ Соарес, Нейт. "Формализация двух проблем реалистичных моделей мира" (PDF) . Intelligence.org . Проверено 19 июля 2015 .
- ^ Игра в Pacman с использованием приближения AIXI - YouTube
- «Универсальный алгоритмический интеллект: математический подход сверху- > вниз», Маркус Хаттер, arXiv : cs / 0701125 ; также в « Общий искусственный интеллект» , ред. Б. Гертцель и К. Пенначин, Springer, 2007 г., ISBN 9783540237334 , стр 227-290,. Дои : 10.1007 / 978-3-540-68677-4_8 .