AIXI

AIXI ['ai̯k͡siː] - теоретический математический формализм для общего искусственного интеллекта . Он сочетает в себе индукцию Соломонова с теорией последовательных решений . AIXI был впервые предложен Маркусом Хаттером в 2000 году^[1], и несколько результатов, касающихся AIXI, подтверждены в книге Хаттера « Универсальный искусственный интеллект» в 2005 году. ^[2]

AIXI - это агент обучения с подкреплением . Он максимизирует ожидаемые общие вознаграждения, полученные от окружающей среды. Интуитивно он одновременно рассматривает каждую вычислимую гипотезу (или среду). На каждом временном шаге он просматривает каждую возможную программу и оценивает, сколько вознаграждений она генерирует в зависимости от следующего предпринятого действия. Обещанные награды затем взвешиваются с учетом субъективной веры в то, что эта программа представляет собой истинную среду. Это убеждение рассчитывается исходя из длины программы: более длинные программы считаются менее вероятными, что соответствует бритве Оккама . Затем AIXI выбирает действие, которое имеет наибольшее ожидаемое общее вознаграждение в взвешенной сумме всех этих программ.

Определение

AIXI - это агент обучения с подкреплением, который взаимодействует с некоторой стохастической и неизвестной, но вычислимой средой. ${\ displaystyle \ mu}$ . Взаимодействие происходит во временных шагах, от ${\ displaystyle t = 1}$ к ${\ displaystyle t = m}$ , где ${\ displaystyle m \ in \ mathbb {N}}$ - срок службы агента AIXI. На временном шаге t агент выбирает действие ${\ displaystyle a_ {t} \ in {\ mathcal {A}}}$ (например, движение конечности) и выполняет его в окружающей среде, и среда отвечает «восприятием» ${\ displaystyle e_ {t} \ in {\ mathcal {E}} = {\ mathcal {O}} \ times \ mathbb {R}}$ , который состоит из "наблюдения" ${\ displaystyle o_ {t} \ in {\ mathcal {O}}}$ (например, изображение с камеры) и награда ${\ displaystyle r_ {t} \ in \ mathbb {R}}$ , распределенных по условной вероятности ${\ displaystyle \ mu (o_ {t} r_ {t} | a_ {1} o_ {1} r_ {1} ... a_ {t-1} o_ {t-1} r_ {t-1} a_ { t})}$ , где ${\ displaystyle a_ {1} o_ {1} r_ {1} ... a_ {t-1} o_ {t-1} r_ {t-1} a_ {t}}$ это «история» действий, наблюдений и наград. Среда ${\ displaystyle \ mu}$ Таким образом, математически представляется как распределение вероятностей по «восприятиям» (наблюдениям и вознаграждениям), которые зависят от полной истории, поэтому здесь нет марковского предположения (в отличие от других алгоритмов RL). Еще раз обратите внимание, что это распределение вероятностей неизвестно агенту AIXI. Кроме того, отметим еще раз, что ${\ displaystyle \ mu}$ вычислимо, то есть наблюдения и вознаграждения, полученные агентом из окружающей среды ${\ displaystyle \ mu}$ может быть вычислен некоторой программой (которая работает на машине Тьюринга ) с учетом прошлых действий агента AIXI. ^[3]

Только цель Aixi агента является максимизация ${\ Displaystyle \ сумма _ {т = 1} ^ {м} г_ {т}}$ , то есть сумма вознаграждений с временного шага 1 до m.

Агент AIXI связан со стохастической политикой. ${\ displaystyle \ pi: ({\ mathcal {A}} \ times {\ mathcal {E}}) ^ {*} \ rightarrow {\ mathcal {A}}}$ , это функция, которую он использует для выбора действий на каждом временном шаге, где ${\ displaystyle {\ mathcal {A}}}$ это пространство всех возможных действий, которые может предпринять AIXI, и ${\ displaystyle {\ mathcal {E}}}$ это пространство всех возможных «восприятий», которые могут быть произведены окружающей средой. Окружающая среда (или распределение вероятностей) ${\ displaystyle \ mu}$ также можно рассматривать как стохастическую политику (которая является функцией): ${\ displaystyle \ mu: ({\ mathcal {A}} \ times {\ mathcal {E}}) ^ {*} \ times {\ mathcal {A}} \ rightarrow {\ mathcal {E}}}$ , где ${\ displaystyle *}$ - это звездная операция Клини .

В общем, на временном шаге ${\ displaystyle t}$ (который колеблется от 1 до m), AIXI, предварительно выполнив действия ${\ displaystyle a_ {1} \ dots a_ {t-1}}$ (который в литературе часто обозначается аббревиатурой ${\ displaystyle a _ {}}>$ ) и наблюдая за историей восприятия ${\ displaystyle o_ {1} r_ {1} ... o_ {t-1} r_ {t-1}}$ (который может быть сокращен как ${\ displaystyle e _ {}}>$ ), выбирает и выполняет в среде действие, ${\ displaystyle a_ {t}}$ , определяемый следующим образом ^[4]

{\ displaystyle a_ {t}: = \ arg \ max _ {a_ {t}} \ sum _ {o_ {t} r_ {t}} \ ldots \ max _ {a_ {m}} \ sum _ {o_ { m} r_ {m}} [r_ {t} + \ ldots + r_ {m}] \ sum _ {q: \; U (q, a_ {1} \ ldots a_ {m}) = o_ {1} r_ {1} \ ldots o_ {m} r_ {m}} 2 ^ {- {\ textrm {length}} (q)}}

или, используя круглые скобки, чтобы устранить неоднозначность приоритетов

{\ displaystyle a_ {t}: = \ arg \ max _ {a_ {t}} \ left (\ sum _ {o_ {t} r_ {t}} \ ldots \ left (\ max _ {a_ {m}}) \ sum _ {o_ {m} r_ {m}} [r_ {t} + \ ldots + r_ {m}] \ left (\ sum _ {q: \; U (q, a_ {1} \ ldots a_ { m}) = o_ {1} r_ {1} \ ldots o_ {m} r_ {m}} 2 ^ {- {\ textrm {length}} (q)} \ right) \ right) \ right)}

Интуитивно понятно, что в приведенном выше определении AIXI рассматривает сумму общего вознаграждения по всем возможным «фьючерсам» вплоть до ${\ displaystyle mt}$ шаг вперед по времени (то есть от ${\ displaystyle t}$ к ${\ displaystyle m}$ ), взвешивает каждый из них по сложности программ ${\ displaystyle q}$ (то есть по ${\ displaystyle 2 ^ {- {\ textrm {length}} (q)}}$ ) в соответствии с прошлым агента (то есть ранее выполненными действиями, ${\ displaystyle a _ {}}>$ , и получил восприятия, ${\ displaystyle e _ {}}>$ ), который может генерировать это будущее, а затем выбирает действие, которое максимизирует ожидаемые будущие награды. ^[3]

Давайте разберем это определение, чтобы попытаться полностью понять его.

${\ displaystyle o_ {t} r_ {t}}$ "восприятие" (которое состоит из наблюдения ${\ displaystyle o_ {t}}$ и награда ${\ displaystyle r_ {t}}$ ) полученный агентом AIXI на временном шаге ${\ displaystyle t}$ из окружающей среды (которая неизвестна и стохастична). По аналогии, ${\ displaystyle o_ {m} r_ {m}}$ восприятие, полученное AIXI на временном шаге ${\ displaystyle m}$ (последний временной шаг, на котором активен AIXI).

${\ displaystyle r_ {t} + \ ldots + r_ {m}}$ это сумма вознаграждений с временного шага ${\ displaystyle t}$ к временному шагу ${\ displaystyle m}$ , поэтому AIXI необходимо заглянуть в будущее, чтобы выбрать действие на временном шаге. ${\ displaystyle t}$ .

${\ displaystyle U}$ обозначает монотонную универсальную машину Тьюринга , а ${\ displaystyle q}$ распространяется по всем (детерминированным) программам на универсальной машине ${\ displaystyle U}$ , который принимает на входе программу ${\ displaystyle q}$ и последовательность действий ${\ displaystyle a_ {1} \ dots a_ {m}}$ (то есть все действия), и производит последовательность восприятий ${\ displaystyle o_ {1} r_ {1} \ ldots o_ {m} r_ {m}}$ . Универсальная машина Тьюринга ${\ displaystyle U}$ таким образом, используется для "моделирования" или вычисления реакции или восприятия окружающей среды с учетом программы ${\ displaystyle q}$ (который «моделирует» среду) и все действия агента AIXI: в этом смысле среда «вычислима» (как указано выше). Обратите внимание, что, как правило, программа, которая «моделирует» текущую и фактическую среду (в которой должна действовать AIXI), неизвестна, потому что текущая среда также неизвестна.

${\ displaystyle {\ textrm {length}} (q)}$ длина программы ${\ displaystyle q}$ (который кодируется как строка битов). Обратите внимание, что ${\ displaystyle 2 ^ {- {\ textrm {length}} (q)} = {\ frac {1} {2 ^ {{\ textrm {length}} (q)}}}}$ . Следовательно, в приведенном выше определении ${\ displaystyle \ sum _ {q: \; U (q, a_ {1} \ ldots a_ {m}) = o_ {1} r_ {1} \ ldots o_ {m} r_ {m}} 2 ^ {- {\ textrm {length}} (q)}}$ следует интерпретировать как смесь (в данном случае сумму) всех вычислимых сред (которые согласуются с прошлым агента), каждое из которых взвешено по своей сложности. ${\ displaystyle 2 ^ {- {\ textrm {length}} (q)}}$ . Обратите внимание, что ${\ displaystyle a_ {1} \ ldots a_ {m}}$ также можно записать как ${\ Displaystyle а_ {1} \ ldots а_ {т-1} а_ {т} \ ldots а_ {м}}$ , а также ${\ Displaystyle а_ {1} \ ldots а_ {т-1} = а _ {<т}}$ это последовательность действий, уже выполненных в среде агентом AIXI. По аналогии, ${\ displaystyle o_ {1} r_ {1} \ ldots o_ {m} r_ {m} = o_ {1} r_ {1} \ ldots o_ {t-1} r_ {t-1} o_ {t} r_ { t} \ ldots o_ {m} r_ {m}}$ , а также ${\ displaystyle o_ {1} r_ {1} \ ldots o_ {t-1} r_ {t-1}}$ представляет собой последовательность восприятий, созданных на данный момент окружающей средой.

Давайте теперь соберем все эти компоненты вместе, чтобы понять это уравнение или определение.

На временном шаге t AIXI выбирает действие ${\ displaystyle a_ {t}}$ где функция ${\ displaystyle \ sum _ {o_ {t} r_ {t}} \ ldots \ max _ {a_ {m}} \ sum _ {o_ {m} r_ {m}} [r_ {t} + \ ldots + r_ {m}] \ sum _ {q: \; U (q, a_ {1} \ ldots a_ {m}) = o_ {1} r_ {1} \ ldots o_ {m} r_ {m}} 2 ^ { - {\ textrm {length}} (q)}}$ достигает своего максимума.

Параметры

Параметры AIXI - это универсальная машина Тьюринга U и время жизни агента m , которые необходимо выбрать. Последний параметр можно убрать с помощью дисконтирования .

Значение слова AIXI

По словам Хаттера, слово «AIXI» может иметь несколько толкований. AIXI может означать AI, основанный на распределении Соломонова, обозначаемый ${\ displaystyle \ xi}$ (греческая буква xi), или, например, это может означать AI, «скрещенный» (X) с индукцией (I). Есть и другие толкования.

Оптимальность

Производительность AIXI измеряется ожидаемым общим количеством получаемых наград. Оптимальность AIXI была подтверждена следующими способами. ^[2]

Оптимальность по Парето : нет другого агента, который работает как минимум так же хорошо, как AIXI во всех средах, но при этом работает лучше как минимум в одной среде. ^{[ необходима цитата ]}
Сбалансированная оптимальность по Парето: как оптимальность по Парето, но с учетом взвешенной суммы сред.
Самооптимизация: политика p называется самооптимизацией для среды. ${\ displaystyle \ mu}$ если производительность p приближается к теоретическому максимуму для ${\ displaystyle \ mu}$ когда продолжительность жизни агента (не время) стремится к бесконечности. Для классов среды, в которых существуют самооптимизирующиеся политики, AIXI самооптимизируется.

Позже Хаттер и Ян Лейке показали, что сбалансированная оптимальность по Парето субъективна и что любую политику можно считать оптимальной по Парето, что, по их словам, подрывает все предыдущие утверждения об оптимальности для AIXI. ^[5]

Однако у AIXI есть ограничения. Он ограничен максимизацией вознаграждения, основанной на восприятии, а не на внешних состояниях. Он также предполагает, что он взаимодействует с окружающей средой исключительно через каналы действия и восприятия, не позволяя ему рассматривать возможность повреждения или изменения. В просторечии это означает, что он не считает себя включенным в среду, с которой взаимодействует. Также предполагается, что среда вычислима. ^[6] Поскольку AIXI невычислим (см. Ниже), он присваивает нулевую вероятность своему собственному существованию ^{[ необходима цитата ]} .

Вычислительные аспекты

Как и индукция Соломонова , AIXI невычислима . Однако есть вычислимые приближения к нему. Одним из таких приближений является AIXI tl , который работает по крайней мере так же хорошо, как доказуемо лучший агент, ограниченный временем t и пространством l . ^[2] Еще одно приближение к AIXI с ограниченным классом среды - MC-AIXI (FAC-CTW) (расшифровывается как Monte Carlo AIXI FAC- Context-Tree Weighting ), который имел некоторый успех в простых играх, таких как частично наблюдаемые Pac- Человек . ^[3]^[7]

Смотрите также

Машина Гёделя