Уравнение беллмана

Уравнение Беллмана , названное в честь Беллмана , является необходимым условием оптимальности , связанной с математической оптимизацией методой , известной как динамическое программирование . ^[1] Он записывает «ценность» проблемы решения в определенный момент времени в терминах выигрыша от некоторых начальных выборов и «ценности» оставшейся проблемы решения, которая является результатом этих первоначальных выборов. ^{[ необходимая цитата ]} Это разбивает задачу динамической оптимизации на последовательность более простых подзадач, как предписывает «принцип оптимальности» Беллмана . ^[2]

Уравнение Беллмана впервые было применено к инженерной теории управления и к другим темам прикладной математики, а впоследствии стало важным инструментом экономической теории ; хотя основные концепции динамического программирования прообразом в Джона фон Неймана и Оскара Моргенштерна «s Теория игр и экономическое поведение и Abraham Wald » s последовательного анализа . ^{[ необходимая цитата ]} Термин «уравнение Беллмана» обычно относится к уравнению динамического программирования, связанному с задачами оптимизации с дискретным временем . ^[3] В задачах оптимизации с непрерывным временем аналогичное уравнение является уравнением в частных производных , которое называется уравнением Гамильтона – Якоби – Беллмана . ^[4]^[5]

В дискретном времени любая задача многоступенчатой оптимизации может быть решена путем анализа соответствующего уравнения Беллмана. Соответствующее уравнение Беллмана можно найти, введя новые переменные состояния (увеличение состояния). ^[6] Однако результирующая многоэтапная задача оптимизации с расширенным состоянием имеет пространство состояний более высокой размерности, чем исходная задача многоэтапной оптимизации - проблема, которая потенциально может сделать расширенную проблему неразрешимой из-за « проклятия размерности ». В качестве альтернативы было показано, что если функция стоимости многоступенчатой задачи оптимизации удовлетворяет «обратно разделяемой» структуре, то соответствующее уравнение Беллмана может быть найдено без увеличения состояния. ^[7]

Аналитические концепции в динамическом программировании

Чтобы понять уравнение Беллмана, необходимо понять несколько основных концепций. Во-первых, любая задача оптимизации имеет некоторую цель: минимизировать время в пути, минимизировать затраты, максимизировать прибыль, максимизировать полезность и т. Д. Математическая функция, описывающая эту цель, называется целевой функцией .

Динамическое программирование разбивает задачу многопериодного планирования на более простые шаги в разные моменты времени. Следовательно, это требует отслеживания того, как ситуация принятия решений меняется с течением времени. Информация о текущей ситуации, необходимая для принятия правильного решения, называется «состоянием». ^[8]^[9] Например, чтобы решить, сколько потреблять и тратить в каждый момент времени, людям необходимо знать (среди прочего) свое первоначальное богатство. Следовательно, богатство ${\ Displaystyle (W)}$ будет одной из их переменных состояния , но, вероятно, будут и другие.

Переменные, выбранные в любой данный момент времени, часто называют контрольными переменными . Например, с учетом своего текущего благосостояния люди могут решить, сколько потреблять сейчас. Выбор управляющих переменных сейчас может быть эквивалентен выбору следующего состояния; в более общем случае, на следующее состояние влияют другие факторы в дополнение к текущему элементу управления. Например, в простейшем случае сегодняшнее богатство (состояние) и потребление (контроль) могут точно определять завтрашнее богатство (новое состояние), хотя обычно другие факторы также будут влиять на завтрашнее богатство.

Подход динамического программирования описывает оптимальный план путем нахождения правила, которое сообщает, какими должны быть элементы управления при любом возможном значении состояния. Например, если потребление ( c ) зависит только от богатства ( W ), мы будем искать правило ${\ displaystyle c (W)}$ это дает потребление как функцию от богатства. Такое правило, определяющее элементы управления как функцию состояний, называется функцией политики (см. Bellman, 1957, Ch. III.2). ^[8]

Наконец, по определению, оптимальное правило принятия решений - это правило, которое позволяет достичь наилучшего возможного значения цели. Например, если кто-то выбирает потребление, учитывая богатство, чтобы максимизировать счастье (предполагая, что счастье H может быть представлено математической функцией, такой как функция полезности, и является чем-то определенным богатством), то каждый уровень богатства будет связан с какой-то наивысший возможный уровень счастья, ${\ displaystyle H (W)}$ . Наилучшее возможное значение цели, записанное как функция состояния, называется функцией значения .

Беллман показал, что задача динамической оптимизации в дискретном времени может быть сформулирована в рекурсивной , пошаговой форме, известной как обратная индукция, путем записи отношения между функцией ценности в один период и функцией ценности в следующем периоде. Связь между этими двумя функциями стоимости называется «уравнением Беллмана». В этом подходе оптимальная политика в последний период времени указывается заранее как функция значения переменной состояния в это время, и, таким образом, полученное оптимальное значение целевой функции выражается через это значение переменной состояния. Затем оптимизация предпоследнего периода включает в себя максимизацию суммы целевой функции конкретного периода и оптимального значения будущей целевой функции, что дает оптимальную политику для этого периода, зависящую от значения переменной состояния на следующий период. решение до последнего периода. ^{[ требуется пояснение ]} Эта логика продолжается рекурсивно назад во времени, пока не будет получено правило принятия решения для первого периода, как функция значения переменной начального состояния, путем оптимизации суммы целевой функции для первого периода и значения второй функция значения периода, которая дает значение для всех будущих периодов. Таким образом, решение для каждого периода принимается путем явного признания того, что все будущие решения будут приниматься оптимально.

Вывод

Проблема динамического решения

Пусть государство на время ${\ displaystyle t}$ быть ${\ displaystyle x_ {t}}$ . Для решения, которое начинается в момент времени 0, мы принимаем начальное состояние ${\ displaystyle x_ {0}}$ . В любой момент набор возможных действий зависит от текущего состояния; мы можем написать это как ${\ displaystyle a_ {t} \ in \ Gamma (x_ {t})}$ , где действие ${\ displaystyle a_ {t}}$ представляет одну или несколько управляющих переменных. Мы также предполагаем, что состояние меняется с ${\ displaystyle x}$ в новое состояние ${\ Displaystyle Т (х, а)}$ когда действие ${\ displaystyle a}$ берется, и что текущий выигрыш от принятия мер ${\ displaystyle a}$ в состоянии ${\ displaystyle x}$ является ${\ Displaystyle F (х, а)}$ . Наконец, мы предполагаем нетерпение, представленное дисконтным фактором. ${\ displaystyle 0 <\ beta <1}$ .

При этих предположениях проблема принятия решений с бесконечным горизонтом принимает следующий вид:

{\ Displaystyle V (x_ {0}) \; = \; \ max _ {\ left \ {a_ {t} \ right \} _ {t = 0} ^ {\ infty}} \ sum _ {t = 0 } ^ {\ infty} \ beta ^ {t} F (x_ {t}, a_ {t}),}

с учетом ограничений

{\ Displaystyle a_ {t} \ in \ Gamma (x_ {t}), \; x_ {t + 1} = T (x_ {t}, a_ {t}), \; \ forall t = 0,1, 2, \ точки}

Обратите внимание, что мы определили обозначение ${\ Displaystyle V (x_ {0})}$ для обозначения оптимального значения, которое может быть получено путем максимизации этой целевой функции с учетом предполагаемых ограничений. Эта функция является функцией значения . Это функция переменной начального состояния ${\ displaystyle x_ {0}}$ , поскольку наилучшее возможное значение зависит от исходной ситуации.

Принцип оптимальности Беллмана

Метод динамического программирования разбивает эту проблему решения на более мелкие подзадачи. Принцип оптимальности Беллмана описывает, как это сделать:

Принцип оптимальности: Оптимальная политика обладает тем свойством, что независимо от начального состояния и первоначального решения, остальные решения должны составлять оптимальную политику в отношении состояния, вытекающего из первого решения. (См. Bellman, 1957, гл. III.3.) ^[8]^[9]^[10]

В информатике считается, что проблема, которую можно разбить на части, имеет оптимальную подструктуру . В контексте теории динамических игр этот принцип аналогичен концепции идеального равновесия в подиграх , хотя то, что составляет оптимальную политику в этом случае, зависит от того, что оппоненты лица, принимающего решения, выбирают одинаково оптимальную политику со своей точки зрения.

Согласно принципу оптимальности , мы рассмотрим первое решение отдельно, отложив в сторону все будущие решения (мы начнем заново с момента 1 с новым состоянием ${\ displaystyle x_ {1}}$ ). Собирая будущие решения в скобки справа, вышеупомянутая проблема принятия решений с бесконечным горизонтом эквивалентна: ^{[ требуется пояснение ]}

{\ displaystyle \ max _ {a_ {0}} \ left \ {F (x_ {0}, a_ {0}) + \ beta \ left [\ max _ {\ left \ {a_ {t} \ right \} _ {t = 1} ^ {\ infty}} \ sum _ {t = 1} ^ {\ infty} \ beta ^ {t-1} F (x_ {t}, a_ {t}): a_ {t} \ in \ Gamma (x_ {t}), \; x_ {t + 1} = T (x_ {t}, a_ {t}), \; \ forall t \ geq 1 \ right] \ right \}}

с учетом ограничений

{\ displaystyle a_ {0} \ in \ Gamma (x_ {0}), \; x_ {1} = T (x_ {0}, a_ {0}).}

Здесь мы выбираем ${\ displaystyle a_ {0}}$ , зная, что наш выбор приведет к тому, что состояние времени 1 будет ${\ displaystyle x_ {1} = T (x_ {0}, a_ {0})}$ . Это новое состояние затем повлияет на проблему принятия решения с момента 1. Вся проблема будущего решения отображается в квадратных скобках справа. ^{[ требуется разъяснение ]}^{[ необходимо дополнительное объяснение ]}

Уравнение Беллмана

Пока что кажется, что мы только усугубили проблему, отделив сегодняшнее решение от будущих решений. Но мы можем упростить, заметив, что то, что находится внутри квадратных скобок справа, - это значение задачи принятия решения за время 1, начиная с состояния ${\ displaystyle x_ {1} = T (x_ {0}, a_ {0})}$ .

Следовательно, мы можем переписать задачу как рекурсивное определение функции значения:

{\ Displaystyle V (x_ {0}) = \ max _ {a_ {0}} \ {F (x_ {0}, a_ {0}) + \ beta V (x_ {1}) \}}

, с учетом ограничений:

{\ displaystyle a_ {0} \ in \ Gamma (x_ {0}), \; x_ {1} = T (x_ {0}, a_ {0}).}

Это уравнение Беллмана. Его можно упростить еще больше, если мы отбросим временные индексы и подставим значение следующего состояния:

{\ Displaystyle V (x) = \ max _ {a \ in \ Gamma (x)} \ {F (x, a) + \ beta V (T (x, a)) \}.}

Уравнение Беллмана классифицируется как функциональное уравнение , поскольку его решение означает нахождение неизвестной функции ${\ displaystyle V}$ , которая является функцией цены . Напомним, что функция ценности описывает наилучшее возможное значение цели как функцию состояния. ${\ displaystyle x}$ . Вычисляя функцию цены, мы также найдем функцию ${\ Displaystyle а (х)}$ который описывает оптимальное действие как функцию состояния; это называется функцией политики .

В стохастической задаче

В детерминированной установке для решения указанной выше проблемы оптимального управления могут использоваться другие методы, помимо динамического программирования . Однако уравнение Беллмана часто является наиболее удобным методом решения задач стохастического оптимального управления.

В качестве конкретного примера из экономики рассмотрим бесконечно живущего потребителя с начальным богатством. ${\ displaystyle {\ color {красный} a_ {0}}}$ в период ${\ displaystyle 0}$ . У них есть функция мгновенной полезности ${\ Displaystyle и (с)}$ где ${\ displaystyle c}$ обозначает потребление и дисконтирует полезность следующего периода по ставке ${\ displaystyle 0 <\ beta <1}$ . Предположим, что то, что не потребляется в период ${\ displaystyle t}$ переносится на следующий период с процентной ставкой ${\ displaystyle r}$ . Тогда задача максимизации полезности потребителя состоит в том, чтобы выбрать план потребления. ${\ displaystyle \ {{\ color {OliveGreen} c_ {t}} \}}$ это решает

{\ displaystyle \ max \ sum _ {t = 0} ^ {\ infty} \ beta ^ {t} u ({\ color {OliveGreen} c_ {t}})}

при условии

{\ displaystyle {\ color {Red} a_ {t + 1}} = (1 + r) ({\ color {Red} a_ {t}} - {\ color {OliveGreen} c_ {t}}), \; {\ color {OliveGreen} c_ {t}} \ geq 0,}

а также

{\ displaystyle \ lim _ {t \ rightarrow \ infty} {\ color {Red} a_ {t}} \ geq 0.}

Первое ограничение - это закон накопления капитала / движения, определяемый проблемой, в то время как второе ограничение - это условие трансверсальности , при котором потребитель не несет долгов в конце своей жизни. Уравнение Беллмана имеет вид

{\ Displaystyle В (а) = \ макс _ {0 \ Leq с \ Leq а} \ {и (с) + \ бета V ((1 + г) (ас)) \},}

В качестве альтернативы можно решить проблему последовательности напрямую, используя, например, гамильтоновы уравнения .

Теперь, если процентная ставка меняется от периода к периоду, потребитель сталкивается с проблемой стохастической оптимизации. Пусть интерес r следует марковскому процессу с вероятностной переходной функцией ${\ Displaystyle Q (г, д \ му _ {г})}$ где ${\ displaystyle d \ mu _ {r}}$ обозначает вероятностную меру, регулирующую распределение процентной ставки в следующем периоде, если текущая процентная ставка ${\ displaystyle r}$ . В этой модели потребитель принимает решение о потреблении в текущий период после объявления процентной ставки текущего периода.

Вместо того, чтобы просто выбирать одну последовательность ${\ displaystyle \ {{\ color {OliveGreen} c_ {t}} \}}$ , теперь потребитель должен выбрать последовательность ${\ displaystyle \ {{\ color {OliveGreen} c_ {t}} \}}$ для каждой возможной реализации ${\ displaystyle \ {r_ {t} \}}$ таким образом, чтобы их ожидаемая полезность за весь срок службы была максимальной:

{\ displaystyle \ max _ {\ left \ {c_ {t} \ right \} _ {t = 0} ^ {\ infty}} \ mathbb {E} {\ bigg (} \ sum _ {t = 0} ^ {\ infty} \ beta ^ {t} u ({\ color {OliveGreen} c_ {t}}) {\ bigg)}.}.

Ожидание ${\ displaystyle \ mathbb {E}}$ берется относительно соответствующей вероятностной меры, заданной Q на последовательностях r . Поскольку r управляется марковским процессом, динамическое программирование значительно упрощает задачу. Тогда уравнение Беллмана просто:

{\ Displaystyle V (a, r) ​​= \ max _ {0 \ leq c \ leq a} \ {u (c) + \ beta \ int V ((1 + r) (ac), r ') Q (r , d \ mu _ {r}) \}.}

При некотором разумном предположении результирующая функция оптимальной политики g ( a , r ) измерима .

Для общей стохастической последовательной задачи оптимизации с марковскими шоками и где агент сталкивается с их решением экс-постом , то уравнение Беллмана имеет очень сходную форму

{\ Displaystyle V (Икс, Z) = \ max _ {с \ in \ Gamma (x, z)} \ {F (x, c, z) + \ бета \ int V (T (x, c), z ') d \ mu _ {z} (z') \}.}

Методы решения

Метод неопределенных коэффициентов , также известные как «угадать и проверяйте», может быть использован для решения какого - то бесконечный горизонта, автономные уравнения Беллмана. ^[11]
Уравнение Беллмана может быть решено обратной индукцией либо аналитически в некоторых частных случаях, либо численно на компьютере. Числовая обратная индукция применима к широкому кругу задач, но может оказаться невыполнимой при большом количестве переменных состояния из-за проклятия размерности . Приближенное динамическое программирование было введено Д. П. Бертсекасом и Ю. Н. Цициклисом с использованием искусственных нейронных сетей ( многослойных персептронов ) для аппроксимации функции Беллмана. ^[12] Это эффективная стратегия смягчения последствий для уменьшения влияния размерности путем замены запоминания полного отображения функций для всего пространственного домена запоминанием единственных параметров нейронной сети. В частности, для систем с непрерывным временем был представлен приближенный подход динамического программирования, сочетающий обе итерации политики с нейронными сетями. ^[13] В дискретном времени был представлен подход к решению уравнения HJB, объединяющий итерации значений и нейронные сети. ^[14]
Вычисляя условия первого порядка, связанные с уравнением Беллмана, а затем используя теорему об огибающей для исключения производных функции цены, можно получить систему разностных уравнений или дифференциальных уравнений, называемую « уравнениями Эйлера ». ^[15] Стандартные методы решения разностных или дифференциальных уравнений могут затем использоваться для расчета динамики переменных состояния и управляющих переменных задачи оптимизации.

Приложения в экономике

Первое известное применение уравнения Беллмана в экономике принадлежит Мартину Бекманну и Ричарду Муту . ^[16] Мартин Бекманн также много писал о теории потребления, используя уравнение Беллмана в 1959 году. Его работа, в частности, оказала влияние на Эдмунда С. Фелпса .

Знаменитым экономическим применением уравнения Беллмана является основополагающая статья Роберта К. Мертона 1973 года о модели межвременного ценообразования капитальных активов . ^[17] (См. Также проблему портфеля Мертона ). Решение теоретической модели Мертона, в которой инвесторы выбирают между доходом сегодня и будущим доходом или приростом капитала, является формой уравнения Беллмана. Поскольку экономические приложения динамического программирования обычно приводят к уравнению Беллмана, которое является уравнением разностей , экономисты называют динамическое программирование «рекурсивным методом», и в настоящее время в экономической науке признается подполе рекурсивной экономики.

Нэнси Стоки , Роберт Э. Лукас и Эдвард Прескотт довольно подробно описывают стохастическое и нестохастическое динамическое программирование и развивают теоремы о существовании решений проблем, удовлетворяющих определенным условиям. Они также описывают множество примеров моделирования теоретических проблем экономики с использованием рекурсивных методов. ^[18] Эта книга привела к использованию динамического программирования для решения широкого круга теоретических проблем в экономике, включая оптимальный экономический рост , добычу ресурсов , проблемы принципала-агента , государственные финансы , инвестиции в бизнес , ценообразование на активы , предложение факторов производства и организацию производства. . Ларс Юнгквист и Томас Сарджент применяют динамическое программирование для изучения множества теоретических вопросов в области денежно-кредитной политики , налогово-бюджетной политики , налогообложения , экономического роста , теории поиска и экономики труда . ^[19] Авинаш Диксит и Роберт Пиндик показали ценность этого метода для размышления о капитальном бюджете . ^[20] Андерсон адаптировал эту технику для оценки бизнеса, в том числе частного. ^[21]

Использование динамического программирования для решения конкретных задач осложняется информационными трудностями, такими как выбор ненаблюдаемой ставки дисконтирования. Существуют также вычислительные проблемы, главная из которых - проклятие размерности, возникающее из-за огромного количества возможных действий и потенциальных переменных состояния, которые необходимо учитывать, прежде чем можно будет выбрать оптимальную стратегию. Подробное обсуждение вычислительных вопросов см. В Miranda and Fackler, ^[22] и Meyn 2007. ^[23]

Пример

В марковских процессах принятия решений уравнение Беллмана - это рекурсия для ожидаемых вознаграждений. Например, ожидается , вознаграждение за то , что в конкретном состоянии с и после некоторой фиксированной политики ${\ displaystyle \ pi}$ имеет уравнение Беллмана:

{\ Displaystyle V ^ {\ pi} (s) = R (s, \ pi (s)) + \ gamma \ sum _ {s '} P (s' | s, \ pi (s)) V ^ {\ пи} (s '). \}

Это уравнение описывает ожидаемое вознаграждение за действие, предписанное некоторой политикой. ${\ displaystyle \ pi}$ .

Уравнение оптимальной политики называется уравнением оптимальности Беллмана :

{\ Displaystyle V ^ {\ pi *} (s) = \ max _ {a} \ {{R (s, a) + \ gamma \ sum _ {s '} P (s' | s, a) V ^ {\ pi *} (s ')} \}. \}

где ${\ displaystyle {\ pi *}}$ оптимальная политика и ${\ Displaystyle V ^ {\ pi *}}$ относится к функции ценности оптимальной политики. Приведенное выше уравнение описывает вознаграждение за действие, дающее наивысший ожидаемый доход.

Смотрите также

Псевдоспектральный метод Беллмана
Динамическое программирование - метод оптимизации задачи.
Уравнение Гамильтона – Якоби – Беллмана.
Марковский процесс принятия решений
Теория оптимального управления
Оптимальная подконструкция
Рекурсивное конкурентное равновесие
Стохастическое динамическое программирование