Функция значения

Значение функция из задачи оптимизации дает значение достигается с помощью целевой функции при решении, в то время как только в зависимости от параметров задачи. ^[1]^[2] В управляемой динамической системе функция ценности представляет собой оптимальный выигрыш системы в интервале [t, t ₁ ] при запуске в переменную состояния time- t x (t) = x . ^[3] Если целевая функция представляет собой некоторую стоимость, которая должна быть минимизирована, функция ценности может интерпретироваться как стоимость завершения оптимальной программы и, таким образом, называется «функцией текущих затрат». ^[4]^[5] В экономическом контексте, где целевая функция обычно представляет полезность , функция ценности концептуально эквивалентна косвенной функции полезности . ^[6]^[7]

В задаче оптимального управления функция цены определяется как верхняя грань целевой функции, взятой по множеству допустимых управлений. Учитывая , что типичная задача оптимального управления состоит в том, чтобы ${\ displaystyle (t_ {0}, x_ {0}) \ in [0, t_ {1}] \ times \ mathbb {R} ^ {d}}$

{\ displaystyle {\ text {maximize}} \ quad J (t_ {0}, x_ {0}; u) = \ int _ {t_ {0}} ^ {t_ {1}} I (t, x (t ), u (t)) \, \ mathrm {d} t + \ phi (x (t_ {1}))}

при условии

{\ displaystyle {\ frac {\ mathrm {d} x (t)} {\ mathrm {d} t}} = f (t, x (t), u (t))}

с переменной начального состояния . ^[8] Целевая функция должна быть максимизирована по всем допустимым управлениям , где - измеримая по Лебегу функция от до некоторого заданного произвольного множества в . Тогда функция ценности определяется как ${\ Displaystyle х (т_ {0}) = х_ {0}}$ ${\ Displaystyle J (t_ {0}, x_ {0}; u)}$ ${\ Displaystyle и \ в U [т_ {0}, т_ {1}]}$ ${\ displaystyle u}$ ${\ Displaystyle [т_ {0}, т_ {1}]}$ ${\ Displaystyle \ mathbb {R} ^ {m}}$

$V(t,x(t))=\max _{u\in U}\int _{t}^{t_{1}}I(\tau ,x(\tau ),u(\tau ))\,\mathrm {d} \tau +\phi (x(t_{1}))$

с , где - стоимость брака . Если оптимальная пара траекторий управления и состояния есть , то . Функция , обеспечивающая оптимальное управление на основе текущего состояния , называется политикой управления с обратной связью ^[4] или просто функцией политики. ^[9] $V(t_{1},x(t_{1}))=\phi (x(t_{1}))$ $\phi (x(t_{1}))$ $(x^{\ast },u^{\ast })$ $V(t_{0},x_{0})=J(t_{0},x_{0};u^{\ast })$ $h$ $u^{\ast }$ $x$

Принцип оптимальности Беллмана примерно утверждает, что любая оптимальная политика в определенный момент , принимая текущее состояние как «новое» начальное условие, должна быть оптимальной для оставшейся проблемы. Если функция цены оказывается непрерывно дифференцируемой , ^[10] это приводит к важному уравнению в частных производных, известному как уравнение Гамильтона – Якоби – Беллмана , $t$ $t_{0}\leq t\leq t_{1}$ $x(t)$

-{\frac {\partial V(t,x)}{\partial t}}=\max _{u}\left\{I(t,x,u)+{\frac {\partial V(t,x)}{\partial x}}f(t,x,u)\right\}

где максимизируемый на правой стороне также может быть переписано как гамильтониан , как $H\left(t,x,u,\lambda \right)=I(t,x,u)+\lambda f(t,x,u)$

-{\frac {\partial V(t,x)}{\partial t}}=\max _{u}H(t,x,u,\lambda )

с игрой роли стоимостных переменных . ^[11] Учитывая это определение, мы также имеем , и после дифференцирования обеих частей уравнения HJB относительно , $\partial V(t,x)/\partial x=\lambda (t)$ $\mathrm {d} \lambda (t)/\mathrm {d} t=\partial ^{2}V(t,x)/\partial x\partial t+\partial ^{2}V(t,x)/\partial x^{2}\cdot f(x)$ $x$

-{\frac {\partial ^{2}V(t,x)}{\partial t\partial x}}={\frac {\partial I}{\partial x}}+{\frac {\partial ^{2}V(t,x)}{\partial x^{2}}}f(x)+{\frac {\partial V(t,x)}{\partial x}}{\frac {\partial f(x)}{\partial x}}

который после замены соответствующих членов восстанавливает уравнение стоимости

-{\dot {\lambda }}(t)={\frac {\partial I}{\partial x}}+\lambda (t){\frac {\partial f(x)}{\partial x}}={\frac {\partial H}{\partial x}}

где - обозначение Ньютона для производной по времени. ^[12] ${\dot {\lambda }}(t)$

Функция цены - это единственное вязкостное решение уравнения Гамильтона – Якоби – Беллмана. ^[13] В одном из онлайн замкнутого контура управления приблизительными оптимального, функция ценности является также функцией Ляпунова , которая устанавливает глобальную асимптотическую устойчивость замкнутой системы. ^[14]

Ссылки [ править ]

^ Флеминг, Венделл Х .; Ришель, Раймонд В. (1975). Детерминированное и стохастическое оптимальное управление . Нью-Йорк: Спрингер. С. 81–83. ISBN 0-387-90155-8.
^ Капуто, Майкл Р. (2005). Основы динамического экономического анализа: теория оптимального управления и приложения . Нью-Йорк: Издательство Кембриджского университета. п. 185. ISBN 0-521-60368-4.
^ Вебер, Томас А. (2011). Теория оптимального управления: с приложениями в экономике . Кембридж: MIT Press. п. 82. ISBN 978-0-262-01573-8.
^ a b Берцекас, Дмитрий П .; Цициклис, Джон Н. (1996). Нейродинамическое программирование . Бельмонт: Athena Scientific. п. 2. ISBN 1-886529-10-8.
^ «EE365: динамическое программирование» (PDF) .
^ Мас-Колелл, Андреу ; Уинстон, Майкл Д .; Грин, Джерри Р. (1995). Микроэкономическая теория . Нью-Йорк: Издательство Оксфордского университета. п. 964. ISBN 0-19-507340-1.
^ Corbae, декан; Stinchcombe, Maxwell B .; Земан, Юрай (2009). Введение в математический анализ для экономической теории и эконометрики . Издательство Принстонского университета. п. 145. ISBN 978-0-691-11867-3.
^ Камиен, Мортон И .; Шварц, Нэнси Л. (1991). Динамическая оптимизация: исчисление вариаций и оптимальное управление в экономике и управлении (2-е изд.). Амстердам: Северная Голландия. п. 259. ISBN. 0-444-01609-0.
^ Юнгквист, Ларс ; Сарджент, Томас Дж. (2018). Рекурсивная макроэкономическая теория (четвертое изд.). Кембридж: MIT Press. п. 106. ISBN 978-0-262-03866-9.
^ Бенвенист и Шейнкман установили достаточные условия дифференцируемости функции цены, что, в свою очередь, позволяет применить теорему об огибающей , см. Benveniste, LM; Шейнкман, Дж. А. (1979). «О дифференцируемости функции стоимости в динамических моделях экономики». Econometrica . 47 (3): 727–732. DOI : 10.2307 / 1910417 . JSTOR 1910417 . Также см. Seierstad, Atle (1982). «Свойства дифференцируемости функции оптимального значения в теории управления». Журнал экономической динамики и управления . 4 : 303–310. DOI : 10.1016 / 0165-1889 (82) 90019-7 .
^ Кирк, Дональд Э. (1970). Теория оптимального управления . Энглвуд Клиффс, Нью-Джерси: Прентис-Холл. п. 88. ISBN 0-13-638098-0.
^ Чжоу, XY (1990). «Принцип максимума, динамическое программирование и их связь в детерминированном управлении». Журнал теории оптимизации и приложений . 65 (2): 363–373. DOI : 10.1007 / BF01102352 . S2CID 122333807 .
^ Теорема 10.1 в Брессан, Альберто (2019). "Вязкостные решения уравнений Гамильтона-Якоби и задач оптимального управления" (PDF) . Конспект лекций .
^ Камалапуркар, Рушикеш; Уолтерс, Патрик; Розенфельд, Джоэл; Диксон, Уоррен (2018). «Оптимальное управление и устойчивость по Ляпунову» . Обучение с подкреплением для оптимального управления обратной связью: подход на основе Ляпунова . Берлин: Springer. С. 26–27. ISBN 978-3-319-78383-3.

Дальнейшее чтение [ править ]

Капуто, Майкл Р. (2005). «Необходимые и достаточные условия для изопериметрических задач» . Основы динамического экономического анализа: теория оптимального управления и приложения . Нью-Йорк: Издательство Кембриджского университета. С. 174–210. ISBN 0-521-60368-4.
Кларк, Фрэнк Х .; Лёвен, Филип Д. (1986). «Ценностная функция в оптимальном управлении: чувствительность, управляемость и оптимальность по времени». SIAM Journal по управлению и оптимизации . 24 (2): 243–263. DOI : 10.1137 / 0324014 .
ЛаФранс, Джеффри Т .; Барни, Л. Дуэйн (1991). «Теорема о конверте в динамической оптимизации» (PDF) . Журнал экономической динамики и управления . 15 (2): 355–385. DOI : 10.1016 / 0165-1889 (91) 90018-V .
Стенгель, Роберт Ф. (1994). «Условия оптимальности» . Оптимальное управление и оценка . Нью-Йорк: Дувр. С. 201–222. ISBN 0-486-68200-5.

[1] Флеминг, Венделл Х .; Ришель, Раймонд В. (1975). Детерминированное и стохастическое оптимальное управление . Нью-Йорк: Спрингер. С. 81–83. ISBN 0-387-90155-8.

[2] Капуто, Майкл Р. (2005). Основы динамического экономического анализа: теория оптимального управления и приложения . Нью-Йорк: Издательство Кембриджского университета. п. 185. ISBN 0-521-60368-4.

[3] Вебер, Томас А. (2011). Теория оптимального управления: с приложениями в экономике . Кембридж: MIT Press. п. 82. ISBN 978-0-262-01573-8.

[Bertsekas_Tsitsiklis-4] Берцекас, Дмитрий П .; Цициклис, Джон Н. (1996). Нейродинамическое программирование . Бельмонт: Athena Scientific. п. 2. ISBN 1-886529-10-8.

[5] «EE365: динамическое программирование» (PDF) .

[6] Мас-Колелл, Андреу ; Уинстон, Майкл Д .; Грин, Джерри Р. (1995). Микроэкономическая теория . Нью-Йорк: Издательство Оксфордского университета. п. 964. ISBN 0-19-507340-1.

[7] Corbae, декан; Stinchcombe, Maxwell B .; Земан, Юрай (2009). Введение в математический анализ для экономической теории и эконометрики . Издательство Принстонского университета. п. 145. ISBN 978-0-691-11867-3.

[8] Камиен, Мортон И .; Шварц, Нэнси Л. (1991). Динамическая оптимизация: исчисление вариаций и оптимальное управление в экономике и управлении (2-е изд.). Амстердам: Северная Голландия. п. 259. ISBN. 0-444-01609-0.

[9] Юнгквист, Ларс ; Сарджент, Томас Дж. (2018). Рекурсивная макроэкономическая теория (четвертое изд.). Кембридж: MIT Press. п. 106. ISBN 978-0-262-03866-9.

[10] Бенвенист и Шейнкман установили достаточные условия дифференцируемости функции цены, что, в свою очередь, позволяет применить теорему об огибающей , см. Benveniste, LM; Шейнкман, Дж. А. (1979). «О дифференцируемости функции стоимости в динамических моделях экономики». Econometrica . 47 (3): 727–732. DOI : 10.2307 / 1910417 . JSTOR 1910417 . Также см. Seierstad, Atle (1982). «Свойства дифференцируемости функции оптимального значения в теории управления». Журнал экономической динамики и управления . 4 : 303–310. DOI : 10.1016 / 0165-1889 (82) 90019-7 .

[11] Кирк, Дональд Э. (1970). Теория оптимального управления . Энглвуд Клиффс, Нью-Джерси: Прентис-Холл. п. 88. ISBN 0-13-638098-0.

[12] Чжоу, XY (1990). «Принцип максимума, динамическое программирование и их связь в детерминированном управлении». Журнал теории оптимизации и приложений . 65 (2): 363–373. DOI : 10.1007 / BF01102352 . S2CID 122333807 .

[13] Теорема 10.1 в Брессан, Альберто (2019). "Вязкостные решения уравнений Гамильтона-Якоби и задач оптимального управления" (PDF) . Конспект лекций .

[14] Камалапуркар, Рушикеш; Уолтерс, Патрик; Розенфельд, Джоэл; Диксон, Уоррен (2018). «Оптимальное управление и устойчивость по Ляпунову» . Обучение с подкреплением для оптимального управления обратной связью: подход на основе Ляпунова . Берлин: Springer. С. 26–27. ISBN 978-3-319-78383-3.

[1]