Принцип максимума Понтрягина

Принцип максимума Понтрягина используется в теории оптимального управления, чтобы найти наилучшее возможное управление для перевода динамической системы из одного состояния в другое, особенно при наличии ограничений для состояния или входных элементов управления. ^[1] В нем говорится , что необходимо для любого оптимального управления наряду с оптимальным государственной траекторией решить так называемую систему Гамильтон, которая два-точки а краевая задача , плюс максимальное состояние управления гамильтоново . ^[a] Эти необходимые условия становятся достаточными при определенных условиях выпуклости для функций цели и ограничений. ^[2]^[3]

Принцип максимума был сформулирован в 1956 году российским математиком Львом Понтрягиным и его учениками ^[4]^[5], и его первоначальное применение было для максимизации конечной скорости ракеты. ^[6] Результат был получен с использованием идей классического вариационного исчисления . ^[7] После небольшого возмущения оптимального управления рассматривается член первого порядка разложения Тейлора по возмущению; Обнуление возмущения приводит к вариационному неравенству, из которого следует принцип максимума. ^[8]

Широко рассматриваемый как веха в теории оптимального управления ^[1] значение принципа максимума заключается в том, что максимизировать гамильтониан намного проще, чем исходная задача бесконечномерного управления; вместо максимизации по функциональному пространству проблема преобразуется в точечную оптимизацию. ^[9] Подобная логика приводит к принципу оптимальности Беллмана , связанному с этим подходу к задачам оптимального управления, который утверждает, что оптимальная траектория остается оптимальной в промежуточные моменты времени. ^[10] Полученное уравнение Гамильтона – Якоби – Беллмана обеспечивает необходимое и достаточное условие для оптимума и допускает прямое распространение на стохастические задачи оптимального управления, тогда как принцип максимума - нет. ^[8] Однако в отличие от уравнения Гамильтона – Якоби – Беллмана, которое должно выполняться во всем пространстве состояний, чтобы быть действительным, принцип максимума Понтрягина потенциально более эффективен с точки зрения вычислений, поскольку указанные в нем условия должны выполняться только для определенного траектория. ^[1]

Обозначение

В дальнейшем мы будем использовать следующие обозначения.

{\ Displaystyle \ Psi _ {T} (x (T)) = \ left. {\ frac {\ partial \ Psi (x)} {\ partial T}} \ right | _ {x = x (T)} \ ,}

{\ Displaystyle \ Psi _ {x} (x (T)) = {\ begin {bmatrix} \ left. {\ frac {\ partial \ Psi (x)} {\ partial x_ {1}}} \ right | _ {x = x (T)} & \ cdots & \ left. {\ frac {\ partial \ Psi (x)} {\ partial x_ {n}}} \ right | _ {x = x (T)} \ end {bmatrix}}}

{\ displaystyle H_ {x} (x ^ {*}, u ^ {*}, \ lambda ^ {*}, t) = {\ begin {bmatrix} \ left. {\ frac {\ partial H} {\ partial x_ {1}}} \ right | _ {x = x ^ {*}, u = u ^ {*}, \ lambda = \ lambda ^ {*}} & \ cdots & \ left. {\ frac {\ partial H} {\ partial x_ {n}}} \ right | _ {x = x ^ {*}, u = u ^ {*}, \ lambda = \ lambda ^ {*}} \ end {bmatrix}}}

{\ displaystyle L_ {x} (x ^ {*}, u ^ {*}) = {\ begin {bmatrix} \ left. {\ frac {\ partial L} {\ partial x_ {1}}} \ right | _ {x = x ^ {*}, u = u ^ {*}} & \ cdots & \ left. {\ frac {\ partial L} {\ partial x_ {n}}} \ right | _ {x = x ^ {*}, u = u ^ {*}} \ end {bmatrix}}}

{\ displaystyle f_ {x} (x ^ {*}, u ^ {*}) = {\ begin {bmatrix} \ left. {\ frac {\ partial f_ {1}} {\ partial x_ {1}}} \ right | _ {x = x ^ {*}, u = u ^ {*}} & \ cdots & \ left. {\ frac {\ partial f_ {1}} {\ partial x_ {n}}} \ right | _ {x = x ^ {*}, u = u ^ {*}} \\\ vdots & \ ddots & \ vdots \\\ left. {\ frac {\ partial f_ {n}} {\ partial x_ { 1}}} \ right | _ {x = x ^ {*}, u = u ^ {*}} & \ ldots & \ left. {\ Frac {\ partial f_ {n}} {\ partial x_ {n} }} \ right | _ {x = x ^ {*}, u = u ^ {*}} \ end {bmatrix}}}

Формальная формулировка необходимых условий для задачи минимизации.

Здесь указаны необходимые условия минимизации функционала. Брать ${\ displaystyle x}$ быть состоянием динамической системы с входом ${\ displaystyle u}$ , так что

{\ Displaystyle {\ точка {х}} = е (х, и), \ квадроцикл х (0) = х_ {0}, \ квад и (т) \ ин {\ mathcal {U}}, \ квадро т \ в [0, T]}

где ${\ displaystyle {\ mathcal {U}}}$ - множество допустимых управлений, а ${\ displaystyle T}$ - конечное (то есть конечное) время системы. Контроль ${\ displaystyle u \ in {\ mathcal {U}}}$ должен быть выбран для всех ${\ displaystyle t \ in [0, T]}$ минимизировать целевой функционал ${\ displaystyle J}$ который определяется приложением и может быть абстрагирован как

{\ Displaystyle J = \ Psi (x (T)) + \ int _ {0} ^ {T} L (x (t), u (t)) \, dt}

Ограничения на динамику системы можно присоединить к лагранжиану ${\ displaystyle L}$ введя изменяющийся во времени вектор множителя Лагранжа ${\ displaystyle \ lambda}$ , элементы которого называются костями системы. Это мотивирует построение гамильтониана ${\ displaystyle H}$ определено для всех ${\ displaystyle t \ in [0, T]}$ от:

{\ Displaystyle Н (Икс (т), и (т), \ лямбда (т), т) = \ лямбда ^ {\ rm {T}} (т) е (х (т), и (т)) + L (x (t), u (t)) \,}

где ${\ displaystyle \ lambda ^ {\ rm {T}}}$ это транспонирование ${\ displaystyle \ lambda}$ .

Принцип минимума Понтрягина утверждает, что оптимальная траектория состояния ${\ displaystyle x ^ {*}}$ , оптимальное управление ${\ displaystyle u ^ {*}}$ , и соответствующий вектор множителя Лагранжа ${\ displaystyle \ lambda ^ {*}}$ должен минимизировать гамильтониан ${\ displaystyle H}$ чтобы

{\ Displaystyle (1) \ qquad H (х ^ {*} (t), u ^ {*} (t), \ lambda ^ {*} (t), t) \ leq H (x ^ {*} ( t), u, \ lambda ^ {*} (t), t) \,}

за все время ${\ displaystyle t \ in [0, T]}$ и для всех допустимых управляющих входов ${\ displaystyle u \ in {\ mathcal {U}}}$ . Также должно быть, что

{\ Displaystyle (2) \ qquad \ Psi _ {T} (x (T)) + H (T) = 0 \,}

Кроме того, сопряженные уравнения

{\ displaystyle (3) \ qquad - {\ dot {\ lambda}} ^ {\ rm {T}} (t) = H_ {x} (x ^ {*} (t), u ^ {*} (t ), \ lambda (t), t) = \ lambda ^ {\ rm {T}} (t) f_ {x} (x ^ {*} (t), u ^ {*} (t)) + L_ { x} (x ^ {*} (t), u ^ {*} (t))}

должен быть доволен. Если конечное состояние ${\ Displaystyle х (Т)}$ не является фиксированным (т. е. его дифференциальное изменение не равно нулю), также должно быть, чтобы конечные затраты были такими, что

{\ Displaystyle (4) \ qquad \ lambda ^ {\ rm {T}} (T) = \ Psi _ {x} (x (T)) \,}

Эти четыре условия в (1) - (4) являются необходимыми условиями для оптимального управления. Обратите внимание, что (4) применяется только тогда, когда ${\ Displaystyle х (Т)}$ это бесплатно. Если он зафиксирован, то это условие не обязательно для оптимума.

Смотрите также

Множители Лагранжа на банаховых пространствах , метод Лагранжа в вариационном исчислении

Заметки

^ Является ли крайнее значение максимальным или минимальным, зависит от соглашения о знаках, используемого для определения гамильтониана. Историческое соглашение ведет к максимуму, следовательно, принципу максимума. В последнее время его все чаще называют просто принципом Понтрягина, без использования прилагательных, максимума или минимума.

дальнейшее чтение

Геринг, HP (2007). Оптимальное управление с помощью инженерных приложений . Springer. ISBN 978-3-540-69437-3.
Кирк, DE (1970). Теория оптимального управления: введение . Прентис Холл. ISBN 0-486-43484-2.
Ли, ЭБ; Маркус, Л. (1967). Основы теории оптимального управления . Нью-Йорк: Вили.
Зейерстад, Атле; Сидсэтер, Кнут (1987). Теория оптимального управления с экономическими приложениями . Амстердам: Северная Голландия. ISBN 0-444-87923-4.

Внешние ссылки

"Принцип максимума Понтрягина" , Математическая энциклопедия , EMS Press , 2001 [1994]

[2] Является ли крайнее значение максимальным или минимальным, зависит от соглашения о знаках, используемого для определения гамильтониана. Историческое соглашение ведет к максимуму, следовательно, принципу максимума. В последнее время его все чаще называют просто принципом Понтрягина, без использования прилагательных, максимума или минимума.

[:0-1] Росс, Исаак (2015). Учебник по принципу Понтрягина в оптимальном управлении . Сан-Франциско: коллегиальные издатели. ISBN 978-0-9843571-0-9. OCLC 625106088 .

[3] Мангасарян, О.Л. (1966). «Достаточные условия оптимального управления нелинейными системами». SIAM Journal on Control . 4 (1): 139–152. DOI : 10.1137 / 0304013 .

[4] Камиен, Мортон И .; Шварц, Нэнси Л. (1971). «Достаточные условия в теории оптимального управления». Журнал экономической теории . 3 (2): 207–214. DOI : 10.1016 / 0022-0531 (71) 90018-4 .

[5] Болтянский, В .; Мартини, H .; Солтан, В. (1998). «Принцип максимума - как он появился?» . Геометрические методы и проблемы оптимизации . Нью-Йорк: Спрингер. С. 204–227. ISBN 0-7923-5454-0.

[6] Гамкрелидзе, Р. (1999). «Открытие принципа максимума». Журнал динамических и управляющих систем . 5 (4): 437–451. DOI : 10,1023 / A: 1021783020548 . S2CID 122690986 . Перепечатано в Болибрух, AA ; и др., ред. (2006). Математические события двадцатого века . Берлин: Springer. С. 85–99. ISBN 3-540-23235-4.

[7] Для первых опубликованных работ см. Ссылки в Фуллер, А. Т. (1963). «Библиография принципа максимума Понтрягина». J. Электроника и управление . 15 (5): 513–517. DOI : 10.1080 / 00207216308937602 .

[8] МакШейн, EJ (1989). "Вариационное исчисление от начала до теории оптимального управления". SIAM J. Control Optim . 27 (5): 916–939. DOI : 10.1137 / 0327049 .

[YongZhou-9] а б Yong, J .; Чжоу, XY (1999). «Принцип максимума и стохастические гамильтоновы системы». Стохастические управления: гамильтоновы системы и уравнения HJB . Нью-Йорк: Спрингер. стр. 101 -156. ISBN 0-387-98723-1.

[10] Састри, Шанкар (29 марта 2009 г.). «Конспект лекций 8. Оптимальное управление и динамические игры» (PDF) .

[11] Чжоу, XY (1990). «Принцип максимума, динамическое программирование и их связь в детерминированном управлении». Журнал теории оптимизации и приложений . 65 (2): 363–373. DOI : 10.1007 / BF01102352 . S2CID 122333807 .

[1]