Теория оптимального управления является филиалом математической оптимизации , которая занимается нахождением управления для динамической системы в течение определенного периода времени таким образом, что целевая функция оптимизирована. [1] Он имеет множество применений в науке, технике и операционных исследованиях. Например, динамическая система может быть космическим кораблем с элементами управления, соответствующими ракетным двигателям, и цель может состоять в том, чтобы достичь Луны с минимальным расходом топлива. [2] Или динамичной системой может быть экономика страны с целью минимизировать безработицу.; Контролем в этом случае может быть налогово-бюджетная и денежно-кредитная политика . [3] Динамическая система также может быть введена для включения задач исследования операций в рамках теории оптимального управления. [4] [5]
Оптимальное управление - это расширение вариационного исчисления и математический метод оптимизации для получения политик управления . [6] Этот метод во многом обязан работам Льва Понтрягина и Ричарда Беллмана в 1950-х годах после вклада в вариационное исчисление Эдварда Дж. МакШейна . [7] Оптимальное управление можно рассматривать как стратегию управления в теории управления . [1]
Общий метод
Оптимальное управление связано с проблемой нахождения закона управления для данной системы, при котором достигается определенный критерий оптимальности . Задача управления включает в себя функционал стоимости, который является функцией переменных состояния и управления. Управления оптимальным является набор дифференциальных уравнений , описывающих пути управляющих переменных , которые минимизируют функцию стоимости. Оптимальное управление может быть получено с использованием принципа максимума Понтрягина ( необходимое условие, также известного как принцип минимума Понтрягина или просто принцип Понтрягина), [8] или путем решения уравнения Гамильтона – Якоби – Беллмана ( достаточное условие ).
Начнем с простого примера. Представьте машину, едущую по прямой по холмистой дороге. Вопрос в том, как водителю нажимать педаль акселератора, чтобы сократить общее время поездки? В этом примере термин « закон управления» относится конкретно к тому, как водитель нажимает на педаль акселератора и переключает передачи. Система включает в себя как машины и дороги, и критерий оптимальности является минимизация общего времени в пути. Проблемы управления обычно включают в себя дополнительные ограничения . Например, количество доступного топлива может быть ограничено, педаль акселератора нельзя протолкнуть через пол автомобиля, ограничения скорости и т. Д.
Правильная функция стоимости будет математическим выражением, дающим время в пути как функцию скорости, геометрических соображений и начальных условий системы. Ограничения часто взаимозаменяемы с функцией стоимости.
Другая связанная проблема оптимального управления может заключаться в том, чтобы найти способ управления автомобилем, чтобы минимизировать его расход топлива, при условии, что он должен пройти заданный курс за время, не превышающее некоторого количества. Еще одна связанная проблема контроля может заключаться в минимизации общих денежных затрат на завершение поездки с учетом предполагаемых денежных цен на время и топливо.
Более абстрактная структура выглядит следующим образом. [1] Минимизируйте функционал непрерывных затрат
с учетом динамических ограничений первого порядка ( уравнение состояния )
алгебраические ограничения пути
где это государство ,это контроль , - независимая переменная (вообще говоря, время), начальное время, а это конечное время. Условия а также называются стоимостью конечной точки и эксплуатационной стоимостью соответственно. В вариационном исчислении а также называются членом Майера и лагранжианом соответственно. Кроме того, следует отметить, что ограничения пути в общем являются ограничениями неравенства и, таким образом, могут не быть активными (то есть равными нулю) в оптимальном решении. Также следует отметить, что проблема оптимального управления, как указано выше, может иметь несколько решений (т. Е. Решение может быть не единственным). Таким образом, чаще всего любое решениек задаче оптимального управления является локально минимизирующей .
Линейно-квадратичное управление
Частным случаем общей нелинейной задачи оптимального управления, приведенной в предыдущем разделе, является линейно-квадратичная (LQ) задача оптимального управления . Проблема LQ формулируется следующим образом. Минимизировать квадратичный функционал затрат в непрерывном времени
С учетом линейных динамических ограничений первого порядка
и начальное условие
Особая форма проблемы LQ, которая возникает во многих задачах систем управления, - это проблема линейно-квадратичного регулятора (LQR), где все матрицы (т. Е., , , а также ) постоянны , начальное время произвольно установлено равным нулю, а конечное время берется в пределах(это последнее предположение известно как бесконечный горизонт ). Проблема LQR формулируется следующим образом. Минимизация квадратичного функционала затрат в непрерывном времени с бесконечным горизонтом
С учетом линейных не зависящих от времени динамических ограничений первого порядка
и начальное условие
В случае конечного горизонта матрицы ограничены тем, что а также являются положительно полуопределенными и положительно определенными соответственно. Однако в случае бесконечного горизонта матрицы а также являются не только положительно-полуопределенными и положительно-определенными соответственно, но и постоянными . Эти дополнительные ограничения на а также в случае бесконечного горизонта принудительно применяются, чтобы гарантировать, что функционал стоимости остается положительным. Кроме того, чтобы гарантировать, что функция стоимости ограничена , налагается дополнительное ограничение, заключающееся в том, что параявляется управляемым . Обратите внимание, что функционал стоимости LQ или LQR можно рассматривать физически как попытку минимизировать энергию управления (измеренную в квадратичной форме).
Проблема бесконечного горизонта (то есть LQR) может показаться чрезмерно ограничивающей и по существу бесполезной, поскольку она предполагает, что оператор переводит систему в нулевое состояние и, следовательно, приводит к нулю выход системы. Это действительно так. Однако проблема приведения выхода к желаемому ненулевому уровню может быть решена после того, как будет установлен нулевой выходной уровень. Фактически, можно доказать, что эта вторичная проблема LQR может быть решена очень просто. В классической теории оптимального управления было показано, что оптимальное управление LQ (или LQR) имеет вид обратной связи
где матрица с правильными размерами, заданная как
а также является решением дифференциального уравнения Риккати . Дифференциальное уравнение Риккати имеет вид
Для задачи LQ с конечным горизонтом уравнение Риккати интегрируется в обратном направлении во времени с использованием конечного граничного условия
Для задачи LQR с бесконечным горизонтом дифференциальное уравнение Риккати заменяется алгебраическим уравнением Риккати (ARE), заданным как
Понимая, что ARE возникает из проблемы бесконечного горизонта, матрицы , , , а также все постоянны . Следует отметить, что в общем случае существует несколько решений алгебраического уравнения Риккати, и положительно определенное (или положительно полуопределенное) решение - это то решение, которое используется для вычисления коэффициента усиления обратной связи. Проблема LQ (LQR) была элегантно решена Рудольфом Калманом . [9]
Численные методы оптимального управления
Задачи оптимального управления обычно нелинейны и поэтому обычно не имеют аналитических решений (например, как линейно-квадратичная задача оптимального управления). В результате возникает необходимость использования численных методов для решения задач оптимального управления. В первые годы оптимального управления ( с 1950-х по 1980-е годы) предпочтительным подходом к решению задач оптимального управления были косвенные методы . В косвенном методе вариационное исчисление используется для получения условий оптимальности первого порядка. Эти условия приводят к двухточечной (или, в случае сложной задачи, многоточечной) краевой задаче . Эта краевая задача на самом деле имеет особую структуру, поскольку возникает из-за взятия производной от гамильтониана . Таким образом, полученная динамическая система является гамильтоновой системой вида [1]
где
является дополненным гамильтонианом, и косвенным методом решается краевая задача (с использованием соответствующих граничных условий или условий трансверсальности ). Прелесть использования косвенного метода заключается в том, что состояние и сопряженный (т. Е.) решаются относительно, и полученное решение легко проверяется как экстремальная траектория. Недостатком косвенных методов является то, что краевую задачу часто чрезвычайно сложно решить (особенно для задач, охватывающих большие временные интервалы, или задач с ограничениями внутренней точки). Хорошо известная программа, реализующая косвенные методы, - это BNDSCO. [10]
Подход, который приобрел известность в численном оптимальном управлении с 1980-х годов, - это так называемые прямые методы . В прямом методе состояние или управление, или и то и другое, аппроксимируются с использованием подходящей аппроксимации функции (например, полиномиальной аппроксимации или кусочно-постоянной параметризации). Одновременно с этим функционал стоимости аппроксимируется как функция стоимости . Затем коэффициенты аппроксимации функций рассматриваются как переменные оптимизации, и задача «транскрибируется» в нелинейную задачу оптимизации вида:
Минимизировать
с учетом алгебраических ограничений
В зависимости от типа используемого прямого метода размер задачи нелинейной оптимизации может быть довольно небольшим (например, как в методе прямой съемки или квазилинеаризации), умеренным (например, псевдоспектральное оптимальное управление [11] ) или может быть довольно большим (например, , прямой метод коллокации [12] ). В последнем случае (т. Е. Метод коллокации) проблема нелинейной оптимизации может включать буквально тысячи и десятки тысяч переменных и ограничений. Учитывая размер многих НЛП, возникающих из прямого метода, может показаться несколько нелогичным, что решить задачу нелинейной оптимизации проще, чем решить краевую задачу. Однако дело в том, что НЛП легче решить, чем краевую задачу. Причина относительной простоты вычислений, особенно прямого метода коллокации, заключается в том, что НЛП является разреженным и существует множество хорошо известных программ (например, SNOPT [13] ) для решения больших разреженных НЛП. В результате круг проблем, которые могут быть решены прямыми методами (особенно прямые методы коллокации, которые очень популярны в наши дни), значительно больше, чем круг проблем, которые могут быть решены с помощью косвенных методов. Фактически, прямые методы стали настолько популярными в наши дни, что многие люди написали сложные программы, использующие эти методы. В частности, многие такие программы включают DIRCOL , [14] SOCS, [15] OTIS, [16] GESOP / ASTOS , [17] DITAN. [18] и PyGMO / PyKEP. [19] В последние годы, в связи с появлением языка программирования MATLAB, программное обеспечение оптимального управления в MATLAB стало более распространенным. Примеры академически разработанных программных инструментов MATLAB, реализующих прямые методы, включают RIOTS , [20] DIDO , [21] DIRECT , [22] FALCON.m, [23] и GPOPS, [24], в то время как примером промышленного инструмента MATLAB является PROPT. . [25] Эти программные инструменты значительно расширили возможности для людей исследовать сложные задачи оптимального управления как для академических исследований, так и для промышленных задач. Наконец, следует отметить, что среды оптимизации MATLAB общего назначения, такие как TOMLAB , значительно упростили кодирование сложных задач оптимального управления, чем это было ранее возможно в таких языках, как C и FORTRAN .
Оптимальное управление с дискретным временем
На примерах до сих пор были показаны системы непрерывного времени и решения по управлению. Фактически, поскольку оптимальные решения управления теперь часто реализуются в цифровом виде , современная теория управления в настоящее время в основном занимается системами и решениями с дискретным временем . Теория согласованных приближений [26] [27] предоставляет условия, при которых решения серии дискретизированных задач оптимального управления с повышенной точностью сходятся к решению исходной задачи с непрерывным временем. Не все методы дискретизации обладают этим свойством, даже кажущимся очевидным. [28] Например, использование подпрограммы переменного размера шага для интеграции динамических уравнений задачи может генерировать градиент, который не сходится к нулю (или указывает в правильном направлении) по мере приближения к решению. Прямой метод RIOTS основан на теории согласованного приближения.
Примеры
Распространенной стратегией решения многих задач оптимального управления является решение для стоимости (иногда называемой теневой ценой ). Стоимость суммирует одним числом предельное значение расширения или сжатия переменной состояния в следующий ход. Предельная стоимость - это не только прибыль, полученная в следующий ход, но и связанная с продолжительностью программы. Приятно когда могут быть решены аналитически, но обычно самое большее, что можно сделать, - это описать это достаточно хорошо, чтобы интуиция могла уловить характер решения, а решатель уравнений мог решить численно для значений.
Получив , оптимальное значение Turn-t для управления обычно может быть решено как дифференциальное уравнение при условии знания . Опять же, нечасто, особенно в задачах с непрерывным временем, когда можно явно получить значение элемента управления или состояния. Обычно стратегия заключается в поиске пороговых значений и областей, которые характеризуют оптимальное управление, и использовании числового решателя для выделения фактических значений выбора во времени.
Конечное время
Рассмотрим проблему владельца шахты, который должен решить, с какой скоростью извлекать руду из своей шахты. Им принадлежат права на руду с даты на сегодняшний день . На дату Там есть руды в земле, и зависящее от времени количество руды оставленный в земле уменьшается со скоростью что владелец шахты добывает его. Владелец шахты добывает руду по себестоимости (стоимость добычи увеличивается пропорционально квадрату скорости добычи и обратной величине количества оставшейся руды) и продает руду по постоянной цене. . Любая руда, оставшаяся в земле во времяне может быть продан и не имеет ценности (нет «стоимости металлолома»). Владелец выбирает скорость добычи, меняющуюся со временем. для максимизации прибыли за период владения без дисконтирования по времени.
1. Дискретно-временная версия Менеджер максимизирует прибыль : подчиняется закону эволюции переменной состояния Сформируем гамильтониан и продифференцируем: Поскольку владелец рудника не ценит руду, оставшуюся на время , Используя приведенные выше уравнения, легко решить для а также ряд и используя начальные условия и условия поворота T, ряд может быть решен явно, давая . | 2. Непрерывная версия Менеджер максимизирует прибыль : где переменная состояния развивается следующим образом: Сформируем гамильтониан и продифференцируем: Поскольку владелец рудника не ценит руду, оставшуюся на время , Используя приведенные выше уравнения, легко решить дифференциальные уравнения, определяющие а также и используя начальные условия и условия поворота-T, функции могут быть решены для получения |
Смотрите также
- Активный вывод
- Уравнение беллмана
- Псевдоспектральный метод Беллмана
- Брахистохрона
- ДИДО
- Точка DNSS
- Динамическое программирование
- Псевдоспектральный метод Гаусса
- Обобщенная фильтрация
- GPOPS-II
- JModelica.org (платформа с открытым исходным кодом на основе Modelica для динамической оптимизации)
- Фильтр Калмана
- Линейно-квадратичный регулятор
- Прогностический контроль модели
- Критерий обгона
- ПИД-регулятор
- PROPT (программное обеспечение оптимального управления для MATLAB)
- Псевдоспектральное оптимальное управление
- Игры с преследованием и уклонением
- Управление скользящим режимом
- СНОПТ
- Стохастический контроль
- Оптимизация траектории
Рекомендации
- ^ а б в г Росс, Исаак (2015). Учебник по принципу Понтрягина в оптимальном управлении . Сан-Франциско: коллегиальные издатели. ISBN 978-0-9843571-0-9. OCLC 625106088 .
- ^ Люенбергер, Дэвид Г. (1979). «Оптимальное управление». Введение в динамические системы . Нью-Йорк: Джон Вили и сыновья. стр. 393 -435. ISBN 0-471-02594-1.
- ^ Камиен, Мортон И. (2013). Динамическая оптимизация: вариационное исчисление и оптимальное управление в экономике и управлении . Dover Publications. ISBN 978-1-306-39299-0. OCLC 869522905 .
- ^ Росс, И.М.; Proulx, RJ; Карпенко, М. (6 мая 2020 г.). "Теория оптимального управления задачей коммивояжера и ее варианты". arXiv : 2005.03186 [ math.OC ].
- ^ Росс, Исаак М .; Карпенко, Марк; Пру, Рональд Дж. (1 января 2016 г.). «Негладкое исчисление для решения некоторых задач управления на основе теории графов **. Это исследование спонсировалось ВМС США» . IFAC-PapersOnLine . 10-й симпозиум МФБ по нелинейным системам управления NOLCOS 2016. 49 (18): 462–467. DOI : 10.1016 / j.ifacol.2016.10.208 . ISSN 2405-8963 .
- ^ Сарджент, RWH (2000). «Оптимальное управление» . Журнал вычислительной и прикладной математики . 124 (1–2): 361–371. Bibcode : 2000JCoAM.124..361S . DOI : 10.1016 / S0377-0427 (00) 00418-0 .
- ^ Брайсон, AE (1996). «Оптимальное управление - с 1950 по 1985 год». Журнал IEEE Control Systems . 16 (3): 26–33. DOI : 10.1109 / 37.506395 .
- ^ Росс, И.М. (2009). Учебник по принципу Понтрягина в оптимальном управлении . Коллегиальные издатели. ISBN 978-0-9843571-0-9.
- ^ Кальман, Рудольф. Новый подход к задачам линейной фильтрации и прогнозирования . Транзакции ASME, Journal of Basic Engineering, 82: 34–45, 1960
- ^ Оберле, HJ и Гримм, W., "Программа BNDSCO-A для численного решения задач оптимального управления", Институт динамики систем полета, DLR, Оберпфаффенхофен, 1989
- ^ Росс, И.М .; Карпенко, М. (2012). «Обзор псевдоспектрального оптимального управления: от теории к полету» . Ежегодные обзоры под контролем . 36 (2): 182–197. DOI : 10.1016 / j.arcontrol.2012.09.002 .
- ^ Беттс, JT (2010). Практические методы оптимального управления с помощью нелинейного программирования (2-е изд.). Филадельфия, Пенсильвания: SIAM Press. ISBN 978-0-89871-688-7.
- ↑ Gill, PE, Murray, WM, and Saunders, MA, Руководство пользователя SNOPT версии 7: Программное обеспечение для крупномасштабного нелинейного программирования , Калифорнийский университет, Отчет Сан-Диего, 24 апреля 2007 г.
- ^ фон Стрик, О., Руководство пользователя DIRCOL (версия 2.1): метод прямого сочетания для численного решения задач оптимального управления , Fachgebiet Simulation und Systemoptimierung (SIM), Technische Universität Darmstadt (2000, версия от ноября 1999 г.).
- Перейти ↑ Betts, JT and Huffman, WP, Sparse Optimal Control Software, SOCS , Boeing Information and Support Services, Сиэтл, Вашингтон, июль 1997 г.
- ^ Харгрейвс, CR; Париж, SW (1987). «Оптимизация прямой траектории с помощью нелинейного программирования и коллокации». Журнал наведения, управления и динамики . 10 (4): 338–342. Bibcode : 1987JGCD ... 10..338H . DOI : 10.2514 / 3.20223 .
- ^ Гаф, PF, Ну, KH, «Оптимизация траекторийпомощью сочетания прямого Multiple съемки и коллокации», AIAA 2001-4047, АИАА ориентации, навигации и управления конференцией, Монреаль, Квебек, Канада, 6-9 августа 2001
- ^ Василе М., Bernelli-Zazzera Ф., Fornasari Н., Masarati П., «Проектирование межпланетных и лунных миссий Объединяя малой тяги и гравитационный манёвр», Заключительный отчет ESA / ESOC Study договора № 14126/00 / D / CS, сентябрь 2002 г.
- ^ Izzo, Дарио. «PyGMO и PyKEP: инструменты с открытым исходным кодом для массовой параллельной оптимизации в астродинамике (случай оптимизации межпланетных траекторий)». Продолжить. Пятая международная конф. Астродинам. Инструменты и методы, ICATT. 2012 г.
- ^ Бунты Архивированы 16 июля 2011 в Wayback Machine , основанный на Шварц, Адам (1996). Теория и реализация методов на основе интегрирования Рунге – Кутты для решения задач оптимального управления (Ph.D.). Калифорнийский университет в Беркли. OCLC 35140322 .
- ^ Росс, И.М., Улучшения в DIDO Optimal Control Toolbox, arXiv 2020. https://arxiv.org/abs/2004.13112
- ^ Уильямс, П., Руководство пользователя DIRECT, версия 2.00, Мельбурн, Австралия, 2008 г.
- ^ FALCON.m , описанный в Rieck, M., Bittner, M., Grüter, B., Diepolder, J., and Piprek, P., FALCON.m - User Guide , Institute of Flight System Dynamics, Technical University of Munich , Октябрь 2019
- ^ GPOPS Архивировано 24 июля 2011 г. в Wayback Machine , описано в Рао, А.В., Бенсон, Д.А., Хантингтон, Г.Т., Франколин, К., Дарби, К.Л., и Паттерсон, Массачусетс, Руководство пользователя для GPOPS: пакет MATLAB для динамической оптимизации. Использование псевдоспектрального метода Гаусса , Отчет Университета Флориды, август 2008 г.
- ^ Ратквист, П. и Эдвалл, М. М., PROPT - Программное обеспечение оптимального управления MATLAB, "1260 SE Bishop Blvd Ste E, Pullman, WA 99163, США: Tomlab Optimization, Inc.
- ^ Е. Полак, Об использовании согласованных приближений в решении полубесконечных задач оптимизации и оптимального управления Math. Прог. 62 с. 385–415 (1993).
- ^ Росс, И. М. (1 декабря 2005 г.). «Дорожная карта для оптимального управления: правильный способ передвижения» . Летопись Нью-Йоркской академии наук . 1065 (1): 210–231. Bibcode : 2005NYASA1065..210R . DOI : 10.1196 / анналы.1370.015 . ISSN 0077-8923 . PMID 16510411 . S2CID 7625851 .
- ^ Фахру, Фариба; Росс, И. Майкл (сентябрь 2008 г.). «Конвергенция стоимости не означает конвергенции контроля» . Журнал наведения, управления и динамики . 31 (5): 1492–1497. Bibcode : 2008JGCD ... 31.1492F . DOI : 10.2514 / 1.37331 . ISSN 0731-5090 .
дальнейшее чтение
- Бертсекас, Д.П. (1995). Динамическое программирование и оптимальное управление . Бельмонт: Афина. ISBN 1-886529-11-6.
- Брайсон, AE ; Хо, Ю.-К. (1975). Прикладное оптимальное управление: оптимизация, оценка и контроль (отредактированная ред.). Нью-Йорк: Джон Уайли и сыновья. ISBN 0-470-11481-9.
- Флеминг, WH ; Ришель, RW (1975). Детерминированное и стохастическое оптимальное управление . Нью-Йорк: Спрингер. ISBN 0-387-90155-8.
- Kamien, MI ; Шварц, Н.Л. (1991). Динамическая оптимизация: исчисление вариаций и оптимальное управление в экономике и управлении (второе изд.). Нью-Йорк: Эльзевир. ISBN 0-444-01609-0.
- Кирк, DE (1970). Теория оптимального управления: введение . Энглвудские скалы: Прентис-холл. ISBN 0-13-638098-0.
- Росс, И.М. (2015). Учебник по принципу Понтрягина в оптимальном управлении . Коллегиальные издатели. ISBN 978-0-9843571-0-9 .
- Стенгель, РФ (1994). Оптимальное управление и оценка . Нью-Йорк: Дувр (Курьер). ISBN 0-486-68200-5.
Внешние ссылки
- Онлайн-курс по оптимальному контролю
- Д-р Бенуа ШАЧУА: Лаборатория автоматического управления - нелинейное программирование, вариационное исчисление и оптимальное управление.
- DIDO - инструмент MATLAB для оптимального управления
- GEKKO - пакет Python для оптимального управления
- GESOP - Графическая среда для моделирования и оптимизации
- GPOPS-II - универсальное программное обеспечение MATLAB для оптимального управления
- PROPT - Программное обеспечение для оптимального управления MATLAB
- OpenOCL - открытая библиотека оптимального управления
- Элмер Г. Винс: Оптимальное управление - приложения теории оптимального управления с использованием принципа максимума Понтрягина с интерактивными моделями.
- Принцип Понтрягина на примерах
- Об оптимальном управлении Ю-Чи Хо
- Псевдоспектральное оптимальное управление: Часть 1
- Псевдоспектральное оптимальное управление: Часть 2