Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Теория оптимального управления является филиалом математической оптимизации , которая занимается нахождением управления для динамической системы в течение определенного периода времени таким образом, что целевая функция оптимизирована. [1] Он имеет множество применений в науке, технике и операционных исследованиях. Например, динамическая система может быть космическим кораблем с элементами управления, соответствующими ракетным двигателям, и целью может быть достижение Луны с минимальным расходом топлива. [2] Или динамичная система может быть национальной экономикой с целью минимизировать безработицу.; Контролем в этом случае может быть фискальная и денежно-кредитная политика . [3] Также может быть введена динамическая система для включения задач исследования операций в рамках теории оптимального управления. [4] [5]

Оптимальное управление - это расширение вариационного исчисления и математический метод оптимизации для получения политик управления . [6] Этот метод во многом является результатом работ Льва Понтрягина и Ричарда Беллмана в 1950-х годах после вклада в вариационное исчисление Эдварда Дж. МакШейна . [7] Оптимальное управление можно рассматривать как стратегию управления в теории управления . [1]

Общий метод [ править ]

Оптимальное управление связано с проблемой поиска закона управления для данной системы, при котором достигается определенный критерий оптимальности . Задача управления включает в себя функционал стоимости, который является функцией переменных состояния и управления. Управления оптимальным является набор дифференциальных уравнений , описывающих пути управляющих переменных , которые минимизируют функцию стоимости. Оптимальное управление может быть получено с использованием принципа максимума Понтрягина ( необходимое условие, также известного как принцип минимума Понтрягина или просто принцип Понтрягина) [8] или путем решения уравнения Гамильтона – Якоби – Беллмана (aдостаточное условие ).

Начнем с простого примера. Представьте машину, едущую по прямой по холмистой дороге. Вопрос в том, как водителю нажимать педаль акселератора, чтобы минимизировать общее время в пути? В этом примере термин « закон управления» относится конкретно к способу, которым водитель нажимает на педаль акселератора и переключает передачи. Система включает в себя как машины и дороги, и критерий оптимальности является минимизация общего времени в пути. Проблемы управления обычно включают дополнительные ограничения . Например, количество доступного топлива может быть ограничено, педаль акселератора нельзя протолкнуть через пол автомобиля, ограничения скорости и т. Д.

Подходящей функцией стоимости будет математическое выражение, дающее время в пути как функцию скорости, геометрических соображений и начальных условий системы. Ограничения часто взаимозаменяемы с функцией стоимости.

Другая связанная проблема оптимального управления может заключаться в том, чтобы найти способ управления автомобилем, чтобы минимизировать его расход топлива, при условии, что он должен пройти заданный курс за время, не превышающее некоторого количества. Еще одна связанная с этим проблема контроля может заключаться в минимизации общих денежных затрат на завершение поездки с учетом предполагаемых денежных цен на время и топливо.

Более абстрактная структура выглядит следующим образом. [1] Минимизируйте функционал непрерывных затрат

с учетом динамических ограничений первого порядка ( уравнение состояния )

алгебраические ограничения пути

и условия конечной точки

где - состояние , - управление , - независимая переменная (вообще говоря, время), - начальное время и - конечное время. Термины и называются стоимостью конечной точки и эксплуатационной стоимостью соответственно. В вариационном исчислении и называются членом Майера и лагранжианом соответственно. Кроме того, следует отметить, что ограничения пути в общем случае являются неравенствомограничения и, следовательно, могут не быть активными (т. е. равными нулю) в оптимальном решении. Также следует отметить, что указанная выше задача оптимального управления может иметь несколько решений (т. Е. Решение может быть не единственным). Таким образом, наиболее часто любое решение задачи оптимального управления сводится к локальной минимизации .

Линейно-квадратичный контроль [ править ]

Частным случаем общей нелинейной задачи оптимального управления, приведенной в предыдущем разделе, является линейно-квадратичная (LQ) задача оптимального управления . Проблема LQ формулируется следующим образом. Минимизировать квадратичный функционал затрат в непрерывном времени

С учетом линейных динамических ограничений первого порядка

и начальное условие

Особая форма задачи LQ , которая возникает во многих задачах системы управления является то , что из линейного квадратического регулятора (LQR) , где все матрицы (т.е. , , , и ) являются постоянными , в начальный момент времени произвольно установлено равным нулю, и конечное время берется в пределе (это последнее допущение известно как бесконечный горизонт ). Проблема LQR формулируется следующим образом. Минимизировать квадратичный функционал затрат в непрерывном времени с бесконечным горизонтом

При условии линейных не зависящих от времени динамических ограничений первого порядка

и начальное условие

В случае конечного горизонта матрицы ограничены этим и являются положительно полуопределенными и положительно определенными соответственно. Однако в случае бесконечного горизонта матрицы и являются не только положительно-полуопределенными и положительно-определенными соответственно, но и постоянными . Эти дополнительные ограничения для случая бесконечного горизонта и в случае бесконечного горизонта применяются, чтобы гарантировать, что функционал стоимости остается положительным. Кроме того, для того , чтобы гарантировать , что функция стоимости ограничена , то дополнительное ограничение накладывается , что пара является управляемой . Обратите внимание, что функционал стоимости LQ или LQR физически можно рассматривать как попытку минимизировать управляющая энергия (измеряется в квадратичной форме).

Проблема бесконечного горизонта (то есть LQR) может показаться чрезмерно ограничивающей и по существу бесполезной, потому что она предполагает, что оператор переводит систему в нулевое состояние и, следовательно, приводит к нулю выход системы. Это действительно так. Однако проблема вывода выходного сигнала на желаемый ненулевой уровень может быть решена после того, как будет установлен нулевой выходной уровень. Фактически, можно доказать, что эта вторичная проблема LQR может быть решена очень просто. В классической теории оптимального управления было показано, что оптимальное управление LQ (или LQR) имеет вид обратной связи

где - правильно подобранная матрица, заданная как

и является решением дифференциального уравнения Риккати . Дифференциальное уравнение Риккати имеет вид

Для задачи LQ с конечным горизонтом уравнение Риккати интегрируется назад во времени с использованием конечного граничного условия

Для задачи LQR с бесконечным горизонтом дифференциальное уравнение Риккати заменяется алгебраическим уравнением Риккати (ARE), заданным как

Понимание того, что ARE возникает из бесконечной проблемы горизонта, матрицы , , и вся константа . Следует отметить, что, как правило, существует несколько решений алгебраического уравнения Риккати, и положительно определенное (или положительно полуопределенное) решение - это то решение, которое используется для вычисления коэффициента усиления обратной связи. Проблема LQ (LQR) была элегантно решена Рудольфом Калманом . [9]

Численные методы оптимального управления [ править ]

Задачи оптимального управления, как правило, нелинейны и поэтому обычно не имеют аналитических решений (например, как линейно-квадратичная задача оптимального управления). В результате возникает необходимость использования численных методов для решения задач оптимального управления. В первые годы оптимального управления ( с 1950-х по 1980-е годы) предпочтительным подходом к решению задач оптимального управления были косвенные методы . В косвенном методе вариационное исчисление используется для получения условий оптимальности первого порядка. Эти условия приводят к двухточечной (или, в случае сложной задачи, многоточечной) краевой задаче . Эта краевая задача на самом деле имеет особую структуру, поскольку возникает в результате взятия производной отГамильтониан . Таким образом, полученная динамическая система является гамильтоновой системой вида [1]

куда

- расширенный гамильтониан, и косвенным методом решается краевая задача (с использованием соответствующих граничных условий или условий трансверсальности ). Прелесть использования косвенного метода заключается в том, что для состояния и сопряженного (т. Е. ) Решаются, а полученное решение легко проверяется как экстремальная траектория. Недостатком косвенных методов является то, что краевую задачу часто чрезвычайно сложно решить (особенно для задач, охватывающих большие временные интервалы, или задач с ограничениями внутренней точки). Известная программа, реализующая косвенные методы, - BNDSCO. [10]

Подход, который получил известность в численном оптимальном управлении с 1980-х годов, - это так называемые прямые методы . В прямом методе состояние или управление, или и то и другое, аппроксимируются с использованием подходящей аппроксимации функции (например, полиномиальной аппроксимации или кусочно-постоянной параметризации). Одновременно функционал стоимости аппроксимируется функцией стоимости . Затем коэффициенты аппроксимации функций рассматриваются как переменные оптимизации, и задача «транскрибируется» в нелинейную задачу оптимизации вида:

Свести к минимуму

с учетом алгебраических ограничений

В зависимости от типа используемого прямого метода размер задачи нелинейной оптимизации может быть довольно небольшим (например, как в методе прямой съемки или квазилинеаризации), умеренным (например, псевдоспектральное оптимальное управление [11] ) или может быть довольно большим (например, , прямой метод коллокации [12]). В последнем случае (т. Е. Метод коллокации) проблема нелинейной оптимизации может включать буквально тысячи и десятки тысяч переменных и ограничений. Учитывая размер многих НЛП, возникающих при использовании прямого метода, может показаться несколько нелогичным, что решить задачу нелинейной оптимизации проще, чем решить краевую задачу. Однако факт в том, что НЛП легче решить, чем краевую задачу. Причина относительной простоты вычислений, особенно прямого метода коллокации, заключается в том, что НЛП является разреженным и существует множество хорошо известных программ (например, SNOPT [13] ) для решения больших разреженных НЛП. В результате круг задач, которые могут быть решены прямыми методами (особенно прямыми)методы коллокации, которые очень популярны в наши дни) значительно превышает круг задач, которые могут быть решены с помощью косвенных методов. Фактически, прямые методы стали настолько популярными в наши дни, что многие люди написали сложные программы, использующие эти методы. В частности, многие такие программы включают DIRCOL , [14] SOCS, [15] OTIS, [16] GESOP / ASTOS , [17] DITAN. [18] и PyGMO / PyKEP. [19] В последние годы из-за появления MATLABязык программирования, ПО оптимального управления в MATLAB стало более распространенным. Примеры академически разработанных программных инструментов MATLAB, реализующих прямые методы, включают RIOTS , [20] DIDO , [21] DIRECT , [22] FALCON.m, [23] и GPOPS, [24], в то время как примером промышленного инструмента MATLAB является PROPT . [25] Эти программные инструменты значительно увеличили возможности для людей исследовать сложные задачи оптимального управления как для академических исследований, так и для промышленных задач. Наконец, следует отметить, что среды оптимизации MATLAB общего назначения, такие как TOMLABзначительно упростили программирование сложных задач оптимального управления, чем это было возможно ранее в таких языках, как C и FORTRAN .

Оптимальное управление с дискретным временем [ править ]

На примерах до сих пор показаны системы непрерывного времени и решения для управления. Фактически, поскольку оптимальные решения управления теперь часто реализуются в цифровом виде , современная теория управления в настоящее время в основном занимается системами и решениями с дискретным временем . Теория согласованных приближений [26] [27] обеспечивает условия, при которых решения ряда дискретизированных задач оптимального управления с повышенной точностью сходятся к решению исходной задачи с непрерывным временем. Не все методы дискретизации обладают этим свойством, даже кажущимся очевидным. [28] Например, использование подпрограммы переменного размера шага для интегрирования динамических уравнений задачи может генерировать градиент, который не сходится к нулю (или не указывает в правильном направлении) по мере приближения к решению. Прямой метод RIOTS основан на теории согласованного приближения.

Примеры [ править ]

Распространенной стратегией решения многих задач оптимального управления является решение для стоимости (иногда называемой теневой ценой ) . Стоимость суммирует в одном числе предельное значение расширения или сжатия переменной состояния в следующий ход. Предельная стоимость - это не только прибыль, полученная в следующий ход, но и связанная с продолжительностью программы. Приятно, когда можно решить аналитически, но обычно самое большее, что можно сделать, - это описать это достаточно хорошо, чтобы интуиция могла уловить характер решения, а решатель уравнений мог решить численно для значений.

Получив оптимальное значение Turn-t для управления, обычно можно решить как дифференциальное уравнение при условии знания . Опять же, нечасто, особенно в задачах с непрерывным временем, когда можно явно получить значение элемента управления или состояния. Обычно стратегия заключается в поиске пороговых значений и областей, которые характеризуют оптимальное управление, и использовании числового решателя для выделения фактических значений выбора во времени.

Конечное время [ править ]

Рассмотрим проблему владельца шахты, который должен решить, с какой скоростью извлекать руду из своей шахты. Им принадлежат права на руду с настоящего момента . На данный момент в земле есть руда, и зависящее от времени количество руды, оставшейся в земле, уменьшается со скоростью ее добычи владельцем рудника. Владелец рудника добывает руду по себестоимости (стоимость добычи увеличивается пропорционально квадрату скорости добычи и обратной величине оставшейся руды) и продает руду по постоянной цене . Любая руда, оставшаяся в земле во время, не может быть продана и не имеет ценности (нет «стоимости лома»). Владелец выбирает скорость добычи, меняющуюся со временем. для максимизации прибыли за период владения без дисконтирования по времени.

См. Также [ править ]

  • Активный вывод
  • Уравнение беллмана
  • Псевдоспектральный метод Беллмана
  • Брахистохрона
  • ДИДО
  • Точка DNSS
  • Динамическое программирование
  • Псевдоспектральный метод Гаусса
  • Обобщенная фильтрация
  • GPOPS-II
  • JModelica.org (платформа с открытым исходным кодом на основе Modelica для динамической оптимизации)
  • Фильтр Калмана
  • Линейно-квадратичный регулятор
  • Прогностический контроль модели
  • Критерий обгона
  • ПИД-регулятор
  • PROPT (программное обеспечение оптимального управления для MATLAB)
  • Псевдоспектральное оптимальное управление
  • Игры с преследованием и уклонением
  • Управление скользящим режимом
  • СНОПТ
  • Стохастический контроль
  • Оптимизация траектории

Ссылки [ править ]

  1. ^ а б в г Росс, Исаак (2015). Учебник по принципу Понтрягина в оптимальном управлении . Сан-Франциско: коллегиальные издатели. ISBN 978-0-9843571-0-9. OCLC  625106088 .
  2. ^ Люенбергер, Дэвид Г. (1979). «Оптимальное управление». Введение в динамические системы . Нью-Йорк: Джон Вили и сыновья. стр.  393 -435. ISBN 0-471-02594-1.
  3. ^ Kamien, Мортон И. (2013). Динамическая оптимизация: исчисление вариаций и оптимальное управление в экономике и управлении . Dover Publications. ISBN 978-1-306-39299-0. OCLC  869522905 .
  4. ^ Росс, IM; Proulx, RJ; Карпенко, М. (6 мая 2020 г.). "Теория оптимального управления задачей коммивояжера и ее варианты". arXiv : 2005.03186 [ math.OC ].
  5. ^ Росс, Исаак М .; Карпенко, Марк; Пру, Рональд Дж. (1 января 2016 г.). «Негладкое исчисление для решения некоторых задач управления на основе теории графов **. Это исследование спонсировалось ВМС США» . IFAC-PapersOnLine . 10-й симпозиум МФБ по нелинейным системам управления NOLCOS 2016. 49 (18): 462–467. DOI : 10.1016 / j.ifacol.2016.10.208 . ISSN 2405-8963 . 
  6. ^ Сарджент, RWH (2000). «Оптимальное управление» . Журнал вычислительной и прикладной математики . 124 (1–2): 361–371. Bibcode : 2000JCoAM.124..361S . DOI : 10.1016 / S0377-0427 (00) 00418-0 .
  7. Перейти ↑ Bryson, AE (1996). «Оптимальное управление - с 1950 по 1985 год». Журнал IEEE Control Systems . 16 (3): 26–33. DOI : 10.1109 / 37.506395 .
  8. Перейти ↑ Ross, IM (2009). Учебник по принципу Понтрягина в оптимальном управлении . Коллегиальные издатели. ISBN 978-0-9843571-0-9.
  9. ^ Кальман, Рудольф. Новый подход к задачам линейной фильтрации и прогнозирования . Транзакции ASME, Journal of Basic Engineering, 82: 34–45, 1960
  10. ^ Оберле, Х.Дж. и Гримм, В., "Программа BNDSCO-A для численного решения задач оптимального управления", Институт динамики систем полета, DLR, Оберпфаффенхофен, 1989
  11. ^ Росс, IM ; Карпенко, М. (2012). «Обзор псевдоспектрального оптимального управления: от теории к полету» . Ежегодные обзоры под контролем . 36 (2): 182–197. DOI : 10.1016 / j.arcontrol.2012.09.002 .
  12. Перейти ↑ Betts, JT (2010). Практические методы оптимального управления с помощью нелинейного программирования (2-е изд.). Филадельфия, Пенсильвания: SIAM Press. ISBN 978-0-89871-688-7.
  13. ^ Gill, PE, Murray, WM, and Saunders, MA, Руководство пользователя для SNOPT версии 7: Программное обеспечение для крупномасштабного нелинейного программирования , Калифорнийский университет, Отчет Сан-Диего, 24 апреля 2007 г.
  14. ^ фон Стрик, О., Руководство пользователя DIRCOL (версия 2.1): метод прямого сочетания для численного решения задач оптимального управления , Fachgebiet Simulation und Systemoptimierung (SIM), Technische Universität Darmstadt (2000, версия от ноября 1999 г.).
  15. Перейти ↑ Betts, JT and Huffman, WP, Sparse Optimal Control Software, SOCS , Boeing Information and Support Services, Сиэтл, Вашингтон, июль 1997 г.
  16. ^ Харгрейвс, CR; Париж, SW (1987). «Оптимизация прямой траектории с помощью нелинейного программирования и коллокации». Журнал наведения, управления и динамики . 10 (4): 338–342. Bibcode : 1987JGCD ... 10..338H . DOI : 10.2514 / 3.20223 .
  17. ^ Гаф, PF, Ну, KH, «Оптимизация траекторийпомощью сочетания прямого Multiple съемки и коллокации», AIAA 2001-4047, АИАА ориентации, навигации и управления конференцией, Монреаль, Квебек, Канада, 6-9 августа 2001
  18. ^ Василе М., Bernelli-Zazzera Ф., Fornasari Н., Masarati П., «Проектирование межпланетных и лунных миссий Объединяя малой тяги и гравитационный манёвр», Заключительный отчет ESA / ESOC Study договора № 14126/00 / D / CS, сентябрь 2002 г.
  19. ^ Izzo, Дарио. «PyGMO и PyKEP: инструменты с открытым исходным кодом для массовой параллельной оптимизации в астродинамике (случай оптимизации межпланетных траекторий)». Продолжить. Пятая международная конф. Астродинам. Инструменты и методы, ICATT. 2012 г.
  20. ^ Бунты Архивированы 16 июля 2011 в Wayback Machine , основанном на Шварце, Адам (1996). Теория и реализация методов на основе интеграции Рунге – Кутты для решения задач оптимального управления (Ph.D.). Калифорнийский университет в Беркли. OCLC 35140322 . 
  21. ^ Росс, И.М., Улучшения в DIDO Optimal Control Toolbox, arXiv 2020. https://arxiv.org/abs/2004.13112
  22. ^ Уильямс, П., Руководство пользователя по DIRECT, версия 2.00, Мельбурн, Австралия, 2008 г.
  23. ^ FALCON.m , описанный в Rieck, M., Bittner, M., Grüter, B., Diepolder, J., and Piprek, P., FALCON.m - User Guide , Institute of Flight System Dynamics, Technical University of Munich , Октябрь 2019
  24. ^ GPOPS Архивировано 24 июля 2011 г. на Wayback Machine , описано в Рао, А.В., Бенсон, Д.А., Хантингтон, Г.Т., Франколин, К., Дарби, К.Л., и Паттерсон, Массачусетс, Руководство пользователя для GPOPS: пакет MATLAB для динамической оптимизации. Использование псевдоспектрального метода Гаусса , Отчет Университета Флориды, август 2008 г.
  25. ^ Ратквист, П. и Эдвалл, М. М., PROPT - Программное обеспечение оптимального управления MATLAB, "1260 SE Bishop Blvd Ste E, Pullman, WA 99163, США: Tomlab Optimization, Inc.
  26. ^ Е. Полак, Об использовании согласованных приближений в решении полубесконечных задач оптимизации и оптимального управления Math. Прог. 62 с. 385–415 (1993).
  27. Росс, И. М. (1 декабря 2005 г.). «Дорожная карта для оптимального управления: правильный способ передвижения» . Летопись Нью-Йоркской академии наук . 1065 (1): 210–231. Bibcode : 2005NYASA1065..210R . DOI : 10.1196 / анналы.1370.015 . ISSN 0077-8923 . PMID 16510411 . S2CID 7625851 .   
  28. ^ Фахру, Фариба; Росс, И. Майкл (сентябрь 2008 г.). «Конвергенция затрат не означает сближения контроля» . Журнал наведения, управления и динамики . 31 (5): 1492–1497. Bibcode : 2008JGCD ... 31.1492F . DOI : 10.2514 / 1.37331 . ISSN 0731-5090 . 

Дальнейшее чтение [ править ]

  • Бертсекас, Д.П. (1995). Динамическое программирование и оптимальное управление . Бельмонт: Афина. ISBN 1-886529-11-6.
  • Брайсон, AE ; Хо, Ю.-К. (1975). Прикладное оптимальное управление: оптимизация, оценка и контроль (отредактированная ред.). Нью-Йорк: Джон Уайли и сыновья. ISBN 0-470-11481-9.
  • Флеминг, WH ; Ришель, RW (1975). Детерминированное и стохастическое оптимальное управление . Нью-Йорк: Спрингер. ISBN 0-387-90155-8.
  • Kamien, MI ; Шварц, Н.Л. (1991). Динамическая оптимизация: расчет вариаций и оптимальное управление в экономике и менеджменте (второе изд.). Нью-Йорк: Эльзевир. ISBN 0-444-01609-0.
  • Кирк, DE (1970). Теория оптимального управления: введение . Энглвудские скалы: Прентис-Холл. ISBN 0-13-638098-0.
  • Росс, И.М. (2015). Учебник по принципу Понтрягина в оптимальном управлении . Коллегиальные издатели. ISBN 978-0-9843571-0-9 . 
  • Стенгель, РФ (1994). Оптимальное управление и оценка . Нью-Йорк: Дувр (Курьер). ISBN 0-486-68200-5.

Внешние ссылки [ править ]

  • Курс оптимального управления онлайн
  • Д-р Бенуа ШАЧУА: Лаборатория автоматического управления - нелинейное программирование, вариационное исчисление и оптимальное управление.
  • DIDO - инструмент MATLAB для оптимального управления
  • GEKKO - пакет Python для оптимального управления
  • GESOP - Графическая среда для моделирования и оптимизации

  • GPOPS-II - универсальное программное обеспечение MATLAB для оптимального управления
  • PROPT - ПО оптимального управления MATLAB
  • OpenOCL - открытая библиотека оптимального управления
  • Элмер Г. Винс: Оптимальное управление - приложения теории оптимального управления с использованием принципа максимума Понтрягина с интерактивными моделями.
  • Принцип Понтрягина на примерах
  • Ю-Чи Хо об оптимальном управлении
  • Псевдоспектральное оптимальное управление: Часть 1
  • Псевдоспектральное оптимальное управление: Часть 2