Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Стохастическое управление или стохастическое оптимальное управление - это подраздел теории управления, который имеет дело с существованием неопределенности либо в наблюдениях, либо в шуме, который движет эволюцией системы. Разработчик системы предполагает, в байесовской модели, основанной на вероятности , что случайный шум с известным распределением вероятностей влияет на эволюцию и наблюдение за переменными состояния. Стохастическое управление направлено на проектирование временного пути контролируемых переменных, который выполняет желаемую задачу управления с минимальными затратами, определенным каким-либо образом, несмотря на присутствие этого шума. [1] Контекст может быть дискретным или непрерывным .

Эквивалентность достоверности [ править ]

Чрезвычайно хорошо изученная формулировка стохастического управления - это линейно-квадратичное гауссовское управление . Здесь модель линейна, целевая функция - это математическое ожидание квадратичной формы, а возмущения чисто аддитивны. Основным результатом для централизованных систем с дискретным временем и только аддитивной неопределенностью является свойство достоверности эквивалентности : [2]что оптимальное управляющее решение в этом случае такое же, как и при отсутствии аддитивных возмущений. Это свойство применимо ко всем централизованным системам с линейными уравнениями эволюции, квадратичной функцией стоимости и шумом, входящим в модель только аддитивно; предположение о квадратичности позволяет оптимальным законам управления, которые следуют свойству достоверности-эквивалентности, быть линейными функциями наблюдений контроллеров.

Любое отклонение от вышеуказанных предположений - нелинейное уравнение состояния, неквадратичная целевая функция, шум в мультипликативных параметрах модели или децентрализация управления - приводит к тому, что свойство эквивалентности достоверности не выполняется. Например, его несостоятельность в отношении децентрализованного контроля продемонстрирована в контрпримере Витсенхаузена .

Дискретное время [ править ]

В контексте дискретного времени лицо, принимающее решение, наблюдает за переменной состояния, возможно, с шумом наблюдения в каждый период времени. Целью может быть оптимизация суммы ожидаемых значений нелинейной (возможно, квадратичной) целевой функции за все периоды времени от настоящего до последнего рассматриваемого периода или оптимизация значения целевой функции только для последнего периода. . В каждый период времени проводятся новые наблюдения, и контрольные переменные должны быть оптимально скорректированы. Нахождение оптимального решения для настоящего времени может включать итерацию матричного уравнения Риккати назад во времени от последнего периода к текущему периоду.

В случае дискретного времени с неопределенностью значений параметров в матрице перехода (дающей влияние текущих значений переменных состояния на их собственное развитие) и / или в матрице отклика управления уравнения состояния, но все же с линейным состоянием уравнение и квадратичная целевая функция, уравнение Риккати все еще может быть получено для итерации назад к решению каждого периода, даже если эквивалентность достоверности не применяется. [2] ch.13 [3] Дискретный случай неквадратичной функции потерь, но также можно обрабатывать только аддитивные возмущения, хотя и с большим количеством сложностей. [4]

Пример [ править ]

Типичная спецификация задачи стохастического линейно-квадратичного управления с дискретным временем - это минимизация [2] : гл. 13; [3] [5]

где E 1 - оператор ожидаемого значения при условии y 0 , верхний индекс T указывает на транспонирование матрицы , а S - временной горизонт с учетом уравнения состояния

где y - вектор наблюдаемых переменных состояния размером n × 1, u - вектор управляющих переменных размером k × 1, A t - реализация по времени t стохастической матрицы перехода состояния n × n , B t - реализация по времени t стохастическая матрица контрольных множителей размера n × k , а Q ( n × n ) и R ( k × k) - известные симметричные положительно определенные матрицы стоимости. Мы предполагаем, что каждый элемент A и B совместно независимо и одинаково распределен во времени, поэтому операции ожидаемого значения не обязательно должны быть временными.

Индукцию назад во времени можно использовать для получения оптимального решения управления в каждый момент времени [2] : гл. 13

с симметричной положительно определенной стоимостью навынос матрица X эволюционирует назад во время в соответствии с

которое известно как динамическое уравнение Риккати с дискретным временем для этой задачи. Единственная необходимая информация относительно неизвестных параметров в матрицах A и B - это ожидаемое значение и дисперсия каждого элемента каждой матрицы и ковариации между элементами одной и той же матрицы и между элементами в матрицах.

Оптимальное решение управления не затрагивается, если в уравнении состояния также появляются аддитивные шоки с нулевым средним значением, если они не коррелируют с параметрами в матрицах A и B. Но если они так коррелированы, то оптимальное управляющее решение для каждого периода содержит дополнительный аддитивный постоянный вектор. Если в уравнении состояния появляется аддитивный постоянный вектор, то снова решение оптимального управления для каждого периода содержит дополнительный аддитивный постоянный вектор.

Стационарная характеристика X (если она существует), имеющая отношение к проблеме бесконечного горизонта, в которой S стремится к бесконечности, может быть найдена путем повторения динамического уравнения для X до тех пор, пока оно не сойдется; тогда X характеризуется удалением индексов времени из динамического уравнения.

Непрерывное время [ править ]

Если модель находится в непрерывном времени, контроллер знает состояние системы в каждый момент времени. Цель состоит в том, чтобы максимизировать либо интеграл, например, вогнутая функция переменного состояния над горизонтом нулевого момента времени (настоящее) от к терминальному времени Т , или функция вогнута из переменного состояния в каком - то дате в будущем T . С течением времени постоянно производятся новые наблюдения, а управляющие переменные постоянно корректируются оптимальным образом.

Прогностический контроль стохастической модели [ править ]

В литературе существует два типа MPC для стохастических систем; Управление с прогнозированием робастной модели и прогнозирующее управление с помощью стохастической модели (SMPC). Робастное управление с прогнозированием модели - это более консервативный метод, который учитывает наихудший сценарий процедуры оптимизации. Однако этот метод, как и другие надежные средства управления, ухудшает общую производительность контроллера и также применим только для систем с ограниченными неопределенностями. Альтернативный метод, SMPC, рассматривает мягкие ограничения, которые ограничивают риск нарушения вероятностным неравенством. [6]

В финансах [ править ]

В подходе с непрерывным временем в контексте финансов переменная состояния в стохастическом дифференциальном уравнении обычно представляет собой богатство или чистую стоимость активов, а средства управления - это акции, размещаемые каждый раз в различных активах. При выборе распределения активов в любой момент определяющими факторами изменения богатства обычно являются стохастическая доходность активов и процентная ставка по безрисковому активу. Область стохастического управления сильно развивалась с 1970-х годов, особенно в ее приложениях к финансам. Роберт Мертон использовал стохастический контроль для изучения оптимальных портфелей безопасных и рискованных активов. [7] Его работа и работа Блэка – Скоулза изменили природу финансов.литература. Влиятельные математические процедуры учебника были по Флемингу и Ришел , [8] и Флеминг и Söner . [9] Эти методы были применены Штейном к финансовому кризису 2007–2008 годов . [10]

Максимизация, скажем, ожидаемого логарифма чистой стоимости на конечную дату T , является предметом случайных процессов для компонентов богатства. [11] В этом случае в непрерывном времени уравнение Ито является основным инструментом анализа. В случае, когда максимизация является интегралом вогнутой функции полезности за горизонт (0, T ), используется динамическое программирование. Не существует достоверной эквивалентности, как в более ранней литературе, потому что коэффициенты управляющих переменных, то есть доходность, получаемая от выбранных акций активов, являются стохастическими.

См. Также [ править ]

  • Стохастический процесс
  • Теория управления
  • Неопределенность множителя
  • Стохастическое планирование

Ссылки [ править ]

  1. ^ Определение с сайта Answers.com
  2. ^ a b c d Чоу, Грегори П. (1976). Анализ и управление динамическими экономическими системами . Нью-Йорк: Вили. ISBN 0-471-15616-7.
  3. ^ a b Турновский, Стивен (1976). «Оптимальные стратегии стабилизации для стохастических линейных систем: случай коррелированных мультипликативных и аддитивных возмущений». Обзор экономических исследований . 43 (1): 191–94. DOI : 10.2307 / 2296614 . JSTOR 2296614 . 
  4. ^ Митчелл, Дуглас В. (1990). «Управляемый чувствительный к риску контроль на основе приблизительной ожидаемой полезности». Экономическое моделирование . 7 (2): 161–164. DOI : 10.1016 / 0264-9993 (90) 90018-Y .
  5. ^ Турновский, Стивен (1974). «Свойства устойчивости оптимальной экономической политики». Американский экономический обзор . 64 (1): 136–148. JSTOR 1814888 . 
  6. ^ Хашемиан; Армау (2017). «Стохастический дизайн MPC для двухкомпонентного процесса гранулирования». Протоколы IEEE : 4386–4391. arXiv : 1704.04710 . Bibcode : 2017arXiv170404710H .
  7. ^ Мертон, Роберт (1990). Непрерывное финансирование . Блэквелл.
  8. ^ Флеминг, В .; Ришель Р. (1975). Детерминированное и стохастическое оптимальное управление . ISBN 0-387-90155-8.
  9. ^ Флеминг, В .; Сонер, М. (2006). Управляемые марковские процессы и вязкостные решения . Springer.
  10. Перейти ↑ Stein, JL (2012). Стохастическое оптимальное управление и финансовый кризис в США . Springer-Science.
  11. ^ Barreiro-Gomez, J .; Тембине, Х. (2019). «Экономика токенов блокчейна: перспектива игры среднего поля» . Доступ IEEE . 7 : 64603–64613. DOI : 10,1109 / ACCESS.2019.2917517 . ISSN 2169-3536 . 

Дальнейшее чтение [ править ]

  • Диксит, Авинаш (1991). "Упрощенное рассмотрение теории оптимального регулирования броуновского движения". Журнал экономической динамики и управления . 15 (4): 657–673. DOI : 10.1016 / 0165-1889 (91) 90037-2 .
  • Юн, Цзюнминь; Чжоу, Сюнь Юй (1999). Стохастические управления: гамильтоновы системы и уравнения HJB . Нью-Йорк: Спрингер. ISBN 0-387-98723-1.