Об одном подходе к улучшению управления в системах с ограничениями на основе задачи о неподвижной точке
Автор: Трунин Д.О., Федоров А.Ю., Мижидон А.Д., Анахин В.Д.
Журнал: Вестник Бурятского государственного университета. Математика, информатика @vestnik-bsu-maths
Рубрика: Управляемые системы и методы оптимизации
Статья в выпуске: 4, 2024 года.
Бесплатный доступ
Для улучшения управления в классе нелинейных задач оптимального управления с терминальными ограничениями конструируется специальная задача о неподвижной точке. Для решения задачи о неподвижной точке строится итерационный метод. Предлагаемый метод последовательных приближений с сохранением всех терминальных ограничений на каждой итерации не использует трудоемкую операцию параметрического варьирования управлений, характерную для градиентных методов.
Управляемая система с ограничениями, нелокальное улучшение управления, задача о неподвижной точке, итерационный метод
Короткий адрес: https://sciup.org/148330327
IDR: 148330327 | DOI: 10.18101/2304-5728-2024-4-69-77
Текст научной статьи Об одном подходе к улучшению управления в системах с ограничениями на основе задачи о неподвижной точке
Задачи оптимизации управляемых систем с ограничениями часто возникают в приложениях, в частности, при моделировании процессов в физике и механике, химии и биологии, экономике и др.
Следует отметить, что основная масса методов решения задач оптимального управления системами обыкновенных дифференциальных уравнений ориентирована на задачу оптимального управления со свободным правым концом (основная задача оптимального управления). В такой задаче управления присутствуют только поточечные ограничения на управления при отсутствии других дополнительных ограничений и единственный (целевой) функционал. В целом, теоретический и методологический аппарат для решения таких задач достаточно хорошо разработан.
К решению задач оптимизации управления при наличии дополнительных ограничений часто применяется редукция к основной задаче оптимального управления на основе подхода штрафов, нагруженных функционалов и др. с последующим применением стандартных методов решения задач без ограгничений [4]. Недостатком такого подхода является достаточно сложная структура возникающего целевого функционала . Кроме того, итерационные процессы на основе подхода внешних штрафов, как правило, порождают последовательность недопустимых управ -лений в исходной задаче с ограничениями, что не позволяет эффективно решать задачу улучшения допустимого управления.
В работах В. А. Срочко [4] и А. С. Булдаева [1] строятся специализированные методы нелокального улучшения допустимого управления , свободные от операции варьирования для основной задачи оптимального управления. Здесь нелокальность улучшения достигается за счет решения специальных задач Коши и краевых задач улучшения. К решению последних в [1] применяется подход возмущений.
В работе [2] для основной задачи оптимального конструируются специальные методы нелокального улучшения управлений. Специфика возникающих задач улучшения позволила сформулировать их как задачи о неподвижной точке оператора управления, для решения которой модифицируются методы неподвижных точек [3].
В статье [5] проведено обобщение методов [2] обобщаются на нелинейные по состоянию задачи оптимального управления при наличии дополнительного терминального ограничения.
В данной статье для нелокального улучшения допустимых управлений в системах с ограничениями конструируется новая процедура на основе альтернативной формулы приращения. Задача улучшения также формулируется как задача о неподвижной точке и предлагается метод ее решения.
1 Постановка задачи
Рассматривается нелинейная по состоянию и линейная по управлению задача оптимального управления с терминальным ограничением-равенством xc = A(x,t)u + b(x,t), t gT = [10, t1 ], x(10) = x°, u(t) g U c Rr, t gT,(1) Фо(u) = ф(x(t,)) + £[(d(x,t),u) + g(x,t)]dt ^ min, (2)
Ф , ( u ) = x ( x ( t , ) ) = 0. (3)
Используются стандартные обозначения.
x = ( x,( t), x 2( t),..., xn (t)) — вектор состояния, u = ( u1( t), u 2( t),..., ur (t)) — вектор управления, интервал времени T фиксирован, начальное состояние x0 g Rn задано.
Функции A ( x , t ), b ( x , t ), d ( x , t ) и g ( x , t ) нелинейны и дифференцируемы по x и непрерывны по t на множестве Rn х T ; функции ф ( x ) и Х ( x ) нелинейны и дифференцируемы по x ; U c Rr — выпуклое компактное множество.
Множество доступных управлений:
V = { u g PCr ( T ): u ( t ) g U , t g t } .
Пусть v g V . Обозначим x ( t , v ), t g T — решение задачи Коши (1) при u = v ( t ), t g T (соответствующая фазовая траектория).
Множество допустимых управлений
W = { u g V : x ( x ( 1 1 , u ) ) = 0 } .
В силу линейности по u задачи (1)-(3) функция Понтрягина принимает вид:
H ( p , x , u , t ) = H 0 ( p , x , t ) + ( H i ( p , x , t ), u) , где H 0 ( p , x , t ) = ( p , b ( x , t )) - g ( x , t ), H i ( p , x , t ) = A ( x , t ) T p - d ( x , t ). Рассмотрим регулярный функционал Лагранжа:
L ( u , Л ) = Ф 0( u ) + Л Ф 1 ( u ), Ag R .
Пусть ( u0,v ) — пара доступных управлений в задаче (1)-(3).
Имеет место [2] следующая точная альтернативная формула приращения функционала Лагранжа:
Д v L ( u °, Л ) = 4 ( H i( p ( t , v , u °, Л ),x ( t , u 0), t ), v ( t ) - u 0( t Й dt , (4)
T где p (t, v, u0, A), t e T — решение модифицированной дифференциально- алгебраической сопряженной системы p = -Hx (P, x(t, v), v(t), t)- r(t),
( Hx ( p , x ( t , v ), v ( t ), t ) , x ( t , u °) - x ( t , v )^ + (r ( t ), x ( t , u °) - x ( t , v )} = = H ( p , x ( t , u 0), v ( t ), t ) - H ( p , x ( t , v ), v ( t ), t ) ,
p ( t i ) = -? x ( x ( t i , v ) ) - AX x ( x ( t i , v ) ) - q ,
(V x ( x ( t i , v ) ) + AX x ( x ( 1 1 , v ) ) , x ( 1 1 , u °) - x ( t i , v )} + qq , x ( t i , u °) - x ( 1 1 , v )} = = v ( x ( t i , u °) ) - v ( x ( t i , v ) ) + a ( x ( x ( t i , u °) ) - x ( x ( t i , v ) ) ) .
Для управления u0 e V и фиксированного параметра a > 0 образуем вектор-функцию ua (p,x,t) = PU (u0(t) + aHi(p,x,t)), p e Rn, x e Rn, a > 0, t g T, где PU — оператор проектирования на множество U в евклидовой норме.
В этом случае известна [i, 4] оценка приращения функционала Лагранжа
А v L ( u °, A ) <- 0- j T\\ u a ( p , x , t ) - u °( t )||2 dt . (9)
Для управления u 0 e W поставим задачу найти управление v e W такое, что
Ф о ( v ) <Ф о ( u °). (i0)
Для решения задачи (i0) можно решить [2] при некотором a > 0 систему функциональных уравнений v (t) = ua (p (t, v, u °, A), x (t, u °), t), t e T, Ae R, x( x (ti, v) ) = 0.
(ii)
Нетрудно показать, что для решения (ii) в силу (9) имеет место оценка улучшения функционала Ф 0 ( v e W )
А v Ф 0( u °) <- 1 f T| v ( t ) - u °( t )f dt . (i2)
Из оценки (i2) следует, что, если управления u0 и v не совпадают, то обеспечивается строгое улучшение целевого функционала.
2 Итерационный метод
Для решения системы (11) при фиксированном a > 0 предлагается модификация метода простой итерации [5] при k > 0 :
vk + 1( t ) = u a ( p ( t, vk, u 0, Л ), x ( t, u °), t ), t е T, Ле R, x ( x ( t i , vk + 1) ) = 0.
Начальным приближением процесса (13) может служить доступное (не обязательно допустимое) управление v0 е V . Главной особенностью предлагаемого итерационного алгоритма является подбор параметра Ле R на каждой итерации при к > 1 для удовлетворения ограничения (3). Предполагается, что такая возможность существует.
Особенностью алгоритма (13) является выполнение ограничения (3) на каждой итерации процесса последовательных приближений управления.
Сходимость предлагаемого итерационного процесса регулируется выбором параметра проектирования a > 0 и может быть обоснована на основе метода возмущений и принципа сжимающих отображений аналогично [2] при достаточно малых значениях a > 0.
Итерационный процесс (13) применяется до первого улучшения управления u 0 . Далее строится новая задача улучшения для полученного управления и процесс повторяется. Критерием остановки итераций улучшения управления является отсутствие строгого улучшения управления по целевому функционалу.
Пример 1.
3 Примеры x = u, t е Т = [0, 1], \и(t)| < 1, t eT, x (0) = 1,
Ф 0 ( и ) = j x ( и - 1) dt ^ min,
Ф 1 ( и ) = x (1) - 1 = 0.
Рассмотрим управление и 0( t ) = 0, t е T , x ( t , и °) = 1, t е T ,
Ф 0( и °) = - 1. (допустимое управление)
Функция Понтрягина
H = ри - x (и -1) = (p - x) и + x, H0 = x, H 1 = p - x.
Положим значение параметра проектирования a = 1. Тогда отображе ние иа принимает вид
'1, р - x > 1, иа (р,x) = ^-1, р - x <-1,
р - x, -1 < р - x < 1.
Сопряженная система (5)-(8) принимает вид
Р = v - 1, Р (1) = - A .
Начальное приближение процесса (13) — доступное управление V °( t ) ^- 1, t G T .
Соответствующая сопряженная система принимает вид p = -2, p(1) = -A.
Ее решение pA(t) = -21 + 2-A, t gT.
Предположим |pA (t) - x(t,u0)| = |-21 +1 - A| < 1, t g T. Сформируем вспомогательное управление vz (t) = p*(t) - x(t,u°) = -21 +1 - A, t g T.
Получим следующую задачу Коши для фазовой системы x = -21 +1 - A, x(0) = 1.
Ее решение
x ( t , V A ) = - 1 2 + ( 1 - A ) t + 1, t G T .
Для множителя A g R получаем уравнение x (1, vA) = 1, откуда
A = 0.
Таким образом, pA(t) = -21 + 2, t gT
(условие | p A ( t ) - x ( t , u 0)| = |- 2 1 + 1| < 1, t g T выполнено).
Соответствующее выходное управление v имеет вид v (t) = -21 +1, t g T.
Фазовая траектория x (t, V) = -12 + t + 1, t G T и значение целевого функционала
Ф о( V ) = - 7< Ф о( u °) = - 1.
Пример 2.
Данный пример иллюстрирует возможность строгого улучшения до -пустимого управления, удовлетворяющего принципу максимума.
x = u , t g T = [ 0, n ] , x (0) = 0, | u ( t )| < 4, t g T ,
П
Ф 0 ( u ) = - j x2dt ^ min,
Ф 1( u ) = x ( n ) = 0.
Рассмотрим u 0( t ) = 0, t e T. При этом x ( t,u °) = 0, t e T, Ф 0( u °) = 0.
Нетрудно видеть, что допустимое управление и 0 удовлетворяет принципу максимума (особое управление)
В данном случае имеем
H — pu + x 2, H 0 — x 2, H j — p .
Положим a — J. Отображение ua [4, p > 4, ua (P) = i-4, P<-4, p, - 4 < p < 4.
Сопряженная система (5)-(8) имеет вид p — - x ( t , v ) - x ( t , u °), t e T , p ( п ) — - A .
Начальное приближение — доступное управление v 0( t ) = J, t e T .
Фазовая траектория x ( t , v °) = t , t e T .
Имеем p — -1, t e T, p (п) — -A.
Отсюда pA (t) = -t— + n— A, t e T. 2 2
Предположим | p A ( t )| < 4, t e T . Сформируем вспомогательное управление
/ 2 л-2 vA (t) = pA (t) = -- + — - A, t e T.
Получим следующую задачу Коши для фазовой системы t2
x = -у + П - A, x (0) = 0.
Ее решение
13 x(t,vA) —--+--A \t, t e T. 6I 2 J Для множителя Ae R имеем x (n, vA) = 0, и А- П2 A —-- . Тогда 22 pλ(t)=-t+π,t∈T (условие I pλ(t) I ≤4, t∈T выполнено). Таким образом, выходное управление v имеет вид 22 v(t)=-t+π ,t∈T и строго улучшает исходное управление u0 Φ0(v)=-9245π7≈-6.392<Φ0(u0)=0. Заключение В заключение отметим основные свойства предлагаемой процедуры 1. Нелокальность улучшения, отсутствие варьирования, характерного для большинства стандартных методов. 2. Выполнение ограничения на каждой итерации, что позволяет эффективно решать задачу улучшения допустимого управления.
Список литературы Об одном подходе к улучшению управления в системах с ограничениями на основе задачи о неподвижной точке
- Булдаев А. С. Методы возмущений в задачах улучшения и оптимизации управляемых систем. Улан-Удэ: Изд-во Бурят. гос. ун-та, 2008. 260 с. EDN: QJTUXH
- Булдаев А. С. Методы неподвижных точек на основе операции проектирования в задачах оптимизации управляющих функций и параметров // Вестник Бурятского государственного университета. Математика, информатика. 2017. № 1. С. 38-54.
- Самарский А. А., Гулин А. В. Численные методы. Москва: Наука, 1989. 432 с.
- Срочко В. А. Итерационные методы решения задач оптимального управления. Москва: Физматлит, 2000. 160 с. EDN: UGLHZZ
- Трунин Д. О. Проекционные методы улучшения управлений в нелинейных управляемых системах с терминальными ограничениями // Дифференциальные уравнения и оптимальное управление. Итоги науки и техн. Сер. Соврем. мат. и ее прил. Темат. обз. 2023. Т. 224. С. 142-149. EDN: ARYNXN