Линеаризация квадратичного функционала и метод проекций нелокального поиска экстремальных управлений
Автор: Срочко В.А., Аксенюшкина Е.В.
Журнал: Вестник Бурятского государственного университета. Математика, информатика @vestnik-bsu-maths
Рубрика: Управляемые системы и методы оптимизации
Статья в выпуске: 2, 2025 года.
Бесплатный доступ
Рассматривается задача оптимального управления относительно линейной системы с квадратичным функционалом общего вида. С помощью матричной функции Габасова проводится линеаризация функционала по фазовым переменным. Для полученной линейной задачи применяется технология принципа максимума, которая на основе нелокальных формул приращения функционала реализуется в рамках метода проекций на множестве допустимых управлений. Метод гарантирует сходимость по невязке принципа максимума и является наиболее экономичной процедурой по трудоемкости: каждое улучшение по функционалу с квадратичной оценкой уменьшения обеспечивается всего лишь одной задачей Коши для фазовой или сопряженной системы.
Линейно-квадратичная задача, линеаризация функционала, нелокальный метод приращений
Короткий адрес: https://sciup.org/148331881
IDR: 148331881 | УДК: 517.977 | DOI: 10.18101/2304-5728-2025-2-3-12
Текст научной статьи Линеаризация квадратичного функционала и метод проекций нелокального поиска экстремальных управлений
Срочко В. А., Аксенюшкина Е. В. Линеаризация квадратичного функционала и метод проекций нелокального поиска экстремальных управлений // Вестник Бурятского государственного университета. Математика, информатика. 2025. № 2. С. 3–12.
1 Постановка задачи
Пусть t G T = [ t o ,t i ] — независимая переменная (время), x ( t ) G Rn — вектор-функция фазовых переменных (состояние), u ( t ) G R — управляющая функция (управление).
Рассмотрим задачу ( P ) минимизации квадратичного функционала
Ф( и ) = | h x ( t i ) ,Dx ( t i ) i +
+| [ ( h x ( t ) ,Qx ( t )) +2 h a,x ( t ) i u ( t ) + u 2 ( t )) dt
2 tt0
на множестве допустимых управлений
U = {uQ g PC(T) : |u(t)| < 1, t G T} относительно линейной системы x = Ax + bu, x(to) = x0.
Здесь D, Q — симметричные матрицы, PC ( T ) — пространство кусочнонепрерывных на T функций.
Проведем преобразование функционала Ф( и ) с целью ликвидации фазовых квадратичных форм в его выражении.
Введем в рассмотрение матричную функцию Габасова Ф( t ) , t G [ t o , t i ] согласно линейному матричному уравнению [2]
Ф( t ) = - A T Ф( t ) - Ф( t ) A - Q, Ф( t 1 ) = D.
Отметим симметричность матрицы Ф( t ) и свойство знакоопределенности: если D > 0 , Q > 0 , то Ф( t ) > 0 , t G T.
Найдем производную по t квадратичной формы hx(t), Ф(t)x(t)i в силу соответствующих уравнений dhx(t), Ф(t)x(t)i = hx(t), W) + ATФ(t) + W)A)x(t)i +
+2 h Ф( t ) b, x ( t ) i u ( t ) = -h x ( t ) , Qx ( t ) i +
+2 h Ф( t ) b, x ( t ) i u ( t ) .
После интегрирования по t ∈ T получаем hx(t1), Dx(t1)i + / hx(t),Qx(t))dt = t0
= h x ( t o ) , ^( t o ) x ( t o ) i +2 / h Ф( t ) b, x ( t ) i u ( t ) dt.
t 0
При этом выражение для функционала принимает вид:
Ф( и ) = 2 h x ( t o ) , Ф( t o ) x ( t o ) i +
+ / ( h a + Ф( t ) b,x ( t ) i u ( t ) + Uu2(t ))dt.
t 0 2
Введем обозначение: c ( t ) = a + ^( t ) b, t G T.
В результате получаем упрощенное представление для функционала (фазовая линеаризация):
ф( и ) = ф(0)+ f1 ( h c ( t ) ,x ( t ) ) u ( t ) + t 0
2 u2 ( t )) dt
вместе с соответствующей линейной задачей
Ф( и ) ^ min, u G U.
Приведем соотношения принципа максимума для задачи (2) : функция Понтрягина —
H(ф, x, u, t) = hф, Ax + bui — hc(t),x)u — 2u2’ сопряженная система — ф = —AT ф + c(t)u, ф(t1) = 0;
максимизирующее управление —
и * ( ф,х,ф = arg max H ( ф,x,u,t' ) = |u|≤ 1
= sat ( h b,ф) — h c ( t), x)).
Здесь функция «насыщения» sat^) (сатуратор [3] ) определяется формулой:
y, | y | < 1 , signy, | y | > 1 .
Понятно, что значение sat ( y ) есть проекция точки y G R на отрезок [ — 1 1] .
Следовательно, проекционная функция и * ( ф,хф ) определяется однозначно и удовлетворяет условию Липшица по переменным ψ, x на множестве R n × R n × T [5] .
Принцип максимума для управления u ∈ U с соответствующими траекториями x ( t,u ) , ф(фи ) фазовой и сопряженной систем определяется выражением:
u ( t ) = и * ( ф (ф и ) ,х (ф и )ф) , t G T (3)
и является в рамках невыпуклой задачи (2) только необходимым условием оптимальности. Управление u ∈ U с условием (3) назовем экстремальным в задаче (2) .
Установим связь между линейно-квадратичной задачей (P) и линейной задачей (2) на уровне соотношений принципа максимума.
Для задачи (P):
сопряженная система относительно вектор-функции p(t) — p = —AT p + Qx + au, p(t1) = —Dx(t1);
операция на максимум функции Понтрягина —
( h p, b i — h a, xi)u — -u 2 ^ max, | u | < 1 .
Для задачи (2) : сопряженная система —
-0 = — AT 0 + au + ^( t ) bu, 0 ( t 1 ) = 0;
операция на максимум функции Понтрягина —
( ( 0, b i — h a, x i — h Ф( t ) b, x i ) u — -u 2 ^ max, | u | < 1 .
Связь между сопряженными вектор-функциями имеет вид
p(t) = 0(t) — ^(t)x(t), t G T и проверяется непосредственно.
Следовательно, задачи на максимум функции Понтрягина совпадают. При этом сопряженная система в линейной задаче (2) не зависит от x .
2 Вспомогательные соотношения
Получим оценку для частного приращения функции Понтрягина
A u , H ( 0, x, u, t ) = H ( 0, x, u * ( 0, x, t ) ,t ) — H ( 0, x, u, t ) .
Согласно свойству проекции u * ( 0,x,t ) имеет место неравенство
[ u * ( 0,x,t ) — ( h b,0 i — h c ( t ) ,x i )]( u * ( 0,x,t ) — u ) < 0 , | u | < 1 .
При этом из определения функции H hb, 0i — hc(t),xi = Hu(0, x, u, t) + u.
Следовательно,
H u ( 0,x,u,t )( u * ( 0,x,t ) — u ) > ( u * ( 0,x,t ) — u)2, | u | < 1 .
Отсюда, используя представление
Au,H(ф,x,u,t') = Hu(ф,x,u,t)(u^(ф,x,t) - u) - 2(u*^,x,t) - u)2, получаем итоговую оценку для частного приращения функции H(ф, x, u, t)
A u , H ( ф, x, u, t ) > |( иДф, x, t ) - u ) 2 , (4)
ф G R n , x G Rn, t G T, \ u \ < 1 .
Метод отыскания экстремальных управлений определяется двумя процедурами решения фазовой или сопряженной систем на основе H -максимизирующего отображения ^(ф, x,t ) .
Процедура 1 . Пусть u ( t ) — допустимое управление с фазовой траекторией x ( t,u ) , t G T .
Найдем решение ф(Ф) сопряженной системы ф = -ATф + c(t)u*(ф, x(t, u),t), ф(t1) = 0
вместе с управлением v ( t ) = u * ( ф ( t ) , x ( t,u ) ,t ) , при этом ф(ф = ф ( t,v ) , t ∈ T.
Результат: допустимое управление v ( t ) = u * ( ф ( t,v ) ,x ( t,u ) ,t ) с сопряженной траекторией ф ( t,v ) .
Процедура 2 . Пусть u ( t ) — допустимое управление с сопряженной траекторией ф ( t,u ) , t G T .
Найдем решение x(t) фазовой системы x = Ax + bu*^(t,u),x,t), x(to) = x0
вместе с управлением v ( t ) = u*^ ( t,u ) , x ( t ) ,t ) , при этом x ( t ) = x ( t,v).
Результат: допустимое управление v ( t ) = u * ( ф ( t,u ) , x ( t,v ) ,t ) с фазовой траекторией x ( t, v ) .
Для компактной формализации представим данные процедуры схематично:
( v ( t ) , ф ( t, v )) = P 1 ( u ( t ) ,x ( t, и )) , ( v ( t ) , x ( t, v )) = P 2 ( u ( t ) ,ф ( t, u )) .
Укажем общие свойства описанных процедур.
-
1. Вычислительная трудоемкость: одна задача Коши для сопряженной или фазовой систем (глобальное решение ф ( t,v ) или x ( t,v) существует и единственно в силу глобального условия Липшица для функции u * ( ф, x, t ) ).
-
2. Условие совпадения v ( t ) = u ( t ) , t G T означает, что управление u ( t ) является экстремальным.
-
3. На основании общей оценки (4) для частного приращения функции H ( ^,x,u,t ) получаем следующие неравенства:
-
△ v ( t ) H ( ^ (t ,v ) ,x ( t,u ) ,u (t) ,t ) > |( v ( t ) - u ( t )) 2 (5)
(первая процедура),
-
△ v ( t ) H ( ^ (t ,u ) ,x ( t,v ) ,u (t) ,t ) > |( v ( t ) - u ( t )) 2 (6)
(вторая процедура).
Построим итерационный метод поиска экстремальных управлений в задаче (2) со свойством нелокального улучшения по функционалу и наименьшей вычислительной трудоемкостью на итерацию по числу задач Коши.
3 Метод проекций
Теоретическую основу метода составляет симметричная пара формул приращения функционала Ф на управлениях u,v G U с траекториями x ( t, u ) , x ( t, v ) , ^ ( t, u ) , ^ ( t, v ) [4]
Ф( v )
-
Ф( и ) = - / t 1
t 0
^ v(t) H ( ^ ( t,v' ) , x ( t, u ) , u ( t ) , t ) dt,
Ф( v )
-
Ф( и ) = - [t1
t 0
^ v(t) H ( ^ ( t, u ) , x ( t, v ) , u ( t ) , t ) dt.
Эти представления определяют, в первую очередь, правило построения управления v ( • ) через операцию на максимум функции H с целью обеспечения неравенства Ф( v ) — Ф( и ) < 0 для данного управления u0.
При этом естественным образом используются обе представленные ранее процедуры. Проведем описание метода в безындексном формате.
Пусть получена пара ( u ( t ) , x ( t,u)). Применяя первую процедуру, найдем пару ( v ( t ) , ^ ( t,v )) .
Применяя вторую процедуру для ( v ( t ) , ^ ( t, v )) , находим следующую пару ( w ( t ) , x ( t,w)). Итерационный цикл завершен.
Схема итерации имеет вид:
( u (t) , x ( t,u )) ^ P i ( u ( t ) ,x ( t,u )) = ( v ( t ) ,^ ( t,v )) ^
^ P 2 ( v(t'),^ ( t,v' )') = ( w ( t ) ,x ( t,w' )') .
Укажем характеризацию каждой процедуры с точки зрения функционала Ф .
На основании формулы (7) и неравенства (5) получаем оценку уменьшения функционала Ф после первой процедуры
Ф( v ) — Ф( и ) <
-
1 t11, ~ (v(t) - u ( t )) dt.
2 Jto
Аналогично формула (8) и неравенство (6) после замены u ⇒ v , v ⇒ w приводят к оценке уменьшения после второй процедуры
Ф( w ) — Ф( v ) <
-
1 t 1
ч ( wt - v ( t ))2 dt.
2 J io
Таким образом, в рамках итерации ( u ^ v ^ w ) реализуется двойное улучшение функционала Ф с оценками (9) , (10) . При этом стоимость каждого улучшения – одна задача Коши для сопряженной или фазовой системы.
Из (9) , (10) получаем оценку снизу
Ф( и )
-
1 t 1
Ф( и ) - 2 к
[( v ( t ) — u ( t )) 2 + ( w ( t )
— v ( t )) 2 ] dt.
Если Ф( и ) — Ф( w ) = 0 , то u ( t ) = v ( t ) = w ( t ) , t G T и управление u ( t ) является экстремальным.
Следовательно, величина приращения [Ф( и ) — Ф( w )] может служить невязкой принципа максимума для управления u0.
Завершим презентацию метода стандартной формализацией с индексом к = 1 , 2 ...
( uk ( t ) , x ( t,uk )) ^ P 1 ( uk ( t ) ,x ( t,uk )) = ( v k ( t ) ,^ ( t,vk )) ^
^ P 2 ( v k ( tU ( t, v k )) = ( u k+1 ( t ) , x ( t, u )) .
Оценка улучшения по функционалу:
Ф( u k+1 ) — Ф( u k ) <
t 1
- [( v k ( t ) — u k ( t )) 2 + ( u k+1 ( t ) — v k (t.))2]dt.
-
2 Jh
Невязка принципа максимума для управления u k ( • ) : 8 k = Ф( u k ) — — Ф( u k + 1 ) .
В условиях задачи (2) множество фазовых траекторий { x ( t,u ) , u G U } ограничено. Следовательно, функционал Ф( и ) ограничен на множестве U , т. е. монотонная последовательность { Ф( u k ) , к = 1 , 2 ,... } является сходящейся. В результате имеет место сходимость метода проекций по невязке принципа максимума: 8 k ^ 0 , к ^ от .
Усиление результата по сходимости допустимо для выпуклой задачи, которая определяется функционалом (1) с условиями a = 0, D > 0, Q > 0.
В этом случае принцип максимума приобретает свойство достаточного условия оптимальности и последовательность { Ф( и к ) , к = 1 , 2 ,... } метода проекций сходится по невязке оптимальности (является минимизирующей): Ф( и к ) — Ф( и * ) ^ 0 , к ^ то , где и * — оптимальное управление.
Заключение
Представлена численно-аналитическая технология решения линейноквадратичной задачи оптимального управления, которая определяется следующими фрагментами:
-
1) фазовая линеаризация функционала на основе матричной функции Габасова с редукцией к линейной задаче оптимального управления;
-
2) последовательное использование двух формул приращения функционала для построения двухэтапного метода с операцией на максимум функции Понтрягина;
-
3) корректность метода по части интегрирования дифференциальных систем (существование и единственность глобального решения) гарантируется условием Липшица для оператора проецирования;
-
4) экономичность метода обусловлена минимальными затратами на каждое улучшение по функционалу — одна задача Коши;
-
5) метод ориентирован на поиск экстремальных управлений и сходится по невязке принципа максимума.
Альтернативные интерпретации и модификации проекционных методов нелокального улучшения на уровне билинейных систем рассмотрены в [1] .