Линеаризация квадратичного функционала и метод проекций нелокального поиска экстремальных управлений

Автор: Срочко В.А., Аксенюшкина Е.В.

Журнал: Вестник Бурятского государственного университета. Математика, информатика @vestnik-bsu-maths

Рубрика: Управляемые системы и методы оптимизации

Статья в выпуске: 2, 2025 года.

Бесплатный доступ

Рассматривается задача оптимального управления относительно линейной системы с квадратичным функционалом общего вида. С помощью матричной функции Габасова проводится линеаризация функционала по фазовым переменным. Для полученной линейной задачи применяется технология принципа максимума, которая на основе нелокальных формул приращения функционала реализуется в рамках метода проекций на множестве допустимых управлений. Метод гарантирует сходимость по невязке принципа максимума и является наиболее экономичной процедурой по трудоемкости: каждое улучшение по функционалу с квадратичной оценкой уменьшения обеспечивается всего лишь одной задачей Коши для фазовой или сопряженной системы.

Еще

Линейно-квадратичная задача, линеаризация функционала, нелокальный метод приращений

Короткий адрес: https://sciup.org/148331881

IDR: 148331881 | УДК: 517.977 | DOI: 10.18101/2304-5728-2025-2-3-12

Текст научной статьи Линеаризация квадратичного функционала и метод проекций нелокального поиска экстремальных управлений

Срочко В. А., Аксенюшкина Е. В. Линеаризация квадратичного функционала и метод проекций нелокального поиска экстремальных управлений // Вестник Бурятского государственного университета. Математика, информатика. 2025. № 2. С. 3–12.

1 Постановка задачи

Пусть t G T = [ t o ,t i ] — независимая переменная (время), x ( t ) G Rⁿ — вектор-функция фазовых переменных (состояние), u ( t ) G R — управляющая функция (управление).

Рассмотрим задачу ( P ) минимизации квадратичного функционала

Ф( и ) = | h x ( t i ) ,Dx ( t i ) i +

+| [ ( h x ( t ) ,Qx ( t )) +2 h a,x ( t ) i u ( t ) + u ² ( t )) dt

2 tt0

на множестве допустимых управлений

U = {uQ g PC(T) : |u(t)| < 1, t G T} относительно линейной системы x = Ax + bu, x(to) = x0.

Здесь D, Q — симметричные матрицы, PC ( T ) — пространство кусочнонепрерывных на T функций.

Проведем преобразование функционала Ф( и ) с целью ликвидации фазовых квадратичных форм в его выражении.

Введем в рассмотрение матричную функцию Габасова Ф( t ) , t G [ t o , t i ] согласно линейному матричному уравнению [2]

Ф( t ) = - A T Ф( t ) - Ф( t ) A - Q, Ф( t ₁ ) = D.

Отметим симметричность матрицы Ф( t ) и свойство знакоопределенности: если D > 0 , Q > 0 , то Ф( t ) > 0 , t G T.

Найдем производную по t квадратичной формы hx(t), Ф(t)x(t)i в силу соответствующих уравнений dhx(t), Ф(t)x(t)i = hx(t), W) + ATФ(t) + W)A)x(t)i +

+2 h Ф( t ) b, x ( t ) i u ( t ) = -h x ( t ) , Qx ( t ) i +

+2 h Ф( t ) b, x ( t ) i u ( t ) .

После интегрирования по t ∈ T получаем hx(t1), Dx(t1)i + / hx(t),Qx(t))dt = t0

= h x ( t o ) , ^( t o ) x ( t o ) i +2 / h Ф( t ) b, x ( t ) i u ( t ) dt.

t 0

При этом выражение для функционала принимает вид:

Ф( и ) = 2 h x ( t o ) , Ф( t o ) x ( t o ) i +

+ / ( h a + Ф( t ) b,x ( t ) i u ( t ) + Uu²(t ))dt.

t 0 2

Введем обозначение: c ( t ) = a + ^( t ) b, t G T.

В результате получаем упрощенное представление для функционала (фазовая линеаризация):

ф( и ) = ф(0)+ f¹ ( h c ( t ) ,x ( t ) ) u ( t ) + t 0

2 u² ⁽ ^t )) ^dt

вместе с соответствующей линейной задачей

Ф( и ) ^ min, u G U.

Приведем соотношения принципа максимума для задачи (2) : функция Понтрягина —

H(ф, x, u, t) = hф, Ax + bui — hc(t),x)u — 2u2’ сопряженная система — ф = —AT ф + c(t)u, ф(t1) = 0;

максимизирующее управление —

и * ( ф,х,ф = arg max H ( ф,x,u,t' ) = |u|≤ 1

= sat ( h b,ф) — h c ( t), x)).

Здесь функция «насыщения» sat^) (сатуратор [3] ) определяется формулой:

y, | y | < 1 , signy, | y | > 1 .

Понятно, что значение sat ( y ) есть проекция точки y G R на отрезок [ ^— 1 ^1] .

Следовательно, проекционная функция и * ( ф,хф ) определяется однозначно и удовлетворяет условию Липшица по переменным ψ, x на множестве R ⁿ × R ⁿ × T [5] .

Принцип максимума для управления u ∈ U с соответствующими траекториями x ( t,u ) , ф(фи ) фазовой и сопряженной систем определяется выражением:

u ( t ) = и * ( ф (ф и ) ,х (ф и )ф) , t G T (3)

и является в рамках невыпуклой задачи (2) только необходимым условием оптимальности. Управление u ∈ U с условием (3) назовем экстремальным в задаче (2) .

Установим связь между линейно-квадратичной задачей (P) и линейной задачей (2) на уровне соотношений принципа максимума.

Для задачи (P):

сопряженная система относительно вектор-функции p(t) — p = —AT p + Qx + au, p(t1) = —Dx(t1);

операция на максимум функции Понтрягина —

( h p, b i — h a, xi)u — -u ² ^ max, | u | < 1 .

Для задачи (2) : сопряженная система —

-0 = — A^T 0 + au + ^( t ) bu, 0 ( t 1 ) = 0;

операция на максимум функции Понтрягина —

( ( 0, b i — h a, x i — h Ф( t ) b, x i ) u — -u ² ^ max, | u | < 1 .

Связь между сопряженными вектор-функциями имеет вид

p(t) = 0(t) — ^(t)x(t), t G T и проверяется непосредственно.

Следовательно, задачи на максимум функции Понтрягина совпадают. При этом сопряженная система в линейной задаче (2) не зависит от x .

2 Вспомогательные соотношения

Получим оценку для частного приращения функции Понтрягина

A u , H ( 0, x, u, t ) = H ( 0, x, u * ( 0, x, t ) ,t ) — H ( 0, x, u, t ) .

Согласно свойству проекции u * ( 0,x,t ) имеет место неравенство

[ u * ( 0,x,t ) — ( h b,0 i — h c ( t ) ,x i )]( u * ( 0,x,t ) — u ) < 0 , | u | < 1 .

При этом из определения функции H hb, 0i — hc(t),xi = Hu(0, x, u, t) + u.

Следовательно,

H u ( 0,x,u,t )( u * ( 0,x,t ) — u ) > ( u * ( 0,x,t ) — u)², | u | < 1 .

Отсюда, используя представление

Au,H(ф,x,u,t') = Hu(ф,x,u,t)(u^(ф,x,t) - u) - 2(u*^,x,t) - u)2, получаем итоговую оценку для частного приращения функции H(ф, x, u, t)

A u , H ( ф, x, u, t ) > |( иДф, x, t ) - u ) 2 , (4)

ф G R n , x G Rⁿ, t G T, \ u \ < 1 .

Метод отыскания экстремальных управлений определяется двумя процедурами решения фазовой или сопряженной систем на основе H -максимизирующего отображения ^(ф, x,t ) .

Процедура 1 . Пусть u ( t ) — допустимое управление с фазовой траекторией x ( t,u ) , t G T .

Найдем решение ф(Ф) сопряженной системы ф = -ATф + c(t)u*(ф, x(t, u),t), ф(t1) = 0

вместе с управлением v ( t ) = u * ( ф ( t ) , x ( t,u ) ,t ) , при этом ф(ф = ф ( t,v ) , t ∈ T.

Результат: допустимое управление v ( t ) = u * ( ф ( t,v ) ,x ( t,u ) ,t ) с сопряженной траекторией ф ( t,v ) .

Процедура 2 . Пусть u ( t ) — допустимое управление с сопряженной траекторией ф ( t,u ) , t G T .

Найдем решение x(t) фазовой системы x = Ax + bu*^(t,u),x,t), x(to) = x0

вместе с управлением v ( t ) = u*^ ( t,u ) , x ( t ) ,t ) , при этом x ( t ) = x ( t,v).

Результат: допустимое управление v ( t ) = u * ( ф ( t,u ) , x ( t,v ) ,t ) с фазовой траекторией x ( t, v ) .

Для компактной формализации представим данные процедуры схематично:

⁽ ^v ⁽ ^t ⁾ , ^ф ⁽ ^{t, v} ⁾⁾ = P 1 ⁽ ^u ⁽ ^t ⁾ ^,x ⁽ ^t, и )) , ⁽ ^v ⁽ ^t ⁾ , ^x ⁽ ^t, ^v ⁾⁾ = P 2 ⁽ ^u ⁽ ^t ⁾ ^,ф ⁽ ^{t, u} ⁾⁾ .

Укажем общие свойства описанных процедур.

1. Вычислительная трудоемкость: одна задача Коши для сопряженной или фазовой систем (глобальное решение ф ( t,v ) или x ( t,v) существует и единственно в силу глобального условия Липшица для функции u * ( ф, x, t ) ).
2. Условие совпадения v ( t ) = u ( t ) , t G T означает, что управление u ( t ) является экстремальным.
3. На основании общей оценки (4) для частного приращения функции H ( ^,x,u,t ) получаем следующие неравенства:

△ v ( t ) ^H ⁽ ^ ⁽t ^,v ⁾ ^,x ⁽ ^t,u ⁾ ^,u ⁽t⁾ ^,t ⁾ > |⁽ ^v ⁽ ^t ⁾ - ^u ⁽ ^t ⁾⁾ ² ⁽⁵⁾

(первая процедура),

△ v ( t ) ^H ⁽ ^ ⁽t ^,u ⁾ ^,x ⁽ ^t,v ⁾ ^,u ⁽t⁾ ^,t ⁾ > |⁽ ^v ⁽ ^t ⁾ - ^u ⁽ ^t ⁾⁾ ² ⁽⁶⁾

(вторая процедура).

Построим итерационный метод поиска экстремальных управлений в задаче (2) со свойством нелокального улучшения по функционалу и наименьшей вычислительной трудоемкостью на итерацию по числу задач Коши.

3 Метод проекций

Теоретическую основу метода составляет симметричная пара формул приращения функционала Ф на управлениях u,v G U с траекториями x ( t, u ) , x ( t, v ) , ^ ( t, u ) , ^ ( t, v ) [4]

Ф( v )

Ф( и ) = - / t 1

t 0

^ v(t) ^H ⁽ ^ ⁽ ^t,v' ) , ^x ⁽ ^t, ^u ⁾ , ^u ⁽ ^t ⁾ , ^t ⁾ ^dt,

Ф( v )

Ф( и ) = - [t¹

t 0

^ v(t) H ( ^ ( t, u ) , x ( t, v ) , u ( t ) , t ) dt.

Эти представления определяют, в первую очередь, правило построения управления v ( • ) через операцию на максимум функции H с целью обеспечения неравенства Ф( v ) — Ф( и ) < 0 для данного управления u0.

При этом естественным образом используются обе представленные ранее процедуры. Проведем описание метода в безындексном формате.

Пусть получена пара ( u ( t ) , x ( t,u)). Применяя первую процедуру, найдем пару ( v ( t ) , ^ ( t,v )) .

Применяя вторую процедуру для ( v ( t ) , ^ ( t, v )) , находим следующую пару ( w ( t ) , x ( t,w)). Итерационный цикл завершен.

Схема итерации имеет вид:

( u (t) , x ( t,u )) ^ P i ( u ( t ) ,x ( t,u )) = ( v ( t ) ,^ ( t,v )) ^

^ P 2 ( v(t'),^ ( t,v' )') = ( w ( t ) ,x ( t,w' )') .

Укажем характеризацию каждой процедуры с точки зрения функционала Ф .

На основании формулы (7) и неравенства (5) получаем оценку уменьшения функционала Ф после первой процедуры

Ф( v ) — Ф( и ) <

1 t¹¹, ~ ^(v(t) - ^u ⁽ t ⁾⁾ ^dt.

2 Jto

Аналогично формула (8) и неравенство (6) после замены u ⇒ v , v ⇒ w приводят к оценке уменьшения после второй процедуры

Ф( w ) — Ф( v ) <

1 t 1

ч ( wt - ^v ⁽ t ⁾⁾² dt.

2 J io

Таким образом, в рамках итерации ( u ^ v ^ w ) реализуется двойное улучшение функционала Ф с оценками (9) , (10) . При этом стоимость каждого улучшения – одна задача Коши для сопряженной или фазовой системы.

Из (9) , (10) получаем оценку снизу

Ф( и )

1 ^t ¹

^Ф( ^и ⁾ - 2 к

[⁽ ^v ⁽ ^t ⁾ ^{— u} ⁽ ^t ⁾⁾ ² + ⁽ ^w ⁽ ^t ⁾

— v ( t )) ² ] dt.

Если Ф( и ) — Ф( w ) = 0 , то u ( t ) = v ( t ) = w ( t ) , t G T и управление u ( t ) является экстремальным.

Следовательно, величина приращения [Ф( и ) — Ф( w )] может служить невязкой принципа максимума для управления u0.

Завершим презентацию метода стандартной формализацией с индексом к = 1 , 2 ...

( u^k ( t ) , x ( t,u^k )) ^ P 1 ( u^k ( t ) ,x ( t,u^k )) = ( v ^k ( t ) ,^ ( t,v^k )) ^

^ P 2 ( v ^k ( tU ( t, v ^k )) = ( u ^k+1 ( t ) , x ( t, u )) .

Оценка улучшения по функционалу:

Ф( u ^k+1 ) — Ф( u ^k ) <

t 1

- [( v ^k ( t ) — u ^k ( t )) ² + ( u ^k+1 ( t ) — v ^k (t.))²]dt.

² Jh

Невязка принципа максимума для управления u ^k ( • ) : 8 k = Ф( u ^k ) — — Ф( u ^k + ¹ ) .

В условиях задачи (2) множество фазовых траекторий { x ( t,u ) , u G U } ограничено. Следовательно, функционал Ф( и ) ограничен на множестве U , т. е. монотонная последовательность { Ф( u ^k ) , к = 1 , 2 ,... } является сходящейся. В результате имеет место сходимость метода проекций по невязке принципа максимума: 8 k ^ 0 , к ^ от .

Усиление результата по сходимости допустимо для выпуклой задачи, которая определяется функционалом (1) с условиями a = 0, D > 0, Q > 0.

В этом случае принцип максимума приобретает свойство достаточного условия оптимальности и последовательность { Ф( и ^к ) , к = 1 , 2 ,... } метода проекций сходится по невязке оптимальности (является минимизирующей): Ф( и ^к ) — Ф( и * ) ^ 0 , к ^ то , где и * — оптимальное управление.

Заключение

Представлена численно-аналитическая технология решения линейноквадратичной задачи оптимального управления, которая определяется следующими фрагментами:

1) фазовая линеаризация функционала на основе матричной функции Габасова с редукцией к линейной задаче оптимального управления;
2) последовательное использование двух формул приращения функционала для построения двухэтапного метода с операцией на максимум функции Понтрягина;
3) корректность метода по части интегрирования дифференциальных систем (существование и единственность глобального решения) гарантируется условием Липшица для оператора проецирования;
4) экономичность метода обусловлена минимальными затратами на каждое улучшение по функционалу — одна задача Коши;
5) метод ориентирован на поиск экстремальных управлений и сходится по невязке принципа максимума.

Альтернативные интерпретации и модификации проекционных методов нелокального улучшения на уровне билинейных систем рассмотрены в [1] .