Линеаризация квадратичного функционала и метод проекций нелокального поиска экстремальных управлений

Бесплатный доступ

Рассматривается задача оптимального управления относительно линейной системы с квадратичным функционалом общего вида. С помощью матричной функции Габасова проводится линеаризация функционала по фазовым переменным. Для полученной линейной задачи применяется технология принципа максимума, которая на основе нелокальных формул приращения функционала реализуется в рамках метода проекций на множестве допустимых управлений. Метод гарантирует сходимость по невязке принципа максимума и является наиболее экономичной процедурой по трудоемкости: каждое улучшение по функционалу с квадратичной оценкой уменьшения обеспечивается всего лишь одной задачей Коши для фазовой или сопряженной системы.

Еще

Линейно-квадратичная задача, линеаризация функционала, нелокальный метод приращений

Короткий адрес: https://sciup.org/148331881

IDR: 148331881   |   УДК: 517.977   |   DOI: 10.18101/2304-5728-2025-2-3-12

Текст научной статьи Линеаризация квадратичного функционала и метод проекций нелокального поиска экстремальных управлений

Срочко В. А., Аксенюшкина Е. В. Линеаризация квадратичного функционала и метод проекций нелокального поиска экстремальных управлений // Вестник Бурятского государственного университета. Математика, информатика. 2025. № 2. С. 3–12.

1 Постановка задачи

Пусть t G T = [ t o ,t i ] — независимая переменная (время), x ( t ) G Rn вектор-функция фазовых переменных (состояние), u ( t ) G R — управляющая функция (управление).

Рассмотрим задачу ( P ) минимизации квадратичного функционала

Ф( и ) = | h x ( t i ) ,Dx ( t i ) i +

+| [ ( h x ( t ) ,Qx ( t )) +2 h a,x ( t ) i u ( t ) + u 2 ( t )) dt

2 tt0

на множестве допустимых управлений

U = {uQ g PC(T) : |u(t)| < 1, t G T} относительно линейной системы x = Ax + bu, x(to) = x0.

Здесь D, Q — симметричные матрицы, PC ( T ) — пространство кусочнонепрерывных на T функций.

Проведем преобразование функционала Ф( и ) с целью ликвидации фазовых квадратичных форм в его выражении.

Введем в рассмотрение матричную функцию Габасова Ф( t ) , t G [ t o , t i ] согласно линейному матричному уравнению [2]

Ф( t ) = - A T Ф( t ) - Ф( t ) A - Q, Ф( t 1 ) = D.

Отметим симметричность матрицы Ф( t ) и свойство знакоопределенности: если D 0 , Q 0 , то Ф( t ) 0 , t G T.

Найдем производную по t квадратичной формы hx(t), Ф(t)x(t)i в силу соответствующих уравнений dhx(t), Ф(t)x(t)i = hx(t), W) + ATФ(t) + W)A)x(t)i +

+2 h Ф( t ) b, x ( t ) i u ( t ) = -h x ( t ) , Qx ( t ) i +

+2 h Ф( t ) b, x ( t ) i u ( t ) .

После интегрирования по t ∈ T получаем hx(t1), Dx(t1)i + / hx(t),Qx(t))dt = t0

= h x ( t o ) , ^( t o ) x ( t o ) i +2 / h Ф( t ) b, x ( t ) i u ( t ) dt.

t 0

При этом выражение для функционала принимает вид:

Ф( и ) = 2 h x ( t o ) , Ф( t o ) x ( t o ) i +

+ / ( h a + Ф( t ) b,x ( t ) i u ( t ) + Uu2(t ))dt.

t 0                                   2

Введем обозначение: c ( t ) = a + ^( t ) b, t G T.

В результате получаем упрощенное представление для функционала (фазовая линеаризация):

ф( и ) = ф(0)+ f1 ( h c ( t ) ,x ( t ) ) u ( t ) + t 0

2 u2 ( t )) dt

вместе с соответствующей линейной задачей

Ф( и ) ^ min, u G U.

Приведем соотношения принципа максимума для задачи (2) : функция Понтрягина —

H(ф, x, u, t) = hф, Ax + bui — hc(t),x)u — 2u2’ сопряженная система — ф = —AT ф + c(t)u, ф(t1) = 0;

максимизирующее управление —

и * ( ф,х,ф = arg max H ( ф,x,u,t' ) = |u|≤ 1

= sat ( h b,ф) — h c ( t), x)).

Здесь функция «насыщения» sat^) (сатуратор [3] ) определяется формулой:

y, | y | <  1 , signy, | y | >  1 .

Понятно, что значение sat ( y ) есть проекция точки y G R на отрезок [ 1 1] .

Следовательно, проекционная функция и * ( ф,хф ) определяется однозначно и удовлетворяет условию Липшица по переменным ψ, x на множестве R n × R n × T [5] .

Принцип максимума для управления u U с соответствующими траекториями x ( t,u ) , ф(фи ) фазовой и сопряженной систем определяется выражением:

u ( t ) = и * ( ф и ) и )ф) , t G T                  (3)

и является в рамках невыпуклой задачи (2) только необходимым условием оптимальности. Управление u U с условием (3) назовем экстремальным в задаче (2) .

Установим связь между линейно-квадратичной задачей (P) и линейной задачей (2) на уровне соотношений принципа максимума.

Для задачи (P):

сопряженная система относительно вектор-функции p(t) — p = —AT p + Qx + au, p(t1) = —Dx(t1);

операция на максимум функции Понтрягина —

( h p, b i — h a, xi)u -u 2 ^ max, | u | <  1 .

Для задачи (2) : сопряженная система —

-0 = AT 0 + au + ^( t ) bu, 0 ( t 1 ) = 0;

операция на максимум функции Понтрягина —

( ( 0, b i — h a, x i — h Ф( t ) b, x i ) u -u 2 ^ max, | u | <  1 .

Связь между сопряженными вектор-функциями имеет вид

p(t) = 0(t) — ^(t)x(t), t G T и проверяется непосредственно.

Следовательно, задачи на максимум функции Понтрягина совпадают. При этом сопряженная система в линейной задаче (2) не зависит от x .

2 Вспомогательные соотношения

Получим оценку для частного приращения функции Понтрягина

A u , H ( 0, x, u, t ) = H ( 0, x, u * ( 0, x, t ) ,t ) H ( 0, x, u, t ) .

Согласно свойству проекции u * ( 0,x,t ) имеет место неравенство

[ u * ( 0,x,t ) ( h b,0 i — h c ( t ) ,x i )]( u * ( 0,x,t ) u ) 0 , | u | <  1 .

При этом из определения функции H hb, 0i — hc(t),xi = Hu(0, x, u, t) + u.

Следовательно,

H u ( 0,x,u,t )( u * ( 0,x,t ) u ) ( u * ( 0,x,t ) u)2, | u | <  1 .

Отсюда, используя представление

Au,H(ф,x,u,t') = Hu(ф,x,u,t)(u^(ф,x,t) - u) - 2(u*^,x,t) - u)2, получаем итоговую оценку для частного приращения функции H(ф, x, u, t)

A u , H ( ф, x, u, t ) |( иДф, x, t ) - u ) 2 ,                (4)

ф G R n , x G Rn, t G T, \ u \ 1 .

Метод отыскания экстремальных управлений определяется двумя процедурами решения фазовой или сопряженной систем на основе H -максимизирующего отображения ^(ф, x,t ) .

Процедура 1 . Пусть u ( t ) — допустимое управление с фазовой траекторией x ( t,u ) , t G T .

Найдем решение ф(Ф) сопряженной системы ф = -ATф + c(t)u*(ф, x(t, u),t), ф(t1) = 0

вместе с управлением v ( t ) = u * ( ф ( t ) , x ( t,u ) ,t ) , при этом ф(ф = ф ( t,v ) , t T.

Результат: допустимое управление v ( t ) = u * ( ф ( t,v ) ,x ( t,u ) ,t ) с сопряженной траекторией ф ( t,v ) .

Процедура 2 . Пусть u ( t ) — допустимое управление с сопряженной траекторией ф ( t,u ) , t G T .

Найдем решение x(t) фазовой системы x = Ax + bu*^(t,u),x,t), x(to) = x0

вместе с управлением v ( t ) = u*^ ( t,u ) , x ( t ) ,t ) , при этом x ( t ) = x ( t,v).

Результат: допустимое управление v ( t ) = u * ( ф ( t,u ) , x ( t,v ) ,t ) с фазовой траекторией x ( t, v ) .

Для компактной формализации представим данные процедуры схематично:

( v ( t ) , ф ( t, v )) = P 1 ( u ( t ) ,x ( t, и )) ,      ( v ( t ) , x ( t, v )) = P 2 ( u ( t ) ( t, u )) .

Укажем общие свойства описанных процедур.

  • 1.    Вычислительная трудоемкость: одна задача Коши для сопряженной или фазовой систем (глобальное решение ф ( t,v ) или x ( t,v) существует и единственно в силу глобального условия Липшица для функции u * ( ф, x, t ) ).

  • 2.    Условие совпадения v ( t ) = u ( t ) , t G T означает, что управление u ( t ) является экстремальным.

  • 3.    На основании общей оценки (4) для частного приращения функции H ( ^,x,u,t ) получаем следующие неравенства:

  • v ( t ) H ( ^ (t ,v ) ,x ( t,u ) ,u (t) ,t ) |( v ( t ) - u ( t )) 2            (5)

(первая процедура),

  • v ( t ) H ( ^ (t ,u ) ,x ( t,v ) ,u (t) ,t ) |( v ( t ) - u ( t )) 2            (6)

(вторая процедура).

Построим итерационный метод поиска экстремальных управлений в задаче (2) со свойством нелокального улучшения по функционалу и наименьшей вычислительной трудоемкостью на итерацию по числу задач Коши.

3 Метод проекций

Теоретическую основу метода составляет симметричная пара формул приращения функционала Ф на управлениях u,v G U с траекториями x ( t, u ) , x ( t, v ) , ^ ( t, u ) , ^ ( t, v ) [4]

Ф( v )

-

Ф( и ) = - / t 1

t 0

^ v(t) H ( ^ ( t,v' ) , x ( t, u ) , u ( t ) , t ) dt,

Ф( v )

-

Ф( и ) = - [t1

t 0

^ v(t) H ( ^ ( t, u ) , x ( t, v ) , u ( t ) , t ) dt.

Эти представления определяют, в первую очередь, правило построения управления v ( ) через операцию на максимум функции H с целью обеспечения неравенства Ф( v ) Ф( и ) <   0 для данного управления u0.

При этом естественным образом используются обе представленные ранее процедуры. Проведем описание метода в безындексном формате.

Пусть получена пара ( u ( t ) , x ( t,u)). Применяя первую процедуру, найдем пару ( v ( t ) , ^ ( t,v )) .

Применяя вторую процедуру для ( v ( t ) , ^ ( t, v )) , находим следующую пару ( w ( t ) , x ( t,w)). Итерационный цикл завершен.

Схема итерации имеет вид:

( u (t) , x ( t,u )) ^ P i ( u ( t ) ,x ( t,u )) = ( v ( t ) ,^ ( t,v )) ^

^ P 2 ( v(t'),^ ( t,v' )') = ( w ( t ) ,x ( t,w' )') .

Укажем характеризацию каждой процедуры с точки зрения функционала Ф .

На основании формулы (7) и неравенства (5) получаем оценку уменьшения функционала Ф после первой процедуры

Ф( v ) Ф( и ) <

-

1 t11, ~     (v(t) - u ( t )) dt.

2 Jto

Аналогично формула (8) и неравенство (6) после замены u v , v w приводят к оценке уменьшения после второй процедуры

Ф( w ) Ф( v ) <

-

1 t 1

ч ( wt - v ( t ))2 dt.

2 J io

Таким образом, в рамках итерации ( u ^ v ^ w ) реализуется двойное улучшение функционала Ф с оценками (9) , (10) . При этом стоимость каждого улучшения – одна задача Коши для сопряженной или фазовой системы.

Из (9) , (10) получаем оценку снизу

Ф( и )

-

1 t 1

Ф( и ) - 2 к

[( v ( t ) — u ( t )) 2 + ( w ( t )

v ( t )) 2 ] dt.

Если Ф( и ) Ф( w ) = 0 , то u ( t ) = v ( t ) = w ( t ) , t G T и управление u ( t ) является экстремальным.

Следовательно, величина приращения [Ф( и ) Ф( w )] может служить невязкой принципа максимума для управления u0.

Завершим презентацию метода стандартной формализацией с индексом к = 1 , 2 ...

( uk ( t ) , x ( t,uk )) ^ P 1 ( uk ( t ) ,x ( t,uk )) = ( v k ( t ) ,^ ( t,vk )) ^

^ P 2 ( v k ( tU ( t, v k )) = ( u k+1 ( t ) , x ( t, u )) .

Оценка улучшения по функционалу:

Ф( u k+1 ) Ф( u k ) <

t 1

-     [( v k ( t ) u k ( t )) 2 + ( u k+1 ( t ) v k (t.))2]dt.

  • 2 Jh

Невязка принципа максимума для управления u k ( ) : 8 k = Ф( u k ) — — Ф( u k + 1 ) .

В условиях задачи (2) множество фазовых траекторий { x ( t,u ) , u G U } ограничено. Следовательно, функционал Ф( и ) ограничен на множестве U , т. е. монотонная последовательность { Ф( u k ) , к = 1 , 2 ,... } является сходящейся. В результате имеет место сходимость метода проекций по невязке принципа максимума: 8 k ^ 0 , к ^ от .

Усиление результата по сходимости допустимо для выпуклой задачи, которая определяется функционалом (1) с условиями a = 0, D > 0, Q > 0.

В этом случае принцип максимума приобретает свойство достаточного условия оптимальности и последовательность { Ф( и к ) , к = 1 , 2 ,... } метода проекций сходится по невязке оптимальности (является минимизирующей): Ф( и к ) Ф( и * ) ^ 0 , к ^ то , где и * — оптимальное управление.

Заключение

Представлена численно-аналитическая технология решения линейноквадратичной задачи оптимального управления, которая определяется следующими фрагментами:

  • 1)    фазовая линеаризация функционала на основе матричной функции Габасова с редукцией к линейной задаче оптимального управления;

  • 2)    последовательное использование двух формул приращения функционала для построения двухэтапного метода с операцией на максимум функции Понтрягина;

  • 3)    корректность метода по части интегрирования дифференциальных систем (существование и единственность глобального решения) гарантируется условием Липшица для оператора проецирования;

  • 4)    экономичность метода обусловлена минимальными затратами на каждое улучшение по функционалу — одна задача Коши;

  • 5)    метод ориентирован на поиск экстремальных управлений и сходится по невязке принципа максимума.

Альтернативные интерпретации и модификации проекционных методов нелокального улучшения на уровне билинейных систем рассмотрены в [1] .