Линеаризация квадратичного функционала и метод проекций нелокального поиска экстремальных управлений

Бесплатный доступ

Рассматривается задача оптимального управления относительно линейной системы с квадратичным функционалом общего вида. С помощью матричной функции Габасова проводится линеаризация функционала по фазовым переменным. Для полученной линейной задачи применяется технология принципа максимума, которая на основе нелокальных формул приращения функционала реализуется в рамках метода проекций на множестве допустимых управлений. Метод гарантирует сходимость по невязке принципа максимума и является наиболее экономичной процедурой по трудоемкости: каждое улучшение по функционалу с квадратичной оценкой уменьшения обеспечивается всего лишь одной задачей Коши для фазовой или сопряженной системы.

Еще

Линейно-квадратичная задача, линеаризация функционала, нелокальный метод приращений

Короткий адрес: https://sciup.org/148331881

IDR: 148331881   |   УДК: 517.977   |   DOI: 10.18101/2304-5728-2025-2-3-12

Linearization of a quadratic functional and the projection method of non-local search for extremal controls

The optimal control problem with respect to a linear system with a quadratic functional of general form is considered. Using the matrix Gabasov function, the functional is linearized with respect to phase vari- ables. For the resulting linear problem, the maximum principle technology is applied, which is implemented in the form of a projection method on a set of admissible controls based on nonlocal formulas for the increment of the functional. The method guarantees convergence in the residual of the maximum principle and is the most economical procedure in terms of labor intensity: each improvement in the functional with a quadratic estimate of the decrease is provided by only one Cauchy problem for the phase or adjoint system.

Еще

Текст научной статьи Линеаризация квадратичного функционала и метод проекций нелокального поиска экстремальных управлений

Срочко В. А., Аксенюшкина Е. В. Линеаризация квадратичного функционала и метод проекций нелокального поиска экстремальных управлений // Вестник Бурятского государственного университета. Математика, информатика. 2025. № 2. С. 3–12.

1 Постановка задачи

Пусть t G T = [ t o ,t i ] — независимая переменная (время), x ( t ) G Rn вектор-функция фазовых переменных (состояние), u ( t ) G R — управляющая функция (управление).

Рассмотрим задачу ( P ) минимизации квадратичного функционала

Ф( и ) = | h x ( t i ) ,Dx ( t i ) i +

+| [ ( h x ( t ) ,Qx ( t )) +2 h a,x ( t ) i u ( t ) + u 2 ( t )) dt

2 tt0

на множестве допустимых управлений

U = {uQ g PC(T) : |u(t)| < 1, t G T} относительно линейной системы x = Ax + bu, x(to) = x0.

Здесь D, Q — симметричные матрицы, PC ( T ) — пространство кусочнонепрерывных на T функций.

Проведем преобразование функционала Ф( и ) с целью ликвидации фазовых квадратичных форм в его выражении.

Введем в рассмотрение матричную функцию Габасова Ф( t ) , t G [ t o , t i ] согласно линейному матричному уравнению [2]

Ф( t ) = - A T Ф( t ) - Ф( t ) A - Q, Ф( t 1 ) = D.

Отметим симметричность матрицы Ф( t ) и свойство знакоопределенности: если D 0 , Q 0 , то Ф( t ) 0 , t G T.

Найдем производную по t квадратичной формы hx(t), Ф(t)x(t)i в силу соответствующих уравнений dhx(t), Ф(t)x(t)i = hx(t), W) + ATФ(t) + W)A)x(t)i +

+2 h Ф( t ) b, x ( t ) i u ( t ) = -h x ( t ) , Qx ( t ) i +

+2 h Ф( t ) b, x ( t ) i u ( t ) .

После интегрирования по t ∈ T получаем hx(t1), Dx(t1)i + / hx(t),Qx(t))dt = t0

= h x ( t o ) , ^( t o ) x ( t o ) i +2 / h Ф( t ) b, x ( t ) i u ( t ) dt.

t 0

При этом выражение для функционала принимает вид:

Ф( и ) = 2 h x ( t o ) , Ф( t o ) x ( t o ) i +

+ / ( h a + Ф( t ) b,x ( t ) i u ( t ) + Uu2(t ))dt.

t 0                                   2

Введем обозначение: c ( t ) = a + ^( t ) b, t G T.

В результате получаем упрощенное представление для функционала (фазовая линеаризация):

ф( и ) = ф(0)+ f1 ( h c ( t ) ,x ( t ) ) u ( t ) + t 0

2 u2 ( t )) dt

вместе с соответствующей линейной задачей

Ф( и ) ^ min, u G U.

Приведем соотношения принципа максимума для задачи (2) : функция Понтрягина —

H(ф, x, u, t) = hф, Ax + bui — hc(t),x)u — 2u2’ сопряженная система — ф = —AT ф + c(t)u, ф(t1) = 0;

максимизирующее управление —

и * ( ф,х,ф = arg max H ( ф,x,u,t' ) = |u|≤ 1

= sat ( h b,ф) — h c ( t), x)).

Здесь функция «насыщения» sat^) (сатуратор [3] ) определяется формулой:

y, | y | <  1 , signy, | y | >  1 .

Понятно, что значение sat ( y ) есть проекция точки y G R на отрезок [ 1 1] .

Следовательно, проекционная функция и * ( ф,хф ) определяется однозначно и удовлетворяет условию Липшица по переменным ψ, x на множестве R n × R n × T [5] .

Принцип максимума для управления u U с соответствующими траекториями x ( t,u ) , ф(фи ) фазовой и сопряженной систем определяется выражением:

u ( t ) = и * ( ф и ) и )ф) , t G T                  (3)

и является в рамках невыпуклой задачи (2) только необходимым условием оптимальности. Управление u U с условием (3) назовем экстремальным в задаче (2) .

Установим связь между линейно-квадратичной задачей (P) и линейной задачей (2) на уровне соотношений принципа максимума.

Для задачи (P):

сопряженная система относительно вектор-функции p(t) — p = —AT p + Qx + au, p(t1) = —Dx(t1);

операция на максимум функции Понтрягина —

( h p, b i — h a, xi)u -u 2 ^ max, | u | <  1 .

Для задачи (2) : сопряженная система —

-0 = AT 0 + au + ^( t ) bu, 0 ( t 1 ) = 0;

операция на максимум функции Понтрягина —

( ( 0, b i — h a, x i — h Ф( t ) b, x i ) u -u 2 ^ max, | u | <  1 .

Связь между сопряженными вектор-функциями имеет вид

p(t) = 0(t) — ^(t)x(t), t G T и проверяется непосредственно.

Следовательно, задачи на максимум функции Понтрягина совпадают. При этом сопряженная система в линейной задаче (2) не зависит от x .

2 Вспомогательные соотношения

Получим оценку для частного приращения функции Понтрягина

A u , H ( 0, x, u, t ) = H ( 0, x, u * ( 0, x, t ) ,t ) H ( 0, x, u, t ) .

Согласно свойству проекции u * ( 0,x,t ) имеет место неравенство

[ u * ( 0,x,t ) ( h b,0 i — h c ( t ) ,x i )]( u * ( 0,x,t ) u ) 0 , | u | <  1 .

При этом из определения функции H hb, 0i — hc(t),xi = Hu(0, x, u, t) + u.

Следовательно,

H u ( 0,x,u,t )( u * ( 0,x,t ) u ) ( u * ( 0,x,t ) u)2, | u | <  1 .

Отсюда, используя представление

Au,H(ф,x,u,t') = Hu(ф,x,u,t)(u^(ф,x,t) - u) - 2(u*^,x,t) - u)2, получаем итоговую оценку для частного приращения функции H(ф, x, u, t)

A u , H ( ф, x, u, t ) |( иДф, x, t ) - u ) 2 ,                (4)

ф G R n , x G Rn, t G T, \ u \ 1 .

Метод отыскания экстремальных управлений определяется двумя процедурами решения фазовой или сопряженной систем на основе H -максимизирующего отображения ^(ф, x,t ) .

Процедура 1 . Пусть u ( t ) — допустимое управление с фазовой траекторией x ( t,u ) , t G T .

Найдем решение ф(Ф) сопряженной системы ф = -ATф + c(t)u*(ф, x(t, u),t), ф(t1) = 0

вместе с управлением v ( t ) = u * ( ф ( t ) , x ( t,u ) ,t ) , при этом ф(ф = ф ( t,v ) , t T.

Результат: допустимое управление v ( t ) = u * ( ф ( t,v ) ,x ( t,u ) ,t ) с сопряженной траекторией ф ( t,v ) .

Процедура 2 . Пусть u ( t ) — допустимое управление с сопряженной траекторией ф ( t,u ) , t G T .

Найдем решение x(t) фазовой системы x = Ax + bu*^(t,u),x,t), x(to) = x0

вместе с управлением v ( t ) = u*^ ( t,u ) , x ( t ) ,t ) , при этом x ( t ) = x ( t,v).

Результат: допустимое управление v ( t ) = u * ( ф ( t,u ) , x ( t,v ) ,t ) с фазовой траекторией x ( t, v ) .

Для компактной формализации представим данные процедуры схематично:

( v ( t ) , ф ( t, v )) = P 1 ( u ( t ) ,x ( t, и )) ,      ( v ( t ) , x ( t, v )) = P 2 ( u ( t ) ( t, u )) .

Укажем общие свойства описанных процедур.

  • 1.    Вычислительная трудоемкость: одна задача Коши для сопряженной или фазовой систем (глобальное решение ф ( t,v ) или x ( t,v) существует и единственно в силу глобального условия Липшица для функции u * ( ф, x, t ) ).

  • 2.    Условие совпадения v ( t ) = u ( t ) , t G T означает, что управление u ( t ) является экстремальным.

  • 3.    На основании общей оценки (4) для частного приращения функции H ( ^,x,u,t ) получаем следующие неравенства:

  • v ( t ) H ( ^ (t ,v ) ,x ( t,u ) ,u (t) ,t ) |( v ( t ) - u ( t )) 2            (5)

(первая процедура),

  • v ( t ) H ( ^ (t ,u ) ,x ( t,v ) ,u (t) ,t ) |( v ( t ) - u ( t )) 2            (6)

(вторая процедура).

Построим итерационный метод поиска экстремальных управлений в задаче (2) со свойством нелокального улучшения по функционалу и наименьшей вычислительной трудоемкостью на итерацию по числу задач Коши.

3 Метод проекций

Теоретическую основу метода составляет симметричная пара формул приращения функционала Ф на управлениях u,v G U с траекториями x ( t, u ) , x ( t, v ) , ^ ( t, u ) , ^ ( t, v ) [4]

Ф( v )

-

Ф( и ) = - / t 1

t 0

^ v(t) H ( ^ ( t,v' ) , x ( t, u ) , u ( t ) , t ) dt,

Ф( v )

-

Ф( и ) = - [t1

t 0

^ v(t) H ( ^ ( t, u ) , x ( t, v ) , u ( t ) , t ) dt.

Эти представления определяют, в первую очередь, правило построения управления v ( ) через операцию на максимум функции H с целью обеспечения неравенства Ф( v ) Ф( и ) <   0 для данного управления u0.

При этом естественным образом используются обе представленные ранее процедуры. Проведем описание метода в безындексном формате.

Пусть получена пара ( u ( t ) , x ( t,u)). Применяя первую процедуру, найдем пару ( v ( t ) , ^ ( t,v )) .

Применяя вторую процедуру для ( v ( t ) , ^ ( t, v )) , находим следующую пару ( w ( t ) , x ( t,w)). Итерационный цикл завершен.

Схема итерации имеет вид:

( u (t) , x ( t,u )) ^ P i ( u ( t ) ,x ( t,u )) = ( v ( t ) ,^ ( t,v )) ^

^ P 2 ( v(t'),^ ( t,v' )') = ( w ( t ) ,x ( t,w' )') .

Укажем характеризацию каждой процедуры с точки зрения функционала Ф .

На основании формулы (7) и неравенства (5) получаем оценку уменьшения функционала Ф после первой процедуры

Ф( v ) Ф( и ) <

-

1 t11, ~     (v(t) - u ( t )) dt.

2 Jto

Аналогично формула (8) и неравенство (6) после замены u v , v w приводят к оценке уменьшения после второй процедуры

Ф( w ) Ф( v ) <

-

1 t 1

ч ( wt - v ( t ))2 dt.

2 J io

Таким образом, в рамках итерации ( u ^ v ^ w ) реализуется двойное улучшение функционала Ф с оценками (9) , (10) . При этом стоимость каждого улучшения – одна задача Коши для сопряженной или фазовой системы.

Из (9) , (10) получаем оценку снизу

Ф( и )

-

1 t 1

Ф( и ) - 2 к

[( v ( t ) — u ( t )) 2 + ( w ( t )

v ( t )) 2 ] dt.

Если Ф( и ) Ф( w ) = 0 , то u ( t ) = v ( t ) = w ( t ) , t G T и управление u ( t ) является экстремальным.

Следовательно, величина приращения [Ф( и ) Ф( w )] может служить невязкой принципа максимума для управления u0.

Завершим презентацию метода стандартной формализацией с индексом к = 1 , 2 ...

( uk ( t ) , x ( t,uk )) ^ P 1 ( uk ( t ) ,x ( t,uk )) = ( v k ( t ) ,^ ( t,vk )) ^

^ P 2 ( v k ( tU ( t, v k )) = ( u k+1 ( t ) , x ( t, u )) .

Оценка улучшения по функционалу:

Ф( u k+1 ) Ф( u k ) <

t 1

-     [( v k ( t ) u k ( t )) 2 + ( u k+1 ( t ) v k (t.))2]dt.

  • 2 Jh

Невязка принципа максимума для управления u k ( ) : 8 k = Ф( u k ) — — Ф( u k + 1 ) .

В условиях задачи (2) множество фазовых траекторий { x ( t,u ) , u G U } ограничено. Следовательно, функционал Ф( и ) ограничен на множестве U , т. е. монотонная последовательность { Ф( u k ) , к = 1 , 2 ,... } является сходящейся. В результате имеет место сходимость метода проекций по невязке принципа максимума: 8 k ^ 0 , к ^ от .

Усиление результата по сходимости допустимо для выпуклой задачи, которая определяется функционалом (1) с условиями a = 0, D > 0, Q > 0.

В этом случае принцип максимума приобретает свойство достаточного условия оптимальности и последовательность { Ф( и к ) , к = 1 , 2 ,... } метода проекций сходится по невязке оптимальности (является минимизирующей): Ф( и к ) Ф( и * ) ^ 0 , к ^ то , где и * — оптимальное управление.

Заключение

Представлена численно-аналитическая технология решения линейноквадратичной задачи оптимального управления, которая определяется следующими фрагментами:

  • 1)    фазовая линеаризация функционала на основе матричной функции Габасова с редукцией к линейной задаче оптимального управления;

  • 2)    последовательное использование двух формул приращения функционала для построения двухэтапного метода с операцией на максимум функции Понтрягина;

  • 3)    корректность метода по части интегрирования дифференциальных систем (существование и единственность глобального решения) гарантируется условием Липшица для оператора проецирования;

  • 4)    экономичность метода обусловлена минимальными затратами на каждое улучшение по функционалу — одна задача Коши;

  • 5)    метод ориентирован на поиск экстремальных управлений и сходится по невязке принципа максимума.

Альтернативные интерпретации и модификации проекционных методов нелокального улучшения на уровне билинейных систем рассмотрены в [1] .