Об одном подходе к оптимизации нелинейных по управлению систем с ограничениями

Бесплатный доступ

Для класса нелинейных задач оптимального управления с ограничениями рассматривается задача улучшения допустимого управления. Условия улучшения управления в рассматриваемом классе задач представляются в виде специальной системы функциональных уравнений в пространстве управлений, которая может быть интерпретирована как задача о неподвижной точке. Для решения задачи о неподвижной точке строится итерационный метод. Предлагаемый метод последовательных приближений с сохранением ограничений на каждой итерации не использует трудоемкую операцию параметрического варьирования управления, характерную для градиентных методов.

Нелинейная управляемая система с ограничениями, нелокальное улучшение управления, задача о неподвижной точке, итерационный метод

Короткий адрес: https://sciup.org/148331688

IDR: 148331688   |   DOI: 10.18101/2304-5728-2025-1-57-64

Текст научной статьи Об одном подходе к оптимизации нелинейных по управлению систем с ограничениями

Задачи оптимизации управляемых систем с ограничениями, в том числе и нелинейные относительно управляющего воздействия, часто возникают при моделировании процессов во многих отраслях науки, в частности в физике и механике, химии и биологии, экономике и др. Таким образом, разработка эффективных методов решения данного класса нелинейных задач оптимального управления представляется достаточно актуальной.

Большинство численных методов решения задач оптимального управления разработано для задачи оптимального управления со свободным правым концом. В такой задаче присутствуют только поточечные ограни -чения на управление при отсутствии других дополнительных ограничений и единственный (целевой) функционал. Кроме того, в силу нелинейности по управлению представляется затруднительным применение к рассматриваемому классу задач стандартных методов на основе принципа максимума (краевая задача принципа максимума, метод игольчатой линеаризации и т. п.) [6].

В работах В. А. Срочко [6] и А. С. Булдаева [1] для задач оптимального со свободным правым концом строятся методы нелокального улучшения управления, не содержащие операцию варьирования. Нелокальность улучшения достигается за счет решения специальных задач Коши и краевых задач улучшения. К решению последних в [1] применяется подход возмущений.

В работе [2] для основной задачи оптимального управления конструируются специальные методы нелокального улучшения управлений. Специфика возникающих задач улучшения позволила сформулировать их как задачи о неподвижной точке оператора управления, для решения которой модифицируются методы неподвижных точек [3; 4].

В статье [7] методы нелокального улучшения обобщаются на нелинейные по состоянию задачи оптимального управления при наличии дополнительного терминального ограничения.

В данной статье рассмотрен класс нелинейных по состоянию и управлению систем с ограничениями. Для нелокального улучшения допустимых управлений в рассматриваемом классе задач конструируется система функциональных уравнений в пространстве управлений на основе операции проектирования, которая интерпретируется как задача о неподвижной точке и предлагается итерационный метод ее решения.

1 Постановка задачи

Рассматривается нелинейная по состоянию и управлению задача оптимального управления с терминальным ограничением-равенством:

x = f ( x , u , t ), t g T = [ 1 0 , t j ] , x ( t o ) = x °, u ( t ) G U c Rr , t G T , (1) Ф 0( u ) = ф ( x ( t j ) ) + j F ( x , u , t ) dt ^ min, (2)

Ф , ( u ) = x ( x ( t 1 ) ) = 0. (3)

В задаче (1)-(3) x = ( x 1 ( t ), x 2( t ),..., x n ( t )) — вектор состояния, u = ( u 1 (t ), u 2( t ),..., ur ( t )) — вектор управления, интервал времени T фиксирован, начальное состояние x0 g Rn задано. Функции f ( x , u , t ) и F ( x , u , t ) нелинейны и дифференцируемы по x , u и непрерывны по t на множестве R n х U х T ; функции ф ( x ) и х ( x ) нелинейны и дифференцируемы по x ; U c Rr — выпуклое множество в Rr .

Определим множество доступных управлений в задаче (1)-(3): V = { u е PCr ( T ): u ( t ) е U , t е T } .

Пусть v е V . Обозначим через x ( t, v ), t е T — решение задачи Коши (1) при u = v ( t ), t е T (соответствующая управлению v е V фазовая траектория).

Определим множество допустимых управлений:

W = { и е V : х ( x ( 1 1 , u ) ) = 0 } .

Введем в рассмотрение функцию Понтрягина с сопряженной переменной p е R n :

H ( p , x , u , t ) = ( p , f ( x , u , t )} - F ( x , u , t ).

Рассмотрим регулярный функционал Лагранжа:

L ( u , Л ) = Ф 0( u ) + Л Ф 1( u ), Ле R .

Пусть ( u0,v ) — пара доступных управлений в задаче (1)-(3).

Имеет место [2] следующая точная формула приращения функционала Лагранжа:

AvL(u0, Л) = - JT Av(t)H (p(t, u0, v, Л), x(t, v), u 0(t), t) dt,(4)

где p ( t , u °, v , Л ), t е T — решение модифицированной дифференциальноалгебраической сопряженной системы:

p = -Hx (p,x(t,u0),u“(t),*)-r(t),

(Hx ( p , x ( t , u °), u °( t ), t ) , x ( t , v ) - x ( t , u °)) + (r ( t ), x ( t , v ) - x ( t , u 0Й =

'                 „           ,         „        \(6)

= H ( p , x ( t , v ), u ( t ), t ) - H ( p , x ( t , u ), u ( t ), t ) ,

p(ti) = -Vx (x(ti,u 0))- ^x (x(ti,u 0))- q,

(P x ( x ( t i , u °) ) + ЛX x ( x ( 1 1 , u °) ) , x ( t i , v ) - x ( t i , u °)> + qq , x ( t i , v ) - x ( 1 1 , u °)} = = p ( x ( t i , v ) ) - p ( x ( 1 1 , u °) ) + Л ( х ( x ( t i , v ) ) - x ( x ( t i , u °) ) ) .

Отличительной особенностью модифицированной сопряженной задачи (5)-(8) является наличие соотношений (6) и (8), определяющих вспомогательные величины г(t) и q. В общем случае соотношения (6), (8) можно разрешить относительно этих вспомогательных величин и свести задачу к обычной задаче Коши. Отметим, что в общем случае величины г(t), q определяются неоднозначно.

Укажем возможный вид вспомогательных величин г ( t ), q для отдельных подклассов задач.

Если все функции f , F , р , х линейны по x (линейная по состоянию задача), то

г ( t ) = 0, q = 0.

Если функции f, F , (р, х квадратичны по х, то величины r ( t ), q могут быть представлены следующими соотношениями:

r(t) = 2Hxx (p,x(t, u°), u°(t), t)(x(t, v) - x(t, u°)), q=2 (^xx (x(t1, u0))+х (x(t1, u0))) (x(ti, v)- x(ti, u0)) •

Для управления u 0 e W поставим задачу (задача улучшения): найти управление v e W такое, что

Ф о ( V ) о ( u °).

2 Подход улучшения

Определим следующую систему функциональных уравнений в пространстве управлений при некотором a >  0

V ( t ) = P u ( u “( t ) + a ( Hu ( p ( t , u °, v , A ), x ( t , V ), u °( t ), t ) + 5 ( t )) ) ,             (9)

A v ( t ) H ( p ( t , u °, V , A ), x ( t , v ), u 0( t ), t ) =

= ^ u ( P ( t , u °, v , A ), x ( t , v ), u 0( t ), t ) + s '( t ), v ( t ) - u 0( t )), x ( x ( t i , v ) ) = 0.

Здесь для линейной по управлению задачи (1)-(3) полагаем s ( t ) = 0, t e T .

В нелинейной по управлению задаче (1)-(3) уравнение (10) всегда можно разрешить в аналогии с [2] относительно величины s(t) (возмож- но, не единственным образом).

В частности, в квадратичной по управлению задаче (1)-(3) функция s ( t ), t e T определяется соотношением:

S ( t ) = 2 H uu ( P ( t , u 0, v , A ), x ( t , v ), u 0 ( t ), t )( v ( t ) u 0 ( t ))

Предположим, что система (9)-(11) имеет решение и выходное управление v является кусочно-непрерывной функцией. В силу свойств операции проектирования имеем [2]:

А v ( t ) H ( p ( t , u °, v , A ), x ( t , v ), u °( t ), t ) > || v ( t ) - u 0( t )|2 0, t e T .    (12)

Тогда из формулы приращения (4) и оценки (12) после интегрирования получаем (в силу допустимости управлений u 0 , v ):

А v Ф 0 ( u 0) <-1 ( T| v ( t ) - u °( t )|2 dt .                     (13)

Таким образом, если управления u 0 и v не совпадают, то выходное управление v обеспечивает строгое улучшение целевого функционала с оценкой (13).

3 Итерационный метод

Для решения системы (9)-(11) при фиксированном a 0 предлагается модификация метода простой итерации [5] при k 0 :

vk+1 (t) = Pu (u °(t) + a (H (p(t, u0, vk, Л), x(t, vk), u °(t), t) + s(t))),(14)

A H ( p ( t , u 0, v k , Л ), x ( t , v k ), u 0( t ), t ) =

v(t)                                                                  v

= H 1 и ( P ( t , u °, v k , Л ), x ( t , v k ), u 0( t ), t ) + s ( t ), v k ( t ) - u 0( t )},

x( x (t1, vk+1) ) = 0.(16)

Начальным приближением процесса (14)-(16) может служить доступное (не обязательно допустимое) управление v 0 е V . Главной особенностью предлагаемого итерационного алгоритма является подбор параметра Ле R на каждой итерации при k 1 для удовлетворения ограничения (3). Предполагается, что такая возможность существует.

Особенностью алгоритма (14)-(16) является выполнение ограничения (3) на каждой итерации процесса последовательных приближений управления.

Сходимость предлагаемого итерационного процесса регулируется выбором параметра проектирования a 0 и может быть обоснована на основе метода возмущений и принципа сжимающих отображений аналогично [2] при достаточно малых значениях a 0.

Итерационный процесс (14)-(16) применяется до первого улучшения управления u 0 . Далее для полученного управления строится новая задача улучшения и процесс повторяется. Критерием остановки итераций улучшения управления является отсутствие строгого улучшения управления по целевому функционалу.

4 Пример

Рассматривается нелинейная задача оптимального управления:

x = u, t е Т = [0, 1], u (t) е R, t еТ, x (0) = 1,

Ф 0 ( u ) = -

К 2 x 2 + u 2) dt ^ min,

Ф 1 ( u ) = x (1) - 1 = 0.

Поставим задачу улучшения допустимого управления u 0( t ) = 0, t е Т , которому соответствует фазовая траектория x ( t , u °) = 1, t е T , и значение целевого функционала Ф 0( u °) = 1.

Функция Понтрягина в данном примере имеет вид:

H = pu x —u .

Модифицированная сопряженная система принимает вид: p = x ( t , v ) + x ( t , u °), t g T , P (1) = - a .

Соответствующая система функциональных уравнений имеет вид:

v ( t ) = u °( t ) + а ^ p ( t , u °, v , A) - u °( t ) + ^( v ( t ) - u °( t )) j , t g T .

Положим, значение параметра а = 1.

Тогда система перепишется в виде:

v ( t ) = p ( t , u °, v , A ) + 2( v ( t ) - u °( t )), t g T .

В качестве начального приближения итерационного процесса возьмем доступное управление v 0 ( t ) = - 1 с соответствующей фазовой траекторией x ( t , v °) = - 1 + 1, t g T .

Тогда модифицированная сопряженная система примет вид: p = - 1 + 2, t g T ,

P (1) = - A .

Ее решение t2          3

p ( t , u °, v °, A ) = —— + 2 1 - —- A , t g T .

Соответствующее управление t2 „    „ „ vA (t) = - у + 2 t - 2 - A , t G T .

Соответствующая ему фазовая траектория: t 3

x ( t , vK ) =--+ 1 2 - (2 + A ) t + 1, t g T .

Значение множителя A определяется соотношением: x(1, vA ) = 1, откуда

I = - 7

.

Тогда выходное управление и соответствующая ему фазовая траектория имеют вид:

t 2

v (t) = - - + 21

5       . Л t3       2

6, x ( t , v ^ ) = - + t

—t + 1, t g T .

6      ,

Таким образом, выходное управление v является допустимым и улучшающим:

Ф о ( v ) = H63 - 0.863 o ( u °) = 1.

3/80

Заключение

В заключение отметим основные свойства предлагаемой процедуры нелокального улучшения в рассматриваемом классе нелинейных задач.

  • 1.    Нелокальность улучшения допустимого управления, отсутствие трудоемкой операции параметрического варьирования, характерной для стандартных градиентных методов.

  • 2.    Сохранение всех ограничений на каждой итерации предлагаемого процесса.

Статья научная