Минимаксное программное терминальное управление в двухуровневой иерархической нелинейной дискретной динамической системе
Автор: Шориков А.Ф.
Журнал: Вестник Пермского университета. Математика. Механика. Информатика @vestnik-psu-mmi
Рубрика: Механика. Математическое моделирование
Статья в выпуске: 2 (33), 2016 года.
Бесплатный доступ
Рассматривается дискретная динамическая система, состоящая из набора управляемых объектов, динамика каждого из которых описывается соответствующим векторным нелинейным дискретным рекуррентным соотношением при наличии управляемых параметров и возмущений (помех). В системе выделены два уровня принятия управленческих решений - доминирующий (первый уровень) и подчиненный (второй уровень), имеющие различные критерии функционирования и объединенные между собой априори определенными информационными и управленческими связями. Рассматривается задача двухуровневого минимаксного программного терминального управления в дискретной динамической системе. Для исследуемой задачи в данной работе предлагается математическая формализация и общая схема ее решения.
Иерархическая дискретная динамическая система, минимаксное программное терминальное управление
Короткий адрес: https://sciup.org/14730032
IDR: 14730032 | DOI: 10.17072/1993-0550-2016-2-124-132.
Текст научной статьи Минимаксное программное терминальное управление в двухуровневой иерархической нелинейной дискретной динамической системе
В статье рассматривается дискретная динамическая система, состоящая из набора управляемых объектов, динамика каждого из которых описывается соответствующим векторным нелинейным дискретным рекуррентным соотношением при наличии управляемых параметров и возмущений (помех или ошибок моделирования). В данной системе выделены два уровня принятия управленческих решений – доминирующий уровень I , управляемый доминирующим игроком P , и подчиненный уровень II , управляемый игроком E . Оба
Работа выполнена при финансовой поддержке РФФИ (проект № 15-01-02368).
уровня управления объединены между собой априори определенными информационными и управляющими связями. Качество управления рассматриваемыми динамическими объектами на каждом уровне управления оценивается соответствующими им выпуклыми функционалами, которые определены на их терминальных (финальных) фазовых состояниях и удовлетворяют соответствующим условиям Липшица. Предполагается, что управляющие воздействия и возмущения в рассматриваемой динамической системе в каждый момент времени стеснены заданными конечными множествами или выпуклыми многогранниками в соответствующих конечномерных векторных пространствах.
Для исследуемой динамической системы в данной работе предлагается математическая формализация в форме решения многошаговой задачи двухуровневого иерархического минимаксного (оптимизации гаранти- рованного результата) программного терминального управления и предложена общая схема ее решения.
Полученные в работе результаты основываются на исследованиях [1]–[5] и могут быть использованы при компьютерном моделировании и создании многоуровневых систем управления для сложных динамических процессов, функционирующих в условиях риска и неопределенности. Математические модели таких процессов представлены, например, в работах [1]–[7].
1. Динамика дискретной управляемой системы
На заданном целочисленном промежутке времени 0, T = {0,1,..., T} (T > 0) рассматривается многошаговая динамическая система, которая состоит из (n+1) -го управляемого объекта (n e N; здесь и далее, N - множество всех натуральных чисел). Динамика объекта I (основного объекта динамической системы), управляемого доминирующим игроком Р описывается векторным нелинейным дискретным рекуррентным уравнением вида y (t +1) = f (t, y (t), u (t), v (t), w (t)),
У (0) = У 0 , (1)
динамика объекта IIi ( i -го вспомогательного объекта динамической системы), управляемого подчиненным игроком E i ( i е 1, n ), описывается следующим уравнением:
z « ( t + 1) = f « ( t , z « ( t ), u ( t ), v « ( t ), w « ( t )), z (0) = z 0 , (2)
где t е 0, T — 1; y(t) = (y(t),y2(t),...,Уг(t))'е eRr - фазовый вектор объекта I в момент k времени t; для k e N, здесь и далее, R - k -мерное евклидово пространство векторов-столбцов, даже если из экономии места они записаны в строку: z(‘) (t) = (z1(‘) (t),z2i)(t), ^, zS ‘)(t))' eRsi - фазовый вектор объекта si
IIi (i e1, n ) в момент времени t; u(t) = (u1(t), u2(t),...,up(t))'e Rp - вектор управляющего воздействия (управления) доминирующего игрока P в период времени t (t е 0,T), удовлетворяющий заданному ограничению:
p u (t) e U 1(t) c R , (3)
где U 1 ( t ) , для каждого t e 0, T - 1 , есть набор из N ( N t e N ) векторов в R P ( p e N ) ; v (i\ t ) = ( v «( t ), v 2 i ) ( t ),..., v qi )( t )) 'e R qi - вектор управляющего воздействия (управления) подчиненного игрока E i ( i e 1, n ) в период времени t ( t e 0,T — 1) , который зависит от допустимой реализации управления u ( j ) ( t ) e U 1 ( t ) игрока P ( j e 1, N t ) , удовлетворяющий заданному ограничению:
v ( i ) ( t ) e V i ) ( u( j ) ( t )) c R qi , (4)
где V 1 ( i ) ( u ( j ) ( t )) для каждого момента времени ( t e 0, T — 1) и управления u ( j ) ( t ) e U 1 ( t ) игрока P есть конечный набор из Qt ( i ) ( j ) ( Q ti ) ( j ) e N , j e 1, Nt ) векторов в R qi ; v ( t ) = ( v (1)( t ), v <2)( t ),..., v ( n ) ( t )) 'e R q - вектор управления обобщенного подчиненного игрока E , объединяющего всех подчиненных игроков E i , i e 1, n ( q = E q i e N ).;
i = 1
w(t) = (W1 (t),W2(t),...,Wm(t))'e Rm- вектор помехи (возмущения) в уравнении (1), который в каждый период времени t (t e 0, T — 1) зависит от допустимой реализации управления u(j)(t) e U1(t) игрока P (j e1, Nt) и удовлетворяет ограничению w (t) eW1( u(j)(t)) c Rm, (5)
где W 1 ( u ( j ) ( t )) – выпуклый, замкнутый и ог- m раниченный многогранник пространства R
(m eN); (wi)(t),wi)(t),...,wm\t))' e i e Rmi - вектор помехи (возмущения) в уравнении (2), который в каждый период времени t (t e 0, T — 1) зависит от допустимой реализации управления u(j)(t) eU1( t) игрока P (j e1, Nt), от допустимой реализации управле- ния v (1, k)(t) eV/ i’( u(j’(t)) игрока Ei, (j e1,Nt ; k e 1, Qti’(j)) и удовлетворяет ограничению:
w (i) ( t ) e W 1 ( i ’ ( u (j) , v (i,k ’ ( t )) c R mi . 6)
Предполагается, что в векторном рекуррентном уравнении (1), описывающем динамику объекта I , для каждого фиксированного и допустимого набора ( t , y , u , v ) e e 0 ,T - 1 x R r x R p x R q вектор-функция f :
x R s 2 x - x R sn = 0, T x R r x ^ R s' ( g (0) = i = 1
= {0,у(0),z”’(0),;B(0),„, z
u(t ) e U 1 ( t ) ’ игроком P , которое сообщается им, и для каждого i е 1, n описывается соотношением (4), причем выбранное каждым игроком Ei управление сообщается игроку P .
Результат реализации рассматриваемого процесса управления с позиции игрока P оценивается значением выпуклого функционала α , определенного на допустимых финальных фазовых состояниях y ( T ) и z ( i ) ( T ) объектов I и II i , i е 1, n , который удовлетворяет соответствующему условию Липшица. Тогда на промежутке времени τ , T целью игрока P в рассматриваемом процессе управления является минимизация значения выбранного функционала α .
Учитывая эти обстоятельства, мы будем говорить, что такие возможности поведения игрока P совместно с объектами I и IIi , i е 1, n , определяют доминирующий или уровень управления I для рассматриваемого процесса управления в дискретной динамической системе (1)–(6).
Предполагается, что в сфере интересов каждого игрока E i ( i е 1, n ’ находятся только возможные терминальные фазовые состояния z ( i ) ( T ) объекта II i и для любого рассматриваемого промежутка времени τ , T ему сообщается реализация управления u ( • ) = { u ( t )} t e- T — 1 ( V t е т , T — 1: u ( t’ e U 1 ( t ) ’ игрока Р на этом промежутке времени, которую он должен учитывать при формировании своего управления v ( ‘ ’ ( t ’ e V/ i ’ ( u ( t ))
для всех t ∈ τ , T - 1 . При этом для каждого целочисленного промежутка времени τ , T ⊆ 0, T ( τ < T ) ему также известен набор g ( i ) ( τ ) = { τ , z ( i ) ( τ )} ∈ 0, T × R si
( g ( i ) (0) = {0, z ( i ) (0)} = g 0( i ) ), который будем называть τ -позицией игрока E i .
Результат реализации рассматриваемого процесса управления с позиции игрока Ei оценивается значением выпуклого функционала β ( i ) , определенного на допустимых финальных фазовых состояниях z ( i ) ( T ) объекта IIi ( i ∈ 1, n ), который удовлетворяет соответствующему условию Липшица. Тогда на промежутке времени τ , T целью каждого игрока Ei ( i ∈ 1, n ) в рассматриваемом процессе управления является минимизация значения функционала β ( i ) .
Совокупность n игроков Ei , i ∈ 1, n , называемых также игроком Е , и управляемых ими объектов II i , i ∈ 1, n , образуют подчиненный или уровень управления II для рассматриваемого процесса управления (подчиненный доминирующему или уровню управления I ).
3. Определения и критерии качества в процессе управления
Введем ряд определений, которые необходимы для строгой математической формализации задачи двухуровневого иерархического минимаксного программного терминального управления для рассматриваемой дискретной динамической системы (1)-(6).
Для k ∈ N и любого целочисленного промежутка i , j ( i ≤ j ) , символом S k ( i , j ) будем обозначать метрическое пространство функций целочисленного аргумента ϕ : i,j → R k , в котором метрика ρk задается соотношением
ρ k ( ϕ 1( ⋅ ), ϕ 2( ⋅ )) = m ax II ϕ 1( t ) - ϕ 2 ( t )II k t ∈ i , j
((ϕ1(⋅),ϕ2(⋅)∈ Sk(i,j)Sk(i,j), а символом comp( Sk (i, j)) – множество всех непустых и компактных, в смысле этой метрики, подмножеств пространства Sk(i, j) .
Здесь и далее, для любого x ∈ R k ( k ∈ N ) символом II x II k обозначается евклидова норма вектора x в пространстве R k .
Используя ограничение (3), определим множество U ( τ , T ) ⊂ S p ( τ , T ) всех допустимых программных управлений u ( ⋅ ) = { u ( t )} t ∈ τ T - 1 игрока Р на промежутке времени τ , T ⊆ 0, T ( τ < T ) соотношением
U ( τ , T ) = { u ( ⋅ ): u ( ⋅ ) ∈ S p ( τ , T ) , ∀ t ∈ τ , T - 1, u ( t ) ∈ U 1 ( t )} , (7)
которое в силу (3) является конечным множеством.
Для фиксированных индекса i ∈1,n и программного управления u(⋅) ∈ U(τ,T), используя ограничение (4) определим конечное множество V(i) (τ,T;u(⋅)) ⊂ Sq (τ,T) всех до-qi пустимых программных управлений v(i) (⋅) = {v(i) (t)}t∈τ,T-1 игрока Ei на промежутке времени τ,T соответствующих u(⋅), соотношением аналогичным (7).
Далее, для фиксированного программного управления u ( ⋅ ) ∈ U ( τ , T ) , используя ограничение (5), опре делим множество W ( τ , T ; u ( ⋅ )) ∈ comp( S m ( τ , T - 1)) всех допустимых программных помех w ( ⋅ ) = { w ( t )} t ∈ τ T - 1 для объекта I на промежутке времени τ , T соответствующих u ( ⋅ ) .
Для фиксированных индекса i ∈ 1, n , пары программных управлений u ( ⋅ ) ∈ U ( τ , ϑ ) и v ( i ) ( ⋅ ) ∈ V ( i ) ( τ , T ; u ( ⋅ )) , используя ограничение (6), определим множество
W(i)(τ,T;u(⋅),v(i)(⋅))∈ comp(Sm (τ,T-1)) i всех допустимых программных помех w(i) (⋅) = {w(i) (t)}t∈τ T-1 для объекта IIi на промежутке времени τ,T соответствующих паре (u(⋅),v(i) (⋅)) .
Далее, для фиксированных программного управления и ( • ) е U (т, &) и набора программных управлений v ( i ) ( • ) е V ( i ) ( т , T ; и ( • )) , i е 1, n , введем следующие множества:
n
V ( т , т ; и ( • )) = П V (i) T T ; и ( • )) ;
i = 1
W ( т , T ; и ( • ), v ( • )) = n
= П W "(т, T ; и ( • ), V (О0) (8)
i = 1
соответственно всех возможных наборов v ( ■ ) = (?“( ■ ), . , v '2>(T, v' " ’ ( • )) е V (Тт ; и ( • )) допустимых программных управлений совокупности игроков E i i е 1, n , или допустимых программных управлений v ( • ) игрока Е на промежутке времени τ , T , и всех наборов 1 V ( . ) = ( w (1) ( • ), . , w (2)0 , w(" ) ( • )) е W ^J ; и ( • ), v ( • )) допустимых реализаций программных помех для совокупности объектов II i , i е 1, n (или обобщенного объекта II ), на промежутке времени τ , T .
Далее, обозначим:
W ( Т , Т ) = { W (ТТ ; и ( • ) ), и ( • ) e U (Тт )};
Wn ( т , Т ) = { W 0 , Т ; и ( • ), v ( • )),
и ( • ) е U ( т , Т ), v ( • ) е V (ГТ ; и ( • ))}.
Пусть для любого промежутка времени т , Т с 0, Т ( т < Т ) множество G (т ) е 0, Т х x R r х П R si есть множество всех т -позиций i = 1
g ( т ) = { т , у ( т ), z (1) ( т ), z (2) ( т ), ..., z( " ) ( т )} е е 0,Т х R r хП R si ( g (0) = {0, у (0), z (1)(0), i = 1
z (2)(0), . , z( n ) (0)} = g 0 ) игрока Р ( G (0) = = { g (0)} = { g 0 } = G 0 ).
Тогда для оценки качества рассматриваемого динамического процесса на уровне управления I введем функционал α :
G (т ) x U (тТ ) x V тТ ) x W (тТ ) x W n тТ ) =
= Г ( т , Т ; а ) ^ Е = ] -« , +® [ , (9)
значения которого для допустимых на промежутке времени τ , T реализаций
g ( т ) е G ( т ), и ( • ) е U ( т ,Т ),
v ( • ) = { v w( • ), v (2)( • ),.., v ( " ) ( • )} е V (тТ ) , w ( • ) e W (т,Т ) и w ( • ) =
= { w (1)0 , w (2)O, . , w( " ) ( • )} £ W n тТ ) определяются следующим конкретным соотношением:
а ( g ( т ), и (О, v ( • ), w (), w ( • )) =
n
= pY у ( Т )) + £ Л-в “’ ( ^'(Т )) . 10) i = 1
Здесь символами у (Т ) = ут (т, Т ; у (т ), и ( • ), v ( • ), w ( • )) и z "(Т ) = z (т,Т ; z «( т ), и ( • ), v (‘) ( • ), w ( i ) ( • )) обозначены состояния в финальный момент времени Т траекторий объектов I и II i , i е 1, n , на промежутке времени
τ , T , которые порождены соответственно наборами ( у ( т ), и ( • ), v ( • ), w ( • )) и
( z"(т ), и(),v «0, w i ')0) ; р e R 1 и р ( i ) e R 1 , i е 1, n - заданные числовые параметры, которые удовлетворяют следующим условиям:
р > 0; V i е^ : р; > 0; £ pt = 1 - р ; (11) i = 1
функционалы у: R r ^ R 1 и в(‘): R si ^ R 1 , i е 1, n , являются выпуклыми и удовлетворяют соответствующим условиям Липшица.
Далее, обозначим через G ( i \т ) =
= { т } x R si множество всех возможных т -позиций g ( i ) ( т ) = { т , z ( i ) ( т )} е { т } x R si игрока Е , ( i еЦ ? ; g w(0) = (0, ; я(0)) = {0, z j° ! = = g«> ; G '»(0) = { gl i > (0)} = { g 0» } = G 0° ), а через G 0 ) = { т } x П R si обозначим множество i = 1
всех возможных т -позиций g(c ) = { т , z (1)( т ), z (2)( т ),..., z ( n ) ( т )} е 0 Т x R r xП R si i = 1
( g (0) = {0, У’ (0), z <5’ (0), . , z n ’ (0)} = g , )
для совокупности игроков E i , i е 1, n , или игрока E , т. е. для II уровня процесса управления ( ( 7(0) = { g (0)} = { 0} = G 0 ).
Введем следующие обозначения:
V "тТ ) = { V«0 0; и ( • )), и ( • ) е U (^Т )};
w "T, t ) = { W ( i ) T T ; u ( • ), v ( • '),
u ( • ) e U ( t , T ), v (% ) e V(i ' ( T , T ; u ( • ))}.
Тогда качество управления для рассматриваемого динамического процесса каждым из игроков Ei ( i e l, n ) на уровне управления II оценива-ется соответствующим ему функционалом β ( i ) вида β ˆ ( i ) :
G (i) ( т ) x U ( t , T ) x V ( / ) ( t , T ) x W ( / ) ( t , T ) =
= r ( TT ; e( i ) ) ^ E , (12)
значения которого для допустимых на промежутке времени t , T реализаций g (‘ ' ( t ) e e G( i ) T ) , u ( • ) e U (TT ) , v ( / )0 e V {i\Tj ) и w (‘ ' ( • ) e W ( i ) ( т , T ) определяются следующим конкретным соотношением:
e(i ) ( g ( i ) ( T ), u ( • ), v (^(0, w «( • )) =
= в ( i ) ( z (i) (T )) , (13)
т.е. этот функционал оценивает качество управления игроком Ei на фиксированном промежутке времени τ , T финальными фазовыми состояниями z ( i ) ( T ) объекта IIi ( i e l, n ).
Следует отметить, что если рассмотреть функционал
Y : G ( t ) x U (TT ) x V (TT ) x W TT ) =
= r ( TT ; Y ) ^ E , (14)
значения которого для допустимых на промежутке времени τ ,T реализаций g (T ) eG (t ), u (•) eU (t, T),
v(•) = {v”f).v'M..., v"’(•)} eV(TT), w (•) eW (t, T) определяются соотношением
-
Y(g ( t ). u 0. v ( • ), w ( • )) = Y ( У ( T )) . (15)
оценивая качество управления игроком Р на фиксированном промежутке времени τ ,T финальными фазовыми состояниями объекта I на уровне управления I для рассматриваемой динамической системы (1)–(6), и ввести векторный функционал 5 = (Y, вт, /3^,., βˆ (n) ) такой, что n
-
5: Г ( т , T ; Y ) x П Г ( t , T ; £( i ) ) ^ E n + 1 , (16) i = 1
-
4. Постановка задачи двухуровневого минимаксного программного терминального управления
значения ( n + 1) -го параметра которого определяются для допустимых на промежутке времени τ , T реализаций их аргументов согласно соотношениям (12)–(15), то можно утверждать, что функционал α , определенный соотношениями (9)–(11), является его сверткой, полученной в соответствии с применением метода скаляризации (см., напр., [7]) векторных функционалов.
Из условий для уровня управления II следует, что игрок Ei (i e1, n ), используя имеющиеся у него информационные и управляющие возможности, заинтересован в таком исходе процесса программного управления в динамической системе (1)–(6) на промежутке времени τ,Т , при котором функционал βˆ(i) , определяемый соотношениями (12), (13), для любых допустимых реализаций его τ -позиций gio(t) = {t,z«'(t)} e G"'(t)(glo(0) = g<» e e G0 ‘') и программного управления i^eUT,T) игрока Р на этом промежутке времени принимает наименьшее возможное значение.
Для осуществления этой цели игрока Ei ( i e 1, n ) ниже формулируется следующая задача минимаксного программного терминального управления объектом II i на уровне управления II двухуровневой иерархической системы управления для динамической системы (1)–(6).
Задача 1. Для фиксированных индекса i e 1, n , промежутка времени т , Т о 0, T ( т < T ), допустимой на уровне управления II для динамической системы (1)–(6) реализации τ -позиции
g(i'(т' = {т, z(''(т)} e G(‘' (т)(g(i'(0) = g0i' e g(>' игрока Ei и допустимой реализации программного управления u(•) eU(t,T) игрока Р на уровне управления I требуется найти множество V(i,e) (τ,T;g(i) (τ), u(⋅)) ⊆ V(i) (τ,T;u(⋅)) минимаксных программных управлений v(i,e) (⋅) ∈V(i) (τ,T;u(⋅)) игрока Ei , соответствующих управлению u(⋅) игрока Р, которое определяется следующим соотношением
V ( i , e ) ( τ,T ; g ( i ) ( τ ), u ( ⋅ )) =
= { v ( i , e ) ( ⋅ ): v ( i , e ) ( ⋅ ) ∈ V ( i ) ( τ,T ; u ( ⋅ )), c ( ˆ e ( ) i ) ( τ , T ; g ( i ) ( τ ), u ( ⋅ )) = m a x {
β w ( i )( ⋅ ) ∈ W ( i )( τ , T ; u ( ⋅ ), v ( i , e )( ⋅ ))
-
( i )
β ( i ) ( g ( i ) ( τ ), u ( ⋅ ), v ( i , e ) ( ⋅ ), w ( i ) ( ⋅ ))} =
= min max {
v ( i ) ( ⋅ ) ∈ V ( i ) ( τ , T ; u ( ⋅ )) w ( i ) ( ⋅ ) ∈ W ( i ) ( τ , T ; u ( ⋅ ))
-
( i )
β ( i ) ( g ( i ) ( τ ), u ( ⋅ ), v ( i ) ( ⋅ ), w ( i ) ( ⋅ ))} , (20) где функционал β ( i ) определен соотношениями (12), (13).
Отметим, что, учитывая конечность множества допустимых программных управлений V ( i ) ( τ , T ; u ( ⋅ )) игрока Ei ( i ∈ 1, n ) и многогранные свойства множества допустимых программных помех W ( i ) ( τ , T ; u ( ⋅ )) , соответствующего фиксированному программному управлению u ( ⋅ ) ∈ U ( τ , T ) игрока P , и соотношения (7)–(20), можно показать (см., напр., [3, 5]), что решение задачи 1 существует и сводится к решению конечного числа задач линейного и выпуклого математического программирования, а также конечного числа задач дискретной оптимизации.
Для реализации достижения цели игрока Р , связанной с уровнем управления I для динамической системы (1)–(6), формулируется следующая задача минимаксного программного терминального управления объектами I и IIi , i ∈ 1, n .
Задача 2. Для фиксированных промежутка времени τ , Т ⊆ 0, T ( τ < T ), допустимой на уровне управления I для динамической системы (1)–(6) реализации τ -позиции
g(т) = {т,у(т),z(1)(т), z(2)(т),,z(n)(т)} е е G(т) (g(0) = {0, у(0), z(1) (0), z(2) (0), ., ., z(n )(0)} = g 0е G0) игрока Р требуется найти множество U(e)(τ,T;g(τ)) минимаксных программных управлений u(e) (⋅) ∈U(τ,T) игрока Р, которое определяется следующим соотношением:
U ( e ) ( τ , T ; g ( τ )) =
{ u ( e ) ( ⋅ ): u ( e ) ( ⋅ ) ∈ U ( τ , T ), c α ( e ) ( τ , T ; g ( τ )) = = m i n max {
v ( e ) ( ⋅ ) ∈ V ( e ) ( τ , T ; g ˆ( τ ), u ( e ) ( ⋅ )) w ( ⋅ ) ∈ W ( τ , T ; u ( e ) ( ⋅ ))
w ˆ ( ⋅ ) ∈ W ˆ ( τ , T ; u ( e ) ( ⋅ ), v ( e ) ( ⋅ ))
α ( g ( τ ), u ( e ) ( ⋅ ), v ( e ) ( ⋅ ), w ( ⋅ ), w ˆ( ⋅ ))} =
= min mi n m a x {
u ( ⋅ ) ∈ U ( τ , T ) v ( e )( ⋅ ) ∈ V ( e )( τ , T ; g ˆ( τ ), u ( ⋅ )) w ( ⋅ ) ∈ W ( τ , T ; u ( ⋅ )) w ˆ( ⋅ ) ∈ W ˆ( τ , T ; u ( ⋅ ), v ( ⋅ )) α ( g ( τ ), u ( ⋅ ), v ( e ) ( ⋅ ), w ( ⋅ ), w ˆ( ⋅ ))} . (21)
На основании решений сформулированных выше задач 1 и 2 рассмотрим следующую задачу.
Задача 3. Для фиксированных промежутка времени τ , Т ⊆ 0, T ( τ < T ), допустимой на уровне управления I двухуровневой иерархической динамической системы (1)–(6) реализации τ -позиции g ( τ ) = { τ , y ( τ ), z (1) ( τ ),
z (2) ( т ),..., z ( n ) ( т)} е G (т ) ( g (0) = {0, у (0), z (1) (0), z (2) (0), . , z ( n ) (0)} = g 0 е G 0 ) игрока Р , допустимой на уровне управления II этой системы реализации τ -позиции g ˆ( τ ) = { τ , z (1) ( т ), z (2)( т ), . , z( n ) ( т )} е G (т ) ( g (0) = {0, z (1) (0), z (2) (0), . , z ( n ) (0)} = g 0 е G 0 ) игрока Е , сформированной из τ -позиции g ( τ ) , и допустимой реализации минимаксного программного управления u ( e ) ( ⋅ ) ∈ U ( e ) ( τ , T ;
g ( τ )) игрока Р на уровне управления I , которое можно сформировать из решения задачи 2, требуется найти множество V ˆ ( e ) ( τ,T ; g ˆ( τ ),
u ( e ) ( ⋅ )) ⊆ V ( e ) ( τ,T ; g ˆ( τ ), u ( e ) ( ⋅ )) ⊆ V ( τ , T ;
u ( e ) ( ⋅ )) и вектор c β ( ˆ e ) ( τ , T ; g ˆ( τ ), u ( e ) ( ⋅ )) = ( c β ( ˆ e ()1) ( τ , T ; g (1) ( τ ), u ( e ) ( ⋅ )) , c β ( ˆ e ()2) ( τ , T ; g (2) ( τ ), u ( e ) ( • )), . , с^/^T ; g ( n ) ( т ), u ( e )0 )) ‘е E n , которые в соответствии с (20) и (21) определяются соотношениями:
V ˆ ( e ) ( τ,T ; g ˆ( τ ), u ( e ) ( ⋅ )) = { v ˆ ( e ) ( ⋅ )}: v ˆ ( e ) ( ⋅ ) ∈ V ( e ) ( τ,T ; g ˆ( τ ), u ( e ) ( ⋅ )),
c(e)(τ,T;g(τ))=
α w ( ⋅ ) ∈ W ( τ , T ; u ( ⋅ ))
w ˆ( ⋅ ) ∈ W ˆ ( τ , T ; u ( ⋅ ), v ˆ( e ) ( ⋅ ))
α ( g ( τ ), u ( e ) ( ⋅ ), v ˆ ( e ) ( ⋅ ), w ( ⋅ ), w ˆ( ⋅ ))} =
= min
v ( e ) ( ⋅ ) ∈ V ( e ) ( τ , T ; g ˆ( τ ), u ( e ) ( ⋅ )) w ( ⋅ ) ∈ W ( τ , T ; u ( ⋅ )) w ˆ( ⋅ ) ∈ W ˆ( τ , T ; u ( ⋅ ), v ( e )( ⋅ ))
α(g(τ), u(e) (⋅), v(e) (⋅), w(⋅), wˆ(⋅))}};(22)
i ∈ 1, n : c β ( ˆ e () i ) ( τ , T ; g ( i ) ( τ ), u ( e ) ( ⋅ )) =
= m ax { w ( i )( ⋅ ) ∈ W ( i )( τ , T ; u ( e )( ⋅ ), v ˆ( i , e )( ⋅ )) β ˆ ( i ) ( g ( i ) ( τ ), u ( e ) ( ⋅ ), v ˆ ( i , e ) ( ⋅ ), w ( i ) ( ⋅ ))} =
= min m a x {
v ( i ) ( ⋅ ) ∈ V ( i ) ( τ , T ; u ( e ) ( ⋅ )) w ( i )( ⋅ ) ∈ W ( i )( τ , T ; u ( e )( ⋅ ), v ( i )( ⋅ ))
β ˆ ( i ) ( g ( i ) ( τ ), u ( e ) ( ⋅ ), v ( i ) ( ⋅ ), w ( i ) ( ⋅ ))} . (23)
-
5. Общая схема решения задачи двухуровневого иерархического минимаксного программного управления
Для любого фиксированного промежутка времени τ , Т ⊆ 0, T ( τ < T ) можно рассмотреть решения сформулированных задач 1–3. Тогда общую схему реализации процесса двухуровневого иерархического минимаксного программного терминального управления для нелинейной динамической системы (1)– (6) можно представить в виде реализации следующей последовательности действий:
-
1) для каждых фиксированных управления u ( ⋅ ) ∈ U ( τ , T ) игрока Р на уровне управления I и индекса i ∈ 1, n из решения соответствующей задачи 1 формируются множество V ( i , e ) ( τ,T ; g ( i ) ( τ ), u ( ⋅ )) минимаксных программных управлений игрока Ei и число c ( ˆ e ( ) i ) ( τ , T ; g ( i ) ( τ ), u ( ⋅ )) – значение результата минимаксного программного управления для этого игрока на уровне управления II , соответствующее управлению u ( ⋅ ), которые удовлетворяют соотношению (20); на основании этих элементов, из решения n задач 1 для всех значений индекса i ∈ 1, n , формируются множество V ( e ) ( τ,T ; g ˆ( τ ), u ( ⋅ )) ⊆ V ( τ,T ; u ( ⋅ )) минимаксных программных управлений v ( e ) ( ⋅ ) ∈ V ( τ,T ; u ( ⋅ )) игрока E на уровне
управления II и вектор cβ(ˆe) (τ, T; gˆ(τ), u(⋅)) = (^„(Tj; g <«(t ), u (•)), . T; g ^), , u(•)), , св>,)(Tj;g")(«•),u(•))) eEn - значение результата минимаксного программного управления для игрока Е на уровне управления II этой системы, соответствующие управлению u( ) игрока Р на уровне управления I;
-
2) из решения задачи 2 формируются множество U ( e ) ( τ , T ; g ( τ )) минимаксных программных управлений u ( e ) ( ) ∈ U ( τ , T ) игрока Р на уровне управления I и число c α ( e ) ( τ , T ; g ( τ )) – значение результата минимаксного программного управления для игрока Р на уровне управления I этой системы, удовлетворяющие соотношению (21);
-
3) для любого допустимого минимаксного программного управления u ( e ) ( ) ∈ U ( e ) ( τ , T ; g ( τ )) игрока Р на уровне управления I , которое можно сформировать из решения задачи 2, на основании решения задачи 3 формируются множество V ( e ) ( τ,T ; g ˆ( τ ), u ( e ) ( )) ⊆ V ( τ , T ; u ( e ) ( )) минимаксных программных управлений { v ˆ ( e ) ( )} = { v ˆ (1, e ) ( ), v( 2e ) ( • ),, v (2 e ) ( • ), . , v( n , e ) ( • )} e V(e ) ( Tj ; g ˆ( τ ), u ( e ) ( )) игрока Е для уровня управления II и вектор c β ( ˆ e ) ( τ , T ; g ˆ( τ ), u ( e ) ( )) =
(cβ(ˆe()1)(τ,T;g(1)(τ), u(e)( )), cβ(ˆe()2)(τ,T;g(2)(τ), uu)(.)),..„ . )(T,T;g(n)T), u •(.)))‘£ En -значение результата минимаксного программного управления для игрока Е на уровне управления II данной системы, соответствующие управлению u(e) (⋅) игрока Р и удовлетворяющие соотношениям (22), (23), такие, что для каждого фиксированного индекса i ∈ 1,n образующие их элементы vˆ(i,e) (⋅) и c(ˆe()i) (τ,T; g(i) (τ), u(e)(⋅)) совместно с управлением u(e) (⋅) игрока Р удовлетворяют и соотношению (21).
Заключение
Для исследуемой в данной работе задачи управления предлагается математическая формализация в форме решения многошаговой задачи двухуровневого иерархического минимаксного программного терминального управления в дискретной динамической системе (1)-(6), и предложена общая схема ее решения. Конкретные алгоритмы формирования предлагаемой двухуровневой системы управления могут быть разработаны на основе результатов работ [3–5].
Список литературы Минимаксное программное терминальное управление в двухуровневой иерархической нелинейной дискретной динамической системе
- Красовский Н.Н. Теория управления движением. М.: Наука, 1968.
- Красовский Н.Н., Субботин А.И. Позиционные дифференциальные игры. М.: Наука, 1974.
- Шориков А. Ф. Минимаксное оценивание и управление в дискретных динамических системах. Екатеринбург: Изд-во Урал. гос. ун-та, 1997.
- Шориков А.Ф. Двухуровневое минимаксное управление в нелинейной многошаговой системе//Тез. докл. V Всесоюз. конф. по оптимальному управлению в механических системах. Казань: Изд-во КАИ, 1985. С. 62.
- Шориков А. Ф. Алгоритм решения задачи е-оптимального программного терминального управления для дискретной динамической системы//Теория управления и теория обобщенных решений уравнения Га-ми льтона-Якоби: тр. междунар. семинара, поев. 60-летию акад. А.И. Субботина: в 2 т. Екатеринбург: Изд-во Урал. гос. ун-та, Т. 2. С. 190-196.
- Месарович М., Мако Д., Такахара И. Теория иерархических многоуровневых систем. М.: Мир, 1973.
- Базара М., Шетти К. Нелинейное программирование. Теория и алгоритмы. М.: Мир, 1982.