Игровая задача наведения интегро-дифференциальной системы типа Вольтерра для трех лиц
Бесплатный доступ
Рассматривается задача наведения динамического объекта в пространстве R n на замкнутое множество M. В этой задаче участвуют три игрока, причем, два из них составляют коалицию, которая стремится привести движущуюся точку x(t) на множество M в момент O, а третий игрок стремится не допустить встречи x(t) с множеством M. Особенность работы заключается в описании эволюции объекта нелинейной интегро-дифференциальной системой, что наделяет управляемую систему новыми существенными свойствами: памятью и эффектом запаздывания по управляющим воздействиям, что усложняет исследование по сравнению со случаем, когда эволюция объекта описывается обыкновенными дифференциальными системами. Для решения задачи предполагается существование некоторого стабильного моста в пространстве непрерывных функций, содержащего отрезки решений исходной системы при использовании игроками коалиции своих, определенных в работе, экстремальных стратегий, при любом допустимом управлении противоположной стороны. Предполагается, что стабильный мост обрывается на целевом множестве M в фиксированный момент времени O. Доказывается, что построенные в работе экстремальные стратегии коалиции удерживают выбранное решение (движение) системы на стабильном мосту, что и решает поставленную задачу наведения.
Игровая задача, интегро-дифференциальная система, управляющее воздействие, позиция игры, стабильная система
Короткий адрес: https://sciup.org/147159233
IDR: 147159233
Текст краткого сообщения Игровая задача наведения интегро-дифференциальной системы типа Вольтерра для трех лиц
Рассматривается конфликтно-управляемая система.
dx dt
f ( t,x ( t + т ) ,u,v
t
)+/
K ( t, x ( s ) , w ( s ) , s ) ds
t 0
с начальным условием x t 0 [ т ] = x [ t о + т ] , — A < т < 0. t о > 0. A = const > 0 .
Здесь x - n-мерный фазовый вектор; u,v,w - r 1, r2, r3 - мерные управляющие воздействия, стесненные условиями u Е P, v Е Q, w Е S', P,Q,S - компакты в соответствующих евклидовых пространствах Rr1, Rr2, Rr3; оператор f (t, x(т), u, v) и функция K(t, x, w, s), t0 < s < t < 6,6 = const > 0, непрерывны по совокупности своих аргументов и определены соответственно на произведениях [ t о ,6 ] х C [-х, 0] х P х Q, [ t о ,6 ] х D х S х [ t о ,6 ], г де D -ограниченная область в Rn содержащая все траектории системы (1), C[-х,о] - пространство n-мерных пенугерывных на [—A, 0] вектор-<руыктщя x(т). с нормой llx(•) 11х = maxn llx(т)II ,
-λ≤τ ≤ 0
|»| - символ евклидовой нормы.
Реализация u [ t ]. v [ t ]. w [ t ] управляющих воздействий u,v,w на проатежутке [ t о ,9 ] - из меримые по Лебегу на [ t о , 9 ] функции.
Оператор f ( t, x ( т ) ,u,v ) и функция K ( t, x, w,s ) удовлетворяют в любых ограниченных областях Q1 С C [ -д, о], Q2 С Rr, соответственно, условию Липшица по второму аргументу
3 L = L (Q1) > 0 , V t Е [ t о , 0] , V xi ( т ) Е Q1 , V u Е P, V v Е Q :
Il f ( t,x 1( т ) ,u,v ) - f ( t,x 2( т ) ,u,v ) I I < L ||x 1 ( • ) - x 2( • ) || A ; 3 L = L (Q2) > 0 , V t Е [ t 0 ,9 ] : tt
/ ||K(t,x 1(s), w(s),s) - K(t,x2(s), w(s),s) II ds < L J ||xi(s) - x2(s) II ds, t0 t0
каковы 6 bi ни были измеримая по Лебегу функция w ( s ), t о < s < t, со свойством w Е S и абсолютно непрерывные функции на [ t о , 9 ] функции xi ( s ) : xi Е Q 2 , i = 1 , 2, t о < s < t.
Оператор f ( t,x ( т ) , u, v Удовлетворяет следутснцему условию pocTa | f ( t,x ( т ) , u, v ) || < Z i( t ) + Z 2( t ) || x ( • ) И д , где Z i( t )• Z 2( t ) - неотрицательные. непрерывные на [ t о ,9 ] функции.
Указанные выше ограничения на правую частв системы (1) гарантируют при реализовавшихся управлениях и заданном xt 0 [ т ] существование на [ t о ,9 ] единственного абсолютно непрерывного решения системы (1) [1]. В дальнейшем будем для определенности считать, что 9 — t о > X. Следует иметь в виду, что встречающиеся ниже понятия, не сопровождаемые ссылками и пояснениями определены в работах [2, 3].
Управляющим воздействием u распоряжается игрок р 1, управляющим воздействием v - игрок q 1. управлятошшi воздействием w распоряжается игрок р 2.
Пусть в пространстве Rn задано замкнутое множество M. Задачей коалиции { р 1 , р 2 } является приведение траектории системы (1) в момент 9 на множество M при любом допустимом управляющем воздействии игрока q 1 .
Стратегию коалиции обозначим символом U = { U 1 , U 2 } , стратеги го игрока q 1 обозначим символом V.
Пусть P ( ст ). Q ( ст ). S ( ст ) - совокупности всех измеримых функций u ( • ). v ( • ). w ( • ) , опре деленных на множестве ст со значениями из компактов P, Q, S соответственно.
Всякую пару { t, xt [ т ] } назовем позицией игры. Стратегией U 1( V ) игр ока р 1 ( q 1) назовем правило, которое реализовавшейся позиции { t*,xt „ [ т ] }, t о < t* < 9, ставит в соответствие множество U 1( t*,xt , [ т ]) С P ( V ( t* ,x t , [ т ]) С Q ). Стратеги ей игрока р 2 назовем правило, ставящее в соответствие позиции { t*,x t , [ т ] }, t о < t* < 9, и числу t* Е [ t*,9 ) функцию w [ t ] Е S ([ t*,t* ]) .
Пусть заданы начальная позиция р о = { t о ,x t 0 [ т ] } и разбиение Дотрезка [ t о , 9 ] моментами t о = т о < т 1 < т 2 < ... <тп = 9 5 = max( тi +1 - т ) .
i
Определим аппроксимационное движение системы (1), отвечающее стратегии U = { U 1 , U 2 } , как абсолютно непрерывную функцию
x [ t ] д = x [ t,p о , U ] д , t о < t < 9,
удовлетворяющую при почти
dx [ t ] dt
всех t Е [ t о ,9 ] дифференциальному включению
t
Е F ( t,x,u ) + ]к ( t.x ( s )д .ю ( s м) ds t 0
с начальным условием xt 0[ т ]д = x [ t о + т ]д.
Здесь F ( t,x,u ) = co { f ( t,x ( t + т ) , u, v ) , v Е Q }: на каждом полуннтервате [ т i ,т i +1) разбиения Д управ .теине u = const назначаемзя момент т i страт огней U 1. a ynptшлепне w [ t ]. t Е [ т i ,т +1). пазианаетсзi стратегией U 2. npiнюм w ( • ) Е S ([ т i ,т i +1]).
Равномерный предел движений (2) при 5 ^ 0, как обычно, назовем движением системы (1), порожденным стратегией U. Множество движений системы (1) непусто [2, 4].
Аппроксимационное движение системы (1), отвечающее стратегии игрока p 2, определим как абсолютно-непрерывную функцию x [ t ] д = x [ t,p 0 , V ] д, t 0 < t* < 9, удовлетворяющую при почти всех t € [ t 0 , 9 ] дифференциальному включению
t dx [ t ] dt
€ F(t, x,v) + У K(t,x(s)д ,w(s), s)ds, t0
где
F ( t, x,v ) = co { f ( t,x ( t + т ) , u, v ) , u € P}, управление w [ t ] удовлетворяет условию
w ( • ) € S ([ T i ,T i +1]). a ynptтление v = const па каждом полуинтервале [ T i ,T i +1) разбиения Диазпачаетс!i в момент Ti.
Назовем систему множеств W t = { x [ t + т ] }, W t C C [ _\, 0], 1 0 < t* < 9 , ( y,u,v ) - стабильной относительно M, если каковы бы ни были позиция { t*,x t , [ т ] }, t 0 < t* < 9, x t , € Wt,, момент t* € ( t*,9 ). чи ело y > 0. управлятотне e воз действие v ( • ) € Q ([ t*,t* ]). существуют управляющие воздействия u ( • ) € P ([ t*,t* ]), w ( • ) € S ([ t*,t* ]) такие, что x [ t* + т ] € W , где Wt , y ~ окрестность множества W^ в C [ _\, 0] •
Пусть r2(xt[T],Wt) =inf ||xt(•) - yt(•)Ha ,y(•) € Wt, (3)
и для данного xt [ т ] { xtk ) [ т ] } - какая-либо минимизирующая для (3) последовательность. Составим множество предельных точек последовательности xtk ) [0], являющейся О-сечением последовательности { x ( k ) [ т ] }.
Обозначим символом Z ( x ( t )) совокупность элементов этого множества ближайших к xt [0] в Rn^
Экстремальные стратегии Ue, Ve игроков p 1 и q 1 в момент Ti на полуинтервале [Ti,Ti+1) выбираем соответственно из условий max(x^[0] - z,f (Tix(Ti + т),ue,v)) = minmax(x^[0] - z,f (Ti,x(Ti + т),u,v), v∈Q u∈P v∈Q min(xTi [0] - z, f (Ti,x(Ti + т),u, ve)) = maxnrin(xTi [0] - z, f (Ti,x(Ti + т),u,v), где z € Z (x (t)) •
Здесь, считаем выполненным условие седловой точки в маленькой игре [4]
minmax( x T [0] - z, f ( Ti, x ( Ti + т ) ,u,v ) = maxmin( x T . [0] - z, f ( Ti,x ( Ti + т ) , u, v ) • u ∈ P v ∈ Q i v ∈ Q u ∈ P i
Экстремальную стратегию U 2 игр ока p 2 определяем следующим образом. В момент т 1 по позиции { Ti,x T [ т ] }, x T i [ т ] € W T i моменту Ti +1 , числу y > 0, управляющему воздействию ve = ve [ Ti +1] € Q ([ Ti,T i +1]) определяем из условия ( Y,u,v ) ~ стабильноети (руикции: u ( • ) € P ([ Ti,Ti +1 )) ,w ( • ) € S ([ Ti,Ti +1 )) , где y < ( Ti +1 , - Ti )2 •
Определенную таким образом функцию w ( • ) € S ([ Ti,Ti +1 )) назовем экстремальным управлением игрока p 2 на промежутке [ Ti,Ti +1 ] и обозначим символом we [ t ], а соответствующую стратегию игрока p 1 обозначим U 2, таким образом Ue = { Uf, U^ } - экстремальная стратегия коалиции { p 1 ,p 2 } •
Теорема 1. Пусть начальная позиция игры p 0 = {t 0 ,xt 0 [ т ]} таков a, rmor 2( xt 0 [ т ] ,Wt 0) = 0 • Если система мномсеств Wt, 10 < t* < 9, (y,u,w) - стабильна относительно множества М, то экстремальная к ней стратегия Ue = {Uf, Uf} удовлетворяет условию ri(x[9], M) = 0, ri(x[9], M) = inf ||x[9] — y\\ ,y E M. x[t] - любое i)вижспис x[t,pо, Ue]. при любой допустимой реализации управляющего воздействия игрока q 1.
Доказательство. Получим оценку, подобную оценке из [3]. Для произвольно выбранной функции x [ t ]д = x [ t,p о ,Ue ]д построим onei ikv величины Е д[ Ti +i] через величины Е д[ Ti ]ii д; здесь Е д[ Ti ] = r д( x [ t ]д , Wt ).
Рассмотрим позицию p ( k,i ) = { ti,xTk )[ т ]д }.
В силу (y, u, w) ~ стабильности системы множеств Wt, tо < t* < 9, относительно M среди движений co свойством x(k)[t]д = x[t,p(k,i), Ve] есть движение co свойством xTk+ 1 [t]д e Wti+1. (1)
По определению величины е д [ т ] с учетом вложения (4) имеем оценку
Е д[ Ti +1] < (|| xT +1[ • ]д — xTk ) i [ • ]д|| Л + Y )2 • Д)
Здесь отрезки x T +i[ т ]д, xTk ) 1 [ т ]дтраекторий x [ т ]д, x ( k )[ т ]д записываются в следующем виде (считаем, что Ti +i — Ti < A, ai ( t ) = t — T i, ai = Ti +i T i, t E [ Ti,Ti +i))
t+T t+T § xt [ t ]д = <
x^ [0]д + J f 1[ £ ] d£ + J fK ( £,x ( s )д ,we ( s ) ,s ) dsd£, — ai ( t ) < т < 0 ,
Ti Ti t 0
x^ [т + ai (t)] д, —A < т < —ai (t), t+T t+T § xtk)[ т]д = <
xt i [0]д + J f [ £ ] d£ + J J K ( £,x ( k )( s )д ,we ( s ) ,s ) dsd£, — ai ( t ) < т < 0 ,
Ti ii 1 0
xTk)[т + ai (t)] д, —A < т < —ai (t), где f 1 [t] E F(t,x,ue), tо < t < 9. f2[t] E F(t,x,ve), tо < t < 9. Подставляем (6). (7) в неравенство (5), тогда
Е д [ Ti +i] = max { max || x^ [ т ]д — xTk )[ т ]д| ,
-X>t Л-ai (t) t+тt max [\xa [0]д — xT )[0]д + J f1[£] d£ — J f2[£] d£+
-ai (t) + J JK(£,x(s)д,we(s),s)dsd£ — J JK(£,x(k)(s)д,we(s),s)dsd£\+Y]2}• Ti 10 Из (8), аналогично работам [2, 3, 5] с использованием условия Липшица, следует оценка Ед[Ti+1] < ед[Ti](1 + C • ai + aiф(ai), где C = const > 0. ;г ф(ai) - неотрнпательная <|>уикпия со свойством ф(ai) ^ 0 nj)ii ai ^ 0. Отсюда, аналогично работам [2, 3, 5], следует доказательство теоремы.С
Список литературы Игровая задача наведения интегро-дифференциальной системы типа Вольтерра для трех лиц
- Зверкина, Т.С. К вопросу о численном интегрировании систем с запаздыванием/Т.С. Зверкина//Тр. Семинара по теории дифференциальных уравнений с отклоняющимся аргументом. -М.: Ун-т Дружбы народов, 1967. -Т. 4. -C. 164-172.
- Осипов, Ю.С. Дифференциальные игры систем с последействием/Ю.С. Осипов//ДАН СССР. -1971. -Т. 196, № 4. -С. 779-782.
- Осипов, Ю.С. Дифференциальные игра наведения для систем с последействием/Ю.С. Осипов//Прикладная математика и механика. -1971. -Т. 35, № 1. -С. 123-131.
- Красовский, Н.Н. Позиционные дифференциальные игры/Н.Н. Красовский, А.И. Субботин. -М.: Наука, 1974. -456 с.
- Осипов, Ю.С. О позиционном управлении при последействии в управляющих силах/Ю.С. Осипов, В.Г. Пименов//Прикладная математика и механика. -1981. -Т. 45, № 2. -С. 223-229.