Экстремальные стратегии в игровых задачах для линейных интегродифференциальных систем Вольтерра, II
Бесплатный доступ
Изучены задача наведения и игровая задача т лиц для случая равновесия системы функционалов (типа расстояния) в смысле Нэша. Для решения этих задач применяется известная экстремальная конструкция академика Н.Н. Красовского, модифицированная для рассматриваемых ситуаций.
Игровая задача, интегро-дифференциальная система, управляющее воздействие, позиции игры, программный максимин, равновесие в смысле нэша
Короткий адрес: https://sciup.org/147158756
IDR: 147158756
Текст научной статьи Экстремальные стратегии в игровых задачах для линейных интегродифференциальных систем Вольтерра, II
Предлагаемая работа примыкает к работам [1-8] и является продолжением статьи [9]. Все понятия и обозначения, несопровождаемые ссылками и пояснениями, имеются в [9]. Нумерация параграфов и формул продолжает нумерацию [9].
3. Игровая задача наведения для линейных интегро-дифференциальных систем Вольтерра Рассматривается конфликтно -управляемая линейная интегро-дифференциальная система Вольтерра
t
x ( t ) = f ( t ) + A ( t ) x ( t ) + j K ( t , s ) x ( x ) ds + и ( t ) - v ( t ), x (0) = x 0. (40)
Все понятия и ограничения аналогичны [9].
Игра рассматривается на заданном отрезке [0, 0 ], плата задана равенством
И 0 ] = ||{ x [ » ]) J (41)
Первый игрок распоряжается выбором управления u е P и стремится минимизировать величину у [ 0 ] на траекториях x [ t ], 0 < t < 0 , системы (40), реализующихся под действием управлений u [ t ], 0 < t < 0 , и е P , в паре с любой интегрируемой реализацией v [ t ], 0 < t < 0 , v е Q , второго игрока. Цель второго игрока противоположна и состоит в максимизации величины (41).
t
Пусть ф(s) = Ф(s, 0)x0 + f (s), где Ф(t, s) = j K(t, T)X(т, s)dT, X(t, s) - матрица Коши систе-s мы x(t) = A(t)x(t).
Тогда решение системы (40) записывается в виде ttt
x ( t ) = X ( t , 0) x 0 + j x ( t , s ) ^ ( s ) ds + j x ( t , s ) и ( s ) ds - j x ( t , s ) v ( s ) ds . (42)
0 0 0
x( t , s ) = X ( t , s ) + j X ( t , t ) R ( t , s ) dT ,
s
R ( t , s ) - резольвента матрицы Ф( t , s ).
Предполагаем, что до момента 10, 0 < 10 < 0 начал а игры, оба игрока применяют некоторые допустимые реализации управлений и 0[t ], v0[ t ], 0 < t < 10. Если и [ t ] = 0 , v[t ] = 0 после момента t, 10 < t < 0, то состояние системы (40) в момент 0 согласно (42) записывается по формуле t 0 t t 0
x(0, t) = x0 (0) + j x(0, s)и0 [s]ds + j x(0, s)и[s]ds - j ,x(0, s)v0 [s]ds - j ,x(0, s)v[s]ds,(43)
0 t 0 0
Математика
е где x0(е) =X(е, 0)x0+Jх(6,s)ф(s)ds.
о
Определение 3.1. Пару p = {t, x(е, t)} будем называть позицией игры в момент t, 0< t < е; p0 = {t0, x(е,t0)} - начальная позиция, где t 0
x(е, t0) = x0(е) + J x(6, s)u0[s]ds - J x(6, s)v0[s]ds , тогда состояние системы (40) с учетом (43) в момент 6 имеет вид ее
x(е) = x(е, t0) +J x(6, s)u [s]ds + J x(6, s)v[s]ds.(44)
t 0
Уточним постановки задач для обоих игроков в рассматриваемом случае наведения.
Задача 3.1. Среди допустимых стратегий U первого игрока найти стратегию U e , которая при любом допустимом способе управления второго игрока для любой начальной позиции p 0, 0 < t 0< е , гарантирует результат игры:
М 6 | t 0, x ( е , t 0), U e , v ) < £ ( t 0, x ( е , t 0)).
Задача 3.2. Среди допустимых стратегий V второго игрока найти стратегию Vе , которая при любом допустимом способе управления первого игрока для любой начальной позиции p 0 , 0 < t 0< е , гарантирует результат игры:
( / [ е ] \0 0, x ( е , t 0), U , Vе ) > £( t 0, x ( е , t 0)).
Задача 3.3. Среди допустимых стратегий U , V первого и второго игроков соответственно найти стратегии U e , Vе , которые для любой начальной позиции p 0 , 0 < t 0< е, гарантируют результат игры (д е ] 1 t 0, x ( е , t0)U e , Vе ) = £ ( t 0, x ( е , t 0)).
В рассматриваемом случае программный максимин £(t0, x(е, t0)) для начальной позиции p0 , 0 < t0 < е согласно (43), (44) записывается в виде е е
£(t 0, x ( е , t 0)) = max J max 1 ‘{ x ( 6 , s ) v [ s ]} m ds - J max 1 ‘{ x ( 6 , s ) u [ s ]} m ds - 1 ‘{ x ( е , t 0)} m
1 = 1 , v e Q , u e P
L t 0 t 0
если правая часть этого равенства положительна, иначе £(t 0, x ( е , t 0)) = 0 .
Здесь рассматривается лишь регулярный случай, когда максимум в правой части (45) достигается на единственном векторе 1 = 1 0 ( t 0, x ( е , t 0)), 0 < t 0< е .
Далее обозначим
е
{ 1 0 ^е, t )}={ 1 0 X ( е , t )} m + J { 1 0 x ( е , т )} m r ( t , t ) dT = x e [ t ]. (46)
t
Определение 3.2. Пусть m-мерный вектор 10 в каждый момент 10, 0 < 10 < е, доставляет мак симум правой части (45). Тогда, если позиция p0 такова, что £0(10, x(е, 10)) > 0, то с этой пози цией будем сопоставлять множество Ue (10, x(е, 10)) (Vе (10, x(е, 10))) всех векторов ue e P
(Vе e Q), для которых xe [10]uе [10] = max xe [10]u (xe [10]Vе [10] = max xe [10]v). В этом случае страте-ue P veQ гия ие (Vе) называется экстремальной стратегией первого (второго) игрока.
Отметим, что здесь { 10Х ( е , t )} m - первые m координат решения системы ;x ( t ) = - A'tt ) x ( t ) c краевым условием 1 0 [1, c. 117]. У вектора 1 0 по еле m -й координаты приписаны нули.
С использованием ранее приведённых фрагментов рассуждений по плану доказательства аналогичных теорем из [1, с. 153] доказывается следующее утверждение.
Теорема 3.1 . В регулярном случае игры из задач 3.1 и 3.2 экстремальные стратегии Ue = Ue ( 1 , x ( 0 , 1 )) и Vе = Vе ( 1 , x ( 0 , 1 )) 0 < 1 0< 1 < 0 доставляют решения этих задач. Они составляют пару оптимальных стратегий { Ue , Vе }, которые разрешают задачу 3.3 и доставляют седловую точку рассматриваемой игры, причём ( / [ 0 ]| 1 0, x ( 0 , 1 0) Ue , Vе )= е ( 1 0, x ( 0 , 1 0)), то есть оптимальная плата игры ( / [ 0 ]| 1 0, x ( 0 , 1 0) Ue , Vе ) для всякой исходной позиции ( 1 0, x ( 0 , 1 0)) равняется программному максимину е ( 1 0, x ( 0 , 1 0)).
Доказательство . Запишем следующую функцию:
е [ 1 ] = е ( 1 , x ( 0 , 1 )) = j max { 1 0 ( s , x ( 0 , s ) x ( 0 , s ))] m v [ s ] ds - t v e V
0 t
- jmax { 1 0 ( s , x ( 0 , s ) x ( 0 , s ))] m u [ s ] ds + j { 1 0 ( s , x ( 0 , s ) x(0, s ))] m v 0[ s ] ds -
t u e U 1 0
t
- j {1 0( s , x ( 0 , s ) x ( 0 , s ))] m u 0[ s ] ds -{ 1 0 ( 1 0, x(0,1 cX x ( 0 , 1 0))] m . t 0
Здесь u 0[ s ], v 0[ s ], 1 0< s < 1 - допустимые управления, реализовавшиеся к моменту 1 . Аналогично [1] можно показать, что функция е ( 1 , x ( 0 , 1 )), 1 0< 1 < 0 , 0 < 1 0< 0 , абсолютно непрерывна по 1 в области е ( 1 , x ( 0 , 1 )) > 0 и вектор 1 0 ( 1 , x ( 0 , 1 )) при дифференцировании не зависит от 1 , 1 0 - начало процесса управления.
Производная от функции (47) существует почти всюду [1, с. 144] и имеет вид dE [ t ] = max{ 1 0 ( 1 , x ( 0 , 1 ) x ( 0 , 1 )] m u - max{ 1 0 ( 1 , x ( 0 , 1 ) x ( 0 , 1 )] m v + dt u e P v e Q
+{ 1 0( 1 , x ( 0 , 1 ) , X ( 0 , 1 )} m v - { 1 0( 1 , x ( 0 , 1 ) 5c(0,1 )} mu .
Отсюда согласно (46) получим
Е [ 1 ] = - max xe [ 1 ] v + max xe [ 1 ]u + xe [ 1 ] v [ 1 ] - xe [ 1 ] u [ 1 ]. dt v e Q u e P
Если теперь первый игрок, начиная с момента 10, применяет экстремальную стратегию U в течение всей игры, а второй - произвольную допустимую, то из (48) и определения 3.2 получаем dE[ t ] = - max xe (1) v + xe (1) v < 0 . Таким образом, положительная функция е[ 1 ] = е( 1, x (0,1)) имеет dt veV почти всюду на [ 10, 0] неположительную производную. Следовательно, функция е[ 1 ] на [ 10, 0] не возрастает, а значит, е(0, x(0, 0)) < е( 10, x(0,10)), но из (47) вытекает, что Eke, x (в, в» =К x [0]] _|.
Допустим, что второй игрок в течение всей игры применяет экстремальную стратегию Vе. Тогда из (48) имеем dE[ 1 ] = max xe[ 1 ]u - xe[ 1 ]u[ 1 ]. Отсюда dE[ 1 ] > 0 . Таким образом, когда функ-dt ueU...... dt ция e[ 1 ] положительна, она имеет неотрицательную производную при почти всех 1 e [ 10,0]. Следовательно , функция е[ 1 ] на [ 10,0] не убывает. Значит, e(0,x(0,0)) > е( 10, x(0,10)).
Пусть теперь в регулярном случае оба игрока применяют свои экстремальные стратегии, тогда , как это следует из предыдущего, им будет гарантирован результат игры I { x [ 0 ]] „ | = Е ( 1 0, x ( 0 , 1 0)).
Пример . Рассмотрим модельный пример. Пусть задана система из двух скалярных уравнений
•
t x (1) = e1 + j x (s) ds + u (1) - v (1), 0
Математика
здесь f (t) = e1, K(t, s) = 1, однородная дифференциальная система для (49) записывается в виде x = 0. В качестве фундаментальной матрицы выбираем X (t) = 1, тогда матрица Коши tt
X(t,s) = X(t)X ’(s) = 1, X(t,0) = 1; вычисляем Ф( t,s) = jK(t ,т)X(т,s)dT = jdT = t —s, резольвен- ss e1 -s — e (1 —s)
та этой матрицы определяется формулой [10, с. 22] R ( 1 , s ) = sh( 1 — s ) =-----------, тогда
~ 1
x ( 1 , s ) = 1 + j ch( T — s ) dT = 1 + ch( T — s )
s
т =
= 1 + ch( 1 — s ) — 1 = ch( 1 — s ). т = s
Выбираем какое-либо ненулевое начальное условие, например х0 = x (0) = 3, получаем ^ ( 1 ) = f ( 1 ) + Ф( 1 ,0) x 0 = e1 + 3 1 .
t
1 ~
x ( 1 ) = X ( 1 , 0) x 0 + j x ( 1 , s ) ^ ( s ) ds + j 0 0
1 ~
1 ~
t
t
t
Проведём вычисления:
= 3 + j ch( 1 — s )( es + 3 s ) ds +j ch( 1 — s ) u ( s ) ds —j ch( 1 — s ) v ( s ) ds .
о
о
j ch( 1 — s ) esds +3 j ch( 1 — s ) sds =1 j ( e1 — s
0 0 2 0
Для первого слагаемого получаем
+ e
—
( 1 — s ) ) es ds + 3 J ( e1 — s + e -( 1 — s ) ) sds .
t
-
1 +2 s ) ) ds = l j ( e s +1 e-1 +2 s
2 0 2
t 1 t 1 / ) =- t e + — e1
0 2 4
^^^^^^^в
1 e -=
для второго слагаемого интегрированием по частям получаем
3 e1
Подставим в (1)
t t
о
2 e-
f ( essds = 3(— 1 — 1 + e1 ) + 3( 1 — 1 + e — ).
J 2 2
1 1 7 1 5 .
x ( 1 ) = 1e + e + —e 2 4 4
—
t
t
+ j ch( 1 — s ) и ( s ) ds —j ch( 1 — s ) v ( s ) ds ,
нетрудно проверить, что x (0) = 3.
Будем теперь считать, что начало управления 10 = 0, начальная точка находится в точке (3,3) координат, из элементарных соображений заключаем, что движение в плоскости Oxy будет проходить по прямой у = х по направлению к началу координат. Полагаем, что управляющие воздействия стеснены ограничениями и е [0,1],vе [0,1]. Седловую точку определяют стратегии Ue, Ve, согласно которым в каждый момент 1 е [0,0) управляющие воздействия принимают значения u = 1, v = 1. При этих значениях экстремальный вектор 10 = ] —
1 1
—
2’ V2
и согласно (45)
^ (0, x ( 0 ,0)) = max(— e'x ( 0 ,0)) = —(—U • 3 —U • 3) = -6= • Д = 3л/2, то есть сближения с началом 2 V2 V2 V2
координат нет, в других случаях точка (3,3) будет либо приближаться к началу координат, либо удаляться.
Пасиков В .Л. Экстремальные стратегии в игровых задачах для линейных интегро-дифференциальных систем Вольтерра, II
4. -
Рассматривается управляемая система, эволюция которой описывается векторным интегро-дифференциальным уравнением Вольтерра
х(t) = f (t) + A(t)x(t) + jK(t, s)x(s)ds + ]T ui (t), x(0) = x0 ,(50)
здесь x - n -мерный фазовый вектор, f (t) - n -мерная интегрируемая по Лебегу на [0,0"] вектор-функция , 0 > 0 - фиксированный момент, K (t, s) - непрерывная на [0,0] х [0,0] матрица n х n, A (t) - непрерывная на [0,0] матрица n х n, ui (t), i = 1, m - управляющие воздействия, стеснен ные ограничениями, ui е Ui, Ui - выпуклые компакты в Rn, а реализации управляющих воздействий ui [t], t е [0,0] - измеримые по Лебегу функции. Все интегралы понимаются в смысле Лебега . Как показано в [9], при таких ограничениях система (50) имеет единственное абсолютно непрерывное решение x [t], удовлетворяющее начальному условию x [0] = x0.
Решение системы (50) записывается в виде (42):
t m t
x(t) = X(t, 0)x0 + j x(t, s)ф(s)ds + ^ j x(t, s)ui [s]ds.(51)
Пусть, как и в [8], задана система функционалов
^ = {¥-| ¥f(u„ .,um) = ф.(x[0]), i = Um).(52)
Задача 4.1. Найти такиe стратегии U J , .., U mm , для которых выполняются соотношения Ф . ( x e [ 0 ]) < Ф . ( x [ 0 ]), i = 1, m .
Здесь x e [ 0 ] - точка реализовавшейся траектории x [ t ] системы (50), которая отвечает стратегиям U e ,..., U mm ; xl [ 0 ] - точка траектории x [ t ], 0 < t < 0 , системы (50), соответствующая управлениям u J [ t ],.., u J - 1 [ t ], u . [ t ], u e +1 [ t ],.., u m [ t ], где u J [ t ], j ^ i , j = 1, m , формируется на основе U e ; ut [ t ] - реализация произвольного измеримого по Лебегу управления, стесненного условием н^ е Uz- .
Если задача 4.1 разрешима, то набор стратегий Ue = { u J ,., U mm } называется равновесным по Нэшу для игры (50), (52) [8]. Как и в [8], рассмотрим случай, когда
¥ ( u „., u m ) = | cZ - x [ 0 ]|| , (53)
где С - заданные точки в R n , i = 1, m .
Считаем, что до момента начала игры 1 0, 0 < 1 0< 0 , все игроки уже реализовали некоторые допустимые управления u0[t ], 0 < t < 1 0 ; далее до момента t , 1 0< t < 0 , применялись некоторые допустимые управления согласно тем или иным соображениям игроков, а после момента t предполагаем, что u [ t ] = 0. Тогда в момент t состояние системы (50) имеет вид mt 0 mt 0
x ( 0 , t ) = x ( 0 , 1 0) + ^ j x ( 0 , s ) ut [ s ] ds , где x ( 0 , 1 0) = X ( 0 ,0) x 0 + j, x ( 0 , s ) ф ( s ) ds + ^ j , x ( 0 , s ) uz °[ s ] ds .
i = 1 1 0 0 i = 1 0
Следовательно,
x ( 0 , t ) = x ( 0 , 1 0) + ]T J x(0, s ) u , [ s ] ds . (54)
i = 1 t 0
Определение 4.1. Для i -го игрока, i = 1, m , тройку p = { t , x ( 0 , t ), С } будем назьгвать позицией в момент t , 0< 1 0< t < 0 , a p 0 = { t 0, x ( 0 , 1 0), С } - начальной позицией.
Список литературы Экстремальные стратегии в игровых задачах для линейных интегродифференциальных систем Вольтерра, II
- Красовский, H.H. Игровые задачи о встрече движений/H.H. Красовский. -М.: Наука, 1970. -420 с.
- Красовский, H.H. Позиционные дифференциальные игры/H.H. Красовский, А.И. Субботин. -М.: Наука, 1974. -456 с.
- Субботин, А.И. Оптимизация гарантии в задачах управления/А.И. Субботин, А.Г. Ченцов. -М.: Наука, 1981. -278 с.
- Красовский, H.H. Управление динамической системой/H.H. Красовский. -М.: Наука, 1985. -520 с.
- Осипов, Ю.С. Дифференциальные игры систем с последействием/Ю.С. Осипов//ДАН СССР. -1971. -Т. 196, № 4. -С. 779-782.
- Осипов, Ю.С. Альтернатива в дифференциальной игре/Ю.С. Осипов//ДАН СССР. -1971. -Т. 197, № 5. -С. 1023-1025.
- Субботин, А.И. Экстремальные стратегии в дифференциальных играх с полной памятью/А.И. Субботин//ДАН СССР. -1972. -Т. 206, № 3. -С. 211-213.
- Гороховик, В.В. О линейных дифференциальных играх нескольких лиц/В.В. Гороховик, Ф.М. Кириллова//Управляемые системы: сб. науч. тр, -Новосибирск, 1971. -Вып. 10. -С. 3-9.
- Пасиков, В.Л. Экстремальные стратегии в игровых задачах для линейных интегро-дифференциальных систем Вольтерра, I/В.Л. Пасиков//Вестник ЮУрГУ. Серия «Математика. Механика. Физика». -2012. -Вып. 6. -№ 11(270). -С. 33-42.
- Краснов, М.Л. Интегральные уравнения. Задачи и упражнения/М.Л. Краснов, А.И. Киселев, Г.И. Макаренко. -М.: Наука, 1975. -216 с.
- Винокуров, В.Р. Некоторые вопросы теории устойчивости систем интегральных уравнений Вольтера, I/В.Р. Винокуров//Известия высших учебных заведений. Математика. -1969. -№ 6 (85). -С. 24-34.