Экстремальные стратегии в игровых задачах для линейных интегродифференциальных систем Вольтерра, II

Бесплатный доступ

Изучены задача наведения и игровая задача т лиц для случая равновесия системы функционалов (типа расстояния) в смысле Нэша. Для решения этих задач применяется известная экстремальная конструкция академика Н.Н. Красовского, модифицированная для рассматриваемых ситуаций.

Игровая задача, интегро-дифференциальная система, управляющее воздействие, позиции игры, программный максимин, равновесие в смысле нэша

Короткий адрес: https://sciup.org/147158756

IDR: 147158756

Текст научной статьи Экстремальные стратегии в игровых задачах для линейных интегродифференциальных систем Вольтерра, II

Предлагаемая работа примыкает к работам [1-8] и является продолжением статьи [9]. Все понятия и обозначения, несопровождаемые ссылками и пояснениями, имеются в [9]. Нумерация параграфов и формул продолжает нумерацию [9].

3. Игровая задача наведения для линейных интегро-дифференциальных систем Вольтерра Рассматривается конфликтно -управляемая линейная интегро-дифференциальная система Вольтерра

t

x ( t ) = f ( t ) + A ( t ) x ( t ) + j K ( t , s ) x ( x ) ds + и ( t ) - v ( t ), x (0) = x 0.              (40)

Все понятия и ограничения аналогичны [9].

Игра рассматривается на заданном отрезке [0, 0 ], плата задана равенством

И 0 ] = ||{ x [ » ]) J                                  (41)

Первый игрок распоряжается выбором управления u е P и стремится минимизировать величину у [ 0 ] на траекториях x [ t ], 0 <  t 0 , системы (40), реализующихся под действием управлений u [ t ], 0 <  t 0 , и е P , в паре с любой интегрируемой реализацией v [ t ], 0 <  t 0 , v е Q , второго игрока. Цель второго игрока противоположна и состоит в максимизации величины (41).

t

Пусть ф(s) = Ф(s, 0)x0 + f (s), где Ф(t, s) = j K(t, T)X(т, s)dT, X(t, s) - матрица Коши систе-s мы x(t) = A(t)x(t).

Тогда решение системы (40) записывается в виде ttt

x ( t ) = X ( t , 0) x 0 + j x ( t , s ) ^ ( s ) ds + j x ( t , s ) и ( s ) ds - j x ( t , s ) v ( s ) ds .                (42)

0                    0                    0

x( t , s ) = X ( t , s ) + j X ( t , t ) R ( t , s ) dT ,

s

R ( t , s ) - резольвента матрицы Ф( t , s ).

Предполагаем, что до момента 10, 0 < 10 < 0 начал а игры, оба игрока применяют некоторые допустимые реализации управлений и 0[t ], v0[ t ], 0 < t < 10. Если и [ t ] = 0 , v[t ] = 0 после момента t, 10 < t < 0, то состояние системы (40) в момент 0 согласно (42) записывается по формуле t 0                                   t                                t 0

x(0, t) = x0 (0) + j x(0, s)и0 [s]ds + j x(0, s)и[s]ds - j ,x(0, s)v0 [s]ds - j ,x(0, s)v[s]ds,(43)

0                            t 0                          0

Математика

е где x0(е) =X(е, 0)x0+Jх(6,s)ф(s)ds.

о

Определение 3.1. Пару p = {t, x(е, t)} будем называть позицией игры в момент t, 0< t < е; p0 = {t0, x(е,t0)} - начальная позиция, где t 0

x(е, t0) = x0(е) + J x(6, s)u0[s]ds - J x(6, s)v0[s]ds , тогда состояние системы (40) с учетом (43) в момент 6 имеет вид ее

x(е) = x(е, t0) +J x(6, s)u [s]ds + J x(6, s)v[s]ds.(44)

t 0

Уточним постановки задач для обоих игроков в рассматриваемом случае наведения.

Задача 3.1. Среди допустимых стратегий U первого игрока найти стратегию U e , которая при любом допустимом способе управления второго игрока для любой начальной позиции p 0, 0 <  t 0 е , гарантирует результат игры:

М 6 | t 0, x ( е , t 0), U e , v ) <  £ ( t 0, x ( е , t 0)).

Задача 3.2. Среди допустимых стратегий V второго игрока найти стратегию Vе , которая при любом допустимом способе управления первого игрока для любой начальной позиции p 0 , 0 <  t 0 е , гарантирует результат игры:

( / [ е ] \0 0, x ( е , t 0), U , Vе ) >  £( t 0, x ( е , t 0)).

Задача 3.3. Среди допустимых стратегий U , V первого и второго игроков соответственно найти стратегии U e , Vе , которые для любой начальной позиции p 0 , 0 <  t 0 е, гарантируют результат игры (д е ] 1 t 0, x ( е , t0)U e , Vе ) = £ ( t 0, x ( е , t 0)).

В рассматриваемом случае программный максимин £(t0, x(е, t0)) для начальной позиции p0 , 0 < t0 < е согласно (43), (44) записывается в виде е                           е

£(t 0, x ( е , t 0)) = max J max 1 ‘{ x ( 6 , s ) v [ s ]} m ds - J max 1 ‘{ x ( 6 , s ) u [ s ]} m ds - 1 ‘{ x ( е , t 0)} m

1 = 1 , v e Q                            , u e P

L t 0                                           t 0

если правая часть этого равенства положительна, иначе £(t 0, x ( е , t 0)) = 0 .

Здесь рассматривается лишь регулярный случай, когда максимум в правой части (45) достигается на единственном векторе 1 = 1 0 ( t 0, x ( е , t 0)), 0 <  t 0 е .

Далее обозначим

е

{ 1 0 ^е, t )}={ 1 0 X ( е , t )} m + J { 1 0 x ( е , т )} m r ( t , t ) dT = x e [ t ].                  (46)

t

Определение 3.2. Пусть m-мерный вектор 10 в каждый момент 10, 0 < 10 < е, доставляет мак симум правой части (45). Тогда, если позиция p0 такова, что £0(10, x(е, 10)) > 0, то с этой пози цией будем сопоставлять множество Ue (10, x(е, 10)) (Vе (10, x(е, 10))) всех векторов ue e P

(Vе e Q), для которых xe [10]uе [10] = max xe [10]u (xe [10]Vе [10] = max xe [10]v). В этом случае страте-ue P                          veQ гия ие (Vе) называется экстремальной стратегией первого (второго) игрока.

Отметим, что здесь { 10Х ( е , t )} m - первые m координат решения системы ;x ( t ) = - A'tt ) x ( t ) c краевым условием 1 0 [1, c. 117]. У вектора 1 0 по еле m -й координаты приписаны нули.

С использованием ранее приведённых фрагментов рассуждений по плану доказательства аналогичных теорем из [1, с. 153] доказывается следующее утверждение.

Теорема 3.1 . В регулярном случае игры из задач 3.1 и 3.2 экстремальные стратегии Ue = Ue ( 1 , x ( 0 , 1 )) и Vе = Vе ( 1 , x ( 0 , 1 )) 0 <  1 0 1 0 доставляют решения этих задач. Они составляют пару оптимальных стратегий { Ue , Vе }, которые разрешают задачу 3.3 и доставляют седловую точку рассматриваемой игры, причём ( / [ 0 ]| 1 0, x ( 0 , 1 0) Ue , Vе )= е ( 1 0, x ( 0 , 1 0)), то есть оптимальная плата игры ( / [ 0 ]| 1 0, x ( 0 , 1 0) Ue , Vе ) для всякой исходной позиции ( 1 0, x ( 0 , 1 0)) равняется программному максимину е ( 1 0, x ( 0 , 1 0)).

Доказательство . Запишем следующую функцию:

е [ 1 ] = е ( 1 , x ( 0 , 1 )) = j max { 1 0 ( s , x ( 0 , s ) x ( 0 , s ))] m v [ s ] ds - t v e V

0                                                    t

- jmax { 1 0 ( s , x ( 0 , s ) x ( 0 , s ))] m u [ s ] ds + j { 1 0 ( s , x ( 0 , s ) x(0, s ))] m v 0[ s ] ds -

t u e U                                         1 0

t

- j {1 0( s , x ( 0 , s ) x ( 0 , s ))] m u 0[ s ] ds -{ 1 0 ( 1 0, x(0,1 cX x ( 0 , 1 0))] m . t 0

Здесь u 0[ s ], v 0[ s ], 1 0 s 1 - допустимые управления, реализовавшиеся к моменту 1 . Аналогично [1] можно показать, что функция е ( 1 , x ( 0 , 1 )), 1 0 1 0 , 0 <  1 0 0 , абсолютно непрерывна по 1 в области е ( 1 , x ( 0 , 1 )) > 0 и вектор 1 0 ( 1 , x ( 0 , 1 )) при дифференцировании не зависит от 1 , 1 0 - начало процесса управления.

Производная от функции (47) существует почти всюду [1, с. 144] и имеет вид dE [ t ] = max{ 1 0 ( 1 , x ( 0 , 1 ) x ( 0 , 1 )] m u - max{ 1 0 ( 1 , x ( 0 , 1 ) x ( 0 , 1 )] m v + dt      u e P                           v e Q

+{ 1 0( 1 , x ( 0 , 1 ) , X ( 0 , 1 )} m v - { 1 0( 1 , x ( 0 , 1 ) 5c(0,1 )} mu .

Отсюда согласно (46) получим

Е [ 1 ] = - max xe [ 1 ] v + max xe [ 1 ]u + xe [ 1 ] v [ 1 ] - xe [ 1 ] u [ 1 ]. dt       v e Q          u e P

Если теперь первый игрок, начиная с момента 10, применяет экстремальную стратегию U в течение всей игры, а второй - произвольную допустимую, то из (48) и определения 3.2 получаем dE[ t ] = - max xe (1) v + xe (1) v < 0 . Таким образом, положительная функция е[ 1 ] = е( 1, x (0,1)) имеет dt      veV почти всюду на [ 10, 0] неположительную производную. Следовательно, функция е[ 1 ] на [ 10, 0] не возрастает, а значит, е(0, x(0, 0)) < е( 10, x(0,10)), но из (47) вытекает, что Eke, x (в, в» =К x [0]] _|.

Допустим, что второй игрок в течение всей игры применяет экстремальную стратегию Vе. Тогда из (48) имеем dE[ 1 ] = max xe[ 1 ]u - xe[ 1 ]u[ 1 ]. Отсюда dE[ 1 ] > 0 . Таким образом, когда функ-dt    ueU...... dt ция e[ 1 ] положительна, она имеет неотрицательную производную при почти всех 1 e [ 10,0]. Следовательно , функция е[ 1 ] на [ 10,0] не убывает. Значит, e(0,x(0,0)) > е( 10, x(0,10)).

Пусть теперь в регулярном случае оба игрока применяют свои экстремальные стратегии, тогда , как это следует из предыдущего, им будет гарантирован результат игры I { x [ 0 ]] | = Е ( 1 0, x ( 0 , 1 0)).

Пример . Рассмотрим модельный пример. Пусть задана система из двух скалярных уравнений

t x (1) = e1 + j x (s) ds + u (1) - v (1), 0

Математика

здесь f (t) = e1, K(t, s) = 1, однородная дифференциальная система для (49) записывается в виде x = 0. В качестве фундаментальной матрицы выбираем X (t) = 1, тогда матрица Коши tt

X(t,s) = X(t)X ’(s) = 1, X(t,0) = 1; вычисляем Ф( t,s) = jK(t ,т)X(т,s)dT = jdT = t —s, резольвен- ss e1 -s — e (1 —s)

та этой матрицы определяется формулой [10, с. 22] R ( 1 , s ) = sh( 1 s ) =-----------, тогда

~            1

x ( 1 , s ) = 1 + j ch( T s ) dT = 1 + ch( T s )

s

т =

= 1 + ch( 1 s ) — 1 = ch( 1 s ). т = s

Выбираем какое-либо ненулевое начальное условие, например х0 = x (0) = 3, получаем ^ ( 1 ) = f ( 1 ) + Ф( 1 ,0) x 0 = e1 + 3 1 .

t

1 ~

x ( 1 ) = X ( 1 , 0) x 0 + j x ( 1 , s ) ^ ( s ) ds + j 0                    0

1 ~

1 ~

t

t

t

Проведём вычисления:

= 3 + j ch( 1 s )( es + 3 s ) ds +j ch( 1 s ) u ( s ) ds —j ch( 1 s ) v ( s ) ds .

о

о

j ch( 1 s ) esds +3 j ch( 1 s ) sds =1 j ( e1 s

0                  0                 2 0

Для первого слагаемого получаем

+ e

( 1 s ) ) es ds + 3 J ( e1 s + e -( 1 s ) ) sds .

t

-

1 +2 s ) ) ds = l j ( e s +1 e-1 +2 s

2 0       2

t 1 t 1 / ) =- t e + — e1

0 2     4

^^^^^^^в

1 e -=

для второго слагаемого интегрированием по частям получаем

3 e1

Подставим в (1)

t t

о

2 e-

f ( essds = 3(— 1 — 1 + e1 ) + 3( 1 — 1 + e ).

J 2               2

1 1    7 1    5 .

x ( 1 ) = 1e + e + —e 2     4    4

t

t

+ j ch( 1 s ) и ( s ) ds —j ch( 1 s ) v ( s ) ds ,

нетрудно проверить, что x (0) = 3.

Будем теперь считать, что начало управления 10 = 0, начальная точка находится в точке (3,3) координат, из элементарных соображений заключаем, что движение в плоскости Oxy будет проходить по прямой у = х по направлению к началу координат. Полагаем, что управляющие воздействия стеснены ограничениями и е [0,1],vе [0,1]. Седловую точку определяют стратегии Ue, Ve, согласно которым в каждый момент 1 е [0,0) управляющие воздействия принимают значения u = 1, v = 1. При этих значениях экстремальный вектор 10 = ] —

1         1

2’ V2

и согласно (45)

^ (0, x ( 0 ,0)) = max(— e'x ( 0 ,0)) = —(—U • 3 —U • 3) = -6= • Д = 3л/2, то есть сближения с началом 2 V2 V2 V2

координат нет, в других случаях точка (3,3) будет либо приближаться к началу координат, либо удаляться.

Пасиков В .Л.                                   Экстремальные стратегии в игровых задачах для линейных интегро-дифференциальных систем Вольтерра, II

4.                               -

Рассматривается управляемая система, эволюция которой описывается векторным интегро-дифференциальным уравнением Вольтерра

х(t) = f (t) + A(t)x(t) + jK(t, s)x(s)ds + ]T ui (t), x(0) = x0 ,(50)

здесь x - n -мерный фазовый вектор, f (t) - n -мерная интегрируемая по Лебегу на [0,0"] вектор-функция , 0 > 0 - фиксированный момент, K (t, s) - непрерывная на [0,0] х [0,0] матрица n х n, A (t) - непрерывная на [0,0] матрица n х n, ui (t), i = 1, m - управляющие воздействия, стеснен ные ограничениями, ui е Ui, Ui - выпуклые компакты в Rn, а реализации управляющих воздействий ui [t], t е [0,0] - измеримые по Лебегу функции. Все интегралы понимаются в смысле Лебега . Как показано в [9], при таких ограничениях система (50) имеет единственное абсолютно непрерывное решение x [t], удовлетворяющее начальному условию x [0] = x0.

Решение системы (50) записывается в виде (42):

t m t

x(t) = X(t, 0)x0 + j x(t, s)ф(s)ds + ^ j x(t, s)ui [s]ds.(51)

Пусть, как и в [8], задана система функционалов

^ = {¥-| ¥f(u„ .,um) = ф.(x[0]), i = Um).(52)

Задача 4.1. Найти такиe стратегии U J , .., U mm , для которых выполняются соотношения Ф . ( x e [ 0 ]) <  Ф . ( x [ 0 ]), i = 1, m .

Здесь x e [ 0 ] - точка реализовавшейся траектории x [ t ] системы (50), которая отвечает стратегиям U e ,..., U mm ; xl [ 0 ] - точка траектории x [ t ], 0 <  t 0 , системы (50), соответствующая управлениям u J [ t ],.., u J - 1 [ t ], u . [ t ], u e +1 [ t ],.., u m [ t ], где u J [ t ], j ^ i , j = 1, m , формируется на основе U e ; ut [ t ] - реализация произвольного измеримого по Лебегу управления, стесненного условием н^ е Uz- .

Если задача 4.1 разрешима, то набор стратегий Ue = { u J ,., U mm } называется равновесным по Нэшу для игры (50), (52) [8]. Как и в [8], рассмотрим случай, когда

¥ ( u „., u m ) = | cZ - x [ 0 ]|| ,                                       (53)

где С - заданные точки в R n , i = 1, m .

Считаем, что до момента начала игры 1 0, 0 <  1 0 0 , все игроки уже реализовали некоторые допустимые управления u0[t ], 0 <  t 1 0 ; далее до момента t , 1 0 t 0 , применялись некоторые допустимые управления согласно тем или иным соображениям игроков, а после момента t предполагаем, что u [ t ] = 0. Тогда в момент t состояние системы (50) имеет вид mt                                    0              mt 0

x ( 0 , t ) = x ( 0 , 1 0) + ^ j x ( 0 , s ) ut [ s ] ds , где x ( 0 , 1 0) = X ( 0 ,0) x 0 + j, x ( 0 , s ) ф ( s ) ds + ^ j , x ( 0 , s ) uz °[ s ] ds .

i = 1 1 0                                                                 0                          i = 1 0

Следовательно,

x ( 0 , t ) = x ( 0 , 1 0) + ]T J x(0, s ) u , [ s ] ds .                                (54)

i = 1 t 0

Определение 4.1. Для i -го игрока, i = 1, m , тройку p = { t , x ( 0 , t ), С } будем назьгвать позицией в момент t , 0< 1 0 t 0 , a p 0 = { t 0, x ( 0 , 1 0), С } - начальной позицией.

Список литературы Экстремальные стратегии в игровых задачах для линейных интегродифференциальных систем Вольтерра, II

  • Красовский, H.H. Игровые задачи о встрече движений/H.H. Красовский. -М.: Наука, 1970. -420 с.
  • Красовский, H.H. Позиционные дифференциальные игры/H.H. Красовский, А.И. Субботин. -М.: Наука, 1974. -456 с.
  • Субботин, А.И. Оптимизация гарантии в задачах управления/А.И. Субботин, А.Г. Ченцов. -М.: Наука, 1981. -278 с.
  • Красовский, H.H. Управление динамической системой/H.H. Красовский. -М.: Наука, 1985. -520 с.
  • Осипов, Ю.С. Дифференциальные игры систем с последействием/Ю.С. Осипов//ДАН СССР. -1971. -Т. 196, № 4. -С. 779-782.
  • Осипов, Ю.С. Альтернатива в дифференциальной игре/Ю.С. Осипов//ДАН СССР. -1971. -Т. 197, № 5. -С. 1023-1025.
  • Субботин, А.И. Экстремальные стратегии в дифференциальных играх с полной памятью/А.И. Субботин//ДАН СССР. -1972. -Т. 206, № 3. -С. 211-213.
  • Гороховик, В.В. О линейных дифференциальных играх нескольких лиц/В.В. Гороховик, Ф.М. Кириллова//Управляемые системы: сб. науч. тр, -Новосибирск, 1971. -Вып. 10. -С. 3-9.
  • Пасиков, В.Л. Экстремальные стратегии в игровых задачах для линейных интегро-дифференциальных систем Вольтерра, I/В.Л. Пасиков//Вестник ЮУрГУ. Серия «Математика. Механика. Физика». -2012. -Вып. 6. -№ 11(270). -С. 33-42.
  • Краснов, М.Л. Интегральные уравнения. Задачи и упражнения/М.Л. Краснов, А.И. Киселев, Г.И. Макаренко. -М.: Наука, 1975. -216 с.
  • Винокуров, В.Р. Некоторые вопросы теории устойчивости систем интегральных уравнений Вольтера, I/В.Р. Винокуров//Известия высших учебных заведений. Математика. -1969. -№ 6 (85). -С. 24-34.
Еще
Статья научная