Научные статьи \ Математика. Естественные науки \ Математика \ Анализ

Экстремальные стратегии в игровых задачах для линейных интегродифференциальных систем Вольтерра, II

Автор: Пасиков Владимир Леонидович

Журнал: Вестник Южно-Уральского государственного университета. Серия: Математика. Механика. Физика @vestnik-susu-mmph

Статья в выпуске: 1 т.5, 2013 года.

Бесплатный доступ

Изучены задача наведения и игровая задача т лиц для случая равновесия системы функционалов (типа расстояния) в смысле Нэша. Для решения этих задач применяется известная экстремальная конструкция академика Н.Н. Красовского, модифицированная для рассматриваемых ситуаций.

Игровая задача, интегро-дифференциальная система, управляющее воздействие, позиции игры, программный максимин, равновесие в смысле нэша

Короткий адрес: https://sciup.org/147158756

IDR: 147158756 | УДК: 517.977

Текст научной статьи Экстремальные стратегии в игровых задачах для линейных интегродифференциальных систем Вольтерра, II

Предлагаемая работа примыкает к работам [1-8] и является продолжением статьи [9]. Все понятия и обозначения, несопровождаемые ссылками и пояснениями, имеются в [9]. Нумерация параграфов и формул продолжает нумерацию [9].

3. Игровая задача наведения для линейных интегро-дифференциальных систем Вольтерра Рассматривается конфликтно -управляемая линейная интегро-дифференциальная система Вольтерра

x ( t ) = f ( t ) + A ( t ) x ( t ) + j K ( t , s ) x ( x ) ds + и ( t ) - v ( t ), x (0) = x ₀. (40)

Все понятия и ограничения аналогичны [9].

Игра рассматривается на заданном отрезке [0, 0 ], плата задана равенством

И ⁰ ] = ||{ x [ » ]) J (41)

Первый игрок распоряжается выбором управления u е P и стремится минимизировать величину у [ 0 ] на траекториях x [ t ], 0 < t < 0 , системы (40), реализующихся под действием управлений u [ t ], 0 < t < 0 , и е P , в паре с любой интегрируемой реализацией v [ t ], 0 < t < 0 , v е Q , второго игрока. Цель второго игрока противоположна и состоит в максимизации величины (41).

Пусть ф(s) = Ф(s, 0)x0 + f (s), где Ф(t, s) = j K(t, T)X(т, s)dT, X(t, s) - матрица Коши систе-s мы x(t) = A(t)x(t).

Тогда решение системы (40) записывается в виде ttt

x ( t ) = X ( t , 0) x ₀ + j x ( t , s ) ^ ( s ) ds + j x ( t , s ) и ( s ) ds - j x ( t , s ) v ( s ) ds . (42)

0 0 0

x( t , s ) = X ( t , s ) + j X ( t , t ) R ( t , s ) dT ,

R ( t , s ) - резольвента матрицы Ф( t , s ).

Предполагаем, что до момента 10, 0 < 10 < 0 начал а игры, оба игрока применяют некоторые допустимые реализации управлений и 0[t ], v0[ t ], 0 < t < 10. Если и [ t ] = 0 , v[t ] = 0 после момента t, 10 < t < 0, то состояние системы (40) в момент 0 согласно (42) записывается по формуле t 0 t t 0

x(0, t) = x0 (0) + j x(0, s)и0 [s]ds + j x(0, s)и[s]ds - j ,x(0, s)v0 [s]ds - j ,x(0, s)v[s]ds,(43)

0 t 0 0

Математика

е где x0(е) =X(е, 0)x0+Jх(6,s)ф(s)ds.

Определение 3.1. Пару p = {t, x(е, t)} будем называть позицией игры в момент t, 0< t < е; p0 = {t0, x(е,t0)} - начальная позиция, где t 0

x(е, t0) = x0(е) + J x(6, s)u0[s]ds - J x(6, s)v0[s]ds , тогда состояние системы (40) с учетом (43) в момент 6 имеет вид ее

x(е) = x(е, t0) +J x(6, s)u [s]ds + J x(6, s)v[s]ds.(44)

t 0

Уточним постановки задач для обоих игроков в рассматриваемом случае наведения.

Задача 3.1. Среди допустимых стратегий U первого игрока найти стратегию U e , которая при любом допустимом способе управления второго игрока для любой начальной позиции p ₀, 0 < t ₀< е , гарантирует результат игры:

М ⁶ | t 0, ^x ⁽ ^е , t 0), U e , ^v ) < ^£ ⁽ t 0, ^x ⁽ ^е , t 0)).

Задача 3.2. Среди допустимых стратегий V второго игрока найти стратегию V^е , которая при любом допустимом способе управления первого игрока для любой начальной позиции p ₀ , 0 < t ₀< е , гарантирует результат игры:

( / [ е ] \0 0, x ( е , t 0), U , V^е ) > £( t 0, x ( е , t 0)).

Задача 3.3. Среди допустимых стратегий U , V первого и второго игроков соответственно найти стратегии U e , V^е , которые для любой начальной позиции p ₀ , 0 < t ₀< е, гарантируют результат игры (д е ] 1 t 0, x ( е , t0)U e , V^е ) = £ ( t 0, x ( е , t 0)).

В рассматриваемом случае программный максимин £(t0, x(е, t0)) для начальной позиции p0 , 0 < t0 < е согласно (43), (44) записывается в виде е е

£(t 0, x ( е , t 0)) = max J max 1 ‘{ x ( 6 , s ) v [ s ]} m ds - J max 1 ‘{ x ( 6 , s ) u [ s ]} m ds - 1 ‘{ x ( е , t 0)} m

¹ = 1 , v e Q , u e P

L t 0 t 0

если правая часть этого равенства положительна, иначе £(t ₀, x ( е , t ₀)) = 0 .

Здесь рассматривается лишь регулярный случай, когда максимум в правой части (45) достигается на единственном векторе 1 = 1 ₀ ( t ₀, x ( е , t ₀)), 0 < t ₀< е .

Далее обозначим

{ 1 0 ^е, t )}={ 1 0 X ( е , t )} m + J { 1 0 x ( е , т )} _m r ( t , t ) dT = x e [ t ]. (46)

Определение 3.2. Пусть m-мерный вектор 10 в каждый момент 10, 0 < 10 < е, доставляет мак симум правой части (45). Тогда, если позиция p0 такова, что £0(10, x(е, 10)) > 0, то с этой пози цией будем сопоставлять множество Ue (10, x(е, 10)) (Vе (10, x(е, 10))) всех векторов ue e P

(Vе e Q), для которых xe [10]uе [10] = max xe [10]u (xe [10]Vе [10] = max xe [10]v). В этом случае страте-ue P veQ гия ие (Vе) называется экстремальной стратегией первого (второго) игрока.

Отметим, что здесь { 1₀Х ( е , t )} _m - первые m координат решения системы ;x ( t ) = - A'tt ) x ( t ) c краевым условием 1 ₀ [1, c. 117]. У вектора 1 ₀ по еле m -й координаты приписаны нули.

С использованием ранее приведённых фрагментов рассуждений по плану доказательства аналогичных теорем из [1, с. 153] доказывается следующее утверждение.

Теорема 3.1 . В регулярном случае игры из задач 3.1 и 3.2 экстремальные стратегии U^e = U^e ( 1 , x ( 0 , 1 )) и V^е = V^е ( 1 , x ( 0 , 1 )) 0 < 1 ₀< 1 < 0 доставляют решения этих задач. Они составляют пару оптимальных стратегий { U^e , V^е }, которые разрешают задачу 3.3 и доставляют седловую точку рассматриваемой игры, причём ( / [ 0 ]| 1 ₀, x ( 0 , 1 ₀) U^e , V^е )= е ( 1 ₀, x ( 0 , 1 ₀)), то есть оптимальная плата игры ( / [ 0 ]| 1 ₀, x ( 0 , 1 ₀) U^e , V^е ) для всякой исходной позиции ( 1 ₀, x ( 0 , 1 ₀)) равняется программному максимину е ( 1 ₀, x ( 0 , 1 ₀)).

Доказательство . Запишем следующую функцию:

е [ 1 ] = е ( 1 , x ( 0 , 1 )) = j max { 1 0 ( s , x ( 0 , s ) x ( 0 , s ))] m v [ s ] ds - t v e V

0 t

- jmax { 1 0 ( s , x ( 0 , s ) x ( 0 , s ))] m u [ s ] ds + j { 1 0 ( s , x ( 0 , s ) x(0, s ))] m v 0[ s ] ds -

t u e U 1 ₀

^- j {¹ 0⁽ s , ^x ⁽ ⁰ ^, s ) ^x ⁽ ⁰ ^, s ))] m ^u 0^[ s ^] ^ds ^-{ ¹ 0 ⁽ ¹ 0, ^x(0,1 cX ^x ⁽ ⁰ ^, ¹ 0))] _m . t 0

Здесь u ₀[ s ], v ₀[ s ], 1 ₀< s < 1 - допустимые управления, реализовавшиеся к моменту 1 . Аналогично [1] можно показать, что функция е ( 1 , x ( 0 , 1 )), 1 ₀< 1 < 0 , 0 < 1 ₀< 0 , абсолютно непрерывна по 1 в области е ( 1 , x ( 0 , 1 )) > 0 и вектор 1 ₀ ( 1 , x ( 0 , 1 )) при дифференцировании не зависит от 1 , 1 ₀ - начало процесса управления.

Производная от функции (47) существует почти всюду [1, с. 144] и имеет вид d^E ^[ t ^] = max{ 1 0 ( 1 , x ( 0 , 1 ) x ( 0 , 1 )] m u - max{ 1 0 ( 1 , x ( 0 , 1 ) x ( 0 , 1 )] m v + dt u e P v e Q

+{ ¹ 0⁽ ¹ , ^x ⁽ ⁰ ^, ¹ ) , X ⁽ ⁰ ^, ¹ )} m v ^- { ¹ 0⁽ ¹ , ^x ⁽ ⁰ ^, ¹ ) 5c^(0,1 )} mu .

Отсюда согласно (46) получим

^Е ^[ ¹ ^] = - max x^e [ 1 ] v + max x^e [ 1 ]u + x^e [ 1 ] v [ 1 ] - x^e [ 1 ] u [ 1 ]. dt v e Q u e P

Если теперь первый игрок, начиная с момента 10, применяет экстремальную стратегию U в течение всей игры, а второй - произвольную допустимую, то из (48) и определения 3.2 получаем dE[ t ] = - max xe (1) v + xe (1) v < 0 . Таким образом, положительная функция е[ 1 ] = е( 1, x (0,1)) имеет dt veV почти всюду на [ 10, 0] неположительную производную. Следовательно, функция е[ 1 ] на [ 10, 0] не возрастает, а значит, е(0, x(0, 0)) < е( 10, x(0,10)), но из (47) вытекает, что Eke, x (в, в» =К x [0]] _|.

Допустим, что второй игрок в течение всей игры применяет экстремальную стратегию Vе. Тогда из (48) имеем dE[ 1 ] = max xe[ 1 ]u - xe[ 1 ]u[ 1 ]. Отсюда dE[ 1 ] > 0 . Таким образом, когда функ-dt ueU...... dt ция e[ 1 ] положительна, она имеет неотрицательную производную при почти всех 1 e [ 10,0]. Следовательно , функция е[ 1 ] на [ 10,0] не убывает. Значит, e(0,x(0,0)) > е( 10, x(0,10)).

Пусть теперь в регулярном случае оба игрока применяют свои экстремальные стратегии, тогда , как это следует из предыдущего, им будет гарантирован результат игры I { ^x [ ⁰ ]] „ | = ^Е ⁽ ¹ 0, ^x ⁽ ⁰ ^, ¹ 0)).

Пример . Рассмотрим модельный пример. Пусть задана система из двух скалярных уравнений

•

t x (1) = e1 + j x (s) ds + u (1) - v (1), 0

Математика

здесь f (t) = e1, K(t, s) = 1, однородная дифференциальная система для (49) записывается в виде x = 0. В качестве фундаментальной матрицы выбираем X (t) = 1, тогда матрица Коши tt

X(t,s) = X(t)X ’(s) = 1, X(t,0) = 1; вычисляем Ф( t,s) = jK(t ,т)X(т,s)dT = jdT = t —s, резольвен- ss e1 -s — e (1 —s)

та этой матрицы определяется формулой [10, с. 22] R ( 1 , s ) = sh( 1 — s ) =-----------, тогда

~ ¹

x ( 1 , s ) = 1 + j ch( T — s ) dT = 1 + ch( T — s )

т =

= 1 + ch( 1 — s ) — 1 = ch( 1 — s ). т = s

Выбираем какое-либо ненулевое начальное условие, например х₀ = x (0) = 3, получаем ^ ( 1 ) = f ( 1 ) + Ф( 1 ,0) x 0 = e¹ + 3 1 .

1 ~

x ( 1 ) = X ( 1 , 0) x ₀ + j x ( 1 , s ) ^ ( s ) ds + j 0 0

1 ~

Проведём вычисления:

= 3 + j ch( 1 — s )( e^s + 3 s ) ds +j ch( 1 — s ) u ( s ) ds —j ch( 1 — s ) v ( s ) ds .

j ch( 1 — s ) e^sds +3 j ch( 1 — s ) sds =¹ j ( e¹ ^— ^s

0 0 ² 0

Для первого слагаемого получаем

+ e

—

⁽ ¹ ^— ^s ) ) e^s ds + ³ J ( e¹ ^— ^s + e -⁽ ¹ ^— ^s ) ) sds .

¹ ⁺² ^s ) ) ds = l j ( e s +¹ e^-1 ⁺² ^s

2 0 ²

t 1 t 1 / ) =- t e + — e¹

0 2 4

^^^^^^^в

1 e -=

для второго слагаемого интегрированием по частям получаем

³ e¹

Подставим в (1)

t t

2 e-

f ( e^ssds = ³(— 1 — 1 + e¹ ) + ³( 1 — 1 + e ^— ).

J 2 2

1 1 7 1 5 .

x ( 1 ) = 1e + e + —e 2 4 4

—

+ j ch( 1 — s ) и ( s ) ds —j ch( 1 — s ) v ( s ) ds ,

нетрудно проверить, что x (0) = 3.

Будем теперь считать, что начало управления 10 = 0, начальная точка находится в точке (3,3) координат, из элементарных соображений заключаем, что движение в плоскости Oxy будет проходить по прямой у = х по направлению к началу координат. Полагаем, что управляющие воздействия стеснены ограничениями и е [0,1],vе [0,1]. Седловую точку определяют стратегии Ue, Ve, согласно которым в каждый момент 1 е [0,0) управляющие воздействия принимают значения u = 1, v = 1. При этих значениях экстремальный вектор 10 = ] —

1 1

—

2’ V2

и согласно (45)

^ (0, x ( 0 ,0)) = max(— e'x ( 0 ,0)) = —(—U • 3 —U • 3) = -6= • Д = 3л/2, то есть сближения с началом 2 V2 V2 V2

координат нет, в других случаях точка (3,3) будет либо приближаться к началу координат, либо удаляться.

Пасиков В .Л. Экстремальные стратегии в игровых задачах для линейных интегро-дифференциальных систем Вольтерра, II

4. -

Рассматривается управляемая система, эволюция которой описывается векторным интегро-дифференциальным уравнением Вольтерра

х(t) = f (t) + A(t)x(t) + jK(t, s)x(s)ds + ]T ui (t), x(0) = x0 ,(50)

здесь x - n -мерный фазовый вектор, f (t) - n -мерная интегрируемая по Лебегу на [0,0"] вектор-функция , 0 > 0 - фиксированный момент, K (t, s) - непрерывная на [0,0] х [0,0] матрица n х n, A (t) - непрерывная на [0,0] матрица n х n, ui (t), i = 1, m - управляющие воздействия, стеснен ные ограничениями, ui е Ui, Ui - выпуклые компакты в Rn, а реализации управляющих воздействий ui [t], t е [0,0] - измеримые по Лебегу функции. Все интегралы понимаются в смысле Лебега . Как показано в [9], при таких ограничениях система (50) имеет единственное абсолютно непрерывное решение x [t], удовлетворяющее начальному условию x [0] = x0.

Решение системы (50) записывается в виде (42):

^t m ^t

x(t) = X(t, 0)x0 + j x(t, s)ф(s)ds + ^ j x(t, s)ui [s]ds.(51)

Пусть, как и в [8], задана система функционалов

^ = {¥-| ¥f(u„ .,um) = ф.(x[0]), i = Um).(52)

Задача 4.1. Найти такиe стратегии U J , .., U mm , для которых выполняются соотношения Ф . ( x e [ 0 ]) < Ф . ( x [ 0 ]), i = 1, m .

Здесь x e [ 0 ] - точка реализовавшейся траектории x [ t ] системы (50), которая отвечает стратегиям U e ,..., U mm ; x^l [ 0 ] - точка траектории x [ t ], 0 < t < 0 , системы (50), соответствующая управлениям u J [ t ],.., u J - 1 [ t ], u . [ t ], u e ₊₁ [ t ],.., u m [ t ], где u J [ t ], j ^ i , j = 1, m , формируется на основе U e ; u_t [ t ] - реализация произвольного измеримого по Лебегу управления, стесненного условием н^ е U_z- .

Если задача 4.1 разрешима, то набор стратегий U^e = { u J ,., U mm } называется равновесным по Нэшу для игры (50), (52) [8]. Как и в [8], рассмотрим случай, когда

¥ ( u „., u m ) = | c^Z - x [ 0 ]|| , (53)

где С - заданные точки в R n , i = 1, m .

Считаем, что до момента начала игры 1 ₀, 0 < 1 ₀< 0 , все игроки уже реализовали некоторые допустимые управления u⁰[t ], 0 < t < 1 ₀ ; далее до момента t , 1 ₀< t < 0 , применялись некоторые допустимые управления согласно тем или иным соображениям игроков, а после момента t предполагаем, что u [ t ] = 0. Тогда в момент t состояние системы (50) имеет вид mt ⁰ mt 0

x ( 0 , t ) = x ( 0 , 1 ₀) + ^ j x ( 0 , s ) u_t [ s ] ds , где x ( 0 , 1 ₀) = X ( 0 ,0) x ₀ + j, x ( 0 , s ) ф ( s ) ds + ^ j , x ( 0 , s ) u_z °[ s ] ds .

i = 1 1 ₀ 0 i = 1 0

Следовательно,

x ( 0 , t ) = x ( 0 , 1 ₀) + ]T J x(0, s ) u , [ s ] ds . (54)

i = 1 _t ₀

Определение 4.1. Для i -го игрока, i = 1, m , тройку p = { t , x ( 0 , t ), С } будем назьгвать позицией в момент t , 0< 1 ₀< t < 0 , a p ₀ = { t ₀, x ( 0 , 1 ₀), С } - начальной позицией.

Список литературы Экстремальные стратегии в игровых задачах для линейных интегродифференциальных систем Вольтерра, II

Красовский, H.H. Игровые задачи о встрече движений/H.H. Красовский. -М.: Наука, 1970. -420 с.
Красовский, H.H. Позиционные дифференциальные игры/H.H. Красовский, А.И. Субботин. -М.: Наука, 1974. -456 с.
Субботин, А.И. Оптимизация гарантии в задачах управления/А.И. Субботин, А.Г. Ченцов. -М.: Наука, 1981. -278 с.
Красовский, H.H. Управление динамической системой/H.H. Красовский. -М.: Наука, 1985. -520 с.
Осипов, Ю.С. Дифференциальные игры систем с последействием/Ю.С. Осипов//ДАН СССР. -1971. -Т. 196, № 4. -С. 779-782.
Осипов, Ю.С. Альтернатива в дифференциальной игре/Ю.С. Осипов//ДАН СССР. -1971. -Т. 197, № 5. -С. 1023-1025.
Субботин, А.И. Экстремальные стратегии в дифференциальных играх с полной памятью/А.И. Субботин//ДАН СССР. -1972. -Т. 206, № 3. -С. 211-213.
Гороховик, В.В. О линейных дифференциальных играх нескольких лиц/В.В. Гороховик, Ф.М. Кириллова//Управляемые системы: сб. науч. тр, -Новосибирск, 1971. -Вып. 10. -С. 3-9.
Пасиков, В.Л. Экстремальные стратегии в игровых задачах для линейных интегро-дифференциальных систем Вольтерра, I/В.Л. Пасиков//Вестник ЮУрГУ. Серия «Математика. Механика. Физика». -2012. -Вып. 6. -№ 11(270). -С. 33-42.
Краснов, М.Л. Интегральные уравнения. Задачи и упражнения/М.Л. Краснов, А.И. Киселев, Г.И. Макаренко. -М.: Наука, 1975. -216 с.
Винокуров, В.Р. Некоторые вопросы теории устойчивости систем интегральных уравнений Вольтера, I/В.Р. Винокуров//Известия высших учебных заведений. Математика. -1969. -№ 6 (85). -С. 24-34.

Еще