Кооперативный вариант игры преследования с двумя преследователями и одним убегающим: сильная устойчивость множества дележей
Автор: Ширяев Виктор Дмитриевич, Бикмурзина Равиля Ряшитовна
Журнал: Инженерные технологии и системы @vestnik-mrsu
Рубрика: Физико-математические науки
Статья в выпуске: 2, 2017 года.
Бесплатный доступ
Введение. В статье анализируется простая дифференциальная игра на плоскости преследования двумя согласованно действующими игроками P = {P1, P2} одного убегающего игрока Е; игра рассматривается в форме характеристической функции. Показывается динамическая устойчивость принципа оптимальности. Материалы и методы. Для решения поставленной задачи используются геометрические конструкции и методы. Граница безопасности преследуемого игрока определяется с помощью окружности Аполлония, наряд преследователей использует стратегию параллельного сближения. Результаты исследования. Предлагается метод нахождения оптимальных стратегий игроков, а также оптимальные траектории их движения. Приводится способ построения характеристической функции, а в качестве решения рассматривается все множество дележей. Однако использование результатов кооперативной теории в дифференциальных играх невозможно без решения проблем, связанных со спецификой дифференциальных уравнений движения (в первую очередь, проблемы динамической устойчивости принципов оптимальности). В связи с этим вводится вспомогательная функция, осуществляющая перераспределение выигрыша игрока во времени с сохранением его суммарного выигрыша в игре. С помощью данной функции определяется динамическая устойчивость кооперативного решения и показывается сильная динамическая устойчивость всего множества решений. Обсуждение и заключения. Полученные результаты согласуются с аналогичными исследованиями других авторов. Дальнейшие работы в данном направлении могут использоваться при разработке методов «регуляризации» принципов оптимальности, для которых всегда выполняется условие динамической устойчивости.
Простое движение, окружность аполлония, коалиция, характеристическая функция, дележ, слабая устойчивость решения, сильная устойчивость решения
Короткий адрес: https://sciup.org/14720254
IDR: 14720254 | DOI: 10.15507/0236-2910.027.201702.239-249
Текст научной статьи Кооперативный вариант игры преследования с двумя преследователями и одним убегающим: сильная устойчивость множества дележей
Задачи преследования являются типичными примерами дифференциальных игр. Задачи преследования с простым движением стали базовыми для современной теории дифференциальных игр. Несмотря на внешнюю простоту постановки, многие из них в настоящее время представляют собой серьезные математические проблемы.
Естественным подходом к изучению игр простого преследования является рассмотрение данных задач как кооперативных дифференциальных игр. В этом случае особую роль играет концепция динамической устойчивости (состоятельности во времени). Нарушение динамической устойчивости 240
принципа оптимальности приводит к возможности отклонения от первоначально выбранной схемы оптимального поведения и к нарушению устойчиво- сти процесса в целом.
В статье рассматривается случай преследования двумя согласованно действующими игроками P = {P1, P2} одного убегающего игрока Е; игра Г(2,1;{P1, P2}, E). Игроки перемещаются на плоскости с постоянными ско- ростями, имея возможность в каждый момент времени изменять направление своего движения (простое движение [1–2]). Преследуемый Е считается пой- манным, как только найдется такое
i е{1,2}, что местоположения Pi и Е в некоторый момент совпадают.
Будем предполагать, что в каждый момент времени наряд преследователей P = { P 1 , P2 } имеет информацию о своем местоположении, местоположении игрока Е и направлении скорости игрока Е . Преследуемый Е имеет информацию о своем местоположении и местоположении наряда преследователей Р . Кроме того, в каждый момент времени игроки могут выбирать направление своего движения или направление вектора скорости (величина скорости постоянна и равна и . для P i е P и v для Е) ; u i > v , i = 1,2, в остальном скорости игроков произвольны.
Выигрыш Е определяется как время встречи с первым из преследующих игроков, умноженное на количество преследующих игроков. Выигрыш P = { P 1 , P 2 } определяется как величина выигрыша Е с обратным знаком.
Обзор литературы
Задачам преследования с простым движением посвящен ряд работ [1–5]. Определение лучших способов преследования и убегания, выяснение возможности встречи – вот основные вопросы, которые рассматривались в этих работах. При исследовании дифференциальных игр простого преследования часто используется методология кооперативной теории игр [4– 7]. Вопрос в этом случае осложняется тем, что в данных задачах необходимо исследовать динамическую устойчивость принципа оптимальности.
Впервые проблема динамической устойчивости решений в дифференциальных играх была выявлена Л. А. Петросяном [6; 8–9]. Исследователем было предложено несколько подходов к преодолению проблемы динамической неустойчивости, заключающихся в определенной «регуляризации» принципов оптимальности, заимствованных из статической теории игр [7; 10–12]. Интерес к указанным вопросам проявился также
MORDOVIA UNIVERSITY BULLETIN у западных исследователей, в работах которых проблема получила название «time-consistency problem» (проблема состоятельности во времени) [13–14]. Отдельного внимания заслуживает исследование F. E. Kidland, E. C. Prescott [15]. Следует отметить, что в упомянутой работе не было предложено способов преодоления проблемы несостоятельности во времени, что крайне важно для экономических и других приложений.
Материалы и методы
В статье был предложен метод нахождения оптимальных стратегий игроков с использованием геометрического подхода. В качестве такой стратегии для наряда преследователей была выбрана стратегия параллельного сближения ( П -стратегия). При переходе к рассмотрению исследуемой игры простого преследования как кооперативной дифференциальной игры использовался минимаксный метод построения характеристической функции.
Результаты исследования
Рассмотрим игру Г ( 2,1; { P , P2 } , E ) . Будем говорить, что решение игры Г ( 2,1; { P 1 , P 2 } , E ) = Г (2,1) сводится к решению игры Г (1,1), если оптимальное время преследования в игре Г (2,1) совпадает с оптимальным временем преследования в одной из игр Г ( Р 1, Е ) или Г ( Р 2, Е ), т. е. для обеспечения встречи за оптимальное время наличие в наряде P = { P 1 , P 2 } одного из преследователей является излишним.
Будем говорить, что наряд применяет П -стратегию, если каждый преследователь Pi из наряда Р применяет П -стратегию [1–2].
Предположим, что выигрыши трансферабельны для игроков Р1 и Р2 . Принимая во внимание, что в коалиции могут вступать только игроки Р1 и Р2 , вычислим значения характеристической функции:
v ( Px;t о , x о ) = val Г ( 1,1; P °, E 0) = - ^’’'E ) A — _^,
U - v u 1 - v
V ( P<;1 0 , x 0 ) = val Г ( 1,1; P 2 0, E 0)
P ( P 2 0, E 0 ) A a 21
- --- , u 2 - V u 2 - V
v ( { P,P } ; 1 0 , x 0 ) = val Г ( 2,1; { p 0, P 2 0 } , E 0) .
Решение игры Г ( 2,1; { p°,P2 } , E 0) имеет следующий вид [1–3] (см. рис. 1): игрок Е движется в точку E T : p ( E 0, Et ) = max p ( E 0, E ) , а (С) пред- s ' 6( C )
ставляет собой пересечение кругов
Аполлония (С1) и (С2 ) в играх между Р1 и Е и Р2 и Е . Следовательно, v ( { p , P 2 } ; 1 0, x 0 ) = - 2 T . Таким образом, оптимальной для наряда P = { P 1 , P2 } является П -стратегия, оптимальным для Е - движение по полупрямой [ E 0 E T ] .

Р и с. 1. Оптимальные стратегии игроков Р1, Р2 и Е
F i g. 1. Optimal strategies of players P1, P2 and E
Чтобы игра имела содержательный смысл, сделаем некоторые предположения:
а) max
Р ( P", E 0) p ( P 2 0, E 0) U - v ’ u 2 - v
б) в дальнейшем будем рассматривать только те начальные местоположения P 0, P 20, E 0, для которых ( C ) * 0 , ( C 1 ) ^ ( C 2 ) , ( C 2 ) ^ ( C 1 ) .
Под решением будем понимать все множество дележей
M ( 1 0, x 0 ) = { a = ( « 1 , a 2
a > v ( p ; 1 0 , x 0 ) , i = 1,2, « 1 + a 2 = v ( { P i ,P 2 } ; 1 0 , x 0
a 1
>- ^11
u 1 - v
« 2
> - ^21
u 2 - v
a1 + a2 = -2T
Чтобы не иметь дела с отрицательными числами, вместо системы (1) будем рассматривать систему
t
а ( t ) = j P , ( t ) h ( x T ) ) d T , (3)
t 0
a1 <
a ii
u1 - v
a2 <
a 21
u 2 - v
что дележ α представим в виде a = a ( t ) и для всех t e [ t 0, T ] существует такое подмножество M '( T - t , x ( t ) ) множества M ( T - 1 , x ( t ) ) , что
a1 + a2 = 2T
a ( T ) e { a ( t ) + M '( T - 1 , x ( t ) ) } c M ( T - 1 0, x 0 )
Поскольку —— + —— > 2T, мно-u1 - v u 2 - v жество решений системы (2) не является пустым (t0 = 0).
Оптимальные траектории игроков показаны на рис. 1.
В случае дифференциальной игры характеристическая функция, заданная на семействе всех подмножеств мно- жества игроков, зависит от времени. Это приводит к изменению решения кооперативной дифференциальной игры в каждый момент времени. В связи с этим логично поставить вопрос об устойчивости рассматриваемых решений [6; 8; 16–17].
Пусть E ( T - t , x ( t ) ) - множество дележей в игре Г ( T - t , x ( t ) ) , t e [ t 0, T ] . Под решением кооперативной дифференциальной игры Г ( T - t , x ( t ) ) понимается некоторое подмножество M ( T - t , x ( t ) ) c E ( T - t , x ( t ) ) , t e [ t 0, T , где x ( t ) - оптимальная траектория движения игроков в рассматриваемой игре [5–6; 9].
Дележ a e M ( T - t 0, x 0 ) будем называть слабо (сильно) устойчивым в кооперативной дифференциальной игре Г ( T - t 0, x 0 ) с трансферабельными выигрышами, если существует интегрируемая на [ t 0, T ] вектор-функция в ( т ) и такая вектор-функция a ( t ) ,
( a ( T ) e { a ( t ) + M ( T - 1 , x ( t ) ) } c M ( T - 1 0, x 0 ) ) .
Решение M ( T - 1 0, x 0 ) называется слабо (сильно) устойчивым, если слабо (сильно) устойчивы все входящие в него дележи [4–5;7;10].
Покажем, что все множество дележей рассматриваемой игры сильно устойчиво, т. е. множество решений системы al <-v(P1;t,x( a2t <-v(P2;t,xi
ait+a2 t =- v ({P, P2}; t,x (t))
не является пустым, и для каждого a e M ( 1 0 , x 0 )
a, = a,(T) = Jp^z)dT, i = 1,2, t0
a ( T ) e { a ( t ) + M ( t , x ( t ) ) } c M ( 1 0 , x 0 ) . (5)
Вычислим значения характеристи ческой функции в момент t, t e[10,T]: :
P P t , E t
v ( P. ; t , x ( t) ) = - ( i , ) , i = 1,2;
ui - v v ({Pi, P2}; t, x (t )) = -2 (T -1).
Из заданного подобия треугольников A Pt0E0ET и A P*E*ET имеем, что р( P, Et ) =
I P0 E 0| ■ | E ' E r|
E t E T
Итак,
v ( p ; t , x ( t
E 0 E T
E 0 E T
р ( P 0 , E 0 )
-
-
t
« i 1
T J и
-
v
,
i = 1,2.
E 0 E t
E 0 E
р ( р °, E 0 ) = ( 1 - T j р ( P °, E 0) .
Доказательство. Составим урав-
нение прямой ОА 0 (см. рис. 2, система
координат хОу):
Система (4) примет вид
y
x
t
t
t
« 11
T ) и1
—
v
t
а 21
T J и 2
—
v
= 2 (T — t)
.
Поскольку
t
—
« 11
T
+
« 21
u 1
—
v
u 2
—
v
> 2 ( T — t ) ,
множество решений системы (6) не яв-
ляется пустым. Осталось
справедливость (5).
доказать
Предварительно докажем
две лем-
мы.
Лемма 1. «Точки»
/
A 0
2 T
—
« 21
« 21
к
u 2
—
v
u 2
—
v
и
« 21
2 T
—
« 21
,
u 2
—
v
u 2
—
v
y =
а 21
2 T ( и 2
—
v)
—
« 21
x ,
k 0
« 21
2T ( и 2
—
v)
—
« 21
.
Составим уравнение прямой ОА t :
y
x
—
t
« 21
T ) и 2
y =
—
v
2 ( T — t ) — l 1
2 ( T — t ) — 1 1
2T ( и 2
k t =
—
« 21
u 2
—
v
—
t
t
« 21
T ) и 2
а 21
T ) и ^
—
v
—
v
,
а 21
—
v )— а 21
« 21
x ,
A =1 2 ( T — t ) —1 1 — - |-к к T J и.
а 21
—
v
;
t
—
« 2\
T ) и 2
—
v
лежат на одной прямой.
2T ( и 2
—
V )— «21
.
Поскольку k 0
= k t и прямые ОА 0
и ОА t
пересекаются, то они совпадают.

Р и с. 2. Прямые ОА 0 и ОА t ( ОB 0 и ОBt ) совпадают
F i g. 2. Straights lines ОА 0 and ОАt ( ОB 0 and ОBt ) coincide
Лемма 2. «Точки» B 0 =| “п ; 2T - “п | и
( u1 - V u1 - V J
B =|| 1 - L | a ; 2 ( T - t ) -| 1 - 1 1 ^ 1"- I лежат на одной прямой.
(( T J u1 - v v 7 ( T J u1 - v J
Доказательство леммы 2 аналогично доказательству леммы 1.
В силу выпуклости множества дележей достаточно доказать справедливость (6) только для двух дележей:

п(T) = {n (T),72 (TM^", 2T -a [ U - v u1 -
^( T ) = {^1 (T), ^2 (T)}:
^1 (T ) = 2T - ^2^ = T З^Чт ^dr; u 2 - V 0
в качестве Д ( 1 ) ( r ) примем — 2 T--—
1 T ( u 2 - v в1(1(т) = TI 2T -
a 21
= 2 -
u 2 - V
a 21 .
( u 2 - v ) T ’
^2 ( T ) =
a 2i
T
—
= J Pi4T d p,.
А^ ( ^ ) =
u 2 i — v 0
в качестве P 2 () ( t ) примем
a 2i
( u 2
—
v ) T ,
= -1 2 T —
a ii
T
= 2
—
a ii
A^ ( T ) =
a 2i
u 1
—
v
( u i — v ) T '
( U 2
—
v ) T .
£( T )e{^( t ) + M ( t, x ( ti)!' M ( t 0, x0 )
n ( T ) = { П 1 ( T ) , П ( T ) } :
П(T ) =
a ii
u 1
—
v
T
= J pU(T dd;;
в качестве P ( 2 ) ( г ) -
a ii
( u i — v ) T ’
P ( 2 ) ( t ) =
a ii
(ui — v) T
;
П (T ) = 2T
—
a ii
u 1
—
v
T
= J pU(TТ
в качестве в-^2 ( t ) - ^ 1 2 T
—
a ii
u 1
—
v
,
2 T
—
a 2i
2 T
—
2 T
—
2 T
—
u 2 — a 11 |
v |
u i — |
v |
a 2i |
|
u 2 — |
v |
a 11 |
|
u i — |
v |
2 T
< 2 (T — 1) — I 1
—
t
t
a 2i
T J u 2
—
v
t
a ii
T J u i
—
v
или
—
2 T
—
2 T
—
2 T
—
и п ( T ) e { n ( t ) + M ( t , x ( t ) ) } ' M ( t 0 , x о ) в силу справедливости лемм 1 и 2 эквивалентно системе линейных нера-
венств
t
^i (T)< ^i1 +Jв2(т)dr < ni (T),
t
П2 (T )< ^21 +J в2 ^(t )dT < ^2 (T),
^i (T) < ni1 + JPi^ (T)dT < n (T),
П2 ( T ) < П21 + J P^ (T )dT < ^2 ( T)
a 2i
T J u 2
—
t
+ J 2
—
t
+ J 2
—
< 2(T — 1) —| i —11-I T J u
a 2i
u 2
—
v
a ii
u 1
—
v
a 2i
u 2
—
v
a ii
u 1
—
v
Распишем (7):
t
a ii
v 0 ( u i — v ) T
dlT <
a ii
u 1
—
v
,
a ii
(ui — v) T
dT <
a 2i
u 2
—
v
,
a 2i
( u 2 — v ) T
dT <
a ii
u 1
—
v
,
a ii
t
—
- + ' — v о (u 2
a 2i
—
v) T
dT<
a 2i
u 2
—
v
^ . (7)
< 2 ( T — 1 ) —I i — 1 IV I T J u.
a 2i
—
v ( u i
a ii 1
—
t
a 2i
T J u 2
+ 2 1
—
a ii 1
—
v
( u i — v ) T
t
a ii
T J u i
+ 2 1
—
a 2i 1
<
a ii
—
v
( u 2
—
v ) T"
u 1
—
v
,
<
a 2i
u 2
—
v
,
.
<
a ii
v ) T U i
—
v
,
< 2 ( T — 1 ) —I i — 1 II T J u
a ii
—
v ( u 2
a 2i 1
—
<
a 2i
v ) T"
u 2
—
v
Легко показать, что система двойных линейных неравенств (8) имеет решение только в том и только том случае, когда
α 11 + α 21 ≥ 2 T . (9)
u 1 - vu 2 - v
Поскольку (9) действительно имеет место, то сильная устойчивость множества дележей доказана.
Обсуждение и заключения
В работе приводятся оптимальные стратегии, а также оптимальные тра-
ектории движения игроков. Выбранный принцип оптимальности оказался сильно динамически устойчивым и, следовательно, игроки не имеют оснований для окончания игры.
Попытки применить динамически неустойчивые (несостоятельные во времени) принципы оптимальности для прикладных задач в области экономики, менеджмента, охраны окружающей среды и т. д., как правило, приводят к грубым ошибкам, в результате которых принятые «оптимальные» решения оказываются нереализованными.
Поступила 14.03.2017; принята к публикации 28.04.2017; опубликована онлайн 14.06.2017
Все авторы прочитали и одобрили окончательный вариант рукописи.
248 Физико-математические науки

Submitted 14.03.2017; revised 28.04.2017; published online 14.06.2017
All authors have read and approved the final version of the manuscript.
Список литературы Кооперативный вариант игры преследования с двумя преследователями и одним убегающим: сильная устойчивость множества дележей
- Петросян Л. А., Ширяев В. Д. Групповое преследование одним преследователем нескольких преследуемых//Вестник ЛГУ (Сер. «Математика, механика и астрономия»). 1980. № 13. С. 50-57.
- Петросян Л. А., Томский Г. В. Геометрия простого преследования. Новосибирск: Наука, 1983. 144 с. URL: http://elibrary.ru/item.asp?id=27332819
- Петросян Л. А., Рихсиев Б. Б. Преследование на плоскости. М.: Наука, гл. ред. физ.-мат. литер., 1981. 96 с. URL: URL: http://elibrary.ru/item.asp?id=26228842
- Ширяев В. Д., Бикмурзина Р. Р. Динамическая устойчивость решения в простой дифференциальной игре четырех лиц//Науч. тр. SWorld. 2015. T. 7, вып. 2 (39). С. 60-64. URL: http://www. sworld.com.ua/konfer39/97.pdf
- Ширяев В. Д., Бикмурзина Р. Р. Сильная динамическая устойчивость в простой дифференциальной игре четырех лиц//Науч. тр. SWorld. 2015. T. 7, вып. 2 (39). С. 64-68. URL: http://sworld. com.ua/konfer39/98.pdf
- Петросян Л. А. Устойчивость решений в дифференциальных играх со многими участниками//Вестник Ленингр. ун-та (Сер. 1). 1977. Вып. 4, № 19. С. 46-52. URL: http://elibrary.ru/item. asp?id=23664524
- Петросян Л. А. Построение сильно динамически устойчивых решений в кооперативных дифференциальных играх//Вестник Санкт-Петербург. ун-та (Сер. «Математика, механика и астрономия»). 1992. № 4. С. 33-38.
- Петросян Л. А., Данилов И. И. Устойчивость решений в неантагонистических дифференциальных играх с трансферабельными выигрышами//Вестник Ленинград. ун-та, 1979. № 1. С. 46-54. URL: http://elibrary.ru/item.asp?id=25699423
- Петросян Л. А. Сильно динамически устойчивые принципы оптимальности в многокритериальных задачах оптимального управления//Tехническая кибернетика. 1993. № 1. С. 169-175.
- Петросян Л. А. Сильно динамически устойчивые дифференциальные принципы оптимальности//Вестник Санкт-Петербург. ун-та. 1993. № 22. С. 35-40.
- Петросян Л. А., Кузютин Д. В. Устойчивые решения позиционных игр. СПб.: Изд-во Санкт-Петербург. ун-та, 2008. 326 с. URL: http://elibrary.ru/item.asp?id=19456679
- Petrosj an L. A. Strongly time consistent optimality principles in the games with discount payoffs//Lecture notes in control and information sciences. 1994. № 197. P. 513-520. URL: https://www.research-gate.net/publication/266335984_Strongly_time-consistent_differential_optimality_principles
- Kreps D. M., Ramey G. Structural consistency, consistency and sequential rationality//Econo-metrica. 1987. Vol. 55. P. 1331-1348. URL: https://ideas.repec.org/a/ecm/emetrp/v55y1987i6p1331-48.html
- Peleg В., Tijs S. The consistency principle for Games in strategic form//Intern. J. Game Theory. 1996. Vol. 25. P. 13-34 DOI: 10.1007/BF01254381
- Kidland F. E., Prescott E. C. Rules rather than decisions: the inconsistency of optimal plan//J. of Political Economy. 1977. Vol. 85. P. 473-490. URL: http://citeseerx.ist.psu.edu/viewdoc/download? doi=10.1.1.603.6853&rep=rep1&type=pdf
- Кузютин Д. В. К проблеме устойчивости решений позиционных игр//Вестник Санкт-Петербург. ун-та (Сер. 1). 1995. Вып. 4, № 22. С. 18-23.
- Kuzutin D., Osokina O., Romanenko I On the consistency of optimal behavior in extensive games//Game Teory and Applications. 1997. Vol. 3. P. 107-116. URL: http://elibrary.ru/item.asp?id=23576894