Об отсутствии максиминных стратегий в одной дифференциальной игре

Бесплатный доступ

Рассмотрен аналог леммы о мажоранте из [1], с помощью которого для дифференциальной позиционной кооперативной линейно-квадратичной игры двух лиц при неопределенности найдены ограничения на функции выигрыша, при которых у игроков не существует «индивидуальных» максиминных стратегий.

Дифференциальные игры, кооперативные игры, неопределенность, риск

Короткий адрес: https://sciup.org/147158642

IDR: 147158642

Текст научной статьи Об отсутствии максиминных стратегий в одной дифференциальной игре

  • 1.    Формализация игры

Рассматривается дифференциальная позиционная кооперативная линейно-квадратичная игра двух лиц с побочными платежами и при неопределенности, которая отождествляется с упорядоченной пятеркой

({1,2},2, 1=и>ЗД^(и,2ф0^                     (1)

В (1) участвуют два игрока с порядковыми номерами 1 и 2. Изменение (во времени t) управляемой системы 2 описывается линейным дифференциальным уравнением х = Л(7)х + М]+м2 + ^(z^ + atz), x(z0) = x0.                     (2)

Здесь время Ze[z0,<9], постоянные <9>Z0>0; фазовый вектор xeR", (z,x) - позиция игры, (z0,x0) - начальная позиция; неопределенный фактор zeRm; матрицы соответствующих размерностей И(/), 4 (г) и и-вектор aQ^ непрерывны на [О, У] (этот факт в дальнейшем обозначается Л( )еС„х„[0,,9], Hj^eC^fO,.?], а(-)еС„[0,.9]); ^ей" - управляющее воздействие z-ro игрока (z = 1,2) .

Стратегии z-ro игрока и, отождествляем с линейными функциями вида ^i (^ ^ г) = Pi Х + Qi Z + li (О ’ ГДе Pi () е Спхп [0^1 >  Qi (•) G Спхт [°> ^Ь 41 (•) 6 Сп [°, ^ ’ И Т0ГДа выбор z-ым игроком своей стратегии сводится к выбору конкретных непрерывных на [0,5] матриц Р^ (z) , Q, (z) и вектора q, (z); поэтому множество стратегий z-ro игрока (z = 1,2) имеет вид:

  • 21, = { Ui ut (t, х, z) I м,- (z, x, z) = Д (z) x + Qt (z) z + qt (z),

V7> (•) e Cnxn [0, S], 0 (-) g Cnxm [0, S], q, () g Cn [0, S]}.

Заметим, что стратегии указанного вида впервые использовались в минимаксной дифференциальной антагонистической игре академиком Н.Н. Красовским в [4] и названы там контрстратегиями.

Наконец, управляемая система Е, как правило, подвергается неожиданным, трудно прогнозируемым возмущениям как извне (появление конкурентов, изменение спроса на товары, банкротство поставщика и т.п.), так и изнутри (поломка и замена оборудования, болезни и забастовки персонала, несовпадение планируемых сроков пуска нового оборудования с реальными сроками и т.д.). Для системы Е данный факт будет выражаться в реализациях в каждый момент времени Ze[z0,<9] численных значений некоторого векторного параметра zeR'". Будем предполагать (см., например, модель Эванса [5]), что игрокам известна динамика (изменение во времени Z) вектора z[z] на отрезке [z0,<9]. Пусть это изменение описывается векторным линейным неоднородным дифференциальным уравнением z = S(z)z + Z>(z), z[z0] = z0,                                  (4)

где т х т -матрица S(-)eCmxm[0,,9] и/и-вектор 6(-)eCOT[0,i9].

Итак, неопределенность Z будем отождествлять с w-вектор-функцией z[]={z[?],?e[?0,^]} (обозначаем Z -^z[]), являющейся решением (4) с начальным условием z[?0] = z0 е Rm.

Множество Z неопределенностей Z получаем, когда ?0 «пробегает» все значения из промежутка [О, 5),a z0 - точки из .

Таким образом, для построения конкретной неопределенности достаточно знать ее начальное значение z[?0] = z0 е Rm, а затем найти решение уравнения (4). Здесь фактически неопределенностью является начальное значение z0 е Rm, а возможные скачки неопределенности (например, скачки цены товара на рынке сбыта) происходят до момента времени ?0 . Начиная же с ?0 до момента S изменение неопределенности Z происходит в соответствии с уравнением (4). Если промежуток [?0,S] достаточно мал, то такой факт полностью соответствует математической модели Эванса изменения на рынке цены товара в зависимости от спроса и предложения [5].

«Партия» дифференциальной игры (1) «развивается» следующим образом. Игроки, действуя сообща, обмениваясь информацией, согласованно договариваются о выборе своих стратегий U* е 21,, U* и* (t, х, z) = Р* (?) х + Q* (?) z + q* (?) (z = 1,2). В результате образуется ситуация

и*                   x2i2.

По найденному решению х* (?) и неопределенности £*[?], ?е[?0,^] строится реализация выбранных игроками стратегий U* ^и*(t,x,z^ (z = l,2), а именно, определенная при каждом ?е[?0,19] суперпозиция

м* И = и* (^ хЧ0 ’z И) = Р* (О х* (0 + Qi (О z* И + 9* (0 0' = L 2) •

На четверках непрерывных вектор-функций

(х* 0,U* [-],М2 [-j,^ [•]) = {х* (?),М* [?],l/2 VY2* [Z] I Z G М]} определена функция выигрыша z-ro игрока, заданная квадратичным функционалом

J^U^Z^Xo^x'^CiX^-vz'W^^b

>dt (z = l,2),

+ ЛIX    И + zWizW + x'^GjX^

где использованы априори заданные постоянные симметричные пхп матрицы Ct, Dy, G, и т х т матрицы Z,, С^ ; штрих сверху означает операцию транспонирования. Значение функции выигрыша J{ ^U*,Z*,tQ,XQ^ называется предварительным выигрышем z-го игрока.

Следуя подходу принципа минимаксного сожаления [7], для функции выигрыша (5) строится [2] функционал риска Ф, (C7,Z,?0,x0).

На втором этапе игроки перераспределяют между собой полученные суммарный выигрыш

Кудрявцев К.Н.

JX^U* ,Z* ,t0,x^ + J2^U* ,Z* ,t0,x0^

и суммарный риск

Ф^и*,г\(о,хоуФ^и\г*ло,хоу

Итак, согласно описанному процессу «протекания» кооперативной дифференциальной игры с побочными платежами, каждый игрок согласованно с партнером формирует свое решение -стратегию U, е 21, (/ = 1,2), а затем перераспределяет свой суммарный выигрыш так, чтобы его окончательный выигрыш был по возможности большим, а перераспределенный риск (значение функции риска) по возможности меньше. При этом игроки должны учитывать возможность реализации любой неопределенности Z^Z.

Для рассмотренной игры (1) в [3] определено следующее понятие гарантированного по выигрышам и рискам решения (ГВРР).

Определение. В дифференциальной позиционной кооперативной игре двух лиц с побочными платежами при неопределенности (1.1) тройку (п\ 7*[/00],Ф*[/00]) назовем гарантированным по выигрышам и рискам решением (ГВРР) игры с начальной позицией (t0,xo)e[0,S)xR", если существует неопределенность Z* ^Z , при которой выполнены следующие три условия: 1 °) условие коллективной рациональности

2                           2      /  *\ max^J^U,Z30,x^3£j^u\Z^^

1=11=1

2                           2      /\

" i=ii=i

2°) условие «неухудшаемости» суммарного суммарного выигрыша и риска

3°) условие индивидуальной рациональности для всех Z 6 Z и (/0,х0) g [0,S)x R" справедлива система из четырех неравенств

3*\^,1й,хД> max min Jt(UvU2,Z,t0,x0\

*(6)

O*[Z,/0,x0]> min max Ф,\их,U2,Z,t0,x0")    (ij = 1,2;zV j\ где

2                           2 *                      22

^«7,(^7 ,Z,/0,xn j = y^tT, [Z,/n,Xo] Л У.Ф/!^ ,Z,/0,xn I = ^Ф, [Z,/0,xn]; z=i                           z=i                           i=ii=i при этом пару

3t po>xo] = (‘7i [^ Vo^o У^2 ^ ,^o])

назовем гарантированным векторным дележом, пару

^i [^O’^oj^^i ^Z ,t0,x0^^2[z ,/0,x0Jj

  • - гарантированным векторным риском, a U* = ^U* ,U2 j - ситуацией, гарантирующей эти дележи и риски в ДКИН (1) с побочными платежами и начальной позицией (/00).

  • 2.    Лемма о мажоранте

Замечание 1. Требование 1° определения ГВРР выделяет для каждой неопределенности Z g Z и каждой начальной позиции (

рисков ^Ф,1(/ ,Z,tQ,x0\, которые делятся между игроками так, что первому распределяется /=1

часть суммарного выигрыша ^f^Z*,^,^ и часть суммарного риска Ф*^*,?00^, второму соответственно J^Z*,t0,x0"^ и Ф2^*,?00^. При этом распределении условия индивидуальной рациональности обеспечивают обоим игрокам выигрыши не меньшие, и риски не большие тех, которые они могли бы «обеспечить себе», действуя самостоятельно и используя свои макси-минные и минимаксные стратегии.

Ниже определены условия, при которых не существуют максимины и минимаксы из (6). При выполнении данных условий между игроками допустимо любое распределение суммарного гарантированного дележа Jx^U\Z\t0,x0^ + J2^U* ,Z* ,t0,x0^ и суммарного гарантированного риска Ф] ^U*,Z*,t00 j + Ф2(и*,Z*,tQ,х0 j.

Рассмотрим квадратичный функционал, определенный в (5), а именно

J! (lZ,Z,/0,x0) = х'(5)С1х(^) + z'[<9]C1(1)z[I9] +

8                                                                                 (7)

+ j^Mj' [/] Д jU] [?] + и2 [/] Д 2u2 [?] + г'[?]Дг[?] + х'(?)Дх(?)} dt при рассмотренных в (2)-(4) ограничениях.

Лемма. Если в (7) матрица Д2< 0 (т.е. соответствующая квадратичная форма определенно отрицательная), то при любом выборе стратегий Д е 21, (z = 1,2) и начальной позиции (/00) е [0,3) х |r" \ 0„ j, z[Z0] = z0 е Rm существует «своя» стратегия Д2 е 212, при которой

A^\,U2,Z,to->xQ') > JxvU2,Zdo>xo)-                          (8)

Доказательство разобьем на три этапа. На первом - для задачи (8), (2) - (4) при Д -т и, (Z, х, z) = Pj (Г)х + Qj ^Qz + qt (?) (z = 1,2) построим функцию Беллмана V* Q, x, z), на втором - установим равенство

ДСД ^2,Z,tQ,x0) = P(t0,x0,z0),                             (9)

на третьем - докажем строгое неравенство (8).

Первый этап. Для задачи (8), (2) - (4) найдем функцию Беллмана. Пусть фиксированы (Ux,U2)-г(м*(?,х,z),w2(?,х,z)) = (Р*(Qx + Q* (t)z + q*(/),P2 (t)x + Q2(t)z + q2Q)^ - какая-либо ситуация из 2ljx2l2 и (?o,jco)g[O,<9)x|r"io„), 4^1=^o e R"1 - произвольная начальная позиция.

Введем функцию дУ

VAQ)x + ux+u2 + Ax (t)z + (?)] +

WQ,x,ux,u2,z,V} = -^- + ay dz

[S(?)z + bQ^ + ux Dx xux + u2 Д 2zz2 + x'Gxx + z'l^z.

Функцию Беллмана y*(t,x,z) определим из условий:

W^t,x, их (t, х, z), u2 Q, x, z), z, VQ, x, z)^ = 0     VQ, x, z) e [0, i9) x R"+m,             (11)

y(3,x,z) = x'Cxx + z'Cx(1)z VxGRn,zeRm.                      (12)

Кудрявцев К.Н.

Ищем решение (11), (12)в виде

V(t, х, z) = x'0(t)x + 2x'E(Z)z + z'^^z + 2x4(0 + 2z'7(Z) + ®(Z),               (13)

где соответствующих размерностей матрицы ®(Z), E(Z), 4(0 = вектора 4(0 = ^(Z) и скалярная функция U* (/ = 1,2) получаем

Ж^Х, и* (t, X, z), «2 (t, x,z),z,V(t,x,z)^ = W [z, x, z] = = х'<Эх + 2x'Ez + z’^ z + 2x'4 + 2г'т) + ® + +2 [У® + z"S + 4'] ^(Z)x + Px ^x + Q* (t)z + q* (Z)+P^ (f)x + Q2 UA + 9г A + 4 Az + AO J + +2[x'E + z'^ + q'][B(t)z + Z>(Z)] +

+[Ж W + z\Q* (Z))' + ^q* (Z))'] Д ] ^P* (t)x + Q* (t)z + q* (Z)] + ^x'UM + ZXQM + (940)']^2V2W + Q2AZ + 94o] + x'G.x + z'Lxz = 0. Тождества (11), (12) имеют место, если ®(Z), E(Z), 4(0 = 4(0 = q^, co(t) является решением системы

® + ®[ Az)+p*a + PKt^ + AO + [/’Г (Z)J + [p24z)J

® +

+ IP* A]'D} A (Z) + VP2 №пР2 (z) + G] = 0„x„;

E+®[g;(z)+e24z)+4(z)]+[Az^^

+ЕАон/]4о]'Д104он7ЗДД2е4о^^^

4+s' ^ (z)+0* (0+4 (0]+W)+

+ [0* (0ГDv ] Q* (Z) + [0* (01'^202 (0 + 4 - 0mxm;

‘ ^ + ® [^(Z) + q*2A + ас] + [до+[440]'+№40]'^ +

+ Eb(t)+[440]'Д 1940+lP^t)XDnq2A = o„;

аЦАО + 940 + AO] + [[0140]'+[040]' + И'1(о]^ +

+^(0+5X07+[040]'Д1940+[040]'Д 2^ 0>0m;

Щ + 2^'[94z) + 940 + «(o] + Wt) + [9140ГД19140 + [940]'Д2?40 = 0;

®(S)=c„ эд-отхп, ав)=с^\

AS) = o„, riA^m.

Система (14) линейная неоднородная с непрерывными по Ze[0,5] коэффициентами. Поэто му, согласно [6, с. 29], (14) имеет единственное непрерывное решение ®* (Z), Е* (Z), 4*(0, ^*(0, q*(t), (о* (t), продолжимое на [0,5].

Таким образом, доказано существование функции

У* (t, х, z) = х'®* (Z)x + 2х'Е* (Z)z + z'^* (t)z + 2x'^* (Z) + 2z'^* (Z) + to* (t), определенной при всех (Z,x,z) e [0,5) x R"+m и удовлетворяющей равенствам:

Ж^Г,х, и* (Z, х, z), U2 (t, х, z), z, У* (t, x, z)j = 0     V(Z, x, z) e [0,5) x R"+m,(15)

y*(S,x,z) = x'Cxx + z'C^z ^xeR",zEr.(16)

Второй этап. Установим равенство

Jx(U*,U*2,Z,t0,x0) = y*(t0,x0,z0),(17)

где ситуация

Фх №^ (“Г ^ z)> Ч кМ, z)) = (/f (Z)x + Q* (Qz + q* (Z), P2 (Z)x + Q^ ^z + ^2 (O)

та же, что применялась на первом этапе доказательства, а функция V*(t,x,z^ была построена выше. Пусть x(Z), 0t0 - решение (4). Подставляя x = x(t) и z = z[Z] в (15), получим, что при всех Z е [Z0,<9]

[ St

6V*(t,x,z) дх

[A(f)x + и* Q, x, z) + u2 (Z, x, z) + Ax ^z + a(Z)] +

SV* (t,x,z) Sz

[5(Z)z + Z>(Z)]             +

. x=x(Z),z=z[Z]

+ |[m* (Z, x, z^Dx xux (t,x, z) + [m2 (Z,x, z)]'Д 2^(Бx, z) + x’Gxx + z'L^.

Найдем полную производную от найденной на первом этапе функции Беллмана V* (Z, х, z) в силу

(2), (4) при ux = u* (t, x, z) = P* ^x + Q* (t)z + q*^, Q = 1,2), т.е. в силу системы x = A(t)x + и* (t, x, z) + u2 (Z, x, z) + Ax (Z)z + a(Z), x(Z0 ) = x0, z = B z[Z0] = z0.

Тогда имеет место цепочка равенств

dV*(t,x, z) dt

=3V*(t,x(t),z[t]) Г 6P(Z,x(Z),z[Z])) Т dx^

St

dP(Z,x(Z),z[Z])) dz[t]

Sz

dt

Эх

SV*(t,x,z)

St

dt

3V*(t,x,z)

Sx

[H(Z)x + w* (Z, x, z) + м2x, z) + Ax (t^z + a(Z)] +

5K*(Z,x,z) Sz

[P(Z)z + Z>(Z)J

х=х(0 z=z[Z]

Используя (20) и тождество (18), представим )T[Z] в виде п dV*(Z,x(z),z[Zl) /                ,

^W =--- dt^"+ V 1 [^]) 7)11M1 M +

(«гИ) Д2мгИ + x'(t)Gxx(t) + z'H^zM,    Vz e[Zo,,9], где и* [Z] = и* (t, xQ), z[t]) (i = 1,2). Наконец, согласно (16)

V*(S,x(SM9D = xXS)Cxx(S) + z^lCflzC^].

Интегрируя обе части (18) в пределах от Zo до 5 и учитывая (21), (7) и (22), получаем

O=^Чt¥t = Jx(U^U*,ZAo,xo)-V(.to,xo^ zo

Отсюда следует (17).

Третий этап. Возьмем теперь стратегию и2"А2Ух) = Ре, где р = const >0 определим ниже, а все компоненты и -вектора е равны единице. Тогда

W (j, х, и* (t,x,z),u2(t,x),z,V(t,x,z)^ =

= x'©(t)x + 2x'S(t)z + z'^t)z + 2x'£(t) + 'Iz'fi^t) + <я(0 +

+2 [x'®(/) + z'E'(Z) + ^'(0] [^(0* + P* (t)x + Q* (t)z + q* (/) +

+/?e + ^(Oz + аЮ] + 2[x'B(0 + z'£(t) + 7'(0][Ж)г + 6(0] + ♦[х'^ЧО^^йЧоН^О^

+p2 a’DX2e + x'G]X + г'Цг.

Обозначим через x(/) и z[/] - решение системы (2), (4) при их = ux(t,x,z), u2= Ре. Тогда

WV,PA = ir(t,T(0,^(t,x(t),z[t]),M2(^T(/)),zm,r(t,T(/),z[0)) =

= ^i (0 + Ж (Oe + P2dDX2e, где <^v (0 U = 1,2) - непрерывные на [0,i9] функции.

Так как DX2< 0, то e'DX2e < -це'е, где -// = const < 0 - наибольший корень характеристического уравнения det^Dn - ЛЕп] = 0. Так как все функции ](?) непрерывны на [О, S], то существует постоянная М такая, что max( <р At)) = М. Поэтому существует = const > 0 такая, что 7=1,2Х 1    ’

М р* М <-^^ЦП, откуда

W[t,p*]<0 Vte[O,S],

Наконец, отсюда

J^[^,^ Adt = Ахфх ,U2’^’O’-^o) ^^O’Xo>Zo)< 0

и

Л(^А >U2>ZPo’xo) < V(t0,x0,z0).

Тогда согласно (23),

y(Gx ,[/2,Z,t0,x0)

Замечание 2. Как следует из доказанной выше леммы, если матрица О12< 0, то не существует минимума min Jxфх,U2,Z,t0,x0),a следовательно, и применяемого в (6) максимина

£/2е212

max min JX(UX,U2,Z*,tn,xA

UAe%AU2e^2

Полностью аналогично доказывается, что при О21 < 0 не существует применяемого в (6) максимина

JyUx,U2,Z\t0,xti).

Таким образом, при выполнении ограничений DX2 < 0 и D2X < 0 в функции выигрыша (5) у игроков в бескоалиционном варианте игры (1) не существует «индивидуальных» максиминных стратегий. А для ГВРР кооперативного варианта (1) с возможностью побочных платежей при выполнении данных условий допустимо любое перераспределение суммарного гарантированного дележа   JxyU\Z\t0,x^A- J^\y* ,Z* ,t0,x^   и суммарного гарантированного риска

Фх^и* ,Z\tQ,xoy^^U\Z\tQ,xoy

Список литературы Об отсутствии максиминных стратегий в одной дифференциальной игре

  • Жуковский, В.И. Кооперативные игры при неопределенности и их приложения/В.И. Жуковский. -М.: Эдиториал УРСС, 1999. -340 с.
  • Кудрявцев, К.Н. Функции риска в одной кооперативной дифференциальной игре/К.Н. Кудрявцев//Информационные технологии моделирования и управления. -Воронеж: «Научная книга», 2008. -В. 6 (49). -С. 665-674.
  • Кудрявцев, К.Н. О гарантированных по выигрышам и рискам решениях в некоторых кооперативных играх/К.Н.Кудрявцев//Наука ЮУрГУ: материалы 61-й научной конференции. Секция естественно-научных и гуманитарных наук. -Челябинск: Изд-во ЮУрГУ, 2009. -Т. 2. -С. 149-153.
  • Красовский, Н.Н. Позиционные дифференциальные игры/Н.Н. Красовский, А.И. Субботин. -М: Наука, 1974. -455 с.
  • Колемаев, В.А. Математическая экономика/В.А. Колемаев. -М.: ЮНИТИ, 2002.
  • Понтрягин, Л.С. Обыкновенные дифференциальные уравнения/Л.С. Понтрягин. -М.:ГИФМЛ, 1961.-212 с.
  • Savage, L.Y. The theory of statistical decusion/L.Y. Savage//J. American Statistic Association. -1951. -№ 46. -P. 55-67.
Статья научная