Об отсутствии максиминных стратегий в одной дифференциальной игре
Бесплатный доступ
Рассмотрен аналог леммы о мажоранте из [1], с помощью которого для дифференциальной позиционной кооперативной линейно-квадратичной игры двух лиц при неопределенности найдены ограничения на функции выигрыша, при которых у игроков не существует «индивидуальных» максиминных стратегий.
Дифференциальные игры, кооперативные игры, неопределенность, риск
Короткий адрес: https://sciup.org/147158642
IDR: 147158642
About absence maximin strategy in to one differential game
In this article, we consider cooperative games with side payments under uncertainly. We formalize and prove existence of such game solution, guaranteed for winnings and risk
Текст научной статьи Об отсутствии максиминных стратегий в одной дифференциальной игре
-
1. Формализация игры
Рассматривается дифференциальная позиционная кооперативная линейно-квадратичная игра двух лиц с побочными платежами и при неопределенности, которая отождествляется с упорядоченной пятеркой
({1,2},2, ^Д1=и>ЗД^(и,2ф0^ (1)
В (1) участвуют два игрока с порядковыми номерами 1 и 2. Изменение (во времени t) управляемой системы 2 описывается линейным дифференциальным уравнением х = Л(7)х + М]+м2 + ^(z^ + atz), x(z0) = x0. (2)
Здесь время Ze[z0,<9], постоянные <9>Z0>0; фазовый вектор xeR", (z,x) - позиция игры, (z0,x0) - начальная позиция; неопределенный фактор zeRm; матрицы соответствующих размерностей И(/), 4 (г) и и-вектор aQ^ непрерывны на [О, У] (этот факт в дальнейшем обозначается Л( )еС„х„[0,,9], Hj^eC^fO,.?], а(-)еС„[0,.9]); ^ей" - управляющее воздействие z-ro игрока (z = 1,2) .
Стратегии z-ro игрока и, отождествляем с линейными функциями вида ^i (^ ^ г) = Pi (ОХ + Qi (О Z + li (О ’ ГДе Pi () е Спхп [0^1 > Qi (•) G Спхт [°> ^Ь 41 (•) 6 Сп [°, ^ ’ И Т0ГДа выбор z-ым игроком своей стратегии сводится к выбору конкретных непрерывных на [0,5] матриц Р^ (z) , Q, (z) и вектора q, (z); поэтому множество стратегий z-ro игрока (z = 1,2) имеет вид:
-
21, = { Ui ut (t, х, z) I м,- (z, x, z) = Д (z) x + Qt (z) z + qt (z),
V7> (•) e Cnxn [0, S], 0 (-) g Cnxm [0, S], q, () g Cn [0, S]}.
Заметим, что стратегии указанного вида впервые использовались в минимаксной дифференциальной антагонистической игре академиком Н.Н. Красовским в [4] и названы там контрстратегиями.
Наконец, управляемая система Е, как правило, подвергается неожиданным, трудно прогнозируемым возмущениям как извне (появление конкурентов, изменение спроса на товары, банкротство поставщика и т.п.), так и изнутри (поломка и замена оборудования, болезни и забастовки персонала, несовпадение планируемых сроков пуска нового оборудования с реальными сроками и т.д.). Для системы Е данный факт будет выражаться в реализациях в каждый момент времени Ze[z0,<9] численных значений некоторого векторного параметра zeR'". Будем предполагать (см., например, модель Эванса [5]), что игрокам известна динамика (изменение во времени Z) вектора z[z] на отрезке [z0,<9]. Пусть это изменение описывается векторным линейным неоднородным дифференциальным уравнением z = S(z)z + Z>(z), z[z0] = z0, (4)
где т х т -матрица S(-)eCmxm[0,,9] и/и-вектор 6(-)eCOT[0,i9].
Итак, неопределенность Z будем отождествлять с w-вектор-функцией z[]={z[?],?e[?0,^]} (обозначаем Z -^z[]), являющейся решением (4) с начальным условием z[?0] = z0 е Rm.
Множество Z неопределенностей Z получаем, когда ?0 «пробегает» все значения из промежутка [О, 5),a z0 - точки из .
Таким образом, для построения конкретной неопределенности достаточно знать ее начальное значение z[?0] = z0 е Rm, а затем найти решение уравнения (4). Здесь фактически неопределенностью является начальное значение z0 е Rm, а возможные скачки неопределенности (например, скачки цены товара на рынке сбыта) происходят до момента времени ?0 . Начиная же с ?0 до момента S изменение неопределенности Z происходит в соответствии с уравнением (4). Если промежуток [?0,S] достаточно мал, то такой факт полностью соответствует математической модели Эванса изменения на рынке цены товара в зависимости от спроса и предложения [5].
«Партия» дифференциальной игры (1) «развивается» следующим образом. Игроки, действуя сообща, обмениваясь информацией, согласованно договариваются о выборе своих стратегий U* е 21,, U* -г и* (t, х, z) = Р* (?) х + Q* (?) z + q* (?) (z = 1,2). В результате образуется ситуация
и* x2i2.
По найденному решению х* (?) и неопределенности £*[?], ?е[?0,^] строится реализация выбранных игроками стратегий U* ^и*(t,x,z^ (z = l,2), а именно, определенная при каждом ?е[?0,19] суперпозиция
м* И = и* (^ хЧ0 ’z И) = Р* (О х* (0 + Qi (О z* И + 9* (0 0' = L 2) •
На четверках непрерывных вектор-функций
(х* 0,U* [-],М2 [-j,^ [•]) = {х* (?),М* [?],l/2 VY2* [Z] I Z G М]} определена функция выигрыша z-ro игрока, заданная квадратичным функционалом
J^U^Z^Xo^x'^CiX^-vz'W^^b
>dt (z = l,2),
+ ЛIX И + zWizW + x'^GjX^
где использованы априори заданные постоянные симметричные пхп матрицы Ct, Dy, G, и т х т матрицы Z,, С^ ; штрих сверху означает операцию транспонирования. Значение функции выигрыша J{ ^U*,Z*,tQ,XQ^ называется предварительным выигрышем z-го игрока.
Следуя подходу принципа минимаксного сожаления [7], для функции выигрыша (5) строится [2] функционал риска Ф, (C7,Z,?0,x0).
На втором этапе игроки перераспределяют между собой полученные суммарный выигрыш
Кудрявцев К.Н.
JX^U* ,Z* ,t0,x^ + J2^U* ,Z* ,t0,x0^
и суммарный риск
Ф^и*,г\(о,хоуФ^и\г*ло,хоу
Итак, согласно описанному процессу «протекания» кооперативной дифференциальной игры с побочными платежами, каждый игрок согласованно с партнером формирует свое решение -стратегию U, е 21, (/ = 1,2), а затем перераспределяет свой суммарный выигрыш так, чтобы его окончательный выигрыш был по возможности большим, а перераспределенный риск (значение функции риска) по возможности меньше. При этом игроки должны учитывать возможность реализации любой неопределенности Z^Z.
Для рассмотренной игры (1) в [3] определено следующее понятие гарантированного по выигрышам и рискам решения (ГВРР).
Определение. В дифференциальной позиционной кооперативной игре двух лиц с побочными платежами при неопределенности (1.1) тройку (п\ 7*[/0,х0],Ф*[/0,х0]) назовем гарантированным по выигрышам и рискам решением (ГВРР) игры с начальной позицией (t0,xo)e[0,S)xR", если существует неопределенность Z* ^Z , при которой выполнены следующие три условия: 1 °) условие коллективной рациональности
2 2 / *\ max^J^U,Z30,x^3£j^u\Z^^
1=11=1
2 2 /\
" i=ii=i
2°) условие «неухудшаемости» суммарного суммарного выигрыша и риска
3°) условие индивидуальной рациональности для всех Z 6 Z и (/0,х0) g [0,S)x R" справедлива система из четырех неравенств
3*\^,1й,хД> max min Jt(UvU2,Z,t0,x0\
*(6)
O*[Z,/0,x0]> min max Ф,\их,U2,Z,t0,x0") (ij = 1,2;zV j\ где
2 2 * 22
^«7,(^7 ,Z,/0,xn j = y^tT, [Z,/n,Xo] Л У.Ф/!^ ,Z,/0,xn I = ^Ф, [Z,/0,xn]; z=i z=i i=ii=i при этом пару
3t po>xo] = (‘7i [^ Vo^o У^2 ^ ,^o])
назовем гарантированным векторным дележом, пару
^i [^O’^oj^^i ^Z ,t0,x0^^2[z ,/0,x0Jj
-
- гарантированным векторным риском, a U* = ^U* ,U2 j - ситуацией, гарантирующей эти дележи и риски в ДКИН (1) с побочными платежами и начальной позицией (/0,х0).
-
2. Лемма о мажоранте
Замечание 1. Требование 1° определения ГВРР выделяет для каждой неопределенности Z g Z и каждой начальной позиции ( рисков ^Ф,1(/ ,Z,tQ,x0\, которые делятся между игроками так, что первому распределяется /=1 часть суммарного выигрыша ^f^Z*,^,^ и часть суммарного риска Ф*^*,?0,х0^, второму соответственно J^Z*,t0,x0"^ и Ф2^*,?0,т0^. При этом распределении условия индивидуальной рациональности обеспечивают обоим игрокам выигрыши не меньшие, и риски не большие тех, которые они могли бы «обеспечить себе», действуя самостоятельно и используя свои макси-минные и минимаксные стратегии. Ниже определены условия, при которых не существуют максимины и минимаксы из (6). При выполнении данных условий между игроками допустимо любое распределение суммарного гарантированного дележа Jx^U\Z\t0,x0^ + J2^U* ,Z* ,t0,x0^ и суммарного гарантированного риска Ф] ^U*,Z*,t0,х0 j + Ф2(и*,Z*,tQ,х0 j. Рассмотрим квадратичный функционал, определенный в (5), а именно J! (lZ,Z,/0,x0) = х'(5)С1х(^) + z'[<9]C1(1)z[I9] + 8 (7) + j^Mj' [/] Д jU] [?] + и2 [/] Д 2u2 [?] + г'[?]Дг[?] + х'(?)Дх(?)} dt при рассмотренных в (2)-(4) ограничениях. Лемма. Если в (7) матрица Д2< 0 (т.е. соответствующая квадратичная форма определенно отрицательная), то при любом выборе стратегий Д е 21, (z = 1,2) и начальной позиции (/0,х0) е [0,3) х |r" \ 0„ j, z[Z0] = z0 е Rm существует «своя» стратегия Д2 е 212, при которой A^\,U2,Z,to->xQ') > JxvU2,Zdo>xo)- (8) Доказательство разобьем на три этапа. На первом - для задачи (8), (2) - (4) при Д -т и, (Z, х, z) = Pj (Г)х + Qj ^Qz + qt (?) (z = 1,2) построим функцию Беллмана V* Q, x, z), на втором - установим равенство ДСД ^2,Z,tQ,x0) = P(t0,x0,z0), (9) на третьем - докажем строгое неравенство (8). Первый этап. Для задачи (8), (2) - (4) найдем функцию Беллмана. Пусть фиксированы (Ux,U2)-г(м*(?,х,z),w2(?,х,z)) = (Р*(Qx + Q* (t)z + q*(/),P2 (t)x + Q2(t)z + q2Q)^ - какая-либо ситуация из 2ljx2l2 и (?o,jco)g[O,<9)x|r"io„), 4^1=^o e R"1 - произвольная начальная позиция. Введем функцию дУ VAQ)x + ux+u2 + Ax (t)z + (?)] + WQ,x,ux,u2,z,V} = -^- + ay dz [S(?)z + bQ^ + ux Dx xux + u2 Д 2zz2 + x'Gxx + z'l^z. Функцию Беллмана y*(t,x,z) определим из условий: W^t,x, их (t, х, z), u2 Q, x, z), z, VQ, x, z)^ = 0 VQ, x, z) e [0, i9) x R"+m, (11) y(3,x,z) = x'Cxx + z'Cx(1)z VxGRn,zeRm. (12) Кудрявцев К.Н. Ищем решение (11), (12)в виде V(t, х, z) = x'0(t)x + 2x'E(Z)z + z'^^z + 2x4(0 + 2z'7(Z) + ®(Z), (13) где соответствующих размерностей матрицы ®(Z), E(Z), 4(0 = вектора 4(0 = ^(Z) и скалярная функция Ж^Х, и* (t, X, z), «2 (t, x,z),z,V(t,x,z)^ = W [z, x, z] = = х'<Эх + 2x'Ez + z’^ z + 2x'4 + 2г'т) + ® + +2 [У® + z"S + 4'] ^(Z)x + Px ^x + Q* (t)z + q* (Z)+P^ (f)x + Q2 UA + 9г A + 4 Az + AO J + +2[x'E + z'^ + q'][B(t)z + Z>(Z)] + +[Ж W + z\Q* (Z))' + ^q* (Z))'] Д ] ^P* (t)x + Q* (t)z + q* (Z)] + ^x'UM + ZXQM + (940)']^2V2W + Q2AZ + 94o] + x'G.x + z'Lxz = 0. Тождества (11), (12) имеют место, если ®(Z), E(Z), 4(0 = 4(0 = q^, co(t) является решением системы ® + ®[ Az)+p*a + PKt^ + AO + [/’Г (Z)J + [p24z)J ® + + IP* A]'D} A (Z) + VP2 №пР2 (z) + G] = 0„x„; E+®[g;(z)+e24z)+4(z)]+[Az^^ +ЕАон/]4о]'Д104он7ЗДД2е4о^^^ 4+s' ^ (z)+0* (0+4 (0]+W)+ + [0* (0ГDv ] Q* (Z) + [0* (01'^202 (0 + 4 - 0mxm; ‘ ^ + ® [^(Z) + q*2A + ас] + [до+[440]'+№40]'^ + + Eb(t)+[440]'Д 1940+lP^t)XDnq2A = o„; аЦАО + 940 + AO] + [[0140]'+[040]' + И'1(о]^ + +^(0+5X07+[040]'Д1940+[040]'Д 2^ 0>0m; Щ + 2^'[94z) + 940 + «(o] + Wt) + [9140ГД19140 + [940]'Д2?40 = 0; ®(S)=c„ эд-отхп, ав)=с^\ AS) = o„, riA^m. Система (14) линейная неоднородная с непрерывными по Ze[0,5] коэффициентами. Поэто му, согласно [6, с. 29], (14) имеет единственное непрерывное решение ®* (Z), Е* (Z), 4*(0, ^*(0, q*(t), (о* (t), продолжимое на [0,5]. Таким образом, доказано существование функции У* (t, х, z) = х'®* (Z)x + 2х'Е* (Z)z + z'^* (t)z + 2x'^* (Z) + 2z'^* (Z) + to* (t), определенной при всех (Z,x,z) e [0,5) x R"+m и удовлетворяющей равенствам: Ж^Г,х, и* (Z, х, z), U2 (t, х, z), z, У* (t, x, z)j = 0 V(Z, x, z) e [0,5) x R"+m,(15) y*(S,x,z) = x'Cxx + z'C^z ^xeR",zEr.(16) Второй этап. Установим равенство Jx(U*,U*2,Z,t0,x0) = y*(t0,x0,z0),(17) где ситуация Фх №^ (“Г ^ z)> Ч кМ, z)) = (/f (Z)x + Q* (Qz + q* (Z), P2 (Z)x + Q^ ^z + ^2 (O) та же, что применялась на первом этапе доказательства, а функция V*(t,x,z^ была построена выше. Пусть x(Z), 0 [ St 6V*(t,x,z) дх [A(f)x + и* Q, x, z) + u2 (Z, x, z) + Ax ^z + a(Z)] + SV* (t,x,z) Sz [5(Z)z + Z>(Z)] + . x=x(Z),z=z[Z] + |[m* (Z, x, z^Dx xux (t,x, z) + [m2 (Z,x, z)]'Д 2^(Бx, z) + x’Gxx + z'L^. Найдем полную производную от найденной на первом этапе функции Беллмана V* (Z, х, z) в силу (2), (4) при ux = u* (t, x, z) = P* ^x + Q* (t)z + q*^, Q = 1,2), т.е. в силу системы x = A(t)x + и* (t, x, z) + u2 (Z, x, z) + Ax (Z)z + a(Z), x(Z0 ) = x0, z = B Тогда имеет место цепочка равенств dV*(t,x, z) dt =3V*(t,x(t),z[t]) Г 6P(Z,x(Z),z[Z])) Т dx^ St dP(Z,x(Z),z[Z])) dz[t] Sz dt Эх SV*(t,x,z) St dt 3V*(t,x,z) Sx [H(Z)x + w* (Z, x, z) + м2 (Л x, z) + Ax (t^z + a(Z)] + 5K*(Z,x,z) Sz [P(Z)z + Z>(Z)J х=х(0 z=z[Z] Используя (20) и тождество (18), представим )T[Z] в виде п dV*(Z,x(z),z[Zl) / , ^W =--- dt^"+ V 1 [^]) 7)11M1 M + («гИ) Д2мгИ + x'(t)Gxx(t) + z'H^zM, Vz e[Zo,,9], где и* [Z] = и* (t, xQ), z[t]) (i = 1,2). Наконец, согласно (16) V*(S,x(SM9D = xXS)Cxx(S) + z^lCflzC^]. Интегрируя обе части (18) в пределах от Zo до 5 и учитывая (21), (7) и (22), получаем O=^Чt¥t = Jx(U^U*,ZAo,xo)-V(.to,xo^ zo Отсюда следует (17). Третий этап. Возьмем теперь стратегию и2"А2Ух) = Ре, где р = const >0 определим ниже, а все компоненты и -вектора е равны единице. Тогда W (j, х, и* (t,x,z),u2(t,x),z,V(t,x,z)^ = = x'©(t)x + 2x'S(t)z + z'^t)z + 2x'£(t) + 'Iz'fi^t) + <я(0 + +2 [x'®(/) + z'E'(Z) + ^'(0] [^(0* + P* (t)x + Q* (t)z + q* (/) + +/?e + ^(Oz + аЮ] + 2[x'B(0 + z'£(t) + 7'(0][Ж)г + 6(0] + ♦[х'^ЧО^^йЧоН^О^ +p2 a’DX2e + x'G]X + г'Цг. Обозначим через x(/) и z[/] - решение системы (2), (4) при их = ux(t,x,z), u2= Ре. Тогда WV,PA = ir(t,T(0,^(t,x(t),z[t]),M2(^T(/)),zm,r(t,T(/),z[0)) = = ^i (0 + Ж (Oe + P2dDX2e, где <^v (0 U = 1,2) - непрерывные на [0,i9] функции. Так как DX2< 0, то e'DX2e < -це'е, где -// = const < 0 - наибольший корень характеристического уравнения det^Dn - ЛЕп] = 0. Так как все функции <р](?) непрерывны на [О, S], то существует постоянная М такая, что max( <р At)) = М. Поэтому существует /У = const > 0 такая, что 7=1,2Х 1 ’ М р* М <-^^ЦП, откуда W[t,p*]<0 Vte[O,S], Наконец, отсюда J^[^,^ Adt = Ахфх ,U2’^’O’-^o) — ^^O’Xo>Zo)< 0 и Л(^А >U2>ZPo’xo) < V(t0,x0,z0). Тогда согласно (23), y(Gx ,[/2,Z,t0,x0) Замечание 2. Как следует из доказанной выше леммы, если матрица О12< 0, то не существует минимума min Jxфх,U2,Z,t0,x0),a следовательно, и применяемого в (6) максимина £/2е212 max min JX(UX,U2,Z*,tn,xA UAe%AU2e^2 Полностью аналогично доказывается, что при О21 < 0 не существует применяемого в (6) максимина JyUx,U2,Z\t0,xti). Таким образом, при выполнении ограничений DX2 < 0 и D2X < 0 в функции выигрыша (5) у игроков в бескоалиционном варианте игры (1) не существует «индивидуальных» максиминных стратегий. А для ГВРР кооперативного варианта (1) с возможностью побочных платежей при выполнении данных условий допустимо любое перераспределение суммарного гарантированного дележа JxyU\Z\t0,x^A- J^\y* ,Z* ,t0,x^ и суммарного гарантированного риска Фх^и* ,Z\tQ,xoy^^U\Z\tQ,xoy
Список литературы Об отсутствии максиминных стратегий в одной дифференциальной игре
- Жуковский, В.И. Кооперативные игры при неопределенности и их приложения/В.И. Жуковский. -М.: Эдиториал УРСС, 1999. -340 с.
- Кудрявцев, К.Н. Функции риска в одной кооперативной дифференциальной игре/К.Н. Кудрявцев//Информационные технологии моделирования и управления. -Воронеж: «Научная книга», 2008. -В. 6 (49). -С. 665-674.
- Кудрявцев, К.Н. О гарантированных по выигрышам и рискам решениях в некоторых кооперативных играх/К.Н.Кудрявцев//Наука ЮУрГУ: материалы 61-й научной конференции. Секция естественно-научных и гуманитарных наук. -Челябинск: Изд-во ЮУрГУ, 2009. -Т. 2. -С. 149-153.
- Красовский, Н.Н. Позиционные дифференциальные игры/Н.Н. Красовский, А.И. Субботин. -М: Наука, 1974. -455 с.
- Колемаев, В.А. Математическая экономика/В.А. Колемаев. -М.: ЮНИТИ, 2002.
- Понтрягин, Л.С. Обыкновенные дифференциальные уравнения/Л.С. Понтрягин. -М.:ГИФМЛ, 1961.-212 с.
- Savage, L.Y. The theory of statistical decusion/L.Y. Savage//J. American Statistic Association. -1951. -№ 46. -P. 55-67.