Об отсутствии максиминных стратегий в одной дифференциальной игре
Бесплатный доступ
Рассмотрен аналог леммы о мажоранте из [1], с помощью которого для дифференциальной позиционной кооперативной линейно-квадратичной игры двух лиц при неопределенности найдены ограничения на функции выигрыша, при которых у игроков не существует «индивидуальных» максиминных стратегий.
Дифференциальные игры, кооперативные игры, неопределенность, риск
Короткий адрес: https://sciup.org/147158642
IDR: 147158642
Текст научной статьи Об отсутствии максиминных стратегий в одной дифференциальной игре
-
1. Формализация игры
Рассматривается дифференциальная позиционная кооперативная линейно-квадратичная игра двух лиц с побочными платежами и при неопределенности, которая отождествляется с упорядоченной пятеркой
({1,2},2, ^Д1=и>ЗД^(и,2ф0^ (1)
В (1) участвуют два игрока с порядковыми номерами 1 и 2. Изменение (во времени t) управляемой системы 2 описывается линейным дифференциальным уравнением х = Л(7)х + М]+м2 + ^(z^ + atz), x(z0) = x0. (2)
Здесь время Ze[z0,<9], постоянные <9>Z0>0; фазовый вектор xeR", (z,x) - позиция игры, (z0,x0) - начальная позиция; неопределенный фактор zeRm; матрицы соответствующих размерностей И(/), 4 (г) и и-вектор aQ^ непрерывны на [О, У] (этот факт в дальнейшем обозначается Л( )еС„х„[0,,9], Hj^eC^fO,.?], а(-)еС„[0,.9]); ^ей" - управляющее воздействие z-ro игрока (z = 1,2) .
Стратегии z-ro игрока и, отождествляем с линейными функциями вида ^i (^ ^ г) = Pi (ОХ + Qi (О Z + li (О ’ ГДе Pi () е Спхп [0^1 > Qi (•) G Спхт [°> ^Ь 41 (•) 6 Сп [°, ^ ’ И Т0ГДа выбор z-ым игроком своей стратегии сводится к выбору конкретных непрерывных на [0,5] матриц Р^ (z) , Q, (z) и вектора q, (z); поэтому множество стратегий z-ro игрока (z = 1,2) имеет вид:
-
21, = { Ui ut (t, х, z) I м,- (z, x, z) = Д (z) x + Qt (z) z + qt (z),
V7> (•) e Cnxn [0, S], 0 (-) g Cnxm [0, S], q, () g Cn [0, S]}.
Заметим, что стратегии указанного вида впервые использовались в минимаксной дифференциальной антагонистической игре академиком Н.Н. Красовским в [4] и названы там контрстратегиями.
Наконец, управляемая система Е, как правило, подвергается неожиданным, трудно прогнозируемым возмущениям как извне (появление конкурентов, изменение спроса на товары, банкротство поставщика и т.п.), так и изнутри (поломка и замена оборудования, болезни и забастовки персонала, несовпадение планируемых сроков пуска нового оборудования с реальными сроками и т.д.). Для системы Е данный факт будет выражаться в реализациях в каждый момент времени Ze[z0,<9] численных значений некоторого векторного параметра zeR'". Будем предполагать (см., например, модель Эванса [5]), что игрокам известна динамика (изменение во времени Z) вектора z[z] на отрезке [z0,<9]. Пусть это изменение описывается векторным линейным неоднородным дифференциальным уравнением z = S(z)z + Z>(z), z[z0] = z0, (4)
где т х т -матрица S(-)eCmxm[0,,9] и/и-вектор 6(-)eCOT[0,i9].
Итак, неопределенность Z будем отождествлять с w-вектор-функцией z[]={z[?],?e[?0,^]} (обозначаем Z -^z[]), являющейся решением (4) с начальным условием z[?0] = z0 е Rm.
Множество Z неопределенностей Z получаем, когда ?0 «пробегает» все значения из промежутка [О, 5),a z0 - точки из .
Таким образом, для построения конкретной неопределенности достаточно знать ее начальное значение z[?0] = z0 е Rm, а затем найти решение уравнения (4). Здесь фактически неопределенностью является начальное значение z0 е Rm, а возможные скачки неопределенности (например, скачки цены товара на рынке сбыта) происходят до момента времени ?0 . Начиная же с ?0 до момента S изменение неопределенности Z происходит в соответствии с уравнением (4). Если промежуток [?0,S] достаточно мал, то такой факт полностью соответствует математической модели Эванса изменения на рынке цены товара в зависимости от спроса и предложения [5].
«Партия» дифференциальной игры (1) «развивается» следующим образом. Игроки, действуя сообща, обмениваясь информацией, согласованно договариваются о выборе своих стратегий U* е 21,, U* -г и* (t, х, z) = Р* (?) х + Q* (?) z + q* (?) (z = 1,2). В результате образуется ситуация
и* x2i2.
По найденному решению х* (?) и неопределенности £*[?], ?е[?0,^] строится реализация выбранных игроками стратегий U* ^и*(t,x,z^ (z = l,2), а именно, определенная при каждом ?е[?0,19] суперпозиция
м* И = и* (^ хЧ0 ’z И) = Р* (О х* (0 + Qi (О z* И + 9* (0 0' = L 2) •
На четверках непрерывных вектор-функций
(х* 0,U* [-],М2 [-j,^ [•]) = {х* (?),М* [?],l/2 VY2* [Z] I Z G М]} определена функция выигрыша z-ro игрока, заданная квадратичным функционалом
J^U^Z^Xo^x'^CiX^-vz'W^^b
>dt (z = l,2),
+ ЛIX И + zWizW + x'^GjX^
где использованы априори заданные постоянные симметричные пхп матрицы Ct, Dy, G, и т х т матрицы Z,, С^ ; штрих сверху означает операцию транспонирования. Значение функции выигрыша J{ ^U*,Z*,tQ,XQ^ называется предварительным выигрышем z-го игрока.
Следуя подходу принципа минимаксного сожаления [7], для функции выигрыша (5) строится [2] функционал риска Ф, (C7,Z,?0,x0).
На втором этапе игроки перераспределяют между собой полученные суммарный выигрыш
Кудрявцев К.Н.
JX^U* ,Z* ,t0,x^ + J2^U* ,Z* ,t0,x0^
и суммарный риск
Ф^и*,г\(о,хоуФ^и\г*ло,хоу
Итак, согласно описанному процессу «протекания» кооперативной дифференциальной игры с побочными платежами, каждый игрок согласованно с партнером формирует свое решение -стратегию U, е 21, (/ = 1,2), а затем перераспределяет свой суммарный выигрыш так, чтобы его окончательный выигрыш был по возможности большим, а перераспределенный риск (значение функции риска) по возможности меньше. При этом игроки должны учитывать возможность реализации любой неопределенности Z^Z.
Для рассмотренной игры (1) в [3] определено следующее понятие гарантированного по выигрышам и рискам решения (ГВРР).
Определение. В дифференциальной позиционной кооперативной игре двух лиц с побочными платежами при неопределенности (1.1) тройку (п\ 7*[/0,х0],Ф*[/0,х0]) назовем гарантированным по выигрышам и рискам решением (ГВРР) игры с начальной позицией (t0,xo)e[0,S)xR", если существует неопределенность Z* ^Z , при которой выполнены следующие три условия: 1 °) условие коллективной рациональности
2 2 / *\ max^J^U,Z30,x^3£j^u\Z^^
1=11=1
2 2 /\
" i=ii=i
2°) условие «неухудшаемости» суммарного суммарного выигрыша и риска
3°) условие индивидуальной рациональности для всех Z 6 Z и (/0,х0) g [0,S)x R" справедлива система из четырех неравенств
3*\^,1й,хД> max min Jt(UvU2,Z,t0,x0\
*(6)
O*[Z,/0,x0]> min max Ф,\их,U2,Z,t0,x0") (ij = 1,2;zV j\ где
2 2 * 22
^«7,(^7 ,Z,/0,xn j = y^tT, [Z,/n,Xo] Л У.Ф/!^ ,Z,/0,xn I = ^Ф, [Z,/0,xn]; z=i z=i i=ii=i при этом пару
3t po>xo] = (‘7i [^ Vo^o У^2 ^ ,^o])
назовем гарантированным векторным дележом, пару
^i [^O’^oj^^i ^Z ,t0,x0^^2[z ,/0,x0Jj
-
- гарантированным векторным риском, a U* = ^U* ,U2 j - ситуацией, гарантирующей эти дележи и риски в ДКИН (1) с побочными платежами и начальной позицией (/0,х0).
-
2. Лемма о мажоранте
Замечание 1. Требование 1° определения ГВРР выделяет для каждой неопределенности Z g Z и каждой начальной позиции ( рисков ^Ф,1(/ ,Z,tQ,x0\, которые делятся между игроками так, что первому распределяется /=1 часть суммарного выигрыша ^f^Z*,^,^ и часть суммарного риска Ф*^*,?0,х0^, второму соответственно J^Z*,t0,x0"^ и Ф2^*,?0,т0^. При этом распределении условия индивидуальной рациональности обеспечивают обоим игрокам выигрыши не меньшие, и риски не большие тех, которые они могли бы «обеспечить себе», действуя самостоятельно и используя свои макси-минные и минимаксные стратегии. Ниже определены условия, при которых не существуют максимины и минимаксы из (6). При выполнении данных условий между игроками допустимо любое распределение суммарного гарантированного дележа Jx^U\Z\t0,x0^ + J2^U* ,Z* ,t0,x0^ и суммарного гарантированного риска Ф] ^U*,Z*,t0,х0 j + Ф2(и*,Z*,tQ,х0 j. Рассмотрим квадратичный функционал, определенный в (5), а именно J! (lZ,Z,/0,x0) = х'(5)С1х(^) + z'[<9]C1(1)z[I9] + 8 (7) + j^Mj' [/] Д jU] [?] + и2 [/] Д 2u2 [?] + г'[?]Дг[?] + х'(?)Дх(?)} dt при рассмотренных в (2)-(4) ограничениях. Лемма. Если в (7) матрица Д2< 0 (т.е. соответствующая квадратичная форма определенно отрицательная), то при любом выборе стратегий Д е 21, (z = 1,2) и начальной позиции (/0,х0) е [0,3) х |r" \ 0„ j, z[Z0] = z0 е Rm существует «своя» стратегия Д2 е 212, при которой A^\,U2,Z,to->xQ') > JxvU2,Zdo>xo)- (8) Доказательство разобьем на три этапа. На первом - для задачи (8), (2) - (4) при Д -т и, (Z, х, z) = Pj (Г)х + Qj ^Qz + qt (?) (z = 1,2) построим функцию Беллмана V* Q, x, z), на втором - установим равенство ДСД ^2,Z,tQ,x0) = P(t0,x0,z0), (9) на третьем - докажем строгое неравенство (8). Первый этап. Для задачи (8), (2) - (4) найдем функцию Беллмана. Пусть фиксированы (Ux,U2)-г(м*(?,х,z),w2(?,х,z)) = (Р*(Qx + Q* (t)z + q*(/),P2 (t)x + Q2(t)z + q2Q)^ - какая-либо ситуация из 2ljx2l2 и (?o,jco)g[O,<9)x|r"io„), 4^1=^o e R"1 - произвольная начальная позиция. Введем функцию дУ VAQ)x + ux+u2 + Ax (t)z + (?)] + WQ,x,ux,u2,z,V} = -^- + ay dz [S(?)z + bQ^ + ux Dx xux + u2 Д 2zz2 + x'Gxx + z'l^z. Функцию Беллмана y*(t,x,z) определим из условий: W^t,x, их (t, х, z), u2 Q, x, z), z, VQ, x, z)^ = 0 VQ, x, z) e [0, i9) x R"+m, (11) y(3,x,z) = x'Cxx + z'Cx(1)z VxGRn,zeRm. (12) Кудрявцев К.Н. Ищем решение (11), (12)в виде V(t, х, z) = x'0(t)x + 2x'E(Z)z + z'^^z + 2x4(0 + 2z'7(Z) + ®(Z), (13) где соответствующих размерностей матрицы ®(Z), E(Z), 4(0 = вектора 4(0 = ^(Z) и скалярная функция Ж^Х, и* (t, X, z), «2 (t, x,z),z,V(t,x,z)^ = W [z, x, z] = = х'<Эх + 2x'Ez + z’^ z + 2x'4 + 2г'т) + ® + +2 [У® + z"S + 4'] ^(Z)x + Px ^x + Q* (t)z + q* (Z)+P^ (f)x + Q2 UA + 9г A + 4 Az + AO J + +2[x'E + z'^ + q'][B(t)z + Z>(Z)] + +[Ж W + z\Q* (Z))' + ^q* (Z))'] Д ] ^P* (t)x + Q* (t)z + q* (Z)] + ^x'UM + ZXQM + (940)']^2V2W + Q2AZ + 94o] + x'G.x + z'Lxz = 0. Тождества (11), (12) имеют место, если ®(Z), E(Z), 4(0 = 4(0 = q^, co(t) является решением системы ® + ®[ Az)+p*a + PKt^ + AO + [/’Г (Z)J + [p24z)J ® + + IP* A]'D} A (Z) + VP2 №пР2 (z) + G] = 0„x„; E+®[g;(z)+e24z)+4(z)]+[Az^^ +ЕАон/]4о]'Д104он7ЗДД2е4о^^^ 4+s' ^ (z)+0* (0+4 (0]+W)+ + [0* (0ГDv ] Q* (Z) + [0* (01'^202 (0 + 4 - 0mxm; ‘ ^ + ® [^(Z) + q*2A + ас] + [до+[440]'+№40]'^ + + Eb(t)+[440]'Д 1940+lP^t)XDnq2A = o„; аЦАО + 940 + AO] + [[0140]'+[040]' + И'1(о]^ + +^(0+5X07+[040]'Д1940+[040]'Д 2^ 0>0m; Щ + 2^'[94z) + 940 + «(o] + Wt) + [9140ГД19140 + [940]'Д2?40 = 0; ®(S)=c„ эд-отхп, ав)=с^\ AS) = o„, riA^m. Система (14) линейная неоднородная с непрерывными по Ze[0,5] коэффициентами. Поэто му, согласно [6, с. 29], (14) имеет единственное непрерывное решение ®* (Z), Е* (Z), 4*(0, ^*(0, q*(t), (о* (t), продолжимое на [0,5]. Таким образом, доказано существование функции У* (t, х, z) = х'®* (Z)x + 2х'Е* (Z)z + z'^* (t)z + 2x'^* (Z) + 2z'^* (Z) + to* (t), определенной при всех (Z,x,z) e [0,5) x R"+m и удовлетворяющей равенствам: Ж^Г,х, и* (Z, х, z), U2 (t, х, z), z, У* (t, x, z)j = 0 V(Z, x, z) e [0,5) x R"+m,(15) y*(S,x,z) = x'Cxx + z'C^z ^xeR",zEr.(16) Второй этап. Установим равенство Jx(U*,U*2,Z,t0,x0) = y*(t0,x0,z0),(17) где ситуация Фх №^ (“Г ^ z)> Ч кМ, z)) = (/f (Z)x + Q* (Qz + q* (Z), P2 (Z)x + Q^ ^z + ^2 (O) та же, что применялась на первом этапе доказательства, а функция V*(t,x,z^ была построена выше. Пусть x(Z), 0 [ St 6V*(t,x,z) дх [A(f)x + и* Q, x, z) + u2 (Z, x, z) + Ax ^z + a(Z)] + SV* (t,x,z) Sz [5(Z)z + Z>(Z)] + . x=x(Z),z=z[Z] + |[m* (Z, x, z^Dx xux (t,x, z) + [m2 (Z,x, z)]'Д 2^(Бx, z) + x’Gxx + z'L^. Найдем полную производную от найденной на первом этапе функции Беллмана V* (Z, х, z) в силу (2), (4) при ux = u* (t, x, z) = P* ^x + Q* (t)z + q*^, Q = 1,2), т.е. в силу системы x = A(t)x + и* (t, x, z) + u2 (Z, x, z) + Ax (Z)z + a(Z), x(Z0 ) = x0, z = B Тогда имеет место цепочка равенств dV*(t,x, z) dt =3V*(t,x(t),z[t]) Г 6P(Z,x(Z),z[Z])) Т dx^ St dP(Z,x(Z),z[Z])) dz[t] Sz dt Эх SV*(t,x,z) St dt 3V*(t,x,z) Sx [H(Z)x + w* (Z, x, z) + м2 (Л x, z) + Ax (t^z + a(Z)] + 5K*(Z,x,z) Sz [P(Z)z + Z>(Z)J х=х(0 z=z[Z] Используя (20) и тождество (18), представим )T[Z] в виде п dV*(Z,x(z),z[Zl) / , ^W =--- dt^"+ V 1 [^]) 7)11M1 M + («гИ) Д2мгИ + x'(t)Gxx(t) + z'H^zM, Vz e[Zo,,9], где и* [Z] = и* (t, xQ), z[t]) (i = 1,2). Наконец, согласно (16) V*(S,x(SM9D = xXS)Cxx(S) + z^lCflzC^]. Интегрируя обе части (18) в пределах от Zo до 5 и учитывая (21), (7) и (22), получаем O=^Чt¥t = Jx(U^U*,ZAo,xo)-V(.to,xo^ zo Отсюда следует (17). Третий этап. Возьмем теперь стратегию и2"А2Ух) = Ре, где р = const >0 определим ниже, а все компоненты и -вектора е равны единице. Тогда W (j, х, и* (t,x,z),u2(t,x),z,V(t,x,z)^ = = x'©(t)x + 2x'S(t)z + z'^t)z + 2x'£(t) + 'Iz'fi^t) + <я(0 + +2 [x'®(/) + z'E'(Z) + ^'(0] [^(0* + P* (t)x + Q* (t)z + q* (/) + +/?e + ^(Oz + аЮ] + 2[x'B(0 + z'£(t) + 7'(0][Ж)г + 6(0] + ♦[х'^ЧО^^йЧоН^О^ +p2 a’DX2e + x'G]X + г'Цг. Обозначим через x(/) и z[/] - решение системы (2), (4) при их = ux(t,x,z), u2= Ре. Тогда WV,PA = ir(t,T(0,^(t,x(t),z[t]),M2(^T(/)),zm,r(t,T(/),z[0)) = = ^i (0 + Ж (Oe + P2dDX2e, где <^v (0 U = 1,2) - непрерывные на [0,i9] функции. Так как DX2< 0, то e'DX2e < -це'е, где -// = const < 0 - наибольший корень характеристического уравнения det^Dn - ЛЕп] = 0. Так как все функции <р](?) непрерывны на [О, S], то существует постоянная М такая, что max( <р At)) = М. Поэтому существует /У = const > 0 такая, что 7=1,2Х 1 ’ М р* М <-^^ЦП, откуда W[t,p*]<0 Vte[O,S], Наконец, отсюда J^[^,^ Adt = Ахфх ,U2’^’O’-^o) — ^^O’Xo>Zo)< 0 и Л(^А >U2>ZPo’xo) < V(t0,x0,z0). Тогда согласно (23), y(Gx ,[/2,Z,t0,x0) Замечание 2. Как следует из доказанной выше леммы, если матрица О12< 0, то не существует минимума min Jxфх,U2,Z,t0,x0),a следовательно, и применяемого в (6) максимина £/2е212 max min JX(UX,U2,Z*,tn,xA UAe%AU2e^2 Полностью аналогично доказывается, что при О21 < 0 не существует применяемого в (6) максимина JyUx,U2,Z\t0,xti). Таким образом, при выполнении ограничений DX2 < 0 и D2X < 0 в функции выигрыша (5) у игроков в бескоалиционном варианте игры (1) не существует «индивидуальных» максиминных стратегий. А для ГВРР кооперативного варианта (1) с возможностью побочных платежей при выполнении данных условий допустимо любое перераспределение суммарного гарантированного дележа JxyU\Z\t0,x^A- J^\y* ,Z* ,t0,x^ и суммарного гарантированного риска Фх^и* ,Z\tQ,xoy^^U\Z\tQ,xoy
Список литературы Об отсутствии максиминных стратегий в одной дифференциальной игре
- Жуковский, В.И. Кооперативные игры при неопределенности и их приложения/В.И. Жуковский. -М.: Эдиториал УРСС, 1999. -340 с.
- Кудрявцев, К.Н. Функции риска в одной кооперативной дифференциальной игре/К.Н. Кудрявцев//Информационные технологии моделирования и управления. -Воронеж: «Научная книга», 2008. -В. 6 (49). -С. 665-674.
- Кудрявцев, К.Н. О гарантированных по выигрышам и рискам решениях в некоторых кооперативных играх/К.Н.Кудрявцев//Наука ЮУрГУ: материалы 61-й научной конференции. Секция естественно-научных и гуманитарных наук. -Челябинск: Изд-во ЮУрГУ, 2009. -Т. 2. -С. 149-153.
- Красовский, Н.Н. Позиционные дифференциальные игры/Н.Н. Красовский, А.И. Субботин. -М: Наука, 1974. -455 с.
- Колемаев, В.А. Математическая экономика/В.А. Колемаев. -М.: ЮНИТИ, 2002.
- Понтрягин, Л.С. Обыкновенные дифференциальные уравнения/Л.С. Понтрягин. -М.:ГИФМЛ, 1961.-212 с.
- Savage, L.Y. The theory of statistical decusion/L.Y. Savage//J. American Statistic Association. -1951. -№ 46. -P. 55-67.