Об отсутствии максиминных стратегий в одной дифференциальной игре

Автор: Кудрявцев Константин Николаевич

Журнал: Вестник Южно-Уральского государственного университета. Серия: Математика. Механика. Физика @vestnik-susu-mmph

Статья в выпуске: 30 (206), 2010 года.

Бесплатный доступ

Рассмотрен аналог леммы о мажоранте из [1], с помощью которого для дифференциальной позиционной кооперативной линейно-квадратичной игры двух лиц при неопределенности найдены ограничения на функции выигрыша, при которых у игроков не существует «индивидуальных» максиминных стратегий.

Дифференциальные игры, кооперативные игры, неопределенность, риск

Короткий адрес: https://sciup.org/147158642

IDR: 147158642

Текст научной статьи Об отсутствии максиминных стратегий в одной дифференциальной игре

1. Формализация игры

Рассматривается дифференциальная позиционная кооперативная линейно-квадратичная игра двух лиц с побочными платежами и при неопределенности, которая отождествляется с упорядоченной пятеркой

({1,2},2, ^Д_1=и>ЗД^(и,2ф₀^ (1)

В (1) участвуют два игрока с порядковыми номерами 1 и 2. Изменение (во времени t) управляемой системы 2 описывается линейным дифференциальным уравнением х = Л(7)х + М]+м2 + ^(z^ + atz), x(z0) = x0. (2)

Здесь время Ze[z₀,<9], постоянные <9>Z₀>0; фазовый вектор xeR", (z,x) - позиция игры, (z₀,x₀) - начальная позиция; неопределенный фактор zeR^m; матрицы соответствующих размерностей И(/), 4 (г) и и-вектор aQ^ непрерывны на [О, У] (этот факт в дальнейшем обозначается Л( )еС„_х„[0,,9], Hj^eC^fO,.?], а(-)еС„[0,.9]); ^ей" - управляющее воздействие z-ro игрока (z = 1,2) .

Стратегии z-ro игрока и, отождествляем с линейными функциями вида ^i (^ ^ ^г) = ^Pi (О^{Х +} Qi (О ^Z + li (О ’ ^ГД^е ^Pi () ^{е С}пхп [0^1 > Qi (•) ^{G С}пхт [°> ^Ь 41 (•) ^{6 С}п [°, ^ ’ ^{И Т0Г}Д^авыбор z-ым игроком своей стратегии сводится к выбору конкретных непрерывных на [0,5] матриц Р^ (z) , Q, (z) и вектора q, (z); поэтому множество стратегий z-ro игрока (z = 1,2) имеет вид:

21, = { U_i u_t (t, х, z) I м,- (z, x, z) = Д (z) x + Q_t (z) z + q_t (z),

V7> (•) e C_nxn [0, S], 0 (-) g C_nxm [0, S], q, () g C_n [0, S]}.

Заметим, что стратегии указанного вида впервые использовались в минимаксной дифференциальной антагонистической игре академиком Н.Н. Красовским в [4] и названы там контрстратегиями.

Наконец, управляемая система Е, как правило, подвергается неожиданным, трудно прогнозируемым возмущениям как извне (появление конкурентов, изменение спроса на товары, банкротство поставщика и т.п.), так и изнутри (поломка и замена оборудования, болезни и забастовки персонала, несовпадение планируемых сроков пуска нового оборудования с реальными сроками и т.д.). Для системы Е данный факт будет выражаться в реализациях в каждый момент времени Ze[z0,<9] численных значений некоторого векторного параметра zeR'". Будем предполагать (см., например, модель Эванса [5]), что игрокам известна динамика (изменение во времени Z) вектора z[z] на отрезке [z0,<9]. Пусть это изменение описывается векторным линейным неоднородным дифференциальным уравнением z = S(z)z + Z>(z), z[z0] = z0, (4)

где т х т -матрица S(-)eC_mxm[0,,9] и/и-вектор 6(-)eC_OT[0,i9].

Итак, неопределенность Z будем отождествлять с w-вектор-функцией ^z[]⁼{z[?],?e[?₀,^]} (обозначаем Z -^z[]), являющейся решением (4) с начальным условием z[?₀] = z₀ е R^m.

Множество Z неопределенностей Z получаем, когда ?₀ «пробегает» все значения из промежутка [О, 5),a z₀ - точки из .

Таким образом, для построения конкретной неопределенности достаточно знать ее начальное значение z[?₀] = z₀ е R^m, а затем найти решение уравнения (4). Здесь фактически неопределенностью является начальное значение z₀ е R^m, а возможные скачки неопределенности (например, скачки цены товара на рынке сбыта) происходят до момента времени ?₀ . Начиная же с ?₀ до момента S изменение неопределенности Z происходит в соответствии с уравнением (4). Если промежуток [?₀,S] достаточно мал, то такой факт полностью соответствует математической модели Эванса изменения на рынке цены товара в зависимости от спроса и предложения [5].

«Партия» дифференциальной игры (1) «развивается» следующим образом. Игроки, действуя сообща, обмениваясь информацией, согласованно договариваются о выборе своих стратегий U* е 21,, U* -г и* (t, х, z) = Р* (?) х + Q* (?) z + q* (?) (z = 1,2). В результате образуется ситуация

и* x2i₂.

По найденному решению х* (?) и неопределенности £*[?], ?е[?₀,^] строится реализация выбранных игроками стратегий U* ^и*(t,x,z^ (z = l,2), а именно, определенная при каждом ?е[?₀,₁9] суперпозиция

м* И = и* (^ хЧ0 ’z И) = Р* (О х* (0 + Qi (О z* И + 9* (0 0' = L 2) •

На четверках непрерывных вектор-функций

(х* 0,U* [-],М2 [-j,^ [•]) = {х* (?),М* [?],l/2 VY²* [^Z] I ^{Z G} М]} определена функция выигрыша z-ro игрока, заданная квадратичным функционалом

J^U^Z^Xo^x'^CiX^-vz'W^^b

>dt (z = l,2),

+ ЛIX И ⁺ ^zWi^zW ⁺ x'^GjX^

где использованы априори заданные постоянные симметричные пхп матрицы C_t, D_y, G, и т х т матрицы Z,, С^ ; штрих сверху означает операцию транспонирования. Значение функции выигрыша J_{ ^U*,Z*,t_Q,XQ^ называется предварительным выигрышем z-го игрока.

Следуя подходу принципа минимаксного сожаления [7], для функции выигрыша (5) строится [2] функционал риска Ф, (C7,Z,?0,x0).

На втором этапе игроки перераспределяют между собой полученные суммарный выигрыш

Кудрявцев К.Н.

JX^U* ,Z* ,t0,x^ + J2^U* ,Z* ,t0,x0^

и суммарный риск

Ф^и*,г\(о,хоуФ^и\г*ло,хоу

Итак, согласно описанному процессу «протекания» кооперативной дифференциальной игры с побочными платежами, каждый игрок согласованно с партнером формирует свое решение -стратегию U, е 21, (/ = 1,2), а затем перераспределяет свой суммарный выигрыш так, чтобы его окончательный выигрыш был по возможности большим, а перераспределенный риск (значение функции риска) по возможности меньше. При этом игроки должны учитывать возможность реализации любой неопределенности Z^Z.

Для рассмотренной игры (1) в [3] определено следующее понятие гарантированного по выигрышам и рискам решения (ГВРР).

Определение. В дифференциальной позиционной кооперативной игре двух лиц с побочными платежами при неопределенности (1.1) тройку (п\ 7*[/₀,х₀],Ф*[/₀,х₀]) назовем гарантированным по выигрышам и рискам решением (ГВРР) игры с начальной позицией (t₀,x_o)e[0,S)xR", если существует неопределенность Z* ^Z , при которой выполнены следующие три условия: 1 °) условие коллективной рациональности

2 2 / *\ max^J^U,Z30,x^3£j^u\Z^^

1=11=1

2 2 /\

" i=ii=i

2°) условие «неухудшаемости» суммарного суммарного выигрыша и риска

3°) условие индивидуальной рациональности для всех Z 6 Z и (/0,х0) g [0,S)x R" справедлива система из четырех неравенств

3*\^,1_й,хД> max min J_t(U_vU₂,Z,t₀,x₀\

*(6)

O*[Z,/0,x0]> min max Ф,\их,U2,Z,t0,x0") (ij = 1,2;zV j\ где

2 2 * 22

^«7,(^7 ,Z,/0,xn j = y^tT, [Z,/n,Xo] Л У.Ф/!^ ,Z,/0,xn I = ^Ф, [Z,/0,xn]; z=i z=i i=ii=i при этом пару

3_t po>^xo] ⁼ (‘7i [^ Vo^o У^2 ^ ,^o])

назовем гарантированным векторным дележом, пару

^i [^O’^oj^^i ^Z ,t₀,x₀^^₂[z ,/₀,x₀Jj

- гарантированным векторным риском, a U* = ^U* ,U₂ j - ситуацией, гарантирующей эти дележи и риски в ДКИН (1) с побочными платежами и начальной позицией (/₀,х₀).
2. Лемма о мажоранте

Замечание 1. Требование 1° определения ГВРР выделяет для каждой неопределенности Z g Z и каждой начальной позиции (

рисков ^Ф,1(/ ,Z,t_Q,x₀\, которые делятся между игроками так, что первому распределяется /=1

часть суммарного выигрыша ^f^Z*,^,^ и часть суммарного риска Ф*^*,?₀,х₀^, второму соответственно J^Z*,t₀,x₀"^ и Ф₂^*,?₀,т₀^. При этом распределении условия индивидуальной рациональности обеспечивают обоим игрокам выигрыши не меньшие, и риски не большие тех, которые они могли бы «обеспечить себе», действуя самостоятельно и используя свои макси-минные и минимаксные стратегии.

Ниже определены условия, при которых не существуют максимины и минимаксы из (6). При выполнении данных условий между игроками допустимо любое распределение суммарного гарантированного дележа J_x^U\Z\t₀,x₀^ + J₂^U* ,Z* ,t₀,x₀^ и суммарного гарантированного риска Ф] ^U*,Z*,t₀,х₀ j + Ф₂(и*,Z*,t_Q,х₀ j.

Рассмотрим квадратичный функционал, определенный в (5), а именно

J! (lZ,Z,/0,x0) = х'(5)С1х(^) + z'[<9]C1(1)z[I9] +

8 (7)

+ j^Mj' [/] Д jU] [?] + и2 [/] Д 2u2 [?] + г'[?]Дг[?] + х'(?)Дх(?)} dt при рассмотренных в (2)-(4) ограничениях.

Лемма. Если в (7) матрица Д₂< 0 (т.е. соответствующая квадратичная форма определенно отрицательная), то при любом выборе стратегий Д е 21, (z = 1,2) и начальной позиции (/₀,х₀) е [0,3) х |r" \ 0„ j, z[Z₀] = z₀ е R^m существует «своя» стратегия Д₂ е 21₂, при которой

A^\,U₂,Z,to->x_Q') > J_xvU2,Zdo>^xo)- (8)

Доказательство разобьем на три этапа. На первом - для задачи (8), (2) - (4) при Д -т и, (Z, х, z) = Pj (Г)х + Qj ^Qz + qt (?) (z = 1,2) построим функцию Беллмана V* Q, x, z), на втором - установим равенство

ДСД ^₂,Z,tQ,x₀) = P(t₀,x₀,z₀), (9)

на третьем - докажем строгое неравенство (8).

Первый этап. Для задачи (8), (2) - (4) найдем функцию Беллмана. Пусть фиксированы (U_x,U₂)-г(м*(?,х,z),w₂(?,х,z)) = (Р*(Qx + Q* (t)z + q*(/),P₂ (t)x + Q₂(t)z + q₂Q)^ - какая-либо ситуация из 2ljx2l₂ и (?_o,jc_o)g[O,<9)x|r"io„), 4^1=^o e R"¹ - произвольная начальная позиция.

Введем функцию дУ

VAQ)x + u_x+u₂ + A_x (t)z + (?)] +

WQ,x,ux,u2,z,V} = -^- + ay dz

[S(?)z + bQ^ + u_x D_{x x}u_x + u₂ Д ₂zz₂ + x'G_xx + z'l^z.

Функцию Беллмана y*(t,x,z) определим из условий:

W^t,x, и_х (t, х, z), u₂ Q, x, z), z, VQ, x, z)^ = 0 VQ, x, z) e [0, i9) x R"^+m, (11)

y(3,x,z) = x'C_xx + z'C_x⁽¹⁾z VxGRⁿ,zeR^m. (12)

Кудрявцев К.Н.

Ищем решение (11), (12)в виде

V(t, х, z) = x'0(t)x + 2x'E(Z)z + z'^^z + 2x4(0 + 2z'7(Z) + ®(Z), (13)

где соответствующих размерностей матрицы ®(Z), E(Z), 4(0 = вектора 4(0 = ^(Z) и скалярная функция U* (/ = 1,2) получаем

Ж^Х, и* (t, X, z), «2 (t, x,z),z,V(t,x,z)^ = W [z, x, z] = = х'<Эх + 2x'Ez + z’^ z + 2x'4 + 2г'т) + ® + +2 [У® + z"S + 4'] ^(Z)x + P_x ^x + Q* (t)z + q* (Z)+P^ (f)x + Q2 UA + 9г A + 4 A^z + AO J + +2[x'E + z'^ + q'][B(t)z + Z>(Z)] +

+[Ж W + z\Q* (Z))' + ^q* (Z))'] Д ] ^P* (t)x + Q* (t)z + q* (Z)] + ^x'UM + ^ZXQM + (940)']^₂V2W + Q₂A^Z + ₉4o] + x'G.x + z'L_xz = 0. Тождества (11), (12) имеют место, если ®(Z), E(Z), 4(0 = 4(0 = q^, co(t) является решением системы

® + ®[ Az)+p*a + PKt^ + AO + [/’Г (Z)J + [p₂4z)J

® +

+ IP* A]'D_} A (Z) + VP2 №_пР₂ (z) + G] = 0„_x„;

E+®[g;(z)+e24z)+4(z)]+[Az^^

+ЕАон/]4о]'Д104он7ЗДД2е4о^^^

4+s' ^ (z)+0* (0+4 (0]+W)+

+ [0* (0ГD_v ] Q* (Z) + [0* (01'^202 (0 + 4 - 0_mxm;

‘ ^ + ® [^(Z) + q*₂A + ас] + [до+[440]'+№40]'^ +

+ Eb(t)+[440]'Д 1940+lP^t)XD_nq₂A = o„;

аЦАО + 940 + AO] + [[0140]'+[040]' + И'1(о]^ +

+^(0+5X07+[040]'Д1940+[040]'Д 2^ 0>0m;

Щ + 2^'[94z) + 940 + «(o] + Wt) + [9140ГД19140 + [940]'Д₂?40 = 0;

®(S)=c„ эд-о_тхп, ав)=с^\

AS) = o„, riA^m.

Система (14) линейная неоднородная с непрерывными по Ze[0,5] коэффициентами. Поэто му, согласно [6, с. 29], (14) имеет единственное непрерывное решение ®* (Z), Е* (Z), 4*(0, ^*(0, q*(t), (о* (t), продолжимое на [0,5].

Таким образом, доказано существование функции

У* (t, х, z) = х'®* (Z)x + 2х'Е* (Z)z + z'^* (t)z + 2x'^* (Z) + 2z'^* (Z) + to* (t), определенной при всех (Z,x,z) e [0,5) x R"+m и удовлетворяющей равенствам:

Ж^Г,х, и* (Z, х, z), U2 (t, х, z), z, У* (t, x, z)j = 0 V(Z, x, z) e [0,5) x R"+m,(15)

y*(S,x,z) = x'Cxx + z'C^z ^xeR",zEr.(16)

Второй этап. Установим равенство

Jx(U*,U*2,Z,t0,x0) = y*(t0,x0,z0),(17)

где ситуация

Фх №^ (“Г ^ ^z)> Ч кМ, z)) = (/f (Z)x + Q* (Qz + q* (Z), P₂ (Z)x + Q^ ^z + ^₂ (O)

та же, что применялась на первом этапе доказательства, а функция V*(t,x,z^ была построена выше. Пусть x(Z), 0t₀ - решение (4). Подставляя x = x(t) и z = z[Z] в (15), получим, что при всех Z е [Z₀,<9]

[ St

6V*(t,x,z) дх

[A(f)x + и* Q, x, z) + u₂ (Z, x, z) + A_x ^z + a(Z)] +

SV* (t,x,z) Sz

[5(Z)z + Z>(Z)] +

. x=x(Z),z=z[Z]

+ |[m* (Z, x, z^D_{x x}u_x (t,x, z) + [m₂ (Z,x, z)]'Д ₂^(Бx, z) + x’G_xx + z'L^.

Найдем полную производную от найденной на первом этапе функции Беллмана V* (Z, х, z) в силу

(2), (4) при u_x = u* (t, x, z) = P* ^x + Q* (t)z + q*^, Q = 1,2), т.е. в силу системы x = A(t)x + и* (t, x, z) + u₂ (Z, x, z) + A_x (Z)z + a(Z), x(Z₀ ) = x₀, z = B z[Z₀] = z₀.

Тогда имеет место цепочка равенств

dV*(t,x, z) dt

₌3V*(t,x(t),z[t]) Г 6P(Z,x(Z),z[Z])) Т dx^

dP(Z,x(Z),z[Z])) dz[t]

Эх

SV*(t,x,z)

3V*(t,x,z)

[H(Z)x + w* (Z, x, z) + м₂ (Л x, z) + A_x (t^z + a(Z)] +

5K*(Z,x,z) Sz

[P(Z)z + Z>(Z)J

х=х(0 z=z[Z]

Используя (20) и тождество (18), представим )T[Z] в виде п dV*(Z,x(z),z[Zl) / ,

^^{W =}--- dt^"⁺ V ^{1 [}^^]) ^{7)11M1 M +}

(«гИ) Д2мгИ + x'(t)Gxx(t) + z'H^zM, Vz e[Zo,,9], где и* [Z] = и* (t, xQ), z[t]) (i = 1,2). Наконец, согласно (16)

V*(S,x(SM9D = xXS)C_xx(S) + z^lCflzC^].

Интегрируя обе части (18) в пределах от Zo до 5 и учитывая (21), (7) и (22), получаем

O=^Чt¥t = J_x(U^U*,ZA_o,x_o)-V(.t_o,x_o^ ^zo

Отсюда следует (17).

Третий этап. Возьмем теперь стратегию и₂"А2У^х) = Ре, где р = const >0 определим ниже, а все компоненты и -вектора е равны единице. Тогда

W (j, х, и* (t,x,z),u₂(t,x),z,V(t,x,z)^ =

+2 [x'®(/) + z'E'(Z) + ^'(0] [^(0* + P* (t)x + Q* (t)z + q* (/) +

+/?e + ^(Oz + ^аЮ] + 2[x'B(0 + z'£(t) + 7'(0][Ж)^г + 6(0] + ♦[х'^ЧО^^йЧоН^О^

+p2 a’DX2e + x'G]X + г'Цг.

Обозначим через x(/) и z[/] - решение системы (2), (4) при и_х = u_x(t,x,z), u₂= Ре. Тогда

WV,PA = ir(t,T(0,^(t,x(t),z[t]),M₂(^T(/)),zm,r(t,T(/),z[0)) =

= ^i (0 + Ж (Oe + P²dD_X2e, где <^_v (0 U = 1,2) - непрерывные на [0,i9] функции.

Так как D_X2< 0, то e'D_X2e < -це'е, где -// = const < 0 - наибольший корень характеристического уравнения det^D_n - ЛЕ_п] = 0. Так как все функции <р_](?) непрерывны на [О, S], то существует постоянная М такая, что max( <р At)) = М. Поэтому существует /У = const > 0 такая, что 7=1,2^{Х 1} ’

М р* М <-^^ЦП, откуда

W[t,p*]<0 Vte[O,S],

Наконец, отсюда

J^[^,^ Adt = А_хф_х ,U2’^’O’-^o) ^— ^^O’Xo>Zo)< 0

Л(^А >U2>ZPo’^xo) < V(t₀,x₀,z₀).

Тогда согласно (23),

y(Gx ,[/2,Z,t0,x0)

Замечание 2. Как следует из доказанной выше леммы, если матрица О₁₂< 0, то не существует минимума min J_xф_х,U₂,Z,t₀,x₀),a следовательно, и применяемого в (6) максимина

£/2е212

max min J_X(U_X,U₂,Z*,t_n,xA

UAe%AU2e^2

Полностью аналогично доказывается, что при О21 < 0 не существует применяемого в (6) максимина

JyUx,U2,Z\t0,xti).

Таким образом, при выполнении ограничений DX2 < 0 и D2X < 0 в функции выигрыша (5) у игроков в бескоалиционном варианте игры (1) не существует «индивидуальных» максиминных стратегий. А для ГВРР кооперативного варианта (1) с возможностью побочных платежей при выполнении данных условий допустимо любое перераспределение суммарного гарантированного дележа JxyU\Z\t0,x^A- J^\y* ,Z* ,t0,x^ и суммарного гарантированного риска

Фх^и* ,Z\tQ,xoy^^U\Z\tQ,xoy

Список литературы Об отсутствии максиминных стратегий в одной дифференциальной игре

Жуковский, В.И. Кооперативные игры при неопределенности и их приложения/В.И. Жуковский. -М.: Эдиториал УРСС, 1999. -340 с.
Кудрявцев, К.Н. Функции риска в одной кооперативной дифференциальной игре/К.Н. Кудрявцев//Информационные технологии моделирования и управления. -Воронеж: «Научная книга», 2008. -В. 6 (49). -С. 665-674.
Кудрявцев, К.Н. О гарантированных по выигрышам и рискам решениях в некоторых кооперативных играх/К.Н.Кудрявцев//Наука ЮУрГУ: материалы 61-й научной конференции. Секция естественно-научных и гуманитарных наук. -Челябинск: Изд-во ЮУрГУ, 2009. -Т. 2. -С. 149-153.
Красовский, Н.Н. Позиционные дифференциальные игры/Н.Н. Красовский, А.И. Субботин. -М: Наука, 1974. -455 с.
Колемаев, В.А. Математическая экономика/В.А. Колемаев. -М.: ЮНИТИ, 2002.
Понтрягин, Л.С. Обыкновенные дифференциальные уравнения/Л.С. Понтрягин. -М.:ГИФМЛ, 1961.-212 с.
Savage, L.Y. The theory of statistical decusion/L.Y. Savage//J. American Statistic Association. -1951. -№ 46. -P. 55-67.