Об одной игровой задаче управления точками вблизи поверхности Луны
Бесплатный доступ
Рассматривается игровая задача управления, в которой первый игрок управляет материальной точкой переменного состава. Второй игрок управляет точкой, которая может двигаться с ограниченной по величине скоростью. Предполагается, что на материальную точку переменного состава, наряду с управляемой реактивной силой, действует еще постоянная сила, величина которой пропорциональна массе точки. Такая ситуация возникает, например, при рассмотрении движения материальной точки вблизи поверхности Луны, где отсутствует атмосферное сопротивление. Считается, что у точки переменного состава величина относительной скорости отделяющихся частиц топлива является постоянной, а величина тяги ограничена сверху заданным положительным числом. Первый игрок стремится минимизировать в заданный момент времени расстояние между точками, расходуя при этом как можно меньше ресурсов. Сформулированная двухкритериальная задача с помощью весовых коэффициентов сводится к дифференциальной игре, плата в которой является суммой как терминальной, так и интегральной составляющих. С помощью замены переменных задача сводится к однотипной игре, в которой вектограммы игроков являются шарами с радиусами, зависящими от времени. Вычислена функция цены игры и найдены оптимальные управления игроков.
Управление, дифференциальная игра, плата
Короткий адрес: https://sciup.org/147232793
IDR: 147232793 | DOI: 10.14529/mmph180405
Текст научной статьи Об одной игровой задаче управления точками вблизи поверхности Луны
Движение материальной точки переменного состава описывается уравнением Мещерского [1]. Управлением является реактивная сила. Если величина тяги задана как функция времени, то управлением является относительная скорость отделяющихся частиц реактивной массы. В этом случае получим задачу об управлении материальной точкой, движущейся под действием заданной по величине силы. В монографии [2] рассмотрена дифференциальная игра преследования «изотропные ракеты». В этой игре преследователь управляет ограниченной по величине силой, приложенной к движущейся материальной точке. Убегающий управляет ограниченной по величине скоростью другой точки. Если допускается мгновенное отделение конечного количества массы топлива с постоянной по величине скоростью, то задача преследования в этом случае сводится к задаче с импульсным управлением [3–6]. В задаче преследования платой [2] является время поимки.
В работе [7] первый игрок управляет реактивной силой точки переменного состава. Величина относительной скорости отделяющихся частиц топлива постоянна, а тяга ограничена заданным числом. Второй игрок управляет ограниченной по величине скоростью второй точки. Решена задача, когда первый игрок стремится сделать в фиксированный момент времени расстояние между точками не меньше заданного числа, расходуя при этом как можно меньше ресурсов.
В настоящей статье рассматривается случай, когда первый игрок, управляя реактивной силой, стремится минимизировать в заданный момент времени расстояние между точками, расходуя при этом как можно меньше ресурсов. Предполагается, что на материальную точку переменного состава, наряду с управляемой реактивной силой, действует постоянная сила, пропорциональная массе точки. Такая ситуация возникает при рассмотрении движения материальной точки вблизи поверхности Луны, где отсутствует атмосферное сопротивление. Сформулированная двухкритериальная задача с помощью весовых коэффициентов сводится к дифференциальной игре, плата в которой является суммой как терминальной, так и интегральной составляющих. Вычислена функция цены игры [2] и найдены оптимальные управления игроков.
Математика
Постановка задачи
Вблизи поверхности Луны точка переменного состава, движение которой описывается уравнением Мещерского
X = ц + d m ( t ) , x е R n , t < p , m ( t )
преследует точку, которая движется с ограниченной по величине скоростью y = bv, y е Rn, b > 0, |v| < 1.
Здесь вектор ц е R n определяется постоянной внешней силой, пропорциональной массе точки; величина |^| относительной скорости отделяющихся частиц топлива является постоянной (| • | -норма в R n ); m ( t ) = m 0 + m 1 ( t ) - масса точки, причем m 0 - неизменяемая часть массы, m 1 ( t ) -реактивная масса; p > 0 - заданный момент окончания процесса управления. Считаем, что тяга ограничена числом у > 0
I я—< г . m ( t )
Точкой переменного состава управляет первый игрок. Второй игрок управляет движением второй точки. Цель первого игрока заключается в том, чтобы в момент времени p > 0 сделать расстояние между точками как можно меньше и минимизировать при этом расход топлива. Цель второго игрока – противоположна.
Формализация задачи
Введем новые переменные
. . . (p-t)2 я , . । m(t)1 .
z=y -x-(p -t)x-ц—-—, u = -n, ф(t)=-яv=ту.
2 |я m (t)
Тогда
| У (p) - x (p )| = |z (p )|, J ф( t) dt = dl ln m’+m^t0).(4)
t0
Здесь m1(t0) – начальный запас реактивной массы. Используя уравнения (1) и (2), получим, что z = -(p -t)ф(t)u + bv; |u| = 1, 0 < ф < y; |v| < 1.(5)
Из формул (4) видно, что сформулированная выше цель первого игрока в переменных (3) p означает, что первый игрок минимизирует |z(p)| и Jф(t)dt. Введем весовой коэффициент а> 0
t 0
и рассмотрим показатель качества
p
| z ( p )| + a J ф ( t ) dt ^ min max. (6)
ф, u v t0
Первый игрок стремится его минимизировать, а второй – максимизировать.
Условия оптимальности в однотипных дифференциальных играх
Рассмотренный пример (5), (6) является частным случаем однотипной дифференциальной игры z = -a(t)ф(t)u + b(t)v, z(10) = z0; 0 < ф(t) < y, |u| = 1, |v| < 1. (7)
с критерием качества
p
G (| z ( p )| ) + J g ( t , ф ( t )) dt ^ minmax. (8)
ф, u v t0
Здесь a ( t ) > 0, b ( t ) > 0 интегрируемые при t < p функции. Число y > 0 задано.
Предположение 1 . При каждом ϕ ∈ [0, γ ] функция g ( t , ϕ ) является измеримой по t ∈ ( -∞ , p ] и непрерывна по ϕ при каждом t ≤ p ; 0 ≤ g ( t , ϕ ) ≤ D ( t ) при каждых t ≤ p и ϕ ∈ [0, γ ] , где функция D ( t ) является суммируемой на каждом отрезке [ p 1, p ] .
Из этого предположения следует, что для каждой измеримой при t ≤ p функции ϕ ( t ) ∈ [0, γ ] сложная функция g ( t , ϕ ( t )) является суммируемой на любом отрезке [ p 1, p ] [8].
Предположение 2 . Функция G ( ε ) при ε ≥ 0 является непрерывной, строго возрастает и G ( ε ) → +∞ при ε → +∞ .
Рассмотрим оптимизационную задачу
p
G(e) + j g (t, ф(t))dt ^ min,(9)
t 0
p |z(t0)| + j (b(t) - a(t) ф(t)) dt < e,(10)
t 0
p max j(b(t) - a(t)ф(t)) dt < e,(11)
t 0≤ τ ≤ pτ
ε≥ 0, ϕ: [t0, p] → [0,γ] – измерима.(12)
Теорема 1 [9, теорема 2]. Пусть выполнены предположения 1 и 2, а ε 0 и ϕ 0 :[ t 0, p ] → [0, γ ] – решение задачи (9)–(12). Тогда решением задачи (7) и (8) являются функции ϕ 0 ( t ) , u 0 = w ( z ) и v 0 = w ( z ) , где
w ( z ) = z z при z > 0 и любое w (0) с ограничением w (0) = 1.
Значение цены игры в дифференциальной игре (7) и (8) равна
p
V ( t 0 , z ( t 0 )) = e 0 + j g ( t , Ф 0 ( t )) dt .
t 0
Теорема 2 [9, теорема 3]. Пусть дополнительно к предположениям 1 и 2 функция g ( t , ϕ ) при каждом t ≤ p является выпуклой по ϕ , а функция G ( ε ) ограничена снизу. Тогда решение в задаче (9)–(12) существует.
Теорема 3 [9, теорема 4]. Пусть выполнено предположение 1, а число ε 0 ≥ 0 и измеримая функция ϕ 0 : [ t 0, p ] → [0, γ ] удовлетворяют неравенствам (10) и (11). Пусть существуют число λ ≥ 0 и неубывающая функция θ :[ t 0, p ] → R такие, что θ ( t 0) = 0 и
( p
Я j (b(t) - a(t)Ф0(t)) dt v t 0
-
A
E 0
= 0,
P j ^( t) (b (t) — a (t Ф (t)) dt = ^( P )E0, t0
G ( ε 0) - ( λ + θ ( p ) ) ε 0 ≤ G ( ε ) - ( λ + θ ( p ) ) ε при любом числе ε ≥ 0 ;
g ( t , ϕ 0( t ) ) - ( λ + θ ( t ) ) a ( t ) ϕ 0( t ) ≤ g ( t , ϕ ) - ( λ + θ ( t ) ) a ( t ) ϕ , ϕ ∈ [0, γ ], t 0 ≤ t ≤ p .
Тогда ε 0 и ϕ 0( t ) являются решением задачи (9)–(12).
Решение примера
В задаче (5), (6) выполнены равенства
а ( t ) = p - t , b ( t ) = b , G ( ε ) = ε , g ( t , φ ) = αφ .
Поэтому условия (10), (11) и (15)–(18) примут следующий вид: p
j(b-(P-t)Ф0(t))dt + |z(t0)|-e0 <0, t0
Математика
p max J ( b - ( p - 1 ) ф 0( 1 ) ) d1 - £ 0 < 0, |
(20) |
||
t 0≤ τ ≤ pτ । p I |
|||
λ |
J ( b - ( Р - 1 ф ( 1 ) ) d1 + z ( 1 0 ) - E 0 |
= 0, |
(21) |
к 1 0 ) p |
|||
J 0 ( 1 ) ( b - ( p - 1 ф ( 1 ) ) d1 = ^ ( p ) E 0 , |
(22) |
||
t 0 |
|||
(1 |
λ - θ ( p ))( ε 0 - ε ) ≤ 0 при любом |
ε ≥ 0, |
(23) |
( λ + θ ( t ))( p - t ) ) ( ϕ 0( t ) - ϕ ) ≤ 0 при любых ϕ ∈ [0, γ ], t 0 ≤ t ≤ p . |
(24) |
Из условия (23) получим, что λ = 1 - θ ( p ). Поскольку λ ≥ 0 и θ ( p ) ≥ 0 , то 0 ≤ θ ( p ) ≤ 1 . Подставим это значение λ в формулу (24). Будем иметь
P -1
о при а- > е (t ) - е (p ) + 1. . р - 1
Пусть p -α≤ t0 . Возьмем функции θ(t) = 0 и ϕ0(t) = 0 при всех t0 ≤ t ≤ p . Они удовлетворяют формуле (25). Поскольку λ= 1 -θ( p) = 1 , то из условий (19) и (21) получим равенство
ε 0 = ( p - t 0) b + z ( t 0) .
Максимальное значение по τ в (20) достигается при τ = t 0 и оно равно ( p - t 0) b . Поэтому число ε 0 (26) удовлетворяет условию (20). Условие (22) также выполнено.
В рассматриваемом случае значение цены игры (14) равно V ( t 0, z ( t 0) ) = ( p - t 0) b + z ( t 0) при t 0 ≥ p - α .
Пусть
α ≤ и p - ≤ t 0 < p - α . (27)
γ γ
Возьмем функции θ ( t ) = 0 при t 0 ≤ t ≤ p ,
ϕ 0( t ) = γ при t 0 ≤ t ≤ p - α и ϕ 0( t ) = 0 при p - α < t ≤ p . (28)
Они удовлетворяют формуле (25). Из второго неравенства (27) следует, что функция (28) удовлетворяет неравенству b - ( p - t ) ϕ 0( t ) > 0 при t 0 ≤ t ≤ p . Поэтому максимальное значение по τ в условии (20) достигается при τ = t 0 и оно равно
p
J (b - (p - t ф(|( t)) d t0
-
γ
p - t 0

Y I b
+
2 1 Y
a I
+ b α > 0.
Учитывая формулу (29) из условия (21) при λ = 1 , получим, что
Y I b I Y I b I о i
E o =-™l p - 1 о — I +™l— a I + ва + z ( 1 0 ) 2 к Y) 2 к Y )
Очевидно, что условие (20) выполнено.
Из формул (28) и (30) получим, что значение цены игры (14) в рассматриваемом случае равно
V ( t 0, z ( t 0)) =- γ 2 ( p - t 0 - α ) 2 + ( p - t 0) b + z ( t 0) .
Пусть ь ь yI ьI2
a <-, to < P —, z ( t o) >^ P - t o — L (32)
Y Y 2 V YJ
Возьмем функцию 6 (t ) = 0 при t 0 < t < p , а функцию ф 0(t ) определим формулами (28). Как и выше, число £ 0 определяется формулой (30).
Проверим неравенство (20). Имеем p pp max I ^(t)dt = max (I1,12), 11 = max J ^(t)dt = ab, 12 = max J ^(t)dt, tо
I = Y I b - a I + a b . (33)
2 2 V Y J
Стало быть, max ( I 1 , 1 2 ) = 1 2. Поэтому число £ 0, определяемое равенством (30), должно удовлетворять неравенству £ 0 > 1 2. Согласно (32) и (33) это неравенство выполнено. В рассматриваемом случае значение цены игры определяется формулой (31).
Пусть
, b b । yI a <-, t0 < p —, z(t0) <-|p - t0 — | .
Y Y 2 V
Покажем, что при некотором числе t 0 < q < p - b/ Y выполнено равенство
Iz(t0)| = f(q), f(q) = yIp-b1 (q-t0)-Y(q2 -t2)•
V Y J 2
В самом деле, у квадратного многочлена (35) производная f '( q ) > 0 при 1 0 < q < p -—.
Y Следовательно, 2
0 = f ( 1 0 ) < f ( q ) < f I p --I = Y I p - 1 0 --I .
0 V Y J 2 V 0 Y J
Отсюда и из третьего неравенства в (34) получим существование требуемого числа q .
Возьмем при r = b/ Y функции
0 при 1 0 < t < q , |
Y при 1 0 < t < q , |
|
a a _ _ „ |
b |
|
6 ( t ) = |
---при q < t < p - r , ф 0(t ) = |
---- при q < t < p - r |
p - t p - q |
p - 1 |
|
a |
0 при p - r < t < p . |
|
1-- при p - r < t < p . |
||
L p - q |
Они удовлетворяют формуле (25). Поскольку число X = a /( p - q ) > 0, то условия (19) и (21)
принимают вид равенства
£ 0 =( b - Y p )( q - t 0 ) + Y ( q 2 - t 0 ) + — + | z ( t 0 )1 = —.
2v Y Y
Здесь использованы соотношения (35).
Далее,
p max I ^(t) dt = max (11,12,13), t0>T
Математика
где p pp
y (t ) = b ( p - t ) ф 0( t ), I 1 = max f ^ ( t ) dt , 1 2 = max | ^ ( t ) dt , 1 3 = max [ ^ ( t ) dt .
p - r <т < p^ q <т < p - r^ t n < т < q^
T T т
Подставим сюда функцию ф0(t) (36). Получим 11 = 12 = b2/у. Поскольку ^(t) < 0 при t0 < t< q, то максимальное значение по т при определении числа 13 достигается при т = q. Поэтому 13 = b2/у. Таким образом, max(11,12,13) = b2/у. Отсюда, учитывая формулу (37), получим, что условие (20) выполнено. Подставим функции (36) в условие (22). Получим br = £0.(38)
Числа r = b/у и £ 0 = b 2/ у этому равенству удовлетворяют. Из (36) и (37) следует, что
V(10,z(10)) = £0 + ау\ q-10 + bInp—q I,
I у r )
где число q находится из равенства b I b 12i q = p 1 I t0- p I z(t0) , у К Y)у а £0 = b2/у и r = b/ у.
Пусть b у( b 12 у(b1
-
— < а, t0 < p- a, z(tq) > —I p- t0 I -—I a| .(41)
У 2 ^ у) 2 ^ у)
Возьмем функцию < 9 ( t ) = 0 при 1 0 < t < p и функцию ф 0( t ) из (28). Из условия (21) при X = 1 получим формулу (30).
Поскольку p - а < p - b/ у , то функция (28) удовлетворяет неравенствам b - ( p - 1 ) ф 0( t ) < 0 при 1 0 < t < p - а и b - ( p - 1 ) ф 0 ( t ) > 0 при p - a < t < p . Поэтому максимальное значение по т в условии (20) достигается при т = p - а и оно равно b a . Из последнего неравенства в (41)
получим, что число £ 0 (30) удовлетворяет неравенству £ 0 > b a . Стало быть, условие (20) выполнено. В рассмотренном случае значение цены игры задается формулой (31).
Пусть b 1 , xi у( b 1 у( b 1
-
- < a , t 0 < p - a , z ( t q ) <- I p - t 0 — I --I— a | . (42)
у 2 ^ у ) 2 ^ у )
Покажем, что существует число 10 < q < p - а, при котором выполнено равенство (35). В самом деле, многочлен f (q) при 10 < q < p - а строго возрастает. Поэтому его максимальное значение на отрезке [10, p - а] достигается при q = p - а и оно равно выражению, стоящему в правой части третьего неравенства в (42). Поскольку f (10) = 0, то требуемое число q существует.
Возьмем функции ^ ( t ) и ф 0(t ), которые определяются формулами (36) при r = а . Эти функции удовлетворяют формуле (25). Поскольку X = а /( p - q ) > 0, то условия (19) и (21)
принимают вид равенства
£ о = ( b - p у )( q - t 0 ) + i у ( q 2 - t 02 ) + Ь а + | z ( t о)| = b a .
Здесь использовано равенство (35).
Функция ф0(t), определяемая формулой (36) при r = а, удовлетворяет неравенствам b - (p -1)ф0 (t) < 0 при 10 < t < p - а и b - (p -1)ф0(t) > 0 при p - а < t < p.
Поэтому максимальное значение в неравенстве (20) достигается при т = p - а и оно равно
( b V у Y( 2
- у | p - у I( q - t о )+ 2 ( q
— t о ) + b a = -1 z ( t о )| + b a < £ q
Здесь использовано равенство (35). Числа r = а и £ 0 = b a удовлетворяют равенству (38). Поэтому условие (22) выполнено. Значение цены игры определяется формулами (39), (40) при £ = b a и r = а .
Заключение
С помощью найденной функции ^ 0( t ) из третьей формулы в (3) вычисляется оптимальный закон расхода топлива. Подставляя в формулу (13) значение z из первой формулы (3), найдем оптимальные направления относительной скорости отделяющихся частиц топлива и скорости второй точки.
Работа выполнена при финансовой поддержке гранта РФФИ в рамках научного проекта № 18-01-00264_a и гранта Фонда перспективных научных исследований ФГБОУ ВО «Челябинский государственный университет» (2018 г.).
Список литературы Об одной игровой задаче управления точками вблизи поверхности Луны
- Красовский, Н.Н. Теория управления движением / Н.Н. Красовский. - М.: Наука, 1970. - 420 с.
- Айзекс, Р. Дифференциальные игры / Р. Айзекс. - М.: Мир, 1967. - 479 с.
- Ухоботов, В.И. Модификация игры «изотропные ракеты» / В.И. Ухоботов // Многокритериальные системы при неопределенности и их приложения: Межвузовский сборник научных трудов. Челябинск: Челябинский государственный университет, Изд-во Башкирского университета, 1988. - С. 123-130.
- Ухоботов, В.И. Одна задача импульсного преследования при ограниченной скорости убегающего / В.И. Ухоботов, О.В. Зайцева // Вестник ЮУрГУ. Серия «Компьютерные технологии, управление, радиоэлектроника». - 2010. - №2 (178), вып. 11 - С. 29-32.
- Пожарицкий, Г.К. Игровая задача импульсного сближения с противником, ограниченным по энергии / Г.К. Пожарицкий // Прикладная математика и механика. - 1975. - Т. 39. - Вып. 4. - С. 579-589.
- Ухоботов, В.И. Задача импульсного преследования вблизи поверхности Луны / В.И. Ухоботов, А.А. Троицкий // Математическая теория игр и ее приложения. - 2013. - Т. 5. - Вып. 4 - С. 105-118.
- Ухоботов, В.И. Однотипные дифференциальные игры с выпуклой интегральной платой / В.И. Ухоботов, Д.В. Гущин // Тр. ИММ УрО РАН. - 2011. - Т. 17, № 1. - С. 251-258.
- Иоффе, А.Д. Теория экстремальных задач / А.Д. Иоффе, В.М. Тихомиров. - М.: Наука, 1974. - 479 с.
- Ухоботов, В.И. Линейная задача управления при наличии помехи с платой, зависящей от модуля линейной функции / В.И. Ухоботов // Тр. ИММ УрО РАН. - 2017. - Т. 23, № 1. - С. 251-261.