Исследование одной линейной задачи оптимального управления с фазовыми ограничениями
Автор: Арутюнов Арам Владимирович, Жуков Дмитрий Андреевич
Журнал: Владикавказский математический журнал @vmj-ru
Статья в выпуске: 1 т.12, 2010 года.
Бесплатный доступ
Для конкретной линейной задачи оптимального управления с фазовыми ограничениями с помощью принципа максимума Понтрягина построен оптимальный синтез.
Оптимальное управление, фазовые ограничения, принцип максимума понтрягина
Короткий адрес: https://sciup.org/14318295
IDR: 14318295
Текст научной статьи Исследование одной линейной задачи оптимального управления с фазовыми ограничениями
Рассмотрим следующую задачу оптимального управления с фазовыми ограничениями на фиксированном отрезке времени:
j x2(t) dt ^ min, t E [0,1], x = u,
x i - x 2 6 0, —x i — x 2 6 0,
x(0) = x o , x = (x i ,X 2 ) T E R 2 , x o = (x io ,X 2o ) T , u = (u i , U 2 ) E R , U i + U 2 6 1 *
Наша цель заключается в следующем: при помощи принципа максимума Понтрягина для задач с фазовыми ограничениями [1, 2] (далее ПМ) исследовать задачу (1).
В силу симметрии задачи (1) относительно оси ординат будем считать, что x io > 0. В дальнейшем нам потребуются следующие обозначения: G = { x = (x i , x 2 ) T E R 2 : x i - x 2 6 0, —x i — x 2 6 0 } , H = { x = (x i , x 2 ) T E R 2 : x i — x 2 6 0 } .
Рассмотрим сначала несколько тривиальных случаев, в которых поведение оптимального процесса (b( - ),b( - )) очевидно и легко проверяемо.
Если x 2o — x io > 1, то, очевидно, следует двигаться вдоль оси ординат вниз с максимальной по модулю скоростью, т. е. b(t) = (0, — 1) T и тем самым b i (t) = x io , b 2 (t) = x 2o — t для любого t E [0, 1].
Если x io = 0, а x 2o < 1, то b i (t) = 0, b 2 (t) = x 2o — t для любого t E [0, x 2o ) и b 2 (t) = 0 для любого t E [x 2o , 1].
(c) 2010 Арутюнов А. В., Жуков Д. А.
Если x o = (x io ,X 2o ) T принадлежит границе области G, т. е. h x o , (1, — 1) i = 0, то, очевидно, следует двигаться вдоль границы в направлении начала координат с максимальной по модулю скоростью, пока не достигнем нуля, т. е. b(t) = — ^ (1,1) T , b i (t) = x 1o — ^ t, b 2 (t) = x 2o — ^ t для любого t E [0,t 2 ] и b(t) = (0, 0) для любого t E (t 2 ,1], где t 2 = x io V2, если x io < ^ и t 2 = 1 в противном случае. Более того, если bQ — оптимальная траектория и в некоторый момент времени t i < 1 выполняется h b(t i ), (1, - 1) i = 0, т. е. b(t i ) принадлежит границе множества G, то h b(t), (1, — 1) i = 0 для любого t E [t i , 1].
Теперь рассмотрим подробнее наиболее интересный случай, когда 0 < Х 20 — x io < 1 и оптимальная траектория разбивается по времени на два участка [0,t i ) и [t i , 1], где t i 6 1, следующим образом: на полуинтервале [0,t i ) траектория находится внутри области G, в момент времени t 1 она попадает на границу области G и дальше она движется вдоль границы описанным выше способом. Нас интересует характер выхода траектории на границу. Ниже покажем, что это происходит гладким образом, т. е. вся траектория является гладкой кривой.
Заметим, что в силу ограничения | u | 6 1 имеет место | x(t) — x o | 6 1 для любого t E [0,1]. Отсюда следует, что для достаточно далеких от нуля начальных точек x o : x io > 0 фазовые ограничения — x i — x 2 6 0 можно не учитывать.
Будем рассматривать исходную задачу (1) для начальных точек x o : x io > 0, достаточно далеких от начала координат и в то же время удовлетворяющих неравенству 0 < x 2o — x io < 1. В силу сказанного выше, для задачи (1) с этими начальными условиями фазовые ограничения x ∈ G можно заменить на x ∈ H .
Итак, пусть (b( - ),b( - )) — оптимальный процесс в рассматриваемом случае. В силу ПМ существуют A o > 0, вектор-функция ограниченной вариации pQ = (pi0,P 2 ( • )) и неотрицательная борелевская мера µ 1 , для которых имеют место условия:
-
(a) уравнение Эйлера
p(t) = (t — 1)A o e i — x i (t) e 2 Vt E [0, 1], (2)
X i (t) = У t
dµ 1 ,
где неотрицательная мера ^ i сосредоточена соответственно на множестве T i = { t E [0,1] : x i (t) — x 2 (t) = 0 } , e i = (0,1), e 2 = (1, — 1).
-
(b) условие максимума
max (p(t)u(t) — A o b 2 (t)) = p(t)b(t) — A o b 2 (t) для п. в. t E [0,1]. (3)
u ∈ U(t)
Из условия максимума (3) следует, что для всех t E [0,1], для которых p(t) = 0, имеет место
' =
p(t) T | p(t)|.
Функция X iG ), как функция нижнего предела интеграла по неотрицательной регулярной мере, неотрицательна, монотонно убывает, непрерывна слева в силу регулярности меры ^ i и постоянна на [0,t i ].
Заметим, что A o = 0, так как в про т ивном случае, если A o = 0, в силу (2) имело бы место P 2 (t) = X i (t) > 0 и, согласно (4), dt b 2 (t) > 0 для любого t E [0,1], что противоречит оптимальности траектории. Далее для удобства считаем, что A o = 1.
Покажем, что для момента времени t 1 выхода траектории на границу множества H выполнено неравенство t i < 1. Действительно, предположим, что это не так и t i = 1. Тогда в силу свойств функции x i ( • ) выполнено X i (t) = c i для любого t Е [0,1], где c i > 0 — некоторая константа. Если c i = 0, то в силу (2) выполнено p(t) = (t — 1)e i и, согласно (4), dt X 2 (t) = — 1 для любого t Е [0,1], что гарантирует выход траектории за пределы множества H , а, значит, противоречит фазовым ограничениям. Последнее означает, что c i > 0 и, значит, в силу (2) выполнено h e 2 ,p(1) i = — 2c i < 0, откуда в силу непрерывности функции p( - ) слева имеет место h e 2 ,p(t) i < 0 для всех t < 1, близких к 1. Отсюда согласно (4) получаем he 2 , dt b(t) i < 0 для тех же t. Поскольку b(1) принадлежит границе области H, то выполнено he 2 , b(1) i = 0, а, значит, he 2 , b(t) i > 0 для всех t < 1, близких к 1, т. е. для данных t траектория находится вне области H , что невозможно. Таким образом, мы доказали, что для момента времени t 1 выхода траектории на границу множества H выполнено неравенство t i < 1.
Гладкий выход на границу означает, что функция b(-) непрерывно дифференцируема в окрестности точки t1 . Для доказательства этого, в силу (4), достаточно показать, что функция p(-) = (pi(•),Р2(^)) отлична от нуля и непрерывна в точке ti. Умножая (2) скалярно на вектор (1,1), получаем, что pi(t) + p2(t) = t — 1 для любого t Е [0,1], т. е. функция p() отлична от нуля всюду, кроме точки t = 1. Так как функция p() непрерывна слева, то необходимо доказать, что p(ti + 0) = p(ti). Допустим, что это не так. Тогда функция XiG) в точке ti имеет скачок 6 = Xi(ti) - Xi (ti +0) > 0 (так как XiG) убывает) и из (2) вытекает, что p(ti + 0) = p(ti) + 6e2.
Если ti < t < 1, то p(t) = 0 и, согласно (4), вектор p(t) пропорционален вектору (1,1). Следовательно, hp(t),e2i = 0 и, переходя к пределу при t ^ ti + 0, получаем, что hp(ti + 0),e2i = 0. Учитывая это, из (5) выводим, что hp(ti),e2i = -26 < 0.
Отсюда в силу непрерывности p( - ) слева вытекает, что h p(t),e 2 i < 0 для всех t < t i , достаточно близких к t i . В силу (4) это означает, что h e 2 , dd b(t) i < 0 для тех же t. Поскольку h e 2 ,b(t i ) i = 0 (так как b(t i ) принадлежит границе), то из этих соотношений следует, что h e 2 , xb(t) i > 0 для всех t < t i , близких к t i , т. е. для данных t траектория находится вне области H , что невозможно. Таким образом, мы доказали, что функция pG) непрерывна в точке t i и, следовательно, функция b( - ) непрерывно дифференцируема в окрестности точки t 1 .
Найдем искомую оптимальную траекторию x(t) на всем промежутке времени t Е [0,1]. В силу свойств функции X i ( " ) для t Е [0,t i ] выполняются соотношения:
p i (t) = p io , p 2 (t) = — p io + t — 1.
Отсюда, согласно (4), получаем:
b i (t) = ddt b i (t)
b 2 (t) = ddt b 2 (t)
p 10
Pp O+T - p GO +T — GJ 2 — p io + t — 1
Pp O+G - p GO+T — GJ 2
В силу непрерывности p(t) в точке t i имеем:
t i — 1 + 2p io .
Пользуясь соотношениями (7) и (8), находим:
x 1 (t) — <
x io + P io In
x i (t i ) — 7 ( t — t 1 ),
I ( — p 10 +t — 1) + ^ p io + ( — p io +t — 1) 2
I -(p io +1)+ p p 2 o +(p io +1) 2
t E [0, t i ], t E (t i , 1].
(x 2o + pp io + (—p 10 + t — 1) 2 — pp io + (p 10 + 1) 2 , t E [0, t 1 ],
[x 2 (t i ) — ^ (t — t i ), t E (t i ,1].
В точке t i траектория выходит на границу области H и, значит, имеет место:
bi(ti) — x2(t1) m xio +
t 1
d dt xi(t) dt — X2o + o
/ -dxpt) dt.
dt
o
Отсюда получаем уравнение для определения неизвестного параметра P io :
x io + P io ln
_________ P io (1 — p2) _________
— (p io + 1) + p p io + (p io + 1) 2
— x 2o
— P io P 2 — \j p io + (P io + 1) 2 .
Ранее мы показали, что для достаточно далеких от нуля начальных точек x o : x io > 0 фазовые ограничения — x i — x 2 6 0 можно опустить. Теперь мы точно определим границу множества этих начальных точек. Несложно видеть, что ее образуют начальные точки, для которых конец оптимальной траектории попадает в начало координат, т. е. b(1) — 0. Следующие параметрические уравнения описывают границу указанного множества:
x i
— P io Р2
— P io ln
/2 — pP io + (P io + 1) 2 ,
Р 10 (1-72)
- (p io + 1) + p P 20 +(p io +1) 2
где параметр P io принимает все значения из полуинтервала P io E [ — 2 , 0).
Множество точек, удовлетворяющих фазовым ограничениям x ∈ G и лежащих ниже заданной ранее параметрической кривой (11), будем обозначать через F.
Теперь рассмотрим последний оставшийся случай, когда начальная точка x o : x io > 0 принадлежит множеству F ; в этом случае заменять фазовые ограничения G на H уже нельзя. Легко видеть, что для всех таких начальных точек x o E F имеет место b(1) — 0 и оптимальная траектория разбивается по времени на три участка [0,t 1 ), [t 1 ,t 2 ) и [t 2 ,1], где 0 < t i 6 t 2 6 1, следующим образом: на полуинтервале [0,t i ) траектория находится внутри области G, в момент времени t 1 она попадает на границу области G и далее движется по границе области G до момента времени t 2 , когда эта траектория попадает в начало координат, где и находится на отрезке времени [t 2 ,1]. Исследуем характер выхода оптимальной траектории на границу.
Итак, пусть (х0,b(-)) — оптимальный процесс в рассматриваемом случае. В силу ПМ существуют Ao > 0, вектор-функция ограниченной вариации p(-) — (Pp),P2G)), неотрицательные борелевские меры ^i, i = 1, 2, и некоторая константа const, для которых имеют место условия:
-
(a) уравнение Эйлера
p ( t ) = ( t - 1)A 0 e i - x 1 (t) е 2 + x 2 (t) e 3 Vt E [0, 1]. (12)
X i (t) = J d^ i , t
X 2 (t) = I t
dµ 2 ,
где неотрицательные меры ^ i и ^ 2 сосредоточены соответственно на множествах T i = {t E [0, 1] : x 1 (t) — x 2 ( t ) = 0} и T 2 = {t E [0, 1] : —x i (t) — x 2 ( t ) = 0}, e i = (0, 1), е 2 = (1, — 1), е з = (1,1).
-
(b) условие максимума
max (p(t)u(t) — Aob2(t)) = p(t)b(t) — Aob2(t) для п. в. t E [0,1].(13)
u ∈ U(t)
-
(c) условия стационарности функции максимума гамильтониана
max (p(t)u(t) — Aob2(t)) = const Vt E [0,1].(14)
u ∈ U(t)
Из условия максимума (13) снова следует, что для всех t E [0,1], для которых p(t) = 0, имеет место
-dx(t) = b(t) = p^.(15)
dt | p(t)|
Функция X 2 ( " ), как функция нижнего предела интеграла по неотрицательной регулярной мере, неотрицательна, монотонно убывает, непрерывна слева в силу регулярности меры ^ 2 и постоянна на [0,t 2 ]- Будем полагать, что X 2 (t) = С 2 > 0 для любого t E [0,t 2 ], X i (t) = c 1 > 0 для любого t E [0,t i ]. Отметим, что c i и c 2 не могут одновременно обращаться в нуль, так как в противном случае, если c i = С 2 = 0, имеет место dt b 2 (t) = — 1, что в силу выбора начальной точки x 0 ∈ F гарантирует выход траектории за пределы множества G, а, значит, противоречит фазовым ограничениям.
Заметим снова, что А о = 0, так как в противном случае, если А о = 0, в силу (12) выполнено p 2 (t) = x i (t) + X 2 (t) > 0 и, согласно (15), dd b 2 (t) > 0 для всех t E [0,1], что противоречит оптимальности траектории. Далее для удобства считаем, что А о = 1.
Покажем, что t i < t 2 . Действительно, предположим противное: t i = t 2 .
Предположим вначале, что t i = t 2 = 1; тогда в силу свойств функций XiO и Х 2 ( " ) выполнено x i (t) = c i , X 2 (t) = c 2 для всех t E [0,1], где c i > 0 и c 2 > 0 — некоторые константы. Если c i = 0, то в силу (12) выполнено p(t) = (t — 1) e i + С 2 е з , а поскольку c i и c 2 не могут быть одновременно равны нулю, то c 2 > 0 и, значит, p i (t) = c 2 > 0, что, согласно (15), противоречит оптимальности траектории. Последнее означает, что c i > 0 и в силу (12) выполнено h e 2 ,p(1) i < 0, откуда в силу непрерывности функции p( ^ ) слева имеет место h e 2 ,p(t) i = — 2c i < 0 для всех t < 1, близких к 1. Отсюда, согласно (15), получаем h e 2 , dd b(t) i < 0 для тех же t. Поскольку b(1) принадлежит границе области G, то выполнено h e 2 ,b(1) i = 0, а, значит, h e 2 ,b(t) i > 0 для всех t < 1, близких к 1, т. е. для данных t траектория находится вне области G, что невозможно. Таким образом, мы доказали, что случай t i = t 2 = 1 не может иметь места.
Пусть теперь ti = t2 < 1; тогда для t E (t2,1] верно dd b(t) = b(t) = 0 ив силу условия максимума (13) имеет место p(t) = 0. Таким образом, при t E (t2,1] левая часть уравнения (14) обращается в нуль, а, значит, const = 0. При t Е [0, t2) выполнено Pi(t) = —ci + С2; покажем, что Pi = 0. Имеет место lim ( max (p(t)u(t) — Aoxpt))) = |p(t2 — 0)| = const = 0 Vt Е [0,1]. t^2-o UuUU(t) /
Следовательно, P i (t) = 0 для любого t Е [0,1], а поскольку P 2 (t) = 0 для любого t Е [0,t 2 ), то согласно (15) d x i (t) = 0, что противоречит выбору начальной точки x o : x io > 0. Отсюда заключаем, что t i < t 2 -
Гладкость траектории в точке t i показывается аналогично тому, как это было сделано ранее, поэтому доказательство мы опустим.
Найдем искомую оптимальную траекторию x(t) на всем промежутке времени t Е [0,1]. В силу свойств функций хр) и Х 2 ( ^ ) для t Е [0,t i ] выполняются соотношения:
P i (t) = P io , P 2 (t) = Р 20 + t.
Отсюда согласно (15) получаем:
b i (t) = dtx i (t) = Upt) = dtxpt) = |
=_______ Pio ________ pp io + (P 2o + t) 2 , (17) _ P 2o + t 1 pP 2o + (P 2o + t) 2 |
В силу непрерывности функции p ( • ) в точке t i и соотношения P(t 2 ) = 0, выполненного в силу (15), получаем:
t i = P io — P 2o , t 2 = — P io — P 2o - |
(18) |
|||
Пользуясь соотношениями (17) и (18), находим: |
||||
x i (t) = |
. , (P 20 +t) + VP 2O + (P 20 +t) 2 + x io + p “° ln 1 p 20 +vi+5 1’ tЕ |
[0, t 1 ], |
||
x i (t i ) — ^22 (t — t i ), t Е |
(t , t 2 ], |
|||
0, t Е |
(t 2 , 1]. |
(19) |
||
'x 2o + pP 2o + (P 2o + t) 2 — pP 2o + P 2o , |
t Е [0,t i ], |
|||
x 2 (t) = |
x 2 (t i ) — 272 (t — t i ), |
t Е (tl, t 2 ], |
||
10, |
t Е (t 2 , 1]. |
В точке t i траектория выходит на границу области G и, значит, имеет место
4х1(Р = 4Х 2 (Р dt dt
m xio +
t1 d t1
[ ^xpt) dt. dt
o
/ dtx i (t) dt = x 2o + o
Отсюда, используя b 2 (1) = 0, получаем систему уравнений для определения неизвестных параметров p io и p 2o :
p 2o = — p x 2o — p io ’
Р 10 (i- V^i ГЕ2 2
x io + p io ln I —/ 2 2 I = x 2o — p io V 2 — Vp io + p 2o -
I p 20 + Vp 10 +p 20 I
Таким образом, для того чтобы найти оптимальную траекторию и оптимальное управление в задаче (1), нужно вначале определить, в какой области фазового портрета системы находится начальная точка x o . Если x o удовлетворяет неравенству Х 20 — x io > 1, то решение тривиально: b(t) = (0, — 1) T и b i (t) = x io , b 2 (t) = X 20 — t для всех t E [0,1]. Если х о удовлетворяет неравенству X 20 — x io < 1 и находится выше параметрической кривой, заданной соотношениями (11), то, определив неизвестный параметр p 10 из уравнения (10), мы находим время t 1 выхода оптимальной траектории на границу (8) и получаем уравнения для оптимальной траектории в явном виде (9). Если x 0 удовлетворяет неравенству Х 20 — x io < 1 и находится ниже параметрической кривой, заданной соотношениями (11), то, определив неизвестные параметры p 10 и p 20 из системы уравнений (20), мы находим время t 1 выхода оптимальной траектории на границу и момент t 2 попадания траектории в начало координат (18), с помощью которых получаем уравнения для оптимальной траектории в явном виде (19).
Список литературы Исследование одной линейной задачи оптимального управления с фазовыми ограничениями
- Арутюнов А. В., Магарил-Ильяев Г. Г., Тихомиров В. М. Принцип максимума Понтрягина.-М.: Факториал Пресс, 2006.-144 c.
- Иоффе А. Д., Тихомиров В. М. Теория экстремальных задач.-М.: Наука, 1974.-480 c.