Метод синтеза особого управления для автономных динамических систем
Автор: Иванов Владимир Петрович
Журнал: Вестник Бурятского государственного университета. Математика, информатика @vestnik-bsu-maths
Рубрика: Управляемые системы и методы оптимизации
Статья в выпуске: 2, 2015 года.
Бесплатный доступ
В статье рассматривается метод синтеза особого управления для автономных динамических систем. Доказывается, что особое управление в общем случае является огибающей семейства параметрических поверхностей и что его можно найти на этом семействе. Такой подход в ряде случаев упрощает проблемы синтеза алгоритмов и их практическую реализацию.
Оптимальное управление, особое управление, автономные динамическое системы, огибающие
Короткий адрес: https://sciup.org/14835140
IDR: 14835140
Текст научной статьи Метод синтеза особого управления для автономных динамических систем
К настоящему времени существует достаточно разработанная общая теория оптимального управления, которая позволяет решить задачу «в принципе». Однако известно, что от общих воззрений до конкретного результата зачастую лежит достаточно большая дистанция, в том числе и в случае численного решения поставленной задачи. Причина заключается в проблемах устойчивого решения краевой задачи, «машинного нуля», вычислительной устойчивости используемых методов и т.д. Поэтому требуется искать подходы, основанные на иной интерпретации известных теорий. Одному из них и посвящена данная статья.
-
1. Постановка задачи
Рассмотрим автономную динамическую систему вида:
= fj (x) + Bj (x)uj, j=1, K• m, dt dx
—— = Ji(x), г = m +1, ... n, dt где: t - действительная переменная; t e3 (t); 3(t) - открытое множество вещественной оси t; 3(t) = (-го, • • , + ^ ); x = (x1, . •, xn) - вектор состояния действительного n -мерного пространства; f = (J1, • K , fn ) и B = (B1, • K ,Bm ) - заданные вектор-функции; Bj Ф 0, j = 1, • к , m; u = (u1, • к ,um ) - m -мерный вектор управления; u e U; U - заданное множество допустимых управлений; m < n .
Задан терминальный функционал:
J = F [ xJT), i = m + 1, к. ,n ] , (2)
определенный на решениях системы уравнений (1). F - некоторая функция; T e 3 (t) .
В момент t = T могут быть заданы дополнительные условия вида h, = h; [ x(T) ] , i = 1, к. , n, (3)
которые могут быть включены в функционал (2) через дополнительные множители Лагранжа.
Так как система уравнений (1) автономная, то множество 3 (t) допустимо сузить до отрезка [ t0,T ] , где t0 - начальное значение аргумента t, t0 e3 (t) . Момент времени T не фиксирован.
Значения x(t0) = x0 полагаются известными.
Сформулируем задачу оптимального управления следующим образом: среди всех допустимых на отрезке [ t0, T ] управлений u e U , переводящих точку (t0,x0) в точку (T ,x(T)) , найти такие, для которых функционал (2), определенный на решениях системы уравнений (1), принимает наименьшее значение при выполнении условий (3).
Введем вектор-функцию множителей Лагранжа p = (p 1 , • • , pn ) и составим гамильтониан задачи оптимизации H :
nm
H = Ё Pif + Е P j B j u j . (4)
i = 1 j = 1
С использованием функции H в пространстве переменных D"(x,p), x e D"(x,p), p e D"(x,p), уравнения для x и p запишутся в следующей канонической форме:
dx _ д H dt д p’ dp _ д H --- — — ----. dt д x
Отметим, что H и p на оптимальном решении непрерывны и к этому же приводит аналог условия Эрдмана–Вейерштрасса классического вариационного исчисления. Непрерывность сохраняется и в том случае, когда правые части уравнений (1) терпят разрыв.
Для оптимального управления u(t) и фазовой траектории x(t) в рамках принципа максимума необходимо существование такого ненулевого вектора p , что выполняются следующие условия [1, 2]:
-
1) Функция H переменного u е U при каждом t е [ t0,T ] , т.е. при
фиксированных x, p , достигает при u — uopt (t) минимума:
H(x opt , u opt , p ) — mmH(x,u,p) . и е U
Таким образом, оптимальное управление определяется как: uoPt — arg min H(x,u, p) .
p и е U
2) Выполняются условия трансверсальности:
n
H St -Z pi 5xi i — 1
T
+
t0
Г д h - д F ^ „ Z Mi— + — 5xi д xi д xi J
n
. i — 1 V
1T
— 0 , J t o
где S t, 5 x i - произвольные вариации соответствующих переменных;
M — ( M i , • к , M n ) — вектор констант.
Обобщенные условия трансверсальности в силу независимости вариаций приводят к соотношениям:
[H ] To — 0, p i—
д F д h i
—+ M i^— д x j д x i
i — 1, • , n .
Непосредственным следствием системы уравнений (5) и условия (6) dH д H является выполнение соотношения:---—---.
dt д t
С учетом (9) для автономных динамических систем при незаданном явно аргументе имеем :
H — const — 0. (10)
Из выражений (6) для внутренних точек множества допустимых управлений получим:
5 H ~
= Pj = °’ d uj j = °,1,K, m
Из чего следует, что формально любое управление удовлетворяет условию первой вариации функционала. Такая неопределенность порождает особый случай нахождения оптимального управления. В работе [2] доказывается, что особое управление для динамических систем вида (1) может быть найдено из соотношений:
dk faн' dtk [duj,
= 0,
k = 0,1, к ,2p s
( p s - порядок сингулярности) при выполнении следующих
необходимых условий оптимальности:
z d d2p s f а н )
( — 1)
5 uj ^ dt p [duj ,
P s = 0,1,2, к
> 0,
если
det
<
a 2 н a u i a u j
У* °,
i , j = 1, к , m .
Из системы уравнений (11) с учетом соотношений (12) следует, что особое оптимальное управление определяется как u j osob = u j osob (x,p).
Отметим, что если в начальный момент времени значения x известны (или могут быть оценены), то вектор p определен (с точностью до констант) лишь на правом конце фазовой траектории. Возникает специфическая краевая задача, после решения которой («в принципе») тем или иным способом можно найти p(t) , а, следовательно, и u jos ob . Однако, вычислительные трудности, стоящие на этом пути, методические ошибки численных методов и ошибки округлений делают процесс нахождения достоверных значений весьма трудным, а зачастую (например, при выполнении требования реального масштаба времени) и невозможным. Поэтому представляется желательным использовать нетрадиционные методы синтеза оптимального управления, одним из которых, в частности, является метод огибающих.
Сначала докажем, что оптимальная траектория динамической системы в фазовом пространстве, определяемая в смысле минимизации функционала (2), является огибающей семейства мгновенных решений, проведенных из каждой ее точки, и что оптимальное управление может быть найдено на семействе мгновенных решений.
Представим уравнение (10) в следующем виде:
H [ x,uopt(x, p), p ] = H(x,p) = 0 . (13)
Введем непрерывную функцию W(x) такую, что г , 1 dW
W(x(T)) = J = F [x(T)] и p = —, и d x приведем уравнение (13) к
уравнению Гамильтона-Якоби:
H(x,p) = H
f d W ) x,—- ( d x )
= 0.
Так как функция W входит в уравнение (14) только своими частными производными, то она определяется с точностью до аддитивной постоянной W0., т.е.: W = Wp(x,a) + W0, где a = (a1, .к, an) - вектор независимых параметров, а Wp(x,a) - решение уравнения (14). Запишем уравнение гиперповерхности [3]
S = W - Wp(x, a ) - W0
в (п + 1) -мерном пространстве переменных W,x 1 , к. ,xn . Из-за наличия
(п +1) независимых параметров W0,a1, к.,an эта гиперповерхность является (п +1) -параметрическим семейством гиперповерхностей.
Параметр W0 вызывает лишь сдвиг вдоль оси W , поскольку
----= - 1 * 0 . Примем:
d W o
W 0 = W 0 ( Y 1 , к , Y n )
av = av( У1.-к-Yn) V = 1, к. ,п где y 1, - к, Yn - параметры, такие, что dW да
* 0, —v ^ 0, i = 1, к. ,п, v = 1, к. ,п .
dYt
Построим огибающие относительно параметров y 1 , - к , Y n :
д s d W da dWdWP да dW0 п
----= >---L-> ------'---- = 0, v = 1, к. ,п.(17)
dYv Т"1! dai дYv dai dYv
Выбором
( det
'a1-d Yv )
* 0,
функций i,v = 1, к., n .
добьемся,
чтобы
Тогда уравнения (17) будут иметь решения:
∂W
βν = , ν =1, K, n.∂aν
С другой стороны, если W - полный интеграл уравнения (14), то по теореме Якоби имеем:
β=∂W, ∂a
∂ W p =
∂x
.
Потребуем, чтобы a и β удовлетворяли преобразованию гамильтониана H(x, p) в гамильтониан H(a) , а также каноническим уравнениям, которые, ввиду (14), запишутся как da -- dt
Из (16-20) следует,
∂ H d β ∂ H
- = 0, = = 0 .
∂β dt ∂a
что оптимальные траектории являются
огибающими n -параметрического семейства поверхностей.
Представим функцию Wp(x, a ) в виде суммы функций, каждая из которых зависит только от одной из переменных x ν , ν = 1, K , n , т.е.:
W = ∑ n W ν κ (x ν , a ) + W 0 .
ν = 1
Определим канонические переменные p ν , ν = 1, K , n :
∂ W ∂ W κ (x , a )
-
p ν = = ν ν , ν = 1, K , n .
∂xν ∂xν
Согласно выражениям (22), переменные pν , ν = 1, K , n оказываются функциями только одной xν и a, в то время, как уравнения (1), (5), (19) говорят о том, что pν , ν = 1, K , n в общем случае должны быть функциями всех x1 , K , xn и остальных pi , i = 1, K ,n, i ≠ν . Это противоречие может быть устранено, если приравнять aν , ν = 1, K , n некоторые определенные комбинации переменных x1 , K , xn , «замороженных» в данный момент времени, т.е.:
aν = aν (x1, K ,xn), ν = 1, K ,n . (23)
Из выражений (16), (19), (22), (23) следует, что p1 , K , pn и управление uopt, можно определить на параметрическом семействе поверхностей, которое огибает оптимальная траектория, если в качестве параметров γ1 , K ,γn соответствующим образом взять фазовые координаты, а уравнения (17) будут разрешимы относительно частных производных Wp по параметрам a1 , K , an . Фиксируя в качестве параметров «замороженные» в текущий момент времени значения фазовых координат, мы тем самым на семействе поверхностей определим семейство кривых. Назовем их мгновенными решениями, поскольку они определяются функцией Wp, являющейся решением уравнения (14).
В рамках решения уравнения (14) можно использовать в качестве мгновенных решений произвольные заданные функции, удовлетворяющие условиям (17), (19) - (23).
С другой стороны, соотношения (18)-(23) говорят о том, что для построения мгновенных решений можно следующий подход, а именно производить условное разделение переменных в уравнении Гамильтона-Якоби (см. [3]).
Отметим, что мгновенные решения должны удовлетворять условию минимизации функционала (2) относительно используемых параметров.
Таким образом, оптимальная траектория динамической системы в фазовом пространстве является огибающей семейства мгновенных решений, проведенных из каждой ее точки.
Представим уравнения (5) для p = (p 1 , ..., p n ) в следующей форме:
dp v _ д H dt д x v
(д f 8 Bv ) + v • u v
( 8 xv 8 xv ,

j _ 1 J * v
д f /B
8 xv 8 xv
-
2 p. f i _ m + 1 д X v
n
v _ 1, ... , m
Преобразуем это уравнение к виду:
dp ' + Ф у p v _ G v v _ 1, ... ,m ,
dt где: Фу
'f + ^- • u.), О, + • ul- £ p.^f-
(д xv 5 xv J 1 j (5 Xv 6 Xv j J . _m++1 5 Xv j *v
Проинтегрировав уравнение (25), получим:
p v _ exp( - J Ф v dt) | J G v exp( J Ф v dt) - C v J v = 1, -к ,m , (26)
Постоянные Cv , v = 1,. к, n находятся из условий трансверсальности (9).
Первоначально рассмотрим случай, когда порядок сингулярности равен единице. Тогда особое управление можно найти из системы уравнений (см. [2]):
dpd pj_ 0, _ 0, _ 0, j _ 1, K. ,m.(27)
j dtdt
Из первых двух уравнений системы (27) следует, что G j = 0 .
Разрешим это уравнение относительно переменной xj . Если корень существует, то:
X j = n j (X v ,P v ; V = 1,... ,n; v * j) . (28)
Тогда третье уравнение системы (27) после преобразований запишем как:
dGj dt
5 Gj
—- \ f. + В и ^)+
5 X ^j j josob'
d G j d n j ------------------•---------------- dn j dt
= 0.
Из последнего соотношения можно найти особое управление:
u. K = j osob
f) +
G jn J/d G d n j dt J/ d x j
при выполнении необходимых условий оптимальности в следующей форме:
d G, Bj j d xj
< 0, j = 1,..., m .
x j = n j
Отметим, что корень уравнения G j = 0 необязательно может быть единственным. Тогда каждый корень проверяется на выполнение необходимых (30) и достаточных (2) условий оптимальности.
Отметим также, что на мгновенном решении X j = const = n j .
В случае нулевого порядка сингулярности pj (см. (26)) либо сохраняет знак, либо становится равным нулю лишь в одной точнее на конце отрезка. Дополнив условие pj = 0 условиями первого порядка сингулярности, мы приходим к аналогичному выражению.
В случае, когда порядок сингулярности превышает единицу, то, выделив условие сингулярности первого порядка Gj = 0, или, соответственно, xj = nj, а затем, продифференцировав его 2 ps -1 раз, можно найти особое управление как:
u j osob
= f x-n] v
d n j d2 p 1 n j
,1^, K ’ dt2 p -1
A
)
Следовательно, особое оптимальное управление в рамках заданного терминального критерия оптимальности можно найти на семействе мгновенных решений.
Заключение
Обобщая полученные выше результаты, можно сделать следующие выводы:
-
1) оптимальную траекторию динамической системы в фазовом пространстве можно представить как огибающую семейства мгновенных решений, проведенных из каждой ее точки;
-
2) оптимальное управление может быть найдено на семействе мгновенных решений из конкретных соотношений, складывающихся на тот или иной момент времени.
Список литературы Метод синтеза особого управления для автономных динамических систем
- Болтянский В.Г. Математические методы оптимального управления. -М.: Наука, 1969. -408 с.
- Габасов Р., Кириллова Ф.М. Особое оптимальное управление. -М.: Наука, 1973. -256 с.
- Шмутцер Э. Основные принципы классической механики и классической теории поля (канонический аппарат). -М.: Мир, 1976. -157 с.