Метод синтеза особого управления для автономных динамических систем

Бесплатный доступ

В статье рассматривается метод синтеза особого управления для автономных динамических систем. Доказывается, что особое управление в общем случае является огибающей семейства параметрических поверхностей и что его можно найти на этом семействе. Такой подход в ряде случаев упрощает проблемы синтеза алгоритмов и их практическую реализацию.

Оптимальное управление, особое управление, автономные динамическое системы, огибающие

Короткий адрес: https://sciup.org/14835140

IDR: 14835140

Текст научной статьи Метод синтеза особого управления для автономных динамических систем

К настоящему времени существует достаточно разработанная общая теория оптимального управления, которая позволяет решить задачу «в принципе». Однако известно, что от общих воззрений до конкретного результата зачастую лежит достаточно большая дистанция, в том числе и в случае численного решения поставленной задачи. Причина заключается в проблемах устойчивого решения краевой задачи, «машинного нуля», вычислительной устойчивости используемых методов и т.д. Поэтому требуется искать подходы, основанные на иной интерпретации известных теорий. Одному из них и посвящена данная статья.

  • 1. Постановка задачи

Рассмотрим автономную динамическую систему вида:

= fj (x) + Bj (x)uj, j=1, K• m, dt dx

—— = Ji(x),              г = m +1, ... n, dt где: t - действительная переменная; t e3 (t); 3(t) - открытое множество вещественной оси t; 3(t) = (-го, • • , + ^ ); x = (x1, . •, xn) - вектор состояния действительного n -мерного пространства; f = (J1, • K , fn ) и B = (B1, • K ,Bm ) - заданные вектор-функции; Bj Ф 0, j = 1, • к , m; u = (u1, • к ,um ) - m -мерный вектор управления; u e U; U - заданное множество допустимых управлений; m < n .

Задан терминальный функционал:

J = F [ xJT), i = m + 1, к. ,n ] ,               (2)

определенный на решениях системы уравнений (1). F - некоторая функция; T e 3 (t) .

В момент t = T могут быть заданы дополнительные условия вида h, = h; [ x(T) ] , i = 1, к. , n,               (3)

которые могут быть включены в функционал (2) через дополнительные множители Лагранжа.

Так как система уравнений (1) автономная, то множество 3 (t) допустимо сузить до отрезка [ t0,T ] , где t0 - начальное значение аргумента t, t0 e3 (t) . Момент времени T не фиксирован.

Значения x(t0) = x0 полагаются известными.

Сформулируем задачу оптимального управления следующим образом: среди всех допустимых на отрезке [ t0, T ] управлений u e U , переводящих точку (t0,x0) в точку (T ,x(T)) , найти такие, для которых функционал (2), определенный на решениях системы уравнений (1), принимает наименьшее значение при выполнении условий (3).

Введем вектор-функцию множителей Лагранжа p = (p 1 , • • , pn ) и составим гамильтониан задачи оптимизации H :

nm

H = Ё Pif + Е P j B j u j .              (4)

i = 1             j = 1

С использованием функции H в пространстве переменных D"(x,p), x e D"(x,p), p e D"(x,p), уравнения для x и p запишутся в следующей канонической форме:

dx _ д H dt д p’ dp _ д H --- — — ----. dt      д x

Отметим, что H и p на оптимальном решении непрерывны и к этому же приводит аналог условия Эрдмана–Вейерштрасса классического вариационного исчисления. Непрерывность сохраняется и в том случае, когда правые части уравнений (1) терпят разрыв.

Для оптимального управления u(t) и фазовой траектории x(t) в рамках принципа максимума необходимо существование такого ненулевого вектора p , что выполняются следующие условия [1, 2]:

  • 1)    Функция H переменного u е U при каждом t е [ t0,T ] , т.е. при

фиксированных x, p , достигает при u uopt (t) минимума:

H(x opt , u opt , p ) mmH(x,u,p) . и е U

Таким образом, оптимальное управление определяется как: uoPt — arg min H(x,u, p) .

p          и е U

2) Выполняются условия трансверсальности:

n

H St -Z pi 5xi i — 1

T

+

t0

Г д h - д F ^ „ Z Mi— + — 5xi д xi д xi J

n

. i 1 V

1T

0 , J t o

где S t, 5 x i - произвольные вариации соответствующих переменных;

M ( M i , • к , M n ) — вектор констант.

Обобщенные условия трансверсальности в силу независимости вариаций приводят к соотношениям:

[H ] To — 0, p i—

д F      д h i

+ M i^— д x j       д x i

i — 1, , n .

Непосредственным следствием системы уравнений (5) и условия (6) dH д H является выполнение соотношения:---—---.

dt     д t

С учетом (9) для автономных динамических систем при незаданном явно аргументе имеем :

H const 0.                      (10)

Из выражений (6) для внутренних точек множества допустимых управлений получим:

5 H      ~

= Pj = °’ d uj j = °,1,K, m

Из чего следует, что формально любое управление удовлетворяет условию первой вариации функционала. Такая неопределенность порождает особый случай нахождения оптимального управления. В работе [2] доказывается, что особое управление для динамических систем вида (1) может быть найдено из соотношений:

dk faн' dtk [duj,

= 0,

k = 0,1, к ,2p s

( p s - порядок сингулярности) при выполнении следующих

необходимых условий оптимальности:

z d d2p s f а н )

( — 1)

5 uj ^ dt p [duj ,

P s = 0,1,2, к

> 0,

если

det

<

a 2 н a u i a u j

У* °,

i , j = 1, к , m .

Из системы уравнений (11) с учетом соотношений (12) следует, что особое оптимальное управление определяется как u j osob = u j osob (x,p).

Отметим, что если в начальный момент времени значения x известны (или могут быть оценены), то вектор p определен (с точностью до констант) лишь на правом конце фазовой траектории. Возникает специфическая краевая задача, после решения которой («в принципе») тем или иным способом можно найти p(t) , а, следовательно, и u jos ob . Однако, вычислительные трудности, стоящие на этом пути, методические ошибки численных методов и ошибки округлений делают процесс нахождения достоверных значений весьма трудным, а зачастую (например, при выполнении требования реального масштаба времени) и невозможным. Поэтому представляется желательным использовать нетрадиционные методы синтеза оптимального управления, одним из которых, в частности, является метод огибающих.

Сначала докажем, что оптимальная траектория динамической системы в фазовом пространстве, определяемая в смысле минимизации функционала (2), является огибающей семейства мгновенных решений, проведенных из каждой ее точки, и что оптимальное управление может быть найдено на семействе мгновенных решений.

Представим уравнение (10) в следующем виде:

H [ x,uopt(x, p), p ] = H(x,p) = 0 .         (13)

Введем непрерывную функцию W(x) такую, что г , 1          dW

W(x(T)) = J = F [x(T)] и p = —, и d x приведем уравнение (13) к

уравнению Гамильтона-Якоби:

H(x,p) = H

f d W ) x,—- ( d x )

= 0.

Так как функция W входит в уравнение (14) только своими частными производными, то она определяется с точностью до аддитивной постоянной W0., т.е.: W = Wp(x,a) + W0, где a = (a1, .к, an) - вектор независимых параметров, а Wp(x,a) - решение уравнения (14). Запишем уравнение гиперповерхности [3]

S = W - Wp(x, a ) - W0

в (п + 1) -мерном пространстве переменных W,x 1 , к. ,xn . Из-за наличия

(п +1) независимых параметров W0,a1, к.,an эта гиперповерхность является (п +1) -параметрическим семейством гиперповерхностей.

Параметр W0 вызывает лишь сдвиг вдоль оси W , поскольку

----= - 1 * 0 . Примем:

d W o

W 0 = W 0 ( Y 1 , к , Y n )

av = av( У1.-к-Yn) V = 1, к. ,п где        y 1, - к, Yn        - параметры, такие, что dW    да

* 0, —v ^ 0, i = 1, к. ,п, v = 1, к. ,п .

dYt

Построим огибающие относительно параметров y 1 , - к , Y n :

д s      d W da dWdWP да dW0 п

----= >---L-> ------'---- = 0, v = 1, к. ,п.(17)

dYv Т"1! dai дYv       dai dYv

Выбором

( det

'a1-d Yv )

* 0,

функций i,v = 1, к., n .

добьемся,

чтобы

Тогда уравнения (17) будут иметь решения:

∂W

βν =     , ν =1, K, n.∂aν

С другой стороны, если W - полный интеграл уравнения (14), то по теореме Якоби имеем:

β=∂W, ∂a

W p =

∂x

.

Потребуем, чтобы a и β удовлетворяли преобразованию гамильтониана H(x, p) в гамильтониан H(a) , а также каноническим уравнениям, которые, ввиду (14), запишутся как da -- dt

Из (16-20) следует,

H     d β H

-    = 0,      =    = 0 .

∂β      dt  ∂a

что оптимальные траектории являются

огибающими n -параметрического семейства поверхностей.

Представим функцию Wp(x, a ) в виде суммы функций, каждая из которых зависит только от одной из переменных x ν , ν = 1, K , n , т.е.:

W = n W ν κ (x ν , a ) + W 0 .

ν = 1

Определим канонические переменные p ν , ν = 1, K , n :

W W κ (x , a )

  • p ν =      = ν ν , ν = 1, K , n .

∂xν       ∂xν

Согласно выражениям (22), переменные   pν , ν = 1, K , n оказываются функциями только одной xν и a, в то время, как уравнения (1), (5), (19) говорят о том, что pν , ν = 1, K , n в общем случае должны быть функциями всех x1 , K , xn и остальных pi , i = 1, K ,n, i ≠ν . Это противоречие может быть устранено, если приравнять aν , ν = 1, K , n некоторые определенные комбинации переменных x1 , K , xn , «замороженных» в данный момент времени, т.е.:

aν = aν (x1, K ,xn), ν = 1, K ,n .             (23)

Из выражений (16), (19), (22), (23) следует, что p1 , K , pn и управление uopt, можно определить на параметрическом семействе поверхностей, которое огибает оптимальная траектория, если в качестве параметров γ1 , K ,γn соответствующим образом взять фазовые координаты, а уравнения (17) будут разрешимы относительно частных производных Wp по параметрам a1 , K , an . Фиксируя в качестве параметров «замороженные» в текущий момент времени значения фазовых координат, мы тем самым на семействе поверхностей определим семейство кривых. Назовем их мгновенными решениями, поскольку они определяются функцией Wp, являющейся решением уравнения (14).

В рамках решения уравнения (14) можно использовать в качестве мгновенных решений произвольные заданные функции, удовлетворяющие условиям (17), (19) - (23).

С другой стороны, соотношения (18)-(23) говорят о том, что для построения мгновенных решений можно следующий подход, а именно производить условное разделение переменных в уравнении Гамильтона-Якоби (см. [3]).

Отметим, что мгновенные решения должны удовлетворять условию минимизации функционала (2) относительно используемых параметров.

Таким образом, оптимальная траектория динамической системы в фазовом пространстве является огибающей семейства мгновенных решений, проведенных из каждой ее точки.

Представим уравнения (5) для p = (p 1 , ..., p n ) в следующей форме:

dp v _ д H dt д x v

f 8 Bv ) + v u v

( 8 xv 8 xv     ,

j _ 1 J * v

д f /B

8 xv   8 xv

-

2 p. f i _ m + 1 д X v

n

v _ 1, ... , m

Преобразуем это уравнение к виду:

dp ' + Ф у p v _ G v    v _ 1, ... ,m ,

dt где: Фу

'f + ^- • u.), О,           + • ul- £ p.^f-

(д xv 5 xv J 1 j (5 Xv 6 Xv j J . _m++1 5 Xv j *v

Проинтегрировав уравнение (25), получим:

p v _ exp( - J Ф v dt) | J G v exp( J Ф v dt) - C v J v = 1, ,m , (26)

Постоянные     Cv , v = 1,. к, n находятся из условий трансверсальности (9).

Первоначально рассмотрим случай, когда порядок сингулярности равен единице. Тогда особое управление можно найти из системы уравнений (см. [2]):

dpd pj_ 0,       _ 0,        _ 0, j _ 1, K. ,m.(27)

j dtdt

Из первых двух уравнений системы (27) следует, что G j = 0 .

Разрешим это уравнение относительно переменной xj . Если корень существует, то:

X j = n j (X v ,P v ; V = 1,... ,n; v * j) .           (28)

Тогда третье уравнение системы (27) после преобразований запишем как:

dGj dt

5 Gj

—- \ f. + В и ^)+

5 X ^j j josob'

d G j d n j ------------------•---------------- dn j dt

= 0.

Из последнего соотношения можно найти особое управление:

u. K = j osob

f) +

G jn J/d G d n j dt J/ d x j

при выполнении необходимых условий оптимальности в следующей форме:

d G, Bj     j d xj

< 0, j = 1,..., m .

x j = n j

Отметим, что корень уравнения G j = 0 необязательно может быть единственным. Тогда каждый корень проверяется на выполнение необходимых (30) и достаточных (2) условий оптимальности.

Отметим также, что на мгновенном решении X j = const = n j .

В случае нулевого порядка сингулярности pj (см. (26)) либо сохраняет знак, либо становится равным нулю лишь в одной точнее на конце отрезка. Дополнив условие pj = 0 условиями первого порядка сингулярности, мы приходим к аналогичному выражению.

В случае, когда порядок сингулярности превышает единицу, то, выделив условие сингулярности первого порядка Gj = 0, или, соответственно, xj = nj, а затем, продифференцировав его 2 ps -1 раз, можно найти особое управление как:

u j osob

= f x-n] v

d n j       d2 p 1 n j

,1^, K ’ dt2 p -1

A

)

Следовательно, особое оптимальное управление в рамках заданного терминального критерия оптимальности можно найти на семействе мгновенных решений.

Заключение

Обобщая полученные выше результаты, можно сделать следующие выводы:

  • 1)    оптимальную траекторию динамической системы в фазовом пространстве можно представить как огибающую семейства мгновенных решений, проведенных из каждой ее точки;

  • 2)    оптимальное управление может быть найдено на семействе мгновенных решений из конкретных соотношений, складывающихся на тот или иной момент времени.

Список литературы Метод синтеза особого управления для автономных динамических систем

  • Болтянский В.Г. Математические методы оптимального управления. -М.: Наука, 1969. -408 с.
  • Габасов Р., Кириллова Ф.М. Особое оптимальное управление. -М.: Наука, 1973. -256 с.
  • Шмутцер Э. Основные принципы классической механики и классической теории поля (канонический аппарат). -М.: Мир, 1976. -157 с.
Статья научная