Об одном подходе к решению задач оптимального управления с терминальными ограничениями
Автор: Булдаев А.С., Хармакшанова Б.Б.
Журнал: Вестник Бурятского государственного университета. Математика, информатика @vestnik-bsu-maths
Рубрика: Управляемые системы и методы оптимизации
Статья в выпуске: 2, 2024 года.
Бесплатный доступ
Рассматривается подход возмущений для численного решения нелинейных задач оптимального управления с терминальными ограничениями типа неравенств, основывающийся на построении возмущенных соотношений, характеризующих условия оптимальности и улучшения управления. Предлагаемые итерационные методы возмущений обладают свойством нелокальности последовательных приближений управления и отсутствием процедуры параметрического поиска улучшающего приближения на каждой итерации, характерной для известных стандартных методов градиентного типа.
Управляемая система с ограничениями, условия оптимальности и улучшения управления, метод возмущений, итерационные алгоритмы
Короткий адрес: https://sciup.org/148330173
IDR: 148330173 | УДК: 517.977 | DOI: 10.18101/2304-5728-2024-2-53-61
On an approach to solving optimal control problems with terminal constraints
The perturbation approach for the numerical solution of nonlinear optimal control problems with terminal inequality-type constraints is considered. It is based on the construction of perturbed relations characterizing the optimality conditions and control improvement. The proposed iterative perturbation methods have the property of nonlocality of successive control approximations and the absence of a procedure for parametric search for an improving approximation at each iteration, which is typical for well-known standard gradient-type methods.
Текст научной статьи Об одном подходе к решению задач оптимального управления с терминальными ограничениями
Распространенным подходом к решению задач оптимального управления с ограничениями является сведение этих задач методом штрафных функционалов или методом модифицированного функционала Лагранжа [1–3] к последовательности задач оптимального управления без ограничений. Для решения последних могут быть использованы методы возмущений [4], основанные на возмущении условий принципа максимума или условий нелокального улучшения управления. А также методы неподвижных точек [5; 6], основанные на представлении систем условий нелокального улучшения управления и условий принципа максимума в форме конструируемых задач о неподвижной точке определяемых операторов управления. Указанные методы являются развитием и обобщением нелокальных методов оптимизации управлений, основанных на нестандартных аппроксимациях функционалов задач без остаточных членов разложений в линейных и линейно-квадратичных по состоянию задачах оптимального управления [7].
В настоящей работе рассматривается возможность использования методов возмущений для поиска экстремального и допустимого управления в задаче оптимального управления с терминальными ограничениями типа неравенств, которые основываются на возмущении специальных конструктивных форм необходимого условия оптимальности и условия улуч -шения управления. Предлагаемый подход возмущений характеризуется отсутствием типовой операции выпуклого или игольчатого варьирования управления по малому параметру.
1 Условие оптимальности управления
Рассматривается задача оптимального управления с терминальными ограничениями в следующей общей постановке:
x(t ) = f ( x ( t ), u ( t ), t ), x ( t o ) = x °, u ( t ) e U c R m , t е T = [ t o , t i ], Ф , ( u ) = P i ( x ( t j )) + J F i ( x ( t ), u ( t ), t ) dt < 0, i = 1, r ,
T
Фо(u) = Po (x(ti)) + [F0 (x(t), u(t), t)dt ^ min , u∈V
T где x(t) = (x1(t),...,xn(t)) — вектор состояния, u(t) = (u 1(t),...,um(t)) — век- тор управления. В качестве доступных управлений рассматривается класс V кусочно-непрерывных функций на T со значениями в компактном множестве U. Начальное состояние x0 и интервал T заданы. Функции
Pi(x) непрерывно дифференцируемы на Rn, функции f (x,u,t), Fi(x,u,t), i = 0, r и их производные по переменным x и u непрерывны по совокупности аргументов на множестве Rn х U х T.
Доступное управление u е V называется допустимым, если выполняются функциональные ограничения (2).
Для каждого функционала Ф i ( u ), i = 0, r введем функцию Понтрягина H i ( p , x , u , t ) = ( p , f ( x , u , t )} - F( x , u , t )
и определим решение p i ( t , v ), t е T стандартной сопряженной системы p ( t ) = - Hx ( p ( t ), x ( t ), u ( t ), t ), p ( t i ) = P x ( x ( 1 1 ))
при x ( t ) = x ( t , v ), u ( t ) = v ( t ), t е T .
Принцип максимума для допустимого управления u е V [8] в задаче (1)-(3) представляется в виде:
£ A i A w HW tt , u ), x ( t , u ), u ( t ), t ) < 0, w e U , t e T , (4)
∈ I
I = {0} и { i = 1,..., r : Ф i . ( u ) = 0}, X eЛ = { A = ( A i , i' e I ): A i > 0, £ A i = 1}.
i ∈ I
Известные необходимые условия оптимальности [7; 9; 10], получаемые на основе (4), имеют вид:
min A wH ( щ ' ( t , u ), x ( t , u ), u ( t ), t ) < 0, w e U , t e T . (5)
i ∈ I
Условие, эквивалентное (5), можно представить в форме поточечного соотношения в пространстве управлений:
u ( t ) = arg max min A wH‘ (щ1 ( t , u ), x ( t , u ), u ( t ), t ), t e T . (6)
w ∈ U i ∈ I
Предположим, что известно множество I активных ограничений задачи (1)-(3).
Для решения соотношения (6) можно применить метод возмущений, основой которого является выделение невозмущенного условия, соответствующего некоторой невозмущенной задаче оптимального управления .
В качестве невозмущенной задачи оптимального управления выделяется линейная по состоянию часть исходной задачи (1)-(3) с разделенными переменными по состоянию и управлению (т. е. в невозмущенной задаче соответствующие функции f ( x , u , t ), щ(x ), F i ( x , u , t ), i = 0, r линейны по переменной x и разделены по переменным x и u ). Параметр возмущения £ e [0,1] вводится в задачу (1)-(3) так, чтобы при s = 0 получалась невозмущенная задача, а при s = 1 — исходная задача.
Возмущенная задача оптимального управления с параметром s e [0,1] представляется в виде
j (( a i ( t ), x ( t )^ + d i ( u ( t ), t ) + sF' i ( x ( t ), u ( t ), t )) dt < 0 , i = 1, r , Ф 0 ( u ) = cc 0 , x ( t 1 )) + ^ 0 ( x ( t 1 )) +
[ (( a 0 ( t ), x ( t )} + d 0 ( u ( t ), t ) + s F0(x ( t ), u ( t ), t )) dt ^ min . T u ∈ V
Невозмущенное условие оптимальности для соответствующей невозмущенной задачи оптимального управления (s = 0) принимает вид u (t) = argmaxmin( Щ 0 (t), b (w, t) - b (u (t), t)) - (d, (w, t) - d, (u (t), t))), (7) w∈U i∈I где щ0 (t), t e T, i e I — соответствующие решения невозмущенной сопряженной системы
щ ( t ) = - AT ( t ) щ ( t ) + a i ( t ), t e T , щ ( t 1 ) = - c , .
Для решения возмущенного условия при s e (0,1]
u(t) = argmaxmin(AWH'(^Е(t,u),хе(t,u),u(t),t), t e T w∈U i∈I применяется итерационный процесс uk+1(t) = argmaxmin(AH\ (^' (t, uk), xe (t, uk), uk+1(t), t), t e T, k > 0, (8) w∈U i∈I где на каждой итерации решается задача, по трудоемкости аналогичная невозмущенной (7). H‘e, ^' , хЕ — соответствующие возмущенной задаче оптимального управления функция Понтрягина и решения сопряженной и фазовой систем. В качестве начального допустимого приближения u0(t), t e T итерационного процесса (8) выбирается решение невозмущенного соотношения (7).
Трудоемкость метода в значительной мере зависит от трудоемкости решения вспомогательной задачи в каждый момент времени t∈ T min A wHE (p, х, u (t), t) ^ max, x e Rn, p e Rn. (9)
i ∈ I w ∈ U
В линейной по управлению задаче (1)-(3) (функции f(х,u,t), vi(х), Fi (х, u, t), i = 1, r линейны по u e U), в случае существования точки w e U , для которой min AwHE (p, х, u (t), t) > 0, решение задачи (9) дости-i∈I гается на границе множества U и совпадает с решением одной из задач линейного программирования
A w H ( p , х , u ( t ), t ) ^ max, х e Rn , p e R n , i e I . (10)
w ∈ U
Таким образом, решение задачи (9) можно определить простым перебором решений задач (10). Для множества U , заданного линейными ограничениями, решение задачи (9) можно получить перебором угловых точек множества U .
В случае max min AwHE (p, х, u (t), t) = 0 решением задачи (9) является w∈U i∈I точка w = u (t).
Таким образом, решение невозмущенного (7) и возмущенного (8) условий в случае линейности по управлению задачи (1)-(3) с множеством U в форме линейных ограничений сводится к проверке соотношений (7) и (8) подстановкой угловых точек множества U в каждый момент t e T .
Метод возмущений конструктивной формы условия оптимальности не гарантирует релаксацию по целевому функционалу и выполнение функциональных ограничений на каждой итерации в отличие от методов улучшения. Компенсацией этого свойства является отсутствие операции параметрического поиска улучшающей вариации управления с контролем выполнения терминальных ограничений задачи.
Множество активных ограничений при малом числе ограничений (1 или 2) для модельных постановок задач управления можно установить, целенаправленно исключая ограничения и решая соответствующие задачи, начиная с задачи без ограничений с последующим численным и каче- ственным анализом поведения исключенных ограничений в рамках конкретной управляемой модели. При таком переборе задач часто удается определить решение исходной задачи, решая задачу с меньшим числом ограничений по сравнению с исходной задачей.
Отметим, что в случае идентификации активных ограничений-неравенств задача (1)-(3) сводится к задаче с терминальными активными ограничениями-равенствами в смысле одинаковых множеств экстремальных управлений. Для решения последних задач можно использовать методы нелокального улучшения управления, разработанные в работах [11; 12].
2 Условие улучшения управления
Рассмотрим задачу поиска допустимого управления, удовлетворяющего условиям (1), (2). Эта задача представляет самостоятельный практический интерес, а также может рассматриваться в качестве вспомогательной задачи для поиска начального допустимого управления в задаче оптимального управления (1)-(3).
Для каждого i = 1, r введем модифицированную дифференциальноалгебраическую сопряженную систему, включающую дополнительную фазовую переменную y ( t ) = ( y 1 ( t ),..., y n ( t )) , в форме
p ( t ) = - H X ( Р ( t ). x ( t ). w ( t ). t ) - r ( t ) , (11)
(H X ( Р ( t X x ( t X w ( t X t ) + r ( t X У ( t ) - x ( t )} = A y ( t ) H ( Р ( t X x ( t X w ( t X t ) (12) с краевыми условиями
p ( t J = ~v a ( x ( t 1 )) - q , (13)
{v ( x ( t 1 )) + q , y ( t 1 ) - x ( t 1 )) = A y ( t1 ) v ( x ( t 1 )), (14) в которой по определению полагаем r ( t ) = 0, q = 0 в случае линейности функций v i , F i , f по x (линейная по состоянию задача (1)-(3)), а также в случае y ( t ) = x ( t ) при соответствующих t е T .
В линейной по состоянию задаче (1)-(3) модифицированная сопряженная система (11)-(14) в силу определения совпадает со стандартной сопряженной системой.
В нелинейной по состоянию задаче (1), (2) алгебраические уравнения (12) и (14) всегда можно аналитически разрешить относительно величин r ( t ) и q в виде явных или условных формул (возможно, не единственным образом).
Универсальным способом разрешения является следующее правило (на примере уравнения (12)).
Если существует k е {1,..., п}, для которого y k ( t ) ^ x k ( t ), то для i е {1,..., п } полагаем
r ( t ) = 0, i ^ k ,
А у ( t ) H ( Р ( t ) x ( t ) w ( t ) t ) dt - H x ( P ( t ) x ( t ) w ( t ) t ) + r ( t ) У ( t ) - x ( t )) r i ( t ) = -------------------------------------1---------------------------------------------------------- ,
У , ( t ) - x ( t )
i = k .
Если для всех к е {1,..., n} имеем yk ( t ) = xk ( t ), то в силу определения r ( t ) = 0.
Альтернативный простой способ явного разрешения можно применить в полиномиальной по состоянию задаче (1)-(3) (функции y i , F i , f являются полиномиальными по переменной x ) на основе формулы Тейлора для полинома. В частности, в квадратичной по состоянию задаче (1)-(3) получаем (на примере уравнения (12))
r ( t ) = 2 H x ( p ( t X x ( t X w ( t X t )( y ( t ) - x ( t )).
Таким образом, дифференциально-алгебраическую сопряженную систему (11)-(14) всегда можно свести (возможно, не единственным образом) к дифференциальной сопряженной системе с однозначно определенными величинами r ( t ) и q .
Для доступных управлений u е V , v е V обозначим p‘ ( t , u , v ), t е T — решение модифицированной сопряженной системы (11)-(14) при x ( t ) = x ( t , u ), y ( t ) = x ( t , v ), w ( t ) = u ( t ). Из определения следует очевидное равенство p1 ( t , v , v ) = у1 ( t , v ), t е T .
В работе [5] показано, что для рассматриваемых функционалов задачи на основе модифицированной сопряженной системы имеют место специальные формулы приращения функционалов для доступных управлений u е V , v е V , не содержащие остаточных членов разложений:
А v Ф 1 ( u ) = - / а v ( t ) H i ( P i ( t , u , v ), x ( t , v ), u ( t ), t ) dt , i = 1, r . (15)
T
Поставим задачу улучшения доступного управления u е V по функционалам (2): найти управление v е V с условием Ф i ( v ) <Ф i ( u ), i = 1, r .
Пусть управление v е V удовлетворяет соотношению:
v ( t ) = argmaxmin(Aw H1 ( p‘ ( t , u , v ), x ( t , v ), u ( t ), t )), t е T . (16)
w&U 1< i < r
Тогда получаем Av(t)H1 (p1 (t,u,v),x(t,v),u(t),t) > 0, t еT, i = 1,r. Отсю да и из формулы (15) следует, что AvФ1 (u) < 0, i = 1, r.
Таким образом, для заданного доступного управления u е V соотношение (16) можно рассматривать в качестве условия для поиска допустимого управления.
Для линейной по состоянию задачи (1)-(3) условие (16) принимает вид:
v ( t ) = argmaxmin(Aw H1 ( y i ( t , u ), x ( t , v ), u ( t ), t )), t е T . (17)
w&U 1< i < r
Введем отображение u∗ с помощью соотношения u * (x, t) = arg max min AHi (^i (t, u), x, u (t), t).
w^U 1< i < r w
Рассмотрим специальную задачу Коши:
x ( t ) = f ( x ( t ), u * ( x ( t), t), t ), x ( 1 0) = x °. (18)
Пусть x ( t ), t e T — решение задачи Коши (18). Сформируем выходное управление:
v ( t ) = u * ( x ( t ), t ) t e T .
Тогда имеем x ( t ) = x ( t , v ), t e T . Следовательно, управление v ( t ), t e T удовлетворяет условию (17).
Обратно, пусть управление v ( t ), t e T является решением уравнения (17). Тогда соответствующая этому управлению функция x ( t , v ), t e T очевидно удовлетворяет задаче Коши (18).
Таким образом, в линейной по состоянию задаче (1)-(3) решение уравнения (16) сводится к решению специальной задачи Коши (18).
В нелинейной по состоянию задаче (1)-(3) для реализации условия улучшения управления (16) можно применить метод возмущений, аналогичный рассмотренному в предыдущем разделе. Основу метода возмущений составляет выделение в задаче (1)-(3) линейной по состоянию задачи оптимального управления, для которой решение уравнения (16) сводится к решению задачи Коши.
Отметим, что трудоемкость решения задачи Коши (18) в значительной мере зависит от трудоемкости решения вспомогательной задачи в каждый момент времени t e T , аналогичной задаче (9).
Заключение
Проведенный анализ открывает новые возможности для эффективного применения метода возмущений в рамках задач оптимального управления с ограничениями, когда в качестве объектов параметризации предлагается использовать конструктивные необходимые условия оптимальности и улучшения управления.
Предложенные методы возмущений условий оптимальности и улучшения управления без принципиальных затруднений могут быть распространены на задачи параметрической оптимизации управляемых систем с терминальными ограничениями типа неравенств.
Список литературы Об одном подходе к решению задач оптимального управления с терминальными ограничениями
- Бертсекас Д. Условная оптимизация и методы множителей Лагранжа. Москва: Радио и связь, 1987. 399 с.
- Гольштейн Е. Г., Третьяков Н. В. Модифицированные функции Лагранжа. Москва: Наука, 1989. 400 с.
- Карманов В. Г. Математическое программирование. Москва: Наука, 1986. 285 с.
- Булдаев А. С. Методы возмущений в задачах улучшения и оптимизации управляемых систем. Улан-Удэ: Изд-во Бурят. гос. ун-та, 2008. 260 с.
- Булдаев А. С. Методы неподвижных точек на основе операций проектированияв задачах оптимизации управляющих функций и параметров динамических систем // Вестник Бурятского госуниверситета. Математика, информатика. 2017.№ 1. С. 38–54.
- Булдаев А. С., Хишектуева И.-Х. Д. Методы неподвижных точек в задачах оптимизации нелинейных систем по управляющим функциям и параметрам // Известия Иркутского государственного университета. Сер. Математика. 2017. Т. 19.С. 89–104.
- Срочко В. А. Итерационные методы решения задач оптимального управления. Москва: Физматлит, 2000. 160 с.
- Математическая теория оптимальных процессов / Л. С. Понтрягин, В. Г. Болтянский, Р. В. Гамкрелидзе, Е. Ф. Мищенко. Москва: Наука, 1976. 392 с.
- Методы решения задач математического программирования и оптимальногоуправления / Л. Т. Ащепков, Б. И. Белов, В. П. Булатов [и др.]. Новосибирск: Наука, 1984. 232 с.
- Срочко В. А., Хамидуллин Р. Г. Метод последовательных приближений взадачах оптимального управления с краевыми условиями // Журн. вычислит. математики и мат. физики. 1986. Т. 26, № 4. С. 508–520.
- Buldaev A. S., Burlakov I. D. On a method for finong extremal controls in systemswith constraints.Bulletin of Irkutsk State University. Series Mathematics. 2019; 30:16–30.
- Buldaev A. S., Trunin D. O. On a Method for Optimizing Controlled PolynomialSystems with Constraints.Mathematics. 2023; 11 (7): 1695.