Эвристический алгоритм для одной нелинейной задачи оптимального управления
Автор: Расина И.В., Гусева И.С.
Журнал: Программные системы: теория и приложения @programmnye-sistemy
Рубрика: Методы оптимизации и теория управления
Статья в выпуске: 4 (63) т.15, 2024 года.
Бесплатный доступ
Рассматривается задача оптимального управления для одного из вариантов квазилинейной системы. Для ее решения используется идея профессора В. И. Гурмана, предложившего сочетать два варианта принципа расширения. Один из них, традиционный подход Кротова, а второй - метод штрафных функций. Выбранный класс систем позволяет провести аналитическое исследование лагранжиана Кротова, что в свою очередь приводит к формулировке алгоритма. Полученный алгоритм апробирован на двух иллюстративных примерах, для которых построены минимизирующие последовательности. Трудоемкость расчетов сопоставима с методами, основанными на традиционном принципе расширения. Результаты расчетов проиллюстрированы таблицами и графиками.
Достаточные условия оптимальности кротова, принцип расширения, квазилинейные системы
Короткий адрес: https://sciup.org/143183637
IDR: 143183637 | DOI: 10.25209/2079-3316-2024-15-4-43-54
Текст научной статьи Эвристический алгоритм для одной нелинейной задачи оптимального управления
В самом общем виде задача оптимизации может быть сформулирована следующим образом. Пусть имеется некоторое множество D c элементами
Y-4.0
z , которые будем называть допустимыми. На этом множестве задан функционал I (z). Требуется найти последовательность элементов z s из D , на которой функционал I(z) стремится к своей нижней грани на D , т.е. I(z s ) ^ inf I,z G D . Другими словами, речь идёт о поиске минимизирующей последовательности. Саму задачу для краткости будем обозначать (I, D ). При конкретизации каждой составляющей этой задачи будет получаться определенный класс задач оптимизации, такой как линейное или нелинейное программирование, оптимальное управление непрерывными или дискретными системами и т.д.
Существуют самые разнообразные подходы к решению конкретной задачи (I, D ). Одним из таких подходов является принцип расширения. Его суть состоит в переходе от исходной задачи к эквивалентной (L, E ), где функционал L есть модификация функционала I , определённая на более широком множестве E , включающем в себя D . Идея принципа расширения и первая его реализация принадлежит Лагранжу при решении задачи на условный экстремум. В роли функционала I фигурировала функция многих переменных, а в роли множества D — система равенств, состоящая из функций многих переменных. Минимизирующая последовательность должна была состоять из элементов, удовлетворяющих этой системе равенств. Лагранж предложил заменить исходную функцию некой конструкцией L , включающей в себя дополнительные слагаемые. Каждое из них представляло собой произведение одного из равенств на некоторый множитель. Тогда множество E совпадало с областью определения заданной функции, и на исходном множестве I и L совпадали. Конструкция L в дальнейшем получила название функции Лагранжа, а дополнительные множители стали множителями Лагранжа [1] .
Эта идея была реализована В. Ф. Кротовым для задач оптимального управления непрерывными и дискретными системами [2] . Как и у Лагранжа, производилось преобразование исходного функционала с помощью дополнительных конструкций, учитывающих ограничения на переменные состояния и управления. Вместо множителей Лагранжа фигурировала уже некая функция (функция Кротова). Позднее этот результат был распространен на дискретно-непрерывные системы и неоднородные дискретные системы [3 , 4] . Все указанные преобразования задачи (I, D ) к задаче (L, E ) производились по алгоритму предложенному В. Ф. Кротовым. Однако позднее В. И. Гурман высказал идею иного преобразования I в L по аналогии с методом штрафов и реализовал её на простом примере [5] .
В данной работе схема, предложенная в [5], использована для класса квазилинейных систем. Изложена методика преобразования, получаемый при этом алгоритм и иллюстративный пример. Для рассматриваемой в статье задачи далее используется эвристический прием аналогичный подходу SDRE [6].
Ниже рассматривается комбинация двух вариантов принципа расширения: сочетание расширения, предложенного Кротовым с расширением с использованием штрафных функций. Изложенный подход успешно реализуем для частных случаев управляемых систем: систем, близких к линейным, билинейных, линейно-квадратических с управляемыми коэффициентами и т.д., где возможны аналитические преобразования лагранжиана Кротова. Непосредственно в работе рассматриваются квазилинейные системы. В самом общем случае схема становится слишком громоздкой, трудно реализуемой и малоэффективной.
1. Постановка задачи
Будем рассматривать следующую задачу оптимального управления:
dx
X = Ui = A(x, ^x + B(x, e)u, t e T = [ti, tF], где A, B — матрицы размеров n x n, n x r соответственно,
x(t) e R n , u(t) g R r ,
£ — параметр, e G (0,1]. Для модели (1) ставится задача о поиске минимума на D функционала
1 1
(2) I =- X T Q(x,e)x + u T S (x^u^dt + Nxf + xF^ Лx F
T при начальном состоянии x(ti) = x0. Здесь Q,S — заданные матрицы размера n x n, r x r соответственно, Q > 0, S > 0, Л — симметрическая, положительно определенная матрица размера n x n, N — вектор размера n.
2. Преобразование задачи и поиск решения
Преобразуем задачу, используя вариант расширения класса допустимых, предложенный В. И. Гурманом в [5] , при этом будем предполагать, что все объекты обладают необходимыми для преобразований свойствами. Всё дальнейшее исследование проводится в предположении, что матрицы A , B , Q , S не зависят от x , что и определяет эвристический характер получаемого алгоритма.
Введём в рассмотрение ещё одно уравнение x = v, где v можно рассматривать как новое неограниченное управление. С учётом этого функционал представим в виде:
L a = a J (v — A(x, e)x — B(x, e^uf (v — A(x, e)x — B(x, e)u)dt+ T
1 1
.
+ (1 — a) I - (xTQ(x, e)x + u T S(x, e)u)dt + Nxf + -x T ^xf
T
Здесь a — весовой коэффициент, a G [0,1], а первое подынтегральное выражение — штраф за невыполнение уравнения связи. Следует заметить, что при α стремящемся к нулю все компоненты вектора v стремятся в бесконечность, т. е. по сути выполняют роль штрафных функций.
Воспользуемся далее конструкциями достаточных условий оптимальности Кротова [2] . Лагранжиан Кротова с использованием конструкций достаточных условий оптимальности этого же автора имеет вид:
L a = G - У R a dt,
T где
G = (1 — a)F (t F ,x F )+ ф(t F ,x F ) — ф(t I ,x I ), x F = x(t F ), x I = x(t I ),
R a = фТv — a(v — A(x, e)x — B(x, e)u)T(v — A(x, e)x — B(x, e)u) —
-
— -(1 — a)(x T Q(x, e)x + u T S(x, e)u) + ф t .
Здесь ф(t,x) — функция Кротова; F(t F ,xf ) = Nxf + 2 x T ^xf . Заметим, что максимум функции R a равен либо нулю, либо const и она зависит от управления v квадратичным образом, найдём её максимум по этой переменной. Имеем:
R av ф х
v =
— 2a(v — A(x, e)x — B(x, e)u) = 0.
Откуда
— фх + A(x, e)x + B (x, e)u.
Подставим найденное выражение для v в функцию R α и выполним необходимые преобразования, обозначим результат как P α .
P a = ф x (A(x,e)x + B(x,e)u) + ^^ (ф х ) 2 —
-
— -(1 — a)(x T Q(x, e)x + u T S(x, e)u) + ф t = const.
В свою очередь, полученная конструкция зависит от управления u также квадратичным образом. Из необходимых условий экстремума следует, что управление, доставляющее максимум функции Pα , имеет вид:
-
(3) u1— S -1 B T ф х .
1 — a
Подставив это выражение в функцию P α и выполнив необходимые преобразования, будем иметь:
M a = Pa( u ) = A T ф х Х + XT-1 Tфх BS 1 B T ф х + 2(1 — a )
+ 4a (ф х ) — ^(l — a)x T Qx + Фt = const.
Зададим функцию ф(t,x) в виде ф(t,x) = ф т (t)x + 2 xTa(t)x , где ф — вектор размера n, а a — симметрическая матрица размера n х n.
С учётом этого,
(ф т BS I B ф+
M a = A T фх + |xT aAx + Xta A t ax + Щф~ —у
+ф т BS 1 B T ax + xTaBS 1 B T ф + xTaBS 1 B T ax') +
+ 7~ ф Т ф + ф Т 4 a
ax + xT aф + xT aEax
— -(1 — a)x T Qx + ф т x + x T 1 ax = const .
Потребуем теперь, чтобы последнее выражение не зависело от состояния процесса. В итоге получим уравнения для нахождения вектора ψ и матрицы σ . Итак,
-
(4) ф = —AT ф — -1—Афт BS-1BT a + aBS-BT ф) —
2(1 — a )
— 4a ( фТ a + aф ) ,
a = —aA — AT a —
2a(1 — a)
a(2aBS -1 B T +
+ (1 — a^E^a + (1 — a)Q.
Значения ф(tF) = —(1 — a)N, a(tF) = —(1 — a)Л. Следует заметить, что для матрицы σ получено дифференциальное уравнение типа Риккати. С учётом полученных для ψ и σ уравнений, выражение для Mα принимает вид:
M a = —--- т ф т (2aBS -1 B T + (1 — a)E )ф. 4 a (1 — a )
В последнем выражении от параметра ε зависят матрицы B и S - 1 Максимум этого выражения даст новое значение параметра.
Для поиска параметра ε может быть использован градиентный метод и его разнообразные модификации. В частных случаях возможно аналитическое исследование выражения M α и получение формулы для нового значения параметра.
3. Алгоритм
-
(1 ) Задаются начальное управление u I и значение параметра е 1 .
-
(2) Решается исходная система уравнений (1) , в результате находится траектория x I .
-
(3 ) Справа налево интегрируется система (4) для вектора * и система
-
(5) для матрицы σ.
(4) Находится новое управление и по формуле (3) и параметр е.
(5) Переход к пункту 2.
4. Пример 1
Критерий окончания расчётов: разность между значениями функционала на соседних итерациях меньше заранее заданной точности вычислений.
Рассмотрим следующую задачу:
X = ( ех ) 2 —
Здесь A = е 2 х, B = формулы алгоритма
и, x(0) = 1, I = - У Е 2 (х 2 + xu2)dt + x(1).
—Ел/x, Q = е 2 , S = е 2 х, N =1, Л = 0. Основные
имеют вид:
и = 7-----7-- 7= (а — 1)е/х
(* + ах),
* = —ЕХ* -
а = — 2е 2 х^
1 + а 2а(1 — а) 1 + а
ψσ,
*(1) = а - 1,
2а(1 — а)
а2 + (1 — а)Е 2 ,
^(1) = 0,
" а = 74+4 *2.
4а(1 — а)
На начальной итерации е 1 = 1, u I = 2.
В таблице 1 представлено изменение функционала по итерациям при различных значениях параметра α.
На решение примера потребовалось 6 итераций. При этом значение функционала с 1 0 = 1.1044 уменьшилось до 1 6 = 0.8590; 0.5366; 0.5020 при
Таблица 1. Изменение значений функционала при различных значениях а по итерациям, R k = | I k — I k-1 |
1,2

— Начальное состояние x(t)
---Состояние x(t) последней итерации

0 0,2 0,4 0,6 0,8 1
---Начальное управление u(t)
---Управление u(t) последней итерации
Рисунок 1. Графики состояния x(t) и управляющего воздей ствия u(t) по итерациям при а = 0.6
5. Пример 2
Рассмотрим следующую задачу:
x = (ex)2 — e sin(x)u, x(0) = 0.5,
I = - У e 2 (x 2 ^x + (xu) 2 )dt — x(1).
Здесь A = e2x , B = —e sinx, Q = e2^x , S = (ex) 2 , N = —1, Л = 0.
Основные формулы алгоритма имеют вид:
u =
sin x
(a — 1)ex 2
(ф + ax),
; .2 / ф = —exф —
sin 2 x 1
I. (T—^? + 2a) фа
a = —2e 2 xa —
sin 2 x
(1 — a)x 2
+
л
2a
a 2 + (1 — a)e2^x,
ф (1) = 1 — a,
a (1) = 0 ,
1 sin 2 x
M a = 40(1—0) 2' +1 — “И
На начальной итерации e I = 0.7, u I = —0.5. В таблице 2 обозначим
R k = | i k — i k-1 |. в этой таблице представлено изменение функционала
Таблица 2. Изменение значений функционала по итерациям при различных значениях α
Заметим, что минимум функционала в обоих примерах существенно зависит от выбора весового коэффициента α .

0,2
0 0,2 0,4 0,6 0,8 1
---Начальное состояние x(t)
---Состояние x(t) последней итерации

---Начальное управление u(t)
---Управление u(t) последней итерации
Рисунок 2. Графики состояния x(t) и управляющего воздействия u(t) по итерациям при а = 0.4
Заключение
На классе квазилинейных систем рассмотрен еще один вариант реализации принципа расширения, предложенный В. И. Гурманом в [5] , сочетающий традиционный подход Кротова [2] и идею использования штрафных функций [1] . Полученный алгоритм апробирован на двух иллюстративных примерах. В результате расчетов построены минимизирующие последовательности. Его трудоемкость по количеству итераций практически не отличается от алгоритма, основанного на традиционном варианте принципа расширения [7] , что подтверждает его работоспособность. Область его применения отмечена во введении.
Список литературы Эвристический алгоритм для одной нелинейной задачи оптимального управления
- Фихтенгольц Г. М.. Курс дифференциального и интегрального исчисления, Лань, СПб, 2024, 608 с.
- Кротов В. Ф., Гурман В. И.. Методы и задачи оптимального управления, Наука, М., 1973, 448 с.
- Гурман В. И.. «К теории оптимальных дискретных процессов», Автоматика и телемеханика, 1973, №7, с. 53-58.
- Расина И. В.. Иерархические модели управления системами неоднородной структуры, Физматлит, М., 2014, 160 с.
- Гурман В. И., Расина И. В., Гусева И. С., Фесько О. В.. «Методы приближенного решения задач оптимального управления», Программные системы: теория и приложения, 6:4(27) (2015), с. 113-137.
- Çimen T.. “Systematic and effective design of nonlinear feedback controllers via the state-dependent Riccati equation (SDRE) method”, Annu. Rev. Control., 34:1 (2010), pp. 32-51. DOI: 10.1016/j.arcontrol.2010.03.001
- Расина И. В., Гусева И. С.. «Об одном классе дискретно-непрерывных систем с параметрами», Программные системы: теория и приложения, 14:1(56) (2023), с. 125-148. DOI: 10.25209/2079-3316-2023-14-1-125-148 EDN: VOTXXD