Об одной процедуре нелокального улучшения управлений в квадратичных по состоянию системах с терминальными ограничениями
Автор: Трунин Дмитрий Олегович
Журнал: Вестник Бурятского государственного университета. Математика, информатика @vestnik-bsu-maths
Рубрика: Управляемые системы и методы оптимизации
Статья в выпуске: 2, 2018 года.
Бесплатный доступ
В статье предложен подход к нелокальному улучшению управлений в классе квадратичных по состоянию и линейных по управлению задач оптимального управления с частично закрепленным правым концом на основе решения системы функциональных уравнений в пространстве управлений, которая определяет условия нелокального улучшения управления. Для решения рассматриваемой системы применяется итерационный процесс, на каждой итерации которого решается скалярное уравнение. Процедура обеспечивает улучшение допустимого управления без процедуры варьирования с сохранением всех терминальных ограничений и используется для итерационного метода решения задачи с ограничениями. Сравнительная эффективность метода иллюстрируется на модельной задаче.
Задача оптимального управления, терминальные ограничения, условия улучшения управления, итерационный процесс
Короткий адрес: https://sciup.org/148308901
IDR: 148308901 | DOI: 10.18101/2304-5728-2018-2-42-49
Текст научной статьи Об одной процедуре нелокального улучшения управлений в квадратичных по состоянию системах с терминальными ограничениями
В статье [6] к нелокальному улучшению управлений в квадратичных по состоянию задачах оптимального управления с частично закрепленным правым концом с выполнением всех терминальных ограничений предлагается подход возмущений, основанный на выделении линейной по состоянию части и параметризации нелинейной части с помощью параметра возмущения. В данной статье для нелокального улучшения допустимых управлений в рассматриваемом классе задач предлагается итерационная процедура для решения системы функциональных уравнений в пространстве управлений, определяющей условия нелокального улучшения.
1. Постановка задачи
Рассматривается класс задач оптимального управления с терминальными ограничениями, приводимых к квадратичной по состоянию и линейной по управлению задаче оптимального управления с одним терминальным ограничением x = A(x,t)u + b(x,t), t e T = [t0, tj ],(1)
x (t0) = x0, u (t) e U,(2)
Ф(u) = Cc,x(tj)) ^ min,(3)
xi( tj) = xj1.
Здесь функции A ( x , t ) и b ( x , t ) квадратичны по x и непрерывны по t на R" х T , c e R" — заданный вектор, причем c 1 = 0, действительное число x j задано.
Под доступными управлениями в задаче (1)-(4) будем понимать кусочно-непрерывные на отрезке T функции со значениями в множестве U c R r
V = { u e PC ( T ): u ( t ) e U , t e T } .
Здесь U c Rr — компактное выпуклое множество.
Для доступного управления u e V обозначим x ( t , u ), t e T (соответствующая фазовая траектория) — решение начальной задачи (j), (2) при u = u ( t ).
Будем полагать, что каждому доступному управлению соответствует единственная фазовая траектория.
Под допустимыми управлениями будем понимать доступные управления, если выполнено терминальное ограничение (4)
W = { u e V : x j( t j, u ) = x /} .
В задаче (J)-(4) определим функцию Понтрягина
H ( p , x , u , t ) = H o ( p , x , t ) + ( H j ( p , x , t ), u) , где H o ( p , x , t ) = ( p , b ( x , t)\ H j ( p , x , t ) = A ( x , t ) T p .
Рассмотрим функционал Лагранжа в регулярном случае
L ( u , Я ) = ( c , x ( t j)) + Я ( x j( t j) - x j ) , Я e R .
В соответствии с [2] имеет место точная (не содержащая остаточных членов разложения) формула приращения функционала Лагранжа
AvL(u0, Я) = - f (Hj (p(t, u0, v, Я), x(t, v), t), v(t) - u0 (t)\ dt, T где (u0,v) — доступные управления, p(t,u°,v,Я) — решение модифицированной сопряженной системы p = - Hx(p,x,u, t)- 2 Hxx(p,x,u, t) y, Pj( tj) = -Я, p.(tj) = -ci, i = 2,", при u = u0(t), x = x(t, u0), y = x(t, v) - x(t, u0).
Для доступного управления и0 е V и фиксированного параметра проектирования a > 0 образуем аналогично [2] вектор-функцию ua (p,x,t) = PU (и0(t) + aH 1(p,x,t)), p е Rn, x еR", a > 0, где PU — оператор проектирования на множество U в евклидовой норме.
В статье [6] показано, что для нелокального улучшения допустимого управления и0 е W можно решить следующую краевую задачу x = A(x, t)ua (p,x, t) + b(x, t), te T, p = -Hx (p, x(t, u0 X u0(tX t) - 1 Hxx (p, x(t, u°X u0 (tX t)(x - x(t, u0)X
2 (5)
x(to) = x0, x,(/,) = x/, p,(t 1) = -c, i = 2".
Легко видеть, что краевая задача (5) эквивалентна системе функциональных уравнений в пространстве управлений v (t) = ua (p (t, u0, v, Л), x (t, v), t), a > 0, t e T, Ле R, x,( t,, v) = x1.
Для решения системы функциональных уравнений (6) предлагается итерационный процесс на основе специальной процедуры решения эквивалентной краевой задачи (5).
P i ( t i ) = e , P.(t i ) = - c i , i = 2, n .
Обозначим через x M ( t ), t е T решение задачи Коши x = A ( x , t ) u a ( p " ( t ), x , t ) + b ( x , t ), t е T, x ( 1 0 ) = x 0 .
Тогда решение задачи (7) сводится к нахождению решения уравнения x e ( t ) = x i . (8)
Пусть (xk+1(t), pk+1(t)), t е T — решение краевой задачи (7). Тогда pk+1( t) = p (t, u 0, vk, Ak), где ^ = -pk +i(ti).
Сформируем выходное управление vk+i(t) = ua (pk+i(t), xk+i(t), t), t е T.
Понятно, что xk + i( t ) = x ( t , vk + i), t е T .
Отсюда возникает итерационный процесс vk+i (t) = ua (p(t, u0, vk, л ■), x(t, vk+i), t), t е T xi( ti, vk+i) = x1.
Этот процесс рассматривается для реализации условия (6). В качестве начального приближения итерационного процесса (9) выбирается управление v 0 е V .
Сходимость итерационного процесса (9) можно обосновать с помощью подхода возмущений в аналогии с [2].
Итерационный процесс (9) продолжается до первого улучшения управления u 0 . Далее строится задача улучшения для полученного управления и процесс повторяется. Критерием остановки итераций улучшения управления является отсутствие улучшения управления по целевому функционалу.
3. Результаты расчетов
Рассматривается квадратичная по состоянию задача оптимального управления иммунным процессом. В безразмерной форме управляемая модель имеет вид [4]
■x 1 = h 1 x 1 - h 2 x 1 x 2 - ux 1 , t е T = [ 0, t 1 ] ,
;x 4 = h 6 x 1 - h 7 x 4 , (10)
x i (0) = x 0 > 0, x 2 (0) = 1, x з (0) = 1, x 4 (0) = 0,
Фо(u) = xi(ti) ^min, t1
j x 4( t ) dt < m , m > 0. (ii)
Здесь х 1 = х 1 ( t ) — инфекционное начало (вирус), переменные х 2 = х 2 ( t ), х 3 = х 3 ( t ) характеризуют защитные силы организма, х 4 = х 4 ( t ) — степень поражения организма, h i > 0, i = 1,8 — заданные постоянные коэффициенты. Начальные условия имитируют ситуацию заражения организма малой начальной дозой вируса в начальный момент времени t = 0. Управляющее воздействие u ( t ), t е T характеризует интенсивность введения иммуноглобулинов. Управление u ( t ) = 0, t е T соответствует случаю отсутствия лечения; в этом случае модель описывает острое течение заболевания с выздоровлением.
Значения коэффициентов в рассматриваемом случае h 1 = 2, h 2 = 0.8, h 3 = 10 4 , h 4 = 0.17, h 5 = 0.5, h 6 = 10, h 7 = 0.12, h 8 = 8, m = 0.1.
Начальное значение x 10 задавалось равным 10-6.
В рассматриваемом случае единица времени соответствует одним суткам. Максимальное значение управляющего воздействия задавалось равным u max = 0.5. Отрезок времени T задавался равным 20 суткам: t 1 = 20.
Целью управления является минимизация концентрации вируса к концу лечения на заданном интервале времени при ограничении поражения организма с помощью введения иммуноглобулинов, нейтрализующих вирус.
Наличие ограничения (11) существенно при моделировании острой формы вирусного заболевания, когда последствиями поражения организма нельзя пренебрегать и одной из целей лечения ставится ограничение суммарной нагрузки поражения организма.
Интегральное условие (11) стандартным образом с помощью введения дополнительной переменной по правилу х5 = х4, х5 (0) = 0(12)
сводилось к терминальному условию.
В итоге рассматриваемая задача (10), (11) приводилась к квадратичной по состоянию задаче с ограничением вида х5(t1) < m, m > 0.(13)
В ходе вычислительных экспериментов была установлена активность функционального ограничения-неравенства (13) и рассматривалась задача оптимального управления с частично закрепленным правым концом
Ф1(u) = х5(t1) - m = 0, m > 0.(14)
К решению задачи (10), (12), (14) применялись метод нелокального улучшения (М2) с реализацией по правилу (7), (8) и метод штрафов (М1), состоящий в решении последовательности задач оптимального управления со свободным правым концом с целевым функционалом вида (штрафной функционал)
Ф ( u ) = Ф 0( u ) + Y s Ф 2 ( u ) ^ min, (15)
где параметр штрафа Y s > 0, s ^ 1.
Расчет вспомогательных задач (10), (12), (15) осуществлялся методом условного градиента [3]. Практическим критерием остановки расчета штрафной задачи при фиксированном значении параметра штрафа Y s > 0 являлось условие
| Ф ( u k +1 ) -Ф ( u k )| < £ 1 ф ( u k )|, (16)
где к > 0 — номер внутренней итерации метода условного градиента, £ 1 = 10 - 5 .
При выполнении условия (16), если не выполнялось достижение заданной точности выполнения терминального ограничения
| x 5 ( t 1 , u k + 1) - m\ < £ 2 , (17)
где £ 2 = 10 - 4, то происходил пересчет параметра штрафа y s > 0 по правилу
Y s + 1 = PY s .
Расчет новой штрафной задачи производился с полученного управления u k + 1 в качестве начального приближения для метода условного гра-диента.
Начальное значение параметра штрафа y 0 задавалось равным 10-10. Значение множителя в > 1 задавалось равным 10.
Окончательным критерием остановки расчета методом М1 являлось одновременное достижение условий (16) и (17).
В методе М2 расчет решения уравнения (8) осуществлялся с помощью стандартной процедуры пакета программ Фортран dumpol [1], реализующей метод деформируемого многогранника, с критерием (17) для достижения заданной точности выполнения терминального ограничения.
Практическим критерием остановки расчета задачи в методе М2 являлось условие
|Ф е ( u k + 1 ) -Ф 0 ( u k )| < £ з ф с ( u k )|, где к > 0 — номер итерации, £ 3 = 10 - 5.
В качестве начального приближения в обоих методах выбиралось управление u ( t ) = 0, t е T .
Сравнительные результаты расчетов приводятся в таблице 1.
Таблица 1
Расчетное управление в методах М1 и М2 с точностью до суток является кусочно-постоянной функцией с точкой переключения в момент t = 5 с максимального значения на минимальное и обратного переключения в момент t = 14.
В рамках примера предлагаемый подход позволяет достигнуть существенного снижения вычислительной трудоемкости по сравнению со стандартным штрафным методом.
Заключение
Предлагаемая процедура нелокального улучшения допустимых управлений в рассматриваемом классе задач характеризуется отсутствием процедуры варьирования в малой окрестности улучшаемого управления, характерной для локальных методов, а также точным выполнением терминальных ограничений. Указанные свойства обеспечивают повышенную эффективность предложенной процедуры в решении задач оптимального управления с функциональными ограничениями по сравнению со стандартными методами.
Список литературы Об одной процедуре нелокального улучшения управлений в квадратичных по состоянию системах с терминальными ограничениями
- Бартеньев О.В. Фортран для профессионалов. Математическая библиотека IMSL. М.: Диалог-МИФИ, 2001. Ч. 2. 320 с.
- Булдаев А.С. Методы возмущений в задачах улучшения и оптимизации управляемых систем. Улан-Удэ: Изд-во Бурят, гос. ун-та, 2008. 260 с.
- Васильев О.В. Лекции по методам оптимизации. Иркутск: Изд-во Иркут. гос. ун-та, 1994. 340 с.
- Марчук Г.И. Математические модели в иммунологии. Вычислительные методы и алгоритмы. М.: Наука, 1991. 304 с.
- Самарский А.А., Гулин А.В. Численные методы. М.: Наука, 1989. 432 с.
- Трунин Д.О. Об одном подходе к нелокальному улучшению управлений в квадратичных по состоянию системах с терминальными ограничениями // Вестник Бурятского государственного университета. Математика, информатика. 2017. № 2. С. 40-45. DOI: 10.18101/2304-5728-2017-2-40-45