Об одной процедуре нелокального улучшения управлений в квадратичных по состоянию системах с терминальными ограничениями

Бесплатный доступ

В статье предложен подход к нелокальному улучшению управлений в классе квадратичных по состоянию и линейных по управлению задач оптимального управления с частично закрепленным правым концом на основе решения системы функциональных уравнений в пространстве управлений, которая определяет условия нелокального улучшения управления. Для решения рассматриваемой системы применяется итерационный процесс, на каждой итерации которого решается скалярное уравнение. Процедура обеспечивает улучшение допустимого управления без процедуры варьирования с сохранением всех терминальных ограничений и используется для итерационного метода решения задачи с ограничениями. Сравнительная эффективность метода иллюстрируется на модельной задаче.

Еще

Задача оптимального управления, терминальные ограничения, условия улучшения управления, итерационный процесс

Короткий адрес: https://sciup.org/148308901

IDR: 148308901   |   DOI: 10.18101/2304-5728-2018-2-42-49

Текст научной статьи Об одной процедуре нелокального улучшения управлений в квадратичных по состоянию системах с терминальными ограничениями

В статье [6] к нелокальному улучшению управлений в квадратичных по состоянию задачах оптимального управления с частично закрепленным правым концом с выполнением всех терминальных ограничений предлагается подход возмущений, основанный на выделении линейной по состоянию части и параметризации нелинейной части с помощью параметра возмущения. В данной статье для нелокального улучшения допустимых управлений в рассматриваемом классе задач предлагается итерационная процедура для решения системы функциональных уравнений в пространстве управлений, определяющей условия нелокального улучшения.

1. Постановка задачи

Рассматривается класс задач оптимального управления с терминальными ограничениями, приводимых к квадратичной по состоянию и линейной по управлению задаче оптимального управления с одним терминальным ограничением x = A(x,t)u + b(x,t), t e T = [t0, tj ],(1)

x (t0) = x0,           u (t) e U,(2)

Ф(u) = Cc,x(tj)) ^ min,(3)

xi( tj) = xj1.

Здесь функции A ( x , t ) и b ( x , t ) квадратичны по x и непрерывны по t на R" х T , c e R" — заданный вектор, причем c 1 = 0, действительное число x j задано.

Под доступными управлениями в задаче (1)-(4) будем понимать кусочно-непрерывные на отрезке T функции со значениями в множестве U c R r

V = { u e PC ( T ): u ( t ) e U , t e T } .

Здесь U c Rr — компактное выпуклое множество.

Для доступного управления u e V обозначим x ( t , u ), t e T (соответствующая фазовая траектория) — решение начальной задачи (j), (2) при u = u ( t ).

Будем полагать, что каждому доступному управлению соответствует единственная фазовая траектория.

Под допустимыми управлениями будем понимать доступные управления, если выполнено терминальное ограничение (4)

W = { u e V : x j( t j, u ) = x /} .

В задаче (J)-(4) определим функцию Понтрягина

H ( p , x , u , t ) = H o ( p , x , t ) + ( H j ( p , x , t ), u) , где H o ( p , x , t ) = ( p , b ( x , t)\ H j ( p , x , t ) = A ( x , t ) T p .

Рассмотрим функционал Лагранжа в регулярном случае

L ( u , Я ) = ( c , x ( t j)) + Я ( x j( t j) - x j ) , Я e R .

В соответствии с [2] имеет место точная (не содержащая остаточных членов разложения) формула приращения функционала Лагранжа

AvL(u0, Я) = - f (Hj (p(t, u0, v, Я), x(t, v), t), v(t) - u0 (t)\ dt, T где (u0,v) — доступные управления, p(t,u°,v,Я) — решение модифицированной сопряженной системы p = - Hx(p,x,u, t)- 2 Hxx(p,x,u, t) y, Pj( tj) = -Я, p.(tj) = -ci, i = 2,", при u = u0(t), x = x(t, u0), y = x(t, v) - x(t, u0).

Для доступного управления и0 е V и фиксированного параметра проектирования a > 0 образуем аналогично [2] вектор-функцию ua (p,x,t) = PU (и0(t) + aH 1(p,x,t)), p е Rn, x еR", a > 0, где PU — оператор проектирования на множество U в евклидовой норме.

В статье [6] показано, что для нелокального улучшения допустимого управления и0 е W можно решить следующую краевую задачу x = A(x, t)ua (p,x, t) + b(x, t),        te T, p = -Hx (p, x(t, u0 X u0(tX t) - 1 Hxx (p, x(t, u°X u0 (tX t)(x - x(t, u0)X

2                                           (5)

x(to) = x0, x,(/,) = x/, p,(t 1) = -c, i = 2".

Легко видеть, что краевая задача (5) эквивалентна системе функциональных уравнений в пространстве управлений v (t) = ua (p (t, u0, v, Л), x (t, v), t), a > 0, t e T, Ле R, x,( t,, v) = x1.

Для решения системы функциональных уравнений (6) предлагается итерационный процесс на основе специальной процедуры решения эквивалентной краевой задачи (5).

P i ( t i ) = e , P.(t i ) = - c i , i = 2, n .

Обозначим через x M ( t ), t е T решение задачи Коши x = A ( x , t ) u a ( p " ( t ), x , t ) + b ( x , t ), t е T, x ( 1 0 ) = x 0 .

Тогда решение задачи (7) сводится к нахождению решения уравнения x e ( t ) = x i .                                   (8)

Пусть (xk+1(t), pk+1(t)), t е T — решение краевой задачи (7). Тогда pk+1( t) = p (t, u 0, vk, Ak), где ^ = -pk +i(ti).

Сформируем выходное управление vk+i(t) = ua (pk+i(t), xk+i(t), t), t е T.

Понятно, что xk + i( t ) = x ( t , vk + i), t е T .

Отсюда возникает итерационный процесс vk+i (t) = ua (p(t, u0, vk, л ■), x(t, vk+i), t), t е T xi( ti, vk+i) = x1.

Этот процесс рассматривается для реализации условия (6). В качестве начального приближения итерационного процесса (9) выбирается управление v 0 е V .

Сходимость итерационного процесса (9) можно обосновать с помощью подхода возмущений в аналогии с [2].

Итерационный процесс (9) продолжается до первого улучшения управления u 0 . Далее строится задача улучшения для полученного управления и процесс повторяется. Критерием остановки итераций улучшения управления является отсутствие улучшения управления по целевому функционалу.

3. Результаты расчетов

Рассматривается квадратичная по состоянию задача оптимального управления иммунным процессом. В безразмерной форме управляемая модель имеет вид [4]

■x 1 = h 1 x 1 - h 2 x 1 x 2 - ux 1 , t е T = [ 0, t 1 ] ,

;x 4 = h 6 x 1 - h 7 x 4 ,                               (10)

x i (0) = x 0 0, x 2 (0) = 1, x з (0) = 1, x 4 (0) = 0,

Фо(u) = xi(ti) ^min, t1

j x 4( t ) dt < m , m > 0.                        (ii)

Здесь х 1 = х 1 ( t ) — инфекционное начало (вирус), переменные х 2 = х 2 ( t ), х 3 = х 3 ( t ) характеризуют защитные силы организма, х 4 = х 4 ( t ) — степень поражения организма, h i >  0, i = 1,8 — заданные постоянные коэффициенты. Начальные условия имитируют ситуацию заражения организма малой начальной дозой вируса в начальный момент времени t = 0. Управляющее воздействие u ( t ), t е T характеризует интенсивность введения иммуноглобулинов. Управление u ( t ) = 0, t е T соответствует случаю отсутствия лечения; в этом случае модель описывает острое течение заболевания с выздоровлением.

Значения коэффициентов в рассматриваемом случае h 1 = 2, h 2 = 0.8, h 3 = 10 4 , h 4 = 0.17, h 5 = 0.5, h 6 = 10, h 7 = 0.12, h 8 = 8, m = 0.1.

Начальное значение x 10 задавалось равным 10-6.

В рассматриваемом случае единица времени соответствует одним суткам. Максимальное значение управляющего воздействия задавалось равным u max = 0.5. Отрезок времени T задавался равным 20 суткам: t 1 = 20.

Целью управления является минимизация концентрации вируса к концу лечения на заданном интервале времени при ограничении поражения организма с помощью введения иммуноглобулинов, нейтрализующих вирус.

Наличие ограничения (11) существенно при моделировании острой формы вирусного заболевания, когда последствиями поражения организма нельзя пренебрегать и одной из целей лечения ставится ограничение суммарной нагрузки поражения организма.

Интегральное условие (11) стандартным образом с помощью введения дополнительной переменной по правилу х5 = х4, х5 (0) = 0(12)

сводилось к терминальному условию.

В итоге рассматриваемая задача (10), (11) приводилась к квадратичной по состоянию задаче с ограничением вида х5(t1) < m, m > 0.(13)

В ходе вычислительных экспериментов была установлена активность функционального ограничения-неравенства (13) и рассматривалась задача оптимального управления с частично закрепленным правым концом

Ф1(u) = х5(t1) - m = 0, m > 0.(14)

К решению задачи (10), (12), (14) применялись метод нелокального улучшения (М2) с реализацией по правилу (7), (8) и метод штрафов (М1), состоящий в решении последовательности задач оптимального управления со свободным правым концом с целевым функционалом вида (штрафной функционал)

Ф ( u ) = Ф 0( u ) + Y s Ф 2 ( u ) ^ min,                  (15)

где параметр штрафа Y s >  0, s ^ 1.

Расчет вспомогательных задач (10), (12), (15) осуществлялся методом условного градиента [3]. Практическим критерием остановки расчета штрафной задачи при фиксированном значении параметра штрафа Y s >  0 являлось условие

| Ф ( u k +1 ) ( u k )| £ 1 ф ( u k )|,                    (16)

где к >  0 — номер внутренней итерации метода условного градиента, £ 1 = 10 - 5 .

При выполнении условия (16), если не выполнялось достижение заданной точности выполнения терминального ограничения

| x 5 ( t 1 , u k + 1) - m\ £ 2 ,                                  (17)

где £ 2 = 10 - 4, то происходил пересчет параметра штрафа y s >  0 по правилу

Y s + 1 = PY s .

Расчет новой штрафной задачи производился с полученного управления u k + 1 в качестве начального приближения для метода условного гра-диента.

Начальное значение параметра штрафа y 0 задавалось равным 10-10. Значение множителя в >  1 задавалось равным 10.

Окончательным критерием остановки расчета методом М1 являлось одновременное достижение условий (16) и (17).

В методе М2 расчет решения уравнения (8) осуществлялся с помощью стандартной процедуры пакета программ Фортран dumpol [1], реализующей метод деформируемого многогранника, с критерием (17) для достижения заданной точности выполнения терминального ограничения.

Практическим критерием остановки расчета задачи в методе М2 являлось условие

е ( u k + 1 ) 0 ( u k )| £ з ф с ( u k )|, где к >  0 — номер итерации, £ 3 = 10 - 5.

В качестве начального приближения в обоих методах выбиралось управление u ( t ) = 0, t е T .

Сравнительные результаты расчетов приводятся в таблице 1.

Таблица 1

Метод Ф0 1Ф N Примечание М1 2.686698×10-19 1.854861×10-5 464 10-6 М2 1.172261×10-20 1.534792×10-5 88 103 чивается заданная точность (17) выполнения терминального ограничения, для предлагаемого метода М2 — значение проекционного параметра а, обеспечивающего сходимость.

Расчетное управление в методах М1 и М2 с точностью до суток является кусочно-постоянной функцией с точкой переключения в момент t = 5 с максимального значения на минимальное и обратного переключения в момент t = 14.

В рамках примера предлагаемый подход позволяет достигнуть существенного снижения вычислительной трудоемкости по сравнению со стандартным штрафным методом.

Заключение

Предлагаемая процедура нелокального улучшения допустимых управлений в рассматриваемом классе задач характеризуется отсутствием процедуры варьирования в малой окрестности улучшаемого управления, характерной для локальных методов, а также точным выполнением терминальных ограничений. Указанные свойства обеспечивают повышенную эффективность предложенной процедуры в решении задач оптимального управления с функциональными ограничениями по сравнению со стандартными методами.

Список литературы Об одной процедуре нелокального улучшения управлений в квадратичных по состоянию системах с терминальными ограничениями

  • Бартеньев О.В. Фортран для профессионалов. Математическая библиотека IMSL. М.: Диалог-МИФИ, 2001. Ч. 2. 320 с.
  • Булдаев А.С. Методы возмущений в задачах улучшения и оптимизации управляемых систем. Улан-Удэ: Изд-во Бурят, гос. ун-та, 2008. 260 с.
  • Васильев О.В. Лекции по методам оптимизации. Иркутск: Изд-во Иркут. гос. ун-та, 1994. 340 с.
  • Марчук Г.И. Математические модели в иммунологии. Вычислительные методы и алгоритмы. М.: Наука, 1991. 304 с.
  • Самарский А.А., Гулин А.В. Численные методы. М.: Наука, 1989. 432 с.
  • Трунин Д.О. Об одном подходе к нелокальному улучшению управлений в квадратичных по состоянию системах с терминальными ограничениями // Вестник Бурятского государственного университета. Математика, информатика. 2017. № 2. С. 40-45. DOI: 10.18101/2304-5728-2017-2-40-45
Статья научная