Алгоритм робастного управления одномерным динамическим объектом на основе табличного Q-метода обучения с подкреплением
Автор: Михаил Юрьевич Медведев, Вячеслав Хасанович Пшихопов, Игорь Дмитриевич Евдокимов
Журнал: Информатика и автоматизация (Труды СПИИРАН) @ia-spcras
Рубрика: Робототехника, автоматизация и системы управления
Статья в выпуске: Том 24 № 3, 2025 года.
Бесплатный доступ
В статье представлен обзор в области систем управления динамическими объектами на базе методов машинного обучения с подкреплением. На основе проведенного анализа сделан вывод о актуальности развития методов управления, базирующихся на обучении с подкреплением. В статье предлагается интеллектуальный алгоритм робастного управления устойчивыми динамическими объектами с одним входом и одним выходом, базирующийся на табличном Q-методе обучения нулевого порядка. Алгоритм осуществляет стабилизацию выходной величины объекта управления с заданной погрешностью, если параметры и внешние возмущения объекта являются кусочно-постоянными неизвестными величинами, а вектор состояния является измеряемым. Новизна предложенного алгоритма заключается в новом инкрементальном способе формирования управления, который позволяет, базируясь на множестве из трех возможных действий, стабилизировать объект управления. Предложенный способ формирования множества управляющих воздействий позволяет обеспечить требуемую точность стабилизации выхода объекта, изменяя амплитуду приращения управления. Также элементом новизны является предложенное выражения для расчета вознаграждения, которое позволяет ограничить изменения управления. Предлагаемый алгоритм обладает высокой вычислительной эффективностью. После обучения вычисление управления сводится к вычислению индексов по результатам измерения, чтению данных из памяти по вычисленным индексам и нахождению максимального значения в векторе небольшой размерности. В работе исследованы условия сходимости алгоритма обучения и ограниченности ошибки управления. Разработанный алгоритм демонстрируется на примере синтеза робастного управления двигателем постоянного тока с независимым возбуждением. В ходе численного моделирования исследуется качество замкнутой системы при изменении параметров и задающего воздействия. Анализ результатов позволяет сделать выводы об эффективности синтезированного алгоритма. В статье приводятся результаты экспериментов, которые демонстрируют техническую реализуемость полученного алгоритма. Данный вопрос является важным, так как анализ источников показывает практически полное отсутствие технической реализации систем управления динамическими объектами, синтезированными с использованием методов обучения с подкреплением.
Робастное управление, обучение с подкреплением, Q-алгоритм обучения, динамические объекты, неопределенные параметры, сходимость алгоритма обучения
Короткий адрес: https://sciup.org/14132958
IDR: 14132958 | DOI: 10.15622/ia.24.3.1