Скрытый смысл: декодировка роевого поведения роботов с помощью глубокого обратного обучения с подкреплением

Автор: Алаа Искандар, Али Хаммуд, Бела Ковач

Журнал: Информатика и автоматизация (Труды СПИИРАН).

Рубрика: Робототехника, автоматизация и системы управления

Статья в выпуске: Том 23 № 5, 2024 года.

Бесплатный доступ

Использование обучения с подкреплением для создания коллективного поведения роевых роботов является распространенным подходом. Тем не менее, формулирование соответствующей функции вознаграждения, которая соответствовала бы конкретным целям, остается серьезной проблемой, особенно по мере увеличения сложности задач. В этой статье мы разрабатываем модель глубокого обратного обучения с подкреплением, чтобы раскрыть структуры вознаграждения, которые помогают автономным роботам выполнять задачи посредством демонстраций. Модели глубокого обратного обучения с подкреплением особенно хорошо подходят для сложных и динамичных сред, где может быть сложно указать заранее определенные функции вознаграждения. Наша модель может генерировать различное коллективное поведение в соответствии с требуемыми целями и эффективно справляется с непрерывными пространствами состояний и действий, обеспечивая детальное восстановление структур вознаграждения. Мы протестировали модель с помощью роботов E-puck в симуляторе Webots для решения двух задач: поиска рассредоточенных коробок и навигации к заданной позиции. Получение вознаграждения зависит от демонстраций, собранных интеллектуальным предварительно обученным роем, использующим обучение с подкреплением в качестве эксперта. Результаты показывают успешное получение вознаграждения как в сегментированной, так и в непрерывной демонстрации двух типов поведения — поиска и навигации. Наблюдая за изученным поведением роя экспертом и предложенной моделью, можно заметить, что модель не просто клонирует поведение эксперта, но генерирует свои собственные стратегии для достижения целей системы.

Еще

Обратное обучение с подкреплением, функция вознаграждения, демонстрации, поисковое поведение, навигационное поведение

Короткий адрес: https://sciup.org/14130338

IDR: 14130338   |   DOI: 10.15622/ia.23.5.8

Статья