Скрытый смысл: декодировка роевого поведения роботов с помощью глубокого обратного обучения с подкреплением

Алаа Искандар; Али Хаммуд; Бела Ковач

doi:10.15622/ia.23.5.8

Scientific articles \ Prolegomena. Fundamentals of knowledge and culture. Propaedeutics \ Standardization of products, operations, weights, measures and time

Скрытый смысл: декодировка роевого поведения роботов с помощью глубокого обратного обучения с подкреплением

Author: Алаа Искандар, Али Хаммуд, Бела Ковач

Journal: Информатика и автоматизация (Труды СПИИРАН) @ia-spcras

Section: Робототехника, автоматизация и системы управления

Article in issue: Том 23 № 5, 2024.

Free access

Использование обучения с подкреплением для создания коллективного поведения роевых роботов является распространенным подходом. Тем не менее, формулирование соответствующей функции вознаграждения, которая соответствовала бы конкретным целям, остается серьезной проблемой, особенно по мере увеличения сложности задач. В этой статье мы разрабатываем модель глубокого обратного обучения с подкреплением, чтобы раскрыть структуры вознаграждения, которые помогают автономным роботам выполнять задачи посредством демонстраций. Модели глубокого обратного обучения с подкреплением особенно хорошо подходят для сложных и динамичных сред, где может быть сложно указать заранее определенные функции вознаграждения. Наша модель может генерировать различное коллективное поведение в соответствии с требуемыми целями и эффективно справляется с непрерывными пространствами состояний и действий, обеспечивая детальное восстановление структур вознаграждения. Мы протестировали модель с помощью роботов E-puck в симуляторе Webots для решения двух задач: поиска рассредоточенных коробок и навигации к заданной позиции. Получение вознаграждения зависит от демонстраций, собранных интеллектуальным предварительно обученным роем, использующим обучение с подкреплением в качестве эксперта. Результаты показывают успешное получение вознаграждения как в сегментированной, так и в непрерывной демонстрации двух типов поведения — поиска и навигации. Наблюдая за изученным поведением роя экспертом и предложенной моделью, можно заметить, что модель не просто клонирует поведение эксперта, но генерирует свои собственные стратегии для достижения целей системы.

Обратное обучение с подкреплением, функция вознаграждения, демонстрации, поисковое поведение, навигационное поведение

Short address: https://sciup.org/14130338

IDR: 14130338 | UDC: 006.72 | DOI: 10.15622/ia.23.5.8