CybORG: улучшение среды для эффективного обучения агентов кибербезопасности

Бесплатный доступ

В представленной научной статье исследуется процесс разработки и апробирования сценария для тренировочных окружений в области автоматизированной защиты информации (англ. Automated Cyber Defence, ACD) с использованием обучения с подкреплением (англ. Reinforcement Learning, RL). Основное внимание уделено применению алгоритма Proximal Policy Optimization (PPO) для обучения агента в среде CybORG, анализу эффективности предложенного подхода, выполнению исправлений критических недостатков в функциональности тренировочного окружения CybORG. Представлены результаты тестирования сценария, выявлены его слабые стороны и предложены доработки, направленные на оптимизацию процесса обучения. Продемонстрированы результаты внесенных изменений, значительно сказавшихся на эффективности работы с тренировочным окружением CybORG. Внесены изменения в тренировочное окружение CybORG, что позволило улучшить производительность и удобство использования. Проведенный анализ демонстрирует, что предложенные модификации способствуют более эффективному обучению агентов и упрощают интеграцию новых сценариев. На основе полученных результатов сформулированы рекомендации по дальнейшему совершенствованию тренировочных окружений автономных киберопераций (англ. Autonomous Cyber Operation Gyms, ACOG).

Еще

Обучение с подкреплением, тренировочное окружение, алгоритм PPO, CybORG, информационная безопасность

Короткий адрес: https://sciup.org/148332833

IDR: 148332833   |   УДК: 004.942   |   DOI: 10.18137/RNU.V9187.25.04.P.106