Анализ PDF-файлов на наличие вредоносного кода с применением методов машинного обучения
Автор: Д. В. Климов, В. А. Корякова
Журнал: Современные инновации, системы и технологии.
Рубрика: Управление, вычислительная техника и информатика
Статья в выпуске: 5 (4), 2025 года.
Бесплатный доступ
В статье рассматривается задача обнаружения вредоносного кода в PDF-файлах с применением методов машинного обучения. Актуальность исследования обусловлена широким распространением формата PDF и его активным использованием злоумышленниками для внедрения вредоносных скриптов, эксплуатации уязвимостей и удалённого выполнения кода. Традиционные подходы к анализу PDF-файлов, основанные на сигнатурном и эвристическом анализе, демонстрируют ограниченную эффективность при выявлении новых и обфусцированных угроз, что требует разработки более адаптивных методов защиты. В работе выполнен анализ структуры формата PDF и основных векторов атак, включая внедрение JavaScript-кода, манипуляции с таблицей кросс-ссылок и использование зашифрованных потоков данных. На основе открытого набора данных CIC-PDFMal2022 был сформирован датасет, содержащий вредоносные и безопасные PDF-файлы. Проведены этапы предварительной обработки данных и извлечения признаков, отражающих структурные и функциональные характеристики документов. Для классификации файлов была разработана модель машинного обучения на основе алгоритма Random Forest Classifier с оптимизацией гиперпараметров. Оценка качества модели проводилась с использованием метрик Accuracy, Precision, Recall, F1-score и ROC AUC. Экспериментальные результаты показали высокую точность классификации (около 99 %) и устойчивость модели к переобучению. Анализ важности признаков позволил выявить ключевые характеристики, влияющие на обнаружение вредоносного кода. Полученные результаты подтверждают эффективность применения машинного обучения для анализа безопасности PDF-файлов.
Машинное обучение, анализ PDF-файлов, вредоносный код, классификация, информационная безопасность.
Короткий адрес: https://sciup.org/14135233
IDR: 14135233 | DOI: 10.47813/2782-2818-2025-5-4-2072-2080