Применение методов тематического моделирования для идентификации групп интернет-ресурсов с целью снижения риска киберугроз

Бесплатный доступ

Безопасность внутренней сети является важным аспектом успешного предприятия. Существуют различные средства для предотвращения киберугроз и анализа посещаемых интернет-ресурсов, но их быстродействие и возможность применения сильно зависит от объема входных данных. В статье рассматриваются существующие методы определения сетевых угроз с помощью анализа журналов прокси-сервера и предлагается метод кластеризации интернет-ресурсов, направленный на снижение объема входных данных путем исключения групп безопасных интернет-ресурсов или выбором только подозрительных интернет-ресурсов. Предложенный метод состоит из 3-х этапов: предобработка данных, анализ данных и интерпретация полученных результатов. Исходными данными для него являются записи журнала прокси-сервера. На первом этапе из исходных данных выбираются полезные для анализа данные, после чего непрерывный поток данных делится на небольшие сессии при помощи метода ядерной оценки плотности. На втором этапе выполняется мягкая кластеризация посещенных интернет-ресурсов путем применения метода тематического моделирования. Результатом второго этапа являются неразмеченные группы интернет-ресурсов. На третьем этапе, с помощью эксперта, происходит интерпретация полученных результатов путем анализа наиболее популярных интернет-ресурсов в каждой группе. Метод имеет множество настроек на каждом этапе, что позволяет сконфигурировать его под любой формат и специфику входных данных. Его область применения никак не ограничивается. Полученный метод может быть использован в качестве дополнительного шага предобработки с целью снижения количества входных данных.

Еще

Тематическое моделирование, кибербезопасность, анализ данных

Короткий адрес: https://sciup.org/148324798

IDR: 148324798   |   DOI: 10.31772/2712-8970-2022-23-2-148-155

Список литературы Применение методов тематического моделирования для идентификации групп интернет-ресурсов с целью снижения риска киберугроз

  • Mouna J., Latifa В., Latifa В. R., Anis A. Classification of security threats in information systems. // Procedia Computer Science. 2014. Vol. 32. P. 489-496.
  • Дерендяев Д. А., Гатчин Ю. А., Безруков В. А. Определение влияния человеческого фактора на основные характеристики угроз безопасности // Кибернетика и программирование. 2019, №3. С. 38-42.
  • Gyorodi R., Cornelia G., Pecherle G., Radu L. Network Security Using Firewalls // Journal of Computer Science and Control Systems, 2008. Vol. 1.
  • Kao D. Y., Wang S. J., Huang F. Dataset Analysis of Proxy Logs Detecting to Curb Propagations in Network Attacks // Intelligence and Security Informatics. 2008. P. 245-250.
  • Marshall В., Chen, H. Using Importance Flooding to Identify Interesting Networks of Criminal Activity. // Lecture Notes in Computer Science. 2006. Vol. 3975. P. 14-25.
  • Mukkamala S., Sung A. Identifying significant features fornetwork forensic analysis using artificial techniques // InternationalJournal of Digital Evidence. 2003. Vol. 1, no 4. P. 67-74.
  • Blei D. M. Probabilistic topic models // Communications of the ACM. 2012. Vol. 55, No. 4. P.77-84.
  • Analysis of Web Proxy Logs / B. Fei, J. Eloff, M. Oliver, H. Venter // IFIP International Conference on Digital Forensics. Orlando, 2006. Vol. 222. P. 247-258.
  • Scott D. W. Multivariate Density Estimation. Theory. Practice and Visualization: Second edition. New York, 2015.
  • Using kernel density estimation to understand the influence of neighbourhood destinations on В MI / T. L. King, R. J. Bentley, L. E. Thornton et al. // BMJ Open, 2016, Vol. 6.
  • Kalinic M., Krisp J. Kernel Density Estimation (KDE) vs. Hot-Spot Analysis - Detecting Criminal Hot Spots in the City of San Francisco // Lund, Sweden, 2018.
  • Воронцов К. В. Вероятностное математическое моделирование: теория, модели, алгоритмы и проект BigFRTM. Москва : МАИ, 2021. 112 с.
  • Albalawi R., Yeap Т., Benyoucef М. Using Topic Modeling Methods for Short-Text Data: A Comparative Analysis. // Frontiers in Artificial Intelligence. 2020. Vol. 3.
  • Jelodar H., Wang Y., Yuan, Ch., Xia, F. Latent Dirichlet Allocation (LDA) and Topic modeling: models, applications, a survey. 2017.
  • Tharwat A., Gaber Т., Ibrahim A., Hassanien A. E. Linear discriminant analysis: A detailed tutorial // Ai Communications. 2017. Vol. 30. P. 169-190.
Еще
Статья научная