O-LDS: оптимизация пространства поиска для ускорения алгоритма оценки локальной плотности (Local Density Score)
Автор: Ву Вьет Тханг, Пантюхин Д.В., Назаров А.Н.
Журнал: Труды Московского физико-технического института @trudy-mipt
Рубрика: Информатика, вычислительная техника и упровление
Статья в выпуске: 3 (31) т.8, 2016 года.
Бесплатный доступ
Обнаружение аномалий - это одна из самых важных задач технологии интеллектуального анализа данных (DataMining) и обнаружения знаний в базах данных. Эта задача решается во многих важных прикладных областях, таких как обнаружение атак (Intrusion Detection), обнаружения мошенничества (Fraud Detection), в том числе с кредитными картами, обнаружения аномалий в медицине (Medical Anomaly Detection), обнаружение злоупотреблений и др. В настоящее время проводится много исследований по решению этой задачи, но большинство полученных решений имеет высокую вычислительную сложность, что затрудняет использование таких решений в задачах с большим количеством данных [1]. В данной работе предложен новый алгоритм O-LDS, который имеет значительно меньшую вычислительную сложность по сравнению с известными - алгоритмом оценки локальной плотности (Local density score, LDS) [2] и алгоритмом фактора локального отклонения (Local Outlier Factor, LOF) [3]. Для оценки производительности алгоритма O-LDS использовался набор данных CHAMELEON [4], [5], содержащий данные сложной формы в двухмерном пространстве. Алгоритм O-LDS применяется для обнаружения аномалий в задаче обнаружения атак на информационные ресурсы с использованием реальных наборов данных ADFA [6]. Практические исследования показывают, что предложенный алгоритм не только реализует точное обнаружение аномалий, но и работает быстрее до 20 раз и более, чем алгоритмы LDS, LOF.
Обнаружение аномалий, защита от атак, набор данных adfa
Короткий адрес: https://sciup.org/142186149
IDR: 142186149
Список литературы O-LDS: оптимизация пространства поиска для ускорения алгоритма оценки локальной плотности (Local Density Score)
- Chandola V., Banerjee A., Kumar V. Anomaly detection: A survey//ACM Comput. Surv. 2009. V. 41, N 3. P. 1-58
- Duy-Dinh Le, Shin’ichi Satoh. Unsupervised Face Annotation by Mining the Web//ICDM. 2008. P. 383-392
- Breunig M.M., Kriegel H.-P., Ng R.T., Sander J. LOF: identifying density-based local outliers//Proceedings of the ACM SIGMOD International Conference on Management of Data. 2000
- Ester M., Kriegel H.-P., Sander J., Xu X. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise//Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining (KDD). 1996
- Karypis G., Han E.-H., Kumar V. Chameleon: Hierarchical Clustering Using Dynamic Modeling//IEEE Computer. 1999. V. 32, N 8. P. 68-75. (1999)
- Creech G., Hu J. A Semantic Approach to Host-Based Intrusion Detection Systems Using Contiguous and Discontiguous System Call Patterns//IEEE Transactions on Computers. 2014. V. 63. P. 807-819
- Schubert E., Zimek A., Kriegel H.-P. Local Outlier Detection Reconsidered: a Generalized View on Locality with Applications to Spatial, Video, and Network Outlier Detection//Data Mining and Knowledge Discovery, 2014. V. 28, N 1. P. 190-237
- Ertoz L., Steinbach M., Kumar V. Finding Clusters of Different Sizes, Shapes, and Densities in Noisy, High Dimensional Data//SDM. 2003. P. 47-58
- Tang J., Chen Z., Fu A., Cheung D. Enhancing effectiveness of outlier detections for low density patterns//Adv. in KDDM. 2002. V. 2336. P. 535-548
- Kriegel H.-P., Kroger P., Schubert E., Zimek A. Loop: local outlier probabilities//Proc. of the 18th ACM CIKM. 2009. P. 1649-1652
- Jin W., Tung A., Han J., Wang W. Ranking outliers using symmetric neighborhood relationship//Advances in KDD. 2006. V. 3918. P. 577-593
- Papadimitriou S., Kitagawa H. LOCI: Fast outlier detection using the local correlation integral//Int. Conf. on Data Engineering. 2003. P 315-326
- Jain A.K. Data clustering: 50 years beyond K-means//Pattern Recognition Letters (PRL). 2010. V. 31, N 8. P. 651-666
- Thang V.V., Pantiukhin D.V., Galushkin A.I. A Hybrid Clustering Algorithm: The FastDBSCAN//Proc. IEEE International Conference on Engineering and Telecommunication (EnT). 2015
- Kim S., Cho N.W., Kang B., Kang S.-H. Fast outlier detection for very large log data//Expert Syst. Appl. 2011. V. 38, N 8. P. 9587-9596
- Caiming Zhong, Mikko I. Malinen, Duoqian Miao, Pasi Franti. A fast minimum spanning tree algorithm based on K-means//Inf. Sci. Journal. 2015. N 295. P. 1-17
- Gu G., Fogla P., Dagon D., Lee W., Skoric B. Measuring Intrusion Detection Capability: An Information-Theoretic Approach//ASIACCS’06. March 21-24, 2006. Taipei, Taiwan
- https://kdd.ics.uci.edu/databases/kddcup99/task.html
- http://www.ll.mit.edu/mission/communications/cyber/CSTcorpora/ideval/data/
- http://www.cs.unm.edu/immsec/systemcalls.htm
- Stavroulakis P., Stamp M. Handbook of information and communication security. Springer, 2010
- Creech G., Hu J. Generation of a new IDS test dataset: Time to retire the KDD collection//IEEE Wireless Communications and Networking Conference (WCNC). P. 4487-4492
- IBM. Writing SVC Routines. IBM System/360. Operating System Programmer’s Guide (PDF). Third Edition. P. 32-36. C28-6550-2
- Xie M., Hu J., Yu X., Chang E.Evaluating Host-Based Anomaly Detection Systems: Application of the Frequency-Based Algorithms to ADFA-LD//Network and System Security. Springer, 2014. P. 542-549
- Hinton G.E., Salakhutdinov R. Reducing the dimensionality of data with neural networks//Science. 2006. V. 313, N 5786. P. 504-507
- Hawkins S., He H., Williams G., Baxter R. Outlier detection using replicator neural networks//Proceedings of the 4th International Conference on Data Warehousing and Knowledge Discovery. Springer-Verlag, 2002. P. 170-180
- Goldstein M. FastLOF: An Expectation-Maximization based Local Outlier detection algorithm//Proceedings of the 21st International Conference on Pattern Recognition (ICPR), 2012