Метод поиска похожих последовательностей кода в исполняемых бинарных файлах с использованием беспризнакового подхода
Автор: Юмаганов Александр Сергеевич, Мясников Владислав Валерьевич
Журнал: Компьютерная оптика @computer-optics
Рубрика: Численные методы и анализ данных
Статья в выпуске: 5 т.41, 2017 года.
Бесплатный доступ
Работа посвящена решению задачи поиска похожих последовательностей кода в исполняемых бинарных файлах. Предлагается метод решения, при котором промежуточное векторное описание функции формируется на основе сравнения пространственного положения каждой из функциональных групп команд процессора данной функции и функций некоторой «базисной» библиотеки. Размерность полученного таким образом вектора понижается, и полученное окончательное описание используется для осуществления поиска. Представлены результаты экспериментальных исследований, демонстрирующие работоспособность данного метода. Исследована эффективность данного метода в сравнении с некоторыми ранее известными методами поиска похожих последовательностей кода, даны рекомендации по выбору параметров разработанного метода.
Поиск, последовательность кода, беспризнаковое распознавание
Короткий адрес: https://sciup.org/140228768
IDR: 140228768 | DOI: 10.18287/2412-6179-2017-41-5-756-764
A method of searching for similar code sequences in executable binary files using a featureless approach
The work is devoted to solving a problem of searching for similar code sequences in executable binary files. The proposed method involves partitioning the processor instructions into functional groups, forming a given function’s primary description by commands position in its body, followed by generating the function’s intermediate description through its comparison with the functions from a "base" library. With the dimensionality of the resulting vector reduced in this way, the resulting final description is then used to perform the search. Results of the experimental study demonstrate the operability of the proposed method. The efficiency of the proposed method is compared against existing methods of searching for similar code sequences. We also provide recommendations on the choice of parameters of the developed method.
Список литературы Метод поиска похожих последовательностей кода в исполняемых бинарных файлах с использованием беспризнакового подхода
- Zaimi, A. An empirical study on the reuse of third-party libraries in open-source software development/A. Zaimi, A. Ampatzoglou, N. Triantafyllidou, A. Chatzigeorgiou, A. Mavridis, T. Chaikalis, I. Deligiannis, P. Sfetsos, I. Stamelos//Proceedings of the 7th Balkan Conference on Informatics Conference. -2015. -4. - DOI: 10.1145/2801081.2801087
- IDA F.L.I.R.T Technology: In-Depth . URL: https://www.hex-rays.com/products/ida/tech/flirt/in_depth.shtml (request date 6.03.2017).
- Myles, G. K-gram based software birthmarks/G. Myles, C. Collberg//Proceedings of the 2005 ACM Symposium on Applied Computing. -2005. -P. 314-318. - DOI: 10.1145/1066677.1066753
- Flake, H. Structural comparison of executable objects/H. Flake//Proceedings of Detection of Intrusions and Malware & Vulnerability Assessment. -2004. -P. 161-173.
- Kruegel, C. Polymorphic worm detection using structural information of executables/C. Kruegel, E. Kirda//Proceedings of the 8th International Conference on Recent Advances in Intrusion Detection. -2005. -P. 207-226. - DOI: 10.1007/11663812_11
- Khoo, W.M. Rendezvous: A search engine for binary code/W.M. Khoo, A. Mycroft, R. Anderson//Proceedings of the 10th Working Conference on Mining Software Repositories. -2013. -P. 329-338. - DOI: 10.1109/MSR.2013.6624046
- Yumaganov, A.S. Similarity search over program code sequences using featureless pattern recognition techniques/A.S. Yumaganov, V.V. Myasnikov//CEUR Workshop Proceedings. -2016. -Vol. 1638. -P. 437-443. - DOI: 10.18287/1613-0073-2016-1638-437-443
- Юмаганов, А.С. Сравнение способов первичного описания кода программы в задаче поиска похожих последовательностей кода/А.С. Юмаганов, В.В. Мясников//Сборник трудов III Международной конференции и молодежной школы «Информационные технологии и нанотехнологии» (ИТНТ-2017) -Самара: Новая техника, 2017. -С. 940-945.
- x86 Assembly language reference manual . -2010. -URL: https://docs.oracle.com/cd/E19253-01/817-5477/817-5477.pdf (request date 06.03.2017).
- Фукунага, К. Введение в статистическую теорию распознавания образов: пер. с англ./К. Фукунага. -М.: Наука, 1979. -368 c.
- Hirschberg, D.S. A linear space algorithm for computing maximal common subsequences/D.S. Hirschberg//Communications of the ACM. -1975. -Vol. 18, Issue 6. -P. 341-343. - DOI: 10.1145/360825.360861
- Pearson, K. On lines and planes of closest fit to systems of points in space/K. Pearson//Philosophical Magazine. -1901. -Vol. 2. -P. 559-572.
- Duin, R.P.W. Featureless pattern classification/R.P.W. Duin, D. de Ridder, D.M.J. Tax//Kybernetica. -1998. -Vol. 34, No. 4. -P. 399-404.
- Buckland, M.K. The relationship between recall and precision/M.K. Buckland, F.C. Gey//Journal of the American Society for Information Science. -1994. -Vol. 45, Issue 1. -P. 12-19. -DOI: 10.1002/(SICI)1097-4571(199401)45:13.0.CO;2-L.
- Powers, D.M.W. Evaluation: From precision, recall and f-measure to ROC, informedness, markedness & correlation/D.M.W. Powers//Journal of Machine Learning Technologies. -2011. -Vol. 2, Issue 1. -P. 37-63.
- LibTIFF -TIFF library and utilities . -URL: http://www.libtiff.org/(request date 6.03.2017).
- Marron, J.S. Canonical kernels for density estimation/J.S. Marron, D. Nolan//Statistics & Probability Letters. -1989. -Vol. 7, Issue 3. -P. 195-199. - DOI: 10.1016/0167-7152(88)90050-8
- Curl -Command line tool and library for transferring data with URLs . -URL: https://curl.haxx.se/(request date 19.06.2017).