Адаптация наивного байесовского классификатора к механизму классификации электронных сообщений
Автор: Бурлаков Михаил Евгеньевич, Голубых Денис Алексеевич, Осипов Михаил Николаевич
Журнал: Инфокоммуникационные технологии @ikt-psuti
Рубрика: Электромагнитная совместимость и безопасность оборудования
Статья в выпуске: 2 т.14, 2016 года.
Бесплатный доступ
Рассматривается классификация электронных сообщений как адаптивными, так и неадаптивными алгоритмами. Особое внимание уделяется применению алгоритма наивного байесовского классификатора в решении задачи классификации блоков данных. Показана возможность реализации алгоритма при рассмотрении элементов в рамках электронного сообщения в качестве независимых событий с применением апостериорного правила принятия решений. Определен процесс обучения наивного байесовского классификатора как подсчет вероятности встречи того или иного слова в электронном сообщении.
Классификация электронных сообщений, наивный байесовский классификатор, достоверный блок информации, недостоверный блок информации
Короткий адрес: https://sciup.org/140191830
IDR: 140191830 | DOI: 10.18469/ikt.2016.14.2.15
Текст научной статьи Адаптация наивного байесовского классификатора к механизму классификации электронных сообщений
В современных системах передачи информации крайне актуально стоит задача, связанная с классификацией блоков данных и электронных сообщений, передающихся от отправителя к адресату через разного рода системы (mail, web, irq и т.д.). Для ее решения применяется множество как адаптивных (искусственные нейронные сети, искусственные иммунные алгоритмы, генетические алгоритмы), так и неадаптивных (методы графов сценариев атак, методы анализа систем состояний, экспертные системы, методы на спецификациях, сигнатурные методы) методов [1-11].
Задача классификации электронных сообщений в рамках информационной системы сводится к отнесению входящего потока данных к соответствующему классу (например, по релевантности, по отправителю, по объему и содержимому). Наиболее актуальным направлением в анализе и классификации сообщений считают классификацию по их содержимому, когда можно без знания об источнике сообщения с определенной долей вероятности определить, к какому классу она относится, и либо отправить сообщение дальше, либо остановить его движение по информационной системе.
Одна из основных задач классификации блоков данных и электронных сообщений заключается в их распределении по двум классам достоверности [11-16]: достоверной (актуальной, легитимной и т.д.) и, соответственно, информации недостоверной.
При этом под достоверной (легитимной) информацией понимается набор данных, который не представляет из себя угрозы для информационной системы, в которой происходит ее циркуляция, с точки зрения доступности, целостности и конфиденциальности. В противном случае информация называется недостоверной (нелегитимной). Примером подобной классификации является антиспам-система или программно-аппаратный комплекс антивирусной защиты, задача которых также сводится к определению достоверности входящего в информационную систему сообщения по его содержимому.
Как было отмечено, существует большое число адаптивных и неадаптивных алгоритмов, способных классифицировать блоки данных (электронные сообщения) по содержимому, одним из которых является классический наивный байесовский классификатор (НБК), который в изначальном своем определении не адаптирован для решения задачи классификации электронных сообщений на классы достоверной и недостоверной информации. Для решения задачи классификации электронных сообщений относительно их содержимого на обозначенные классы с применением НБК требуется проведение процесса адаптации алгоритма.
Задача адаптации
Рассмотрим процесс адаптации НБК к процессу классификации электронных сообщений по их содержимому на класс достоверной и недостоверной информации. Для этого рассмотрим базовый элемент – электронное сообщение, представленное в виде вектора состоящее из конечного числа слов где – слова, входящие в данное сообщение. Пусть множество классов до стоверных (C1) и недостоверных сообщений (C2). Тогда вероятность отнесения слова в подмножество (класс) есть вероятность попада ния всех его слов в данный класс:
Исходя из теоремы Байеса [17]:
p(C,\Xv...,X^ =
Р<Хх,...,Х^
В силу того, что вероятность появления того или иного слова в сообщении x есть события равновероятные, то соотношение (3) можно переписать следующим образом:
^Х-^ , ,41
С другой стороны, в силу независимости появления слов X 1 … Xn в сообщении x , значение есть величина постоянная (константа), которая равна:
В нашем случае каждое слово из сообщения Xk условно независимо от любого другого слова Xj при , то есть plxAC^Vpix^y (6)
С другой стороны, числитель эквивалентен совместной вероятности:
р^Х^.Х,^, (7)
которая, по определению условной вероятности, будет иметь значение р<СьХ\,..,Хп^
p(Ci)p(XA\Cl\..p(Xn\Ci) =
= Ж)П^/|С,).
7=1
Из той же независимости X 1 … Xn условное распределение по подмножеству (классу) Ci может быть выражено как
Р(С, ^...хаХроПр^, |С,). (9) V 7=1
где Q равно значению, полученному в (5).
Таким образом, НБК объединяет исследуемую модель (в нашем случае это модель электронных сообщений с непустым содержимым) с правилом решения (возможностью проведения процесса классификации электронных сообщений на классы достоверных и недостоверных сообщений). Для определения соответствующего класса в процессе классификации в НБК выделяют такое понятие, как апостериорное правило принятия решения – под которым понимают правило, позволяющее определить наиболее вероятную гипотезу (решение относительно определения класса) [18].
Для процесса классификации в соответствии с НБК определим функцию-классификатор classify(•), которая для множества слов Xi ... х, электронного сообщения x из класса электронных сообщений C имеет вид classify^ = arg max с /ЧС,)]^ p(Xj | CJ. (10)
7=1
Определим процесс обучения наивного байесовского классификатора как подсчет вероятности встречи того или иного слова в сообщении X; e x. Стоит заметить, что наивный байесовский классификатор при классификации сообщения делает предположение, что разные слова в тексте на одну и ту же тему появляются независимо друг от друга.
Проецируя (10) на задачу классификации электронных сообщений по классам достоверных и недостоверных сообщений, получаем classify^ = argmax7D(v/)n.P(ti; | v;.), (11)
где множество V = {достоверные сообщения, недостоверные сообщения}; ^(v,) – вероятность принадлежности электронного сообщения классу 1 '.i из множества достоверных и недостоверных сообщений, Vj рассчитывается как частота вхождения класса Vj во множество обучающих выборок; at - z-oe слово в электронном сообщении; P(a,. |v;.) – вероятность содержания слова di в электронном сообщении принадлежащем классу V7 , рассчитывается исходя из частоты анализируемого слова, находящегося в обучающем массиве данных.
Таким образом, процесс обучения НБК построен по принципу постоянного (по мере поступления новых электронных сообщений с непустым содержимым в классификаторе от информационной системы или от пользователя) обновления частоты слов. Алгоритм классифицирует только те слова либо набор слов, которые ранее при анализе не встречались.
Заключение
Таким образом, НБК работает в рамках решения задачи классификации электронных сообщений по классам достоверности множества V , то есть алгоритм анализирует сообщение по словам, изменение количества которых влияет на механизм классификации через вероятностную составляющую, и этим решается основная задача классификации блоков данных и электронных сообщений, их распределение по соответствующим классам достоверности.
Список литературы Адаптация наивного байесовского классификатора к механизму классификации электронных сообщений
- Васильев В.И. Интеллектуальные системы защиты информации. М.: Машиностроение, 2012. -172 с.
- Vacca J.R. Computer and Information Security Handbook//Newnes, 2012. -1200 р.
- Nunes L., Timmis J. Artificial Immune Systems: A New Computational Intelligence Approach//Springer Science & Business Media, 2002. -380 р.
- Хайкин С. Нейронные сети. М.: ИД «Вильямс», 2008. -1103 р.
- Abe S. Support Vector Machines for Pattern Classification//Springer Science & Business Media. 2005. -473 р.
- Kollias S. Artificial Neural Networks//Springer Science & Business Media. 2006. -1008 р.
- Дасгупта Д. Искусственные иммунные системы и их применение. Пер. с англ. М.: ФИЗМАТЛИТ, 2006. -344 с.
- Tarakanov A.O. Immunocomputing: principles and applications//Springer Verlag, New York, 2003 -193 р.
- Borger E. The Abstract State Machines Method for High-Level System Design and Analysis//Dipartimento di Informatica, Universita di Pisa. 2007. -Р. 30-35.
- Shim J.K. Information Systems and Technology for the Noninformation Systems Executive//CRC Press. 2000. -672 р.
- Lunt T.F., Tamaru A., Gilham F. A real-time intrusion-detection expert system (IDES)//Final Technical Report. 1992. -Р. 10-13.
- Бурлаков М.Е. Метод фильтрации входящего трафика на основе двухслойной рекуррентной нейронной сети//Ползуновский вестник. АлтГТУ им. И.И. Ползунова, №3/2, 2012. -С. 215-219.
- Бурлаков М.Е., Осипов М.Н. Аудит безопасности локальной вычислительной сети с помощью динамической системы на нейронах с реакцией на последовательности.//Информационное противодействие угрозам терроризма. № 20, 2013. -С. 166-170.
- Delvin D., O’Sullivan B. Satisfiability as a Classification Problem//University College Cork. URL: http://www.cs.ucc.ie/~osullb/pubs/classification.pdf (д.о. 03.01.2016).
- Fernandez-Delgado M., Cernadas E., Barro S. Do we Need Hundreds of Classifiers to Solve Real World Classification Problems//University of Santiago de Compostela. URL: http://jmlr.csail.mit.edu/papers/volume15/delgado14a/delgado14a.pdf.
- Schapire R. Machine Learning Algorithms for Classification//Princeton University. URL: http://www.cs.princeton.edu/~schapire/talks/picasso-minicourse.pdf.
- Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Высшее образование, 2005. -400 с.
- Боровиков В. STATISTICA. Искусство анализа данных на компьютере: Для профессионалов. СПб.: Питер, 2003. -688 с.