Адаптация наивного байесовского классификатора к механизму классификации электронных сообщений

Автор: Бурлаков Михаил Евгеньевич, Голубых Денис Алексеевич, Осипов Михаил Николаевич

Журнал: Инфокоммуникационные технологии @ikt-psuti

Рубрика: Электромагнитная совместимость и безопасность оборудования

Статья в выпуске: 2 т.14, 2016 года.

Бесплатный доступ

Рассматривается классификация электронных сообщений как адаптивными, так и неадаптивными алгоритмами. Особое внимание уделяется применению алгоритма наивного байесовского классификатора в решении задачи классификации блоков данных. Показана возможность реализации алгоритма при рассмотрении элементов в рамках электронного сообщения в качестве независимых событий с применением апостериорного правила принятия решений. Определен процесс обучения наивного байесовского классификатора как подсчет вероятности встречи того или иного слова в электронном сообщении.

Классификация электронных сообщений, наивный байесовский классификатор, достоверный блок информации, недостоверный блок информации

Короткий адрес: https://sciup.org/140191830

IDR: 140191830   |   DOI: 10.18469/ikt.2016.14.2.15

Текст научной статьи Адаптация наивного байесовского классификатора к механизму классификации электронных сообщений

В современных системах передачи информации крайне актуально стоит задача, связанная с классификацией блоков данных и электронных сообщений, передающихся от отправителя к адресату через разного рода системы (mail, web, irq и т.д.). Для ее решения применяется множество как адаптивных (искусственные нейронные сети, искусственные иммунные алгоритмы, генетические алгоритмы), так и неадаптивных (методы графов сценариев атак, методы анализа систем состояний, экспертные системы, методы на спецификациях, сигнатурные методы) методов [1-11].

Задача классификации электронных сообщений в рамках информационной системы сводится к отнесению входящего потока данных к соответствующему классу (например, по релевантности, по отправителю, по объему и содержимому). Наиболее актуальным направлением в анализе и классификации сообщений считают классификацию по их содержимому, когда можно без знания об источнике сообщения с определенной долей вероятности определить, к какому классу она относится, и либо отправить сообщение дальше, либо остановить его движение по информационной системе.

Одна из основных задач классификации блоков данных и электронных сообщений заключается в их распределении по двум классам достоверности [11-16]: достоверной (актуальной, легитимной и т.д.) и, соответственно, информации недостоверной.

При этом под достоверной (легитимной) информацией понимается набор данных, который не представляет из себя угрозы для информационной системы, в которой происходит ее циркуляция, с точки зрения доступности, целостности и конфиденциальности. В противном случае информация называется недостоверной (нелегитимной). Примером подобной классификации является антиспам-система или программно-аппаратный комплекс антивирусной защиты, задача которых также сводится к определению достоверности входящего в информационную систему сообщения по его содержимому.

Как было отмечено, существует большое число адаптивных и неадаптивных алгоритмов, способных классифицировать блоки данных (электронные сообщения) по содержимому, одним из которых является классический наивный байесовский классификатор (НБК), который в изначальном своем определении не адаптирован для решения задачи классификации электронных сообщений на классы достоверной и недостоверной информации. Для решения задачи классификации электронных сообщений относительно их содержимого на обозначенные классы с применением НБК требуется проведение процесса адаптации алгоритма.

Задача адаптации

Рассмотрим процесс адаптации НБК к процессу классификации электронных сообщений по их содержимому на класс достоверной и недостоверной информации. Для этого рассмотрим базовый элемент – электронное сообщение, представленное в виде вектора состоящее из конечного числа слов где         – слова, входящие в данное сообщение. Пусть              множество классов до стоверных (C1) и недостоверных сообщений (C2). Тогда вероятность отнесения слова в подмножество (класс)        есть вероятность попада ния всех его слов в данный класс:

Исходя из теоремы Байеса [17]:

p(C,\Xv...,X^ =

Р<Хх,...,Х^

В силу того, что вероятность появления того или иного слова          в сообщении x есть события равновероятные, то соотношение (3) можно переписать следующим образом:

^Х-^ ,    ,41

С другой стороны, в силу независимости появления слов X 1 Xn в сообщении x , значение есть величина постоянная (константа), которая равна:

В нашем случае каждое слово из сообщения Xk условно независимо от любого другого слова Xj при       , то есть plxAC^Vpix^y (6)

С другой стороны, числитель эквивалентен совместной вероятности:

р^Х^.Х,^,        (7)

которая, по определению условной вероятности, будет иметь значение р<СьХ\,..,Хп^

p(Ci)p(XA\Cl\..p(Xn\Ci) =

= Ж)П^/|С,).

7=1

Из той же независимости X 1 Xn условное распределение по подмножеству (классу) Ci может быть выражено как

Р(С, ^...хаХроПр^, |С,). (9) V 7=1

где Q равно значению, полученному в (5).

Таким образом, НБК объединяет исследуемую модель (в нашем случае это модель электронных сообщений с непустым содержимым) с правилом решения (возможностью проведения процесса классификации электронных сообщений на классы достоверных и недостоверных сообщений). Для определения соответствующего класса в процессе классификации в НБК выделяют такое понятие, как апостериорное правило принятия решения – под которым понимают правило, позволяющее определить наиболее вероятную гипотезу (решение относительно определения класса) [18].

Для процесса классификации в соответствии с НБК определим функцию-классификатор classify(•), которая для множества слов Xi ... х, электронного сообщения x из класса электронных сообщений C имеет вид classify^ = arg max с /ЧС,)]^ p(Xj | CJ.  (10)

7=1

Определим процесс обучения наивного байесовского классификатора как подсчет вероятности встречи того или иного слова в сообщении X; e x. Стоит заметить, что наивный байесовский классификатор при классификации сообщения делает предположение, что разные слова в тексте на одну и ту же тему появляются независимо друг от друга.

Проецируя (10) на задачу классификации электронных сообщений по классам достоверных и недостоверных сообщений, получаем classify^ = argmax7D(v/)n.P(ti; | v;.), (11)

где множество V = {достоверные сообщения, недостоверные сообщения}; ^(v,) – вероятность принадлежности электронного сообщения классу 1 '.i из множества достоверных и недостоверных сообщений, Vj рассчитывается как частота вхождения класса Vj во множество обучающих выборок; at - z-oe слово в электронном сообщении; P(a,. |v;.) – вероятность содержания слова di в электронном сообщении принадлежащем классу V7 , рассчитывается исходя из частоты анализируемого слова, находящегося в обучающем массиве данных.

Таким образом, процесс обучения НБК построен по принципу постоянного (по мере поступления новых электронных сообщений с непустым содержимым в классификаторе от информационной системы или от пользователя) обновления частоты слов. Алгоритм классифицирует только те слова либо набор слов, которые ранее при анализе не встречались.

Заключение

Таким образом, НБК работает в рамках решения задачи классификации электронных сообщений по классам достоверности множества V , то есть алгоритм анализирует сообщение по словам, изменение количества которых влияет на механизм классификации через вероятностную составляющую, и этим решается основная задача классификации блоков данных и электронных сообщений, их распределение по соответствующим классам достоверности.

Список литературы Адаптация наивного байесовского классификатора к механизму классификации электронных сообщений

  • Васильев В.И. Интеллектуальные системы защиты информации. М.: Машиностроение, 2012. -172 с.
  • Vacca J.R. Computer and Information Security Handbook//Newnes, 2012. -1200 р.
  • Nunes L., Timmis J. Artificial Immune Systems: A New Computational Intelligence Approach//Springer Science & Business Media, 2002. -380 р.
  • Хайкин С. Нейронные сети. М.: ИД «Вильямс», 2008. -1103 р.
  • Abe S. Support Vector Machines for Pattern Classification//Springer Science & Business Media. 2005. -473 р.
  • Kollias S. Artificial Neural Networks//Springer Science & Business Media. 2006. -1008 р.
  • Дасгупта Д. Искусственные иммунные системы и их применение. Пер. с англ. М.: ФИЗМАТЛИТ, 2006. -344 с.
  • Tarakanov A.O. Immunocomputing: principles and applications//Springer Verlag, New York, 2003 -193 р.
  • Borger E. The Abstract State Machines Method for High-Level System Design and Analysis//Dipartimento di Informatica, Universita di Pisa. 2007. -Р. 30-35.
  • Shim J.K. Information Systems and Technology for the Noninformation Systems Executive//CRC Press. 2000. -672 р.
  • Lunt T.F., Tamaru A., Gilham F. A real-time intrusion-detection expert system (IDES)//Final Technical Report. 1992. -Р. 10-13.
  • Бурлаков М.Е. Метод фильтрации входящего трафика на основе двухслойной рекуррентной нейронной сети//Ползуновский вестник. АлтГТУ им. И.И. Ползунова, №3/2, 2012. -С. 215-219.
  • Бурлаков М.Е., Осипов М.Н. Аудит безопасности локальной вычислительной сети с помощью динамической системы на нейронах с реакцией на последовательности.//Информационное противодействие угрозам терроризма. № 20, 2013. -С. 166-170.
  • Delvin D., O’Sullivan B. Satisfiability as a Classification Problem//University College Cork. URL: http://www.cs.ucc.ie/~osullb/pubs/classification.pdf (д.о. 03.01.2016).
  • Fernandez-Delgado M., Cernadas E., Barro S. Do we Need Hundreds of Classifiers to Solve Real World Classification Problems//University of Santiago de Compostela. URL: http://jmlr.csail.mit.edu/papers/volume15/delgado14a/delgado14a.pdf.
  • Schapire R. Machine Learning Algorithms for Classification//Princeton University. URL: http://www.cs.princeton.edu/~schapire/talks/picasso-minicourse.pdf.
  • Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Высшее образование, 2005. -400 с.
  • Боровиков В. STATISTICA. Искусство анализа данных на компьютере: Для профессионалов. СПб.: Питер, 2003. -688 с.
Еще
Статья научная