Алгоритм прогнозирования угроз информационной безопасности
Автор: Смагин Алексей Аркадьевич, Полетаев Владислав Сергеевич
Журнал: Инфокоммуникационные технологии @ikt-psuti
Рубрика: Технологии компьютерных систем и сетей
Статья в выпуске: 2 т.16, 2018 года.
Бесплатный доступ
Представлены результаты анализа наиболее популярных в настоящее время программных платформ для построения Internet-форумов. Исходя из полученных результатов определена структура текстовых сообщений дискуссионных Internet-ресурсов. В связи с тем, что задачей исследования является прогнозирование событий предметной области, определенной онтологией, построена модель потока текстовых сообщений тематических Internet-форумов, позволяющая производить его статистический и семантический анализ, учитывая принадлежность к конкретному форуму, теме форума, количеству сообщений темы форума, автору, рейтингу автора и времени создания, а также осуществлять фильтрацию сообщений, не относящихся к рассматриваемой предметной области. Описаны основные функции и структура программного средства для анализа потока текстовых сообщений. Предложен алгоритм фильтрации сообщений, принадлежащих предметной области, заданной онтологией, и вычисления статистических показателей. Результаты анализа потока текстовых сообщений могут быть использованы в качестве входных параметров для системы нечеткого вывода, прогнозирующей возникновение новых событий в рассматриваемой предметной области.
Интернет-форум, угрозы информационной безопасности, структура текстового сообщения, модель потока, фильтрация, онтология предметной области, нечеткая логика, нечеткий вывод, прогнозирование событий предметной области
Короткий адрес: https://sciup.org/140256183
IDR: 140256183 | DOI: 10.18469/ikt.2018.16.2.06
Текст научной статьи Алгоритм прогнозирования угроз информационной безопасности
На сегодняшний день наблюдается стремительный рост не только новых технологий, обеспечивающих информационную потребность человечества, но и разнообразия компьютерных атак, осуществляемых с их помощью. В настоящей работе рассматривается решение задачи прогнозирования новых угроз информационной безопасности (ИБ) на основе анализа текстовых сообщений хакерских Internet-форумов. Актуально сть темы обусловлена тем, что тематические Internet-форумы имеют высокую популярность, темы форумов могут быть разными и касаться проведения атак и создания угроз ИБ для пользователей Internet.
Обсуждения, происходящие в определенной предметной области, находят свое отражение на посвященных им дискуссионных Internet-площадках. Таким образом, Internet-форумы представляют собой открытый источники информации, которые могут содержать некоторую совокупность данных, на основании которой можно прогнозировать возникновение новых угроз ИБ.
Анализ таких источников базируется на основе исследования текстовых сообщений, которые сформированы пользователями хакерских Internet-форумов. Для обеспечения своевременной реализации реакции на угрозы требуется проводить анализ текстовых сообщений участников хакерских форумов, поступающих в режиме реального времени. Создаваемые при обсуждении новых механизмов реализации угроз ИБ сообщения являются той информацией, которая подлежит семантической обработке. На основании получаемых результатов появляется возможность по принятию эффективных решений по предотвращению угроз.
Для решения такой задачи предлагается использование методов теории нечеткого вывода о новых угрозах ИБ. Рассмотрим несколько систем, в которых созданы аналогичные средства защиты информации. С одной стороны, это системы обнаружения атак на компьютерные сети, которые уже давно применяются, с другой стороны, аналитические обзоры компаний, специализирующиеся в сфере Internet-технологий и защиты информации, такие как Symantec, Trustware, KasperskyLabs, показывают, что за последние несколько лет количество атак на различные информационные системы продолжает расти, а средства, которыми пользуются злоумышленники, превращаются из простых хакерских инструментов в серьезное информационное оружие [4-5].
Цель исследования заключается в разработке и описании подхода, алгоритма анализа потока текстовых сообщений Internet-форумов, позволяющих осуществлять их семантический и статистический анализ для дальнейшего нечеткого логического вывода о возникновении новых угроз ИБ. Новизна подхода заключается в систематизации знаний об организации Internet-форумов, статистическом и семантическом ана- лизе потоков текстовых сообщений и системах нечеткой логики, которые позволяют в дальнейшем использовать их для создания программного средства прогнозирования угроз ИБ.
Форумы хакерской направленности
В сети Internet сегодня существует значительное количество дискуссионных информационных ресурсов, посвященных вопросам ИБ и механизмам получения несанкционированного доступа к компьютерной информации. В части из них преобладают участники, заинтересованные в обмене сведениями о защите информации, в других – интересующиеся способами совершения компьютерных атак.
Указанные форумы могут рассматриваться в качестве общедоступных источников данных об уязвимостях, компьютерных атаках, вредоносном программном обеспечении, на основании анализа сообщений которых может приниматься решение о необходимости пересмотра модели угроз ИБ, а также формироваться прогноз о возникновении новых угроз ИБ.
Наиболее популярными темами, обсуждаемыми в настоящее время на хакерских форумах, являются:
– программирование, направленное на реализацию угроз ИБ;
– программное обеспечение, которое используется при организации компьютерных атак;
– мошенничество с использованием информационных технологий (ИТ);
– противоправные действия с пластиковыми картами и обналичивание денежных средств, добытых преступным путем;
– создание вредоносных компьютерных программ;
– проблема защиты информации;
– вопросы обеспечения анонимности при совершении противоправных действий с использованием ИТ.
Перечисленные темы соответствуют категориям актуальных в настоящее время угроз ИБ [6-10].
При организации форумов, как правило, используются наиболее популярные программные платформы: Invision Power Board (IPB); vBulletin; PunBB; Simple Machines Forum (SMF); Vanilla; XenForo; phpBB Перечисленные программные платформы имеют различные структуры баз данных, однако каждая из них позволяет осуществлять семантический и статистический анализ текстовых сообщений пользователей, учитывая принадлежность к конкретному форуму, теме фо- рума, количеству сообщений темы форума, автору, рейтингу автора, а также времени создания.
Функции программного средства анализа сообщений
Задача по сбору сообщений пользователей форумов реализуется на базе средств, обладающих указанными ранее соответствующими функциональными возможностями. Их применение позволяет реализовать программное средство, способное формировать поток текстовых сообщений различных хакерских форумов. Поступающие в автоматическом режиме сообщения с хакерских форумов формируют базу прецедентов. На ее основе возможно построение системы нечеткого вывода о создании новых угроз ИБ.
В связи с тем, что хакерские форумы представляют собой хранилища неформализованных данных из области ИТ и ИБ, содержат нечеткие понятия и знания, целесообразно применение для работы с ними нечеткой логики. Предпосылкой для применения нечетких моделей является наличие неопределенности, обусловленной неполнотой информации и сложностью предметной области [1-3].
В качестве средства достижения поставленной цели может быть использовано программное средство, обладающего функциональными возможностями, представленными на рисунке 1.
Оценка принадлежности сообщений к предметной области
Ряд указанных функций предполагает решение задачи определения принадлежности сообщений Internet-форумов к предметной области угроз ИБ. В настоящее время наиболее эффективным средством описания определенных предметных областей является онтология. Сущность онтологического подхода заключается в том, что предметная область представляется в виде организованной совокупности понятий, их свойств и связей [11].
Онтология в общем виде представляется как o = (e,r,f), где E – множество терминов предметной области, которую описывает онтология; R – отношения между терминами предметной области; F – множество функций интерпретации (аксиоматизации), заданных на терминах и (или) отношениях онтологии.
Каждое сообщение Internet-форума d можно представить в виде d = (s, t, Fa, A), где s – текст сообщения, t e {1,2 ... r} – момент времени создания сообщения; Fd = {wi, ... wk^ – вектор, представляющий сообщение в предметной обла- сти, заданной онтологией O, k – количество терминов в онтологии O, координаты и',- (z = 1, ... A) – веса терминов в сообщении, А – рейтинг автора сообщения. Для расчета весов может быть использована модель ТF-IDF (Term Frequency – Inverse Document Frequency), согласно которой вес термина в сообщении прямо пропорционален частоте его вхождения в сообщение и обратно пропорционален количеству сообщений, в которых он встречается: w; = F; log(D / DF;), где Wj и Р, – вес и частота термина i в сообщении соответственно; D – общее число сообщений; DFi – число сообщений, в которых встречается термин i.

Рисунок 1. Функции программного средства
Данная модель не учитывает того факта, что сообщения могут иметь разную длину, вследствие чего частота термина, а значит и его вес будут тем меньше, чем больше длина сообщений. Поэтому выполняется нормирование весов терминов в сообщении путем их деления на евклидову норму (длину вектора-сообщения):
* ^ / PC •
w.^w/Jlw.-
Модель потока текстовых сообщений, относящихся к предметной области, заданной онтологией, может быть представлена тройкой
8тЦм,оД
где St – поток текстовых сообщений в текущий момент времени τ ; M – множество сообщений в потоке; O – онтология предметной области; T= {1, ... r} – множество периодов времени, для которых велись наблюдения за потоком (например, множество дней или часов). Степень близости поступающих сообщений к терминам предметной области kont может иметь значение от 0 до 1: чем ближе полученное значение к единице, тем с большей долей вероятности данное сообщений относится к тому или иному термину [13].
Существуют два критерия отбора сообщений, относящихся к рассматриваемой предметной области, посредством использования онтологии: тезаурусный критерий и критерий вложенных связей. Тезаурус представляет собой словарь терминов на естественном языке, явно указывающий отношение между терминами и предназначенный для информационного поиска. Любая онтология является усложненной версией тезауруса [14]. Тезаурусный подход к фильтрации сообщений предполагает непосредственный поиск лемм из поступающих сообщений среди терминов, определенных в онтологии.
Опорный объект онтологии, используемый в дальнейшем анализе, имеет степень близости по отношению к сообщению, рассчитанную по следующей формуле:
m kt = vaa^ — - i = 1
где m – число всех объектов онтологии; ni – число слов из леммы поступающего сообщения, найденных в лемме объекта онтологии; pi – общее число слов в лемме объекта онтологии.
Структура онтологии рассматриваемой предметной области предполагает наличие у каждого из ее объектов свойства «является Термином», имеющее логический тип значения. Это свойство является вспомогательным и определяется экспертом исходя из критерия – насколько данный объект онтологии является характерным конкретно для этой предметной области. Степень близости сообщения терминам рассматриваемой предметной области в соответствии с тезаурусным критерием оценивается по формуле кот = кДс + 1), где kt – результат первого этапа анализа; c – число отношений, связывающих опорный объект онтологии с ближайшим объектом, имеющим истинное значение свойства «является Термином». В случае, если сам опорный объект имеет истинное значение данного свойства, то с = 0.
При использовании критерия вложенных связей, помимо оценки степени терминологичности отдельно взятого сообщения, метрика «термин/ нетермин» позволяет осуществить фильтрацию путем сопоставления леммы сообщения и сочетаниями лемм объектов онтологии связанных отношениями «является Частью» или «имеет Отношение» [12; 15].
Алгоритм анализа сообщений хакерских форумов
Эффективность средства борьбы с угрозами, возникающими на хакерских форумах, в значительной степени зависит от того, насколько под- робно и квалифицированно представлена формализация знаний, прописан порядок оценки ситуаций на форумах в алгоритме и осуществлена реализация его программным образом.
Основной объект в системе – база знаний в системе как связующее звено между хранилищем данных и модулями системы. В нее включены онтология предметной области и список тематических форумов. Основные функции для реализации алгоритма в виде программного средства анализа сообщений Internet-форумов представлены на рисунке 2.
Список тематических форумов содержит форумы, на которых размещаются публикации об уязвимостях, компьютерных атаках и вредоносном программном обеспечении. На первоначальном этапе список формируется экспертным путем, из общего количества форумов выделяются те, которые тематически могут быть отнесены к числу хакерских.
Автоматизированное выявление новых хакерских форумов возможно путем анализа различного рода Internet-форумов с использованием рассмотренных ранее критериев отбора сообщений, относящихся к рассматриваемой предметной области, посредством использования онтологии. Алгоритм анализа потока текстовых сообщений, созданных на хакерских форумах в период времени τ , представлен на рисунке 3.

Рисунок 2. Структура программного средства

Рисунок 3. Алгоритм анализа потока текстовых сообщений
Предложенный алгоритм предполагает фильтрацию сообщений, не относящихся к рассматриваемой предметной области, заданной онтологией, а также вычисление показателей количества сообщений, прошедших этап фильтрации и суммарного рейтинга их авторов. При построении нечеткого вывода о возникновении угроз информационной безопасности на основе анализа сообщений хакерских форумов в качестве входных переменных выступают такие показатели статистического анализа, как частота возникновения новых сообщений (количество сообщений в заданный период времени) и суммарный уровень рейтинга авторов сообщений. Наполнению хакерских форумов новыми сообщениями характерны особенности, на основании которых представляется возможным построение базы правил нечетких продукций.
Так, при появлении новой угрозы информационной безопасности участник форума, которому стало о ней известно, создает новую тему на форуме и оставляет сообщение . Другие участники форума оставляют в созданной теме сообщения, дополняющие или опровергающие предшествующие. В зависимости от степени важности информации, обсуждаемой в той или иной теме форума, различается внутренний рейтинг авторов сообщений. Как правило, при высокой значимости обсуждаемой информации в теме форума высок и рейтинг авторов сообщений. Также закономерно увеличение частоты возникновения сообщений в теме форума, где обсуждается важная информация, особенно в начальной стадии.
Заключение
Определена структура текстовых сообщений дискуссионных Internet-ресурсов. Предложена модель потока текстовых сообщений, относящихся к предметной области, заданной онтологией, которая позволяет осуществлять фильтрацию сообщений, относящихся к рассматриваемой предметной области, и проводить статистический анализ, учитывая принадлежность к конкретному форуму, теме форума, количеству сообщений темы форума, автору, рейтингу автора, а также времени создания.
Результаты анализа создаваемых на хакерских форумах сообщений могут быть использованы в качестве входных параметров для системы нечеткого вывода, прогнозирующей возникновение новых угрозах информационной безопасности.
Получая нечеткий вывод о возникновении новой угрозы информационной безопасности, специалист по защите информации имеет возможность оценить степень угрозы для защищаемых им информационных ресурсов, пересмотреть модель угроз информационной безопасности и предпринять меры по нейтрализации возможных уязвимостей.
Список литературы Алгоритм прогнозирования угроз информационной безопасности
- Зайченко Ю.П. Нечеткие модели и методы в интеллектуальных системах. Киев: ИД «Слово», 2008. - 344 с.
- Тэрано Т., Асаи К., Сугено М. Прикладные нечеткие системы. Пер. с англ. М.: Мир, 1993. - 368 c.
- Леоненков А.В. Нечеткое моделирование в среде MATLAB и fuzzyTECH. С-Пб.: БХВ-Санкт-Петербург, 2005. - 716 с.
- Kaspersky Security Bulletin 2015 // [URL: https://securelist.ru/files/2015/12/Kaspersky-Security-Bulletin-2015_FINAL_RUS. pdf (д.о. 20.08.2017)
- Trustwave Global Security Report 2014 // URL: http://www.trustwave.com/GSR (д.о. 20.08.2017).