Формализация базовых процессов и математическая модель системы мониторинга и анализа публикаций электронных СМИ

Бесплатный доступ

В статье описан подход формализации базовых процессов и построения математической модели для системы сбора и анализа данных из электронных СМИ. Авторы, в рамках проведения научного исследования, занимаются созданием системы, в том числе ведется разработка новых алгоритмов, методов и подходов сбора и анализа текстовой информации из новостных интернет-источников. Основным направлением в исследовании рассматривается применение методов интеллектуального анализа текстовых данных на основе технологии искусственных нейронных сетей, методов обработки естественного языка, text mining, машинного обучения и обработки больших данных. Цель исследования. Разработать формализованное описание модели системы мониторинга и анализа текстовой информации электронных новостных СМИ методами математического моделирования. Методы и инструментарий исследования. Предложено использование инструментария методологии математического моделирования с методами системного анализа. Для исследования системы применены такие методы системного анализа, как абстрагирование, формализация, композиция и декомпозиция, структурирование и реструктурирование, моделирование, распознавание и идентификация. Система рассматривается как формализованная модель автоматического классификатора и кластеризатора набора текстовых документов на естественном языке в виде алгебраической системы. Для решения задач классификации и кластеризации текстов предложено применять методы машинного обучения на основе нейросетевых подходов. Структура системы и составляющие её процессы, а также процессы взаимодействующие с системой извне, представлены в виде формализованного математического описания. Результаты. Разработанное формализованное математическое описание модели системы наглядно показывает взаимосвязь компонентов системы между собой, а также внутренние процессы. Применяемый подход позволяет детализировать представление системы на основе ее декомпозиции на подсистемы и модули. Все это дает возможность упорядочить последовательности этапов создания системы и декомпозировать их на отдельные этапы работ. Заключение. Результаты, полученные в ходе проведенного исследования, позволяют перейти к следующему этапу жизненного цикла разрабатываемой информационной системы - ее программной разработке.

Еще

Мониторинг информации сми, анализ данных, система мониторинга и анализа данных, анализ текста, математическая модель системы, интеллектуальный анализ данных, нейросетевые методы, системный анализ, классификация текстов, кластеризация текстов

Еще

Короткий адрес: https://sciup.org/147236499

IDR: 147236499   |   DOI: 10.14529/ctcr210403

Текст научной статьи Формализация базовых процессов и математическая модель системы мониторинга и анализа публикаций электронных СМИ

Ранее, в рамках диссертационного исследования, авторы в статьях [1, 2] исследовали вопросы воздействия современных электронных новостных интернет-источников на общество, в частности на оборонно-промышленные предприятия нашей страны. Были представлены обобщенный алгоритм работы и структура создаваемой автоматизированной системы мониторинга и анализа текстовой информации в электронных СМИ.

В статье [3] авторы показали моделирование системы методами модельно-ориентированного системного инжиниринга.

В настоящей статье показано формализованное представление базовых процессов системы и её математическая модель.

  • 1.    Формализация базовых процессов системы

Многообразие различных процессов, протекающих в любой системе или с которыми она взаимодействует из вне, затруднительно изучить без создания упрощенной модели. Однако упрощение должно включать процессы наиболее значимые для изучения [4]. Именно поэтому применительно к разрабатываемой авторами системе мониторинга и анализа текстовой информации из электронных СМИ, целесообразно рассмотреть лишь основные, базовые процессы, протекающие как в самой системе, так и взаимодействующие с ней извне.

Ключевыми методами в задаче анализа текстовой информации являются классификация и кластеризация, поскольку другие функции системы, например, определение эмоциональной окраски текста, также сводятся к классификации [5, 6].

В виде алгебраической системы формализованную модель автоматического классификатора текстовых данных, позволяющую применять методы классификации, применяемые в данной работе, можно описать как кортеж [7]:

R = <  C , T , F , R C , f > ,                                                                     (1.1)

где C – множество тематических рубрик; T – выборка текстов из рубрик C ; F – множество описаний тематических рубрик; RCF – отношение на C × F , соотносящее тематические рубрики и соответствующие им описания; f - операция классификации - отображение T ^ 2 C , такое что f ( t ) = о , где t - текст из Т , а се 2 C - элемент множества всех подмножеств С , т. е. множество тематических рубрик из С . Таким образом, отображение f позволяет каждому документу множества T поставить в соответствие некоторую тематическую рубрику из С .

Модель автоматического классификатора документов текстовых коллекций на естественном языке представляет собой систему R . Построение классификатора подразумевает частичное или полное формирование C , F , RCF , f на основе некоторых априорных данных. На практике это означает, что экспертом формируется иерархия тематических рубрик. Описания тематических рубрик могут создаваться вручную, в виде правил соотнесения документов к тематическим рубрикам по определенным признакам или автоматически, на основе методов машинного обучения. Тогда в качестве обучающего множества выступает набор документов, ранее сопоставленных с категориями T 0 с помощью экспертных оценок.

Задачу кластеризации в общем случае можно выразить следующим образом [8].

Дано:

  • 1)    множество текстов T = { t 1 , 1 2, . . , tN };

  • 2)    количество кластеров K , предполагаемое или желательное в имеющемся наборе;

  • 3)    целевая функция, позволяющая оценить качество кластеризации.

Определяем соответствие у : T ^ { 1, . , K } , при котором будет достигаться минимум или максимум (экстремум) целевой функции. Целевая функция определяется в терминах сходства или расстояния между документами. Сходство документов выражается в виде одной из функций тематического сходства или в значениях на одних и тех же осях векторного пространства. Тематическое сходство определяется как косинусное или евклидово расстояния в векторном пространстве.

Получаемые при мониторинге новостные сообщения представляют собой большие объемы текстовых данных в неструктурированном или слабоструктурированном виде. Для обработки таких данных в настоящее время широкое распространение получило направление машинного обучения с применением нейросетевых методов [9]. Преимущество данных методов перед традиционными в следующем [10]:

  • 1)    обучаемость и самообучаемость;

  • 2)    быстродействие за счет распараллеливания вычислений;

  • 3)    устойчивость к шумам во входных данных.

Решение задач классификации и кластеризации текстов, целесообразно проводить с применением этих методов. Первостепенно для обучения системы необходимо произвести разметку имеющейся коллекции текстовых документов T и каждому учебному тексту назначить метку класса, которому он соответствует. Кроме того, нужно определить способ формализации этих

Информатика и вычислительная техника

данных, т. е. показать соответствие функции f из множества текстовых документов T в пространстве признаков X :

  • f :    T ^ X ,                                                                         (1.2)

где f – функция излечения признаков (feature extraction).

После определения f и построения пространства признаков X , каждому тексту из T ставится в соответствие точка из Х , что дает возможность разделить все точки Х на подмножества.

Таким образом, поиск схожих текстовых документов сводится к задаче кластеризации точек из X , а распределение текстов по тематическим рубрикам сводиться к задаче классификации точек из X [11].

Формализовано, требуется создать представление g из множества вектор-признаков X во множество меток L :

  • g :    X ^ L .                                                                             (1.3)

В результате, задача обработки текста сводится:

  • а)    к извлечению признаков;

  • б)    распределению пространства признаков на части.

  • 2.    Математическая модель системы

Математическая модель является математическим аналогом проектируемого объекта и описывает зависимость между исходными данными и искомыми величинами [12]. Её построение позволяет структурировать процессы, протекающие в системе при её функционировании, что даст возможность перейти к натурному физическому построению компонентов системы и обеспечению их взаимодействия. Для этого целесообразно применить методы математического моделирования.

Построение математической модели предполагает следующие этапы [13]:

  • 1)    составление описания, как в целом функционирует система;

  • 2)    описание, какие подсистемы и элементы входят в систему, как они взаимодействуют между собой, описание их функционирования и характеристик, а также начальных условий;

  • 3)    определение, какие внешние факторы перечня могут оказывать влияние на систему;

  • 4)    выбор характеристик системы, которые определяют степень ее соответствия заявленным требованиям;

  • 5)    составление формального математического описания системы;

  • 6)    построение математической модели системы.

Работа по первым четырем пунктам была описана авторами в предыдущих работах [14, 15]. Далее представлен процесс разработки формальной математической модели разрабатываемой системы.

Входными параметрами для работы системы являются информационные текстовые сообщения, получаемые из множества новостных источников в сети Интернет [16, 17].

Обозначим данное множество сообщений, получаемых из одного информационного источ- ника – RSS-канала, как

Mn ={m\, m2, — , m,},(2.1)

где каждое сообщение m i , представляет собой кортеж, состоящий из идентификатора i i , заголовка h i , основного текста сообщения t i , ссылки на источник l i , даты публикации d i :

mi =< ч, hi, ti, li, di >;

множество источников сообщений:

Ln ={li, 12, —, l};(2.3)

множество тематических рубрик сообщений:

Cn ={cl, c2, —, c}, тогда модель собранной коллекции текстовых документов T будет представлять собой кортеж:

Tn =< Mn, Ln, Cn >.(2.5)

Совокупность компонентов (модулей и блоков) системы мониторинга и анализа публикаций можно описать в виде:

K n =< B , A, S , V , E > ,

(2.6)

где B – модуль мониторинга с блоками парсинга RSS-каналов b rss , сайтов b site и социальных сетей b soc :

B = { b rss , b site , b soc } ;                                                                                                  (2.7)

модуль аналитики A с блоками предварительной обработки текста a pre-proc , извлечения информации a extr , text mining a tm , обработки естественного языка a nlp , нейросетевых моделей a neuro :

(2.8)

A   { a pre - proc , a extr , a tm , anlp , a neuro } ;

модуль хранения S с блоками необработанных данных s rd , обработанных данных s pd , метаданных s md , исторических данных s hd :

S = { s rd , s pd , s md , s hd } ;                                                                                       (2.9)

модуль вывода V с блоками текстового представления v txt , табличного v tb и графического v g :

  • V    = { v txt , v b , v g } ;                                                                                             (2.10)

модуль управления системой E с блоками административного eadm , и экспертного уровня eexp :

E = { e adm , e exp } .                                                                                          (2.11)

Взаимодействие системы с источниками информации при сборе текстовых данных (процесс мониторинга) можно представить как функцию

  • f :    B ^ L .                                                                            (2.12)

Процесс анализа текстовых данных можно обозначить как взаимодействие модуля аналитики системы с полученными данными:

  • f :    A ^ M .                                                                    (2.13)

Процесс хранения данных в хранилище можно показать как

  • f :    S ^ M str ,                                                                         (2.14)

где Mstr – структурированные данные.

Взаимодействие пользователя c системой можно показать как

  • f :    E ^ K n .                                                                       (2.15)

Рассмотрим протекающие ключевые процессы в модулях системы при её функционировании.

Модуль мониторинга B посылает сформированное пользователем через модуль управления Е множество запросов Qn множеству источников Ln .

  • f :    e ^ b ^ Q n ^ L n .                                                        (2.16)

Результатом запросов является полученное множество сообщений Mn , которое передаётся в блок предварительной обработки a pre-proc модуля аналитики A , а затем в блок обработанных данных s pd , модуля хранения S .

  • f :    A ^ M n .                                                                       (2.17)

Полученные данные могут и без предварительной обработки помещаться в блок необработанных данных srd модуля хранения с целью их накопления.

  • f :    S ^ M n .                                                                       (2.18)

На следующем этапе данные выгружаются из блока необработанные данных в модуль аналитики, где проходят предварительную обработку в блоке a pre-proc , затем, исходя из того, какой результат необходимо получить, предаются в блоки извлечения информации a extr , text mining a tm , обработки естественного языка a nlp , нейросетевых моделей a neuro . Задействование различных блоков определяется пользователем.

В блоке предварительной обработки a pre-proc применяются как по отдельности, так и комплексно, следующие методы:

  •    токенизация – разбивка текста на отдельные токены (абзацы, предложения, слова, символы, знаки пунктуации и т. д.), обозначим этот метод как ftoken ( mi ) ;

  •    удаление неинформативных, малоинформативных слов (стоп-слов), обозначим этот метод как fstop ( mi ) ;

Информатика и вычислительная техника

удаление числовых символов – fnum ( mi ) ;

  •    приведение регистра – преобразование всех символов слов к верхнему или нижнему регистру – fregistr ( mi ) ;

  •    стемминг – нахождение основы слов – fstemm ( mi ) ;

  •    лемматизация – приведения словоформ текста к леммам – нормальной (словарной) форме – flemm ( mi ).

Таким образом, процесс предварительной обработки текста в системе можно показать, как кортеж применяемых методов:

f pre - proc ( mi ) = <  J token ( mi ) , f stop ( mi ) , fnum ( mi ) , frepstr ( mi ) , fseemm ( mi ) , f lemm ( mi ) .

(2.19)

В блоке извлечения информации aextr применяются, как по отдельности, так и комплексно, следующие методы:

  •    метод извлечения именованных сущностей, таких как имена людей, названий организаций, событий и т. п.) – fname ( mi ) ;

  •    метод разрешение кореференции fco - ref ( mi ) поиск связей нескольких разных отсылок в тексте к одному реальному объекту;

  • метод извлечения фактов (события, мнения, отзывы, объявления, контактные данные и т. п.) – ffact ( mi );

    – метод аннотирования текста fabstr ( mi ) – преобразование текста с целью получения его

краткого описания.

Таким образом, процесс извлечения информации из текста в системе можно показать как кортеж методов:

fexrr ( m i ) = <  frame ( m i ) , fee- - ref ( m i ) , faact ( m i ) , fabsrr ( m i ) .                                     (2.20)

В блоке методов text mining a tm применяются как по отдельности, так и комплексно, следующие методы:

– классификация (категоризация) – fclass ( mi ) ;

– кластеризация – fclaster ( mi ) .

Описанный ранее блок извлечения информации a extr также использует методы, относящиеся к text mining. В разрабатываемой системе целесообразно разделить описанные методы, оставив в блоке a tm только два ключевых – классификацию и кластеризацию, поскольку данные методы будут использоваться и в других блоках, таких как обработка естественного языка anlp и нейросетевые модели a neuro .

Таким образом, процессы блока методов text mining atm можно показать как ftm ( mi ) = < /class ( mi), fclaster ( m ) > .                                                                (2.21)

В блоке методов обработки естественного языка a nlp применяются как по отдельности, так и комплексно, следующие методы:

– векторизация данных методом «Мешок слов» [18] (Bag of words (BOW)) – fBOW ( mi ) ;

– векторизация данных методом TF-IDF [19] – fTF - IDF ( mi ) ;

– оценка тональности текста (Sentiment Analysis) [20] – fsent ( mi ) .

Описанный ранее блок предварительной обработки a pre-proc также использует методы, относящиеся к обработке естественного языка. Разделение этих методов по двум блокам системы обусловлено тем, что предварительная обработка, с выделенными в ней методами, необходима для работы других блоков и модулей.

Таким образом, процессы блока anlp можно показать как fnp (mt ) = < fBOW (m ), fTF-IDF (m ), fsert (mt ) > .                                            (2.22)

В блоке методов нейросетевых моделей a neuro применяются как по отдельности, так и комплексно, следующие методы на основе машинного обучения:

– классификация (категоризация) – fclass ML ( m ) ;

– класстеризация – fclaster _ ML ( mi );

  • – оценка тональности текста – fsent ML ( mi ) .

Таким образом, процессы блока aneuro можно показать как fneuroo ( mi ) = < fclass _ ML ( mi ), fclaseer _ ML ( mi ), fseintt _ ML ( mi) > .                                   (2.23)

Заключение

Приведенное формализованное описание базовых процессов, протекающих в разрабатываемой системе мониторинга и анализа информации электронных СМИ и их математическое описание даёт четкое представление о ней и позволяет перейти к следующему этапу разработки – программной реализации системы.

Список литературы Формализация базовых процессов и математическая модель системы мониторинга и анализа публикаций электронных СМИ

  • Комаров, В.Н. Мониторинг и системный анализ информации электронных СМИ для промышленных предприятий / В.Н. Комаров, С.М. Рощин // Наукоемкие технологии и интеллектуальные системы: сб. ст. по итогам Междунар. науч.-практ. конф. - Самара: ООО «Агентство международных исследований», 2018. - С. 36-40.
  • Комаров, В.Н. Разработка архитектуры системы мониторинга и анализа публикаций в сети интернет / В.Н. Комаров, С.М. Рощин // Передовые инновационные разработки. Перспективы и опыт использования, проблемы внедрения в производство: сб. науч. ст. по итогам девятой междунар. науч. конф. (31 октября 2019 г.). Ч. 2. - Казань: ООО «Конверт», 2019. -С. 27-29.
  • Комаров, В.Н. Моделирование системы мониторинга и анализа информации электронных СМИ методами модельно-ориентированного системного инжиниринга / В.Н. Комаров, С.М. Рощин // Вестник ЮУрГУ. Серия «Компьютерные технологии, управление, радиоэлектроника». -2021 - Т. 21, № 1 - С. 12-22. DOI: 10.14529/ctcr210102
  • Зайцева, Н.А. Математическое моделирование: учеб. пособие / Н.А. Зайцева. - М.: РУТ (МИИТ), 2017. - 110 с.
  • Аверченков, В.И. Мониторинг и системный анализ информации в сети Интернет / B.И. Аверченков, С.М. Рощин. - Брянск: БГТУ, 2012. - 160 с.
  • Анализ данных и процессов / А.А. Барсегян, М.С. Куприянов, И.И. Холод и др. - 3-е изд., перераб. и доп. - СПб.: БХВ-Петербург, 2009. - 512 с.
  • Борисов, Е.С. Классификатор текстов на естественном языке / Е.С. Борисов. -http://mechanoid.kiev.ua/neural-net-classifier-text.html (дата обращения: 5.08.2021).
  • Дюк, В.А. Применение технологий интеллектуального анализа данных в естественнонаучных, технических и гуманитарных областях / В.А. Дюк, А.В. Флегонтов, И.К. Фомина // Известия российского государственного педагогического университета им. А.И. Герцена. - 2011. -№ 138. - С. 77-87.
  • Акимов, Д.А. Подход к классификации интернет-страниц по степени их информативности / Д.А. Акимов, О.К. Редькин, И.В. Садыков // Вестник МГТУ МИРЭА. - 2015, № 4-1 (9). - C. 206-217.
  • Созыкин, А.В. Анализ текстов с помощью рекуррентных нейронных сетей / А.В. Созыкин. - https://www.youtube.com/watch?v=7Tx_cewjhGQ (дата обращения: 05.08.2021).
  • Архипенко, К. Рекуррентные нейронные сети в задачах анализа текстов / К. Архипенко. -https://docplayer.ru/42578505-Rekurrentnye-neyronnye-seti-v-zadachah-analiza-tekstov.html (дата обращения: 10.08.2021).
  • Трусов, П.В. Введение в математическое моделирование / П.В. Трусов. - М. : Университетская книга; Логос, 2007. - 440 с.
  • Русаков, А.М. Исследование и моделирование сложных систем / А.М. Русаков. - М. : Мос-ков. гос. ун-т приборостроения и информатики, 2014. - 90 с.
  • Комаров, В.Н. Структура и обобщенный алгоритм работы системы мониторинга и анализа публикаций электронных СМИ / В.Н. Комаров, С.М. Рощин //XXI век: итоги прошлого и проблемы настоящего плюс. - 2019. - Т. 8, № 4 (48). - С. 61-66.
  • Комаров, В.Н. Мониторинг и системный анализ информации электронных СМИ для предприятий оборонно-промышленного комплекса России / В.Н. Комаров, С.М. Рощин //XXI век: итоги прошлого и проблемы настоящего плюс. - 2019. - Т. 8, № 2 (46). - С. 22-25.
  • Борисов, Е.С. Автоматизированная обработка текстов на естественном языке, с использованием инструментов языка Python / Е.С. Борисов. - http://mechanoid.kiev.ua/ml-text-proc.html (дата обращения: 10.08.2021).
  • Васильев, Ю. Обработка естественного языка. Python и spaCy на практике /Ю. Васильев. - СПб.: Питер, 2021. - 256 с.
  • Система формирования знаний в среде интернет: моногр. / В.И. Аверченков, А.В. Заболеева-Зотова, Ю.М. Казаков и др. - 3-е изд., стереотип. -М.: ФЛИНТА, 2016. - 181 с.
  • Вершинин, В.Е. Решение задач обработки естественного языка на основе нейросетевых моделей / В.Е. Вершинин, Е.В. Вершинин // Международная научно-практическая конференция НИЦ Аэтерна, 2018. - С. 54-59.
  • Витковский, А.В. Применение рекурсивных нейронных сетей для анализа тональности текста /А.В. Витковский, А.В. Жвакина // 54-я научная конференция аспирантов, магистрантов и студентов БГУИР, 2018. - С. 152-153.
Еще
Статья научная