Формализация базовых процессов и математическая модель системы мониторинга и анализа публикаций электронных СМИ

Комаров Виталий Николаевич; Рощин Сергей Михайлович; Komarov V.N.; Roschin S.M.

doi:10.14529/ctcr210403

Научные статьи \ Общие вопросы науки и культуры \ Информационные технологии. Вычислительная техника. Обработка данных \ Искусственный интеллект

Формализация базовых процессов и математическая модель системы мониторинга и анализа публикаций электронных СМИ

Автор: Комаров Виталий Николаевич, Рощин Сергей Михайлович

Журнал: Вестник Южно-Уральского государственного университета. Серия: Компьютерные технологии, управление, радиоэлектроника @vestnik-susu-ctcr

Рубрика: Информатика и вычислительная техника

Статья в выпуске: 4 т.21, 2021 года.

Бесплатный доступ

В статье описан подход формализации базовых процессов и построения математической модели для системы сбора и анализа данных из электронных СМИ. Авторы, в рамках проведения научного исследования, занимаются созданием системы, в том числе ведется разработка новых алгоритмов, методов и подходов сбора и анализа текстовой информации из новостных интернет-источников. Основным направлением в исследовании рассматривается применение методов интеллектуального анализа текстовых данных на основе технологии искусственных нейронных сетей, методов обработки естественного языка, text mining, машинного обучения и обработки больших данных. Цель исследования. Разработать формализованное описание модели системы мониторинга и анализа текстовой информации электронных новостных СМИ методами математического моделирования. Методы и инструментарий исследования. Предложено использование инструментария методологии математического моделирования с методами системного анализа. Для исследования системы применены такие методы системного анализа, как абстрагирование, формализация, композиция и декомпозиция, структурирование и реструктурирование, моделирование, распознавание и идентификация. Система рассматривается как формализованная модель автоматического классификатора и кластеризатора набора текстовых документов на естественном языке в виде алгебраической системы. Для решения задач классификации и кластеризации текстов предложено применять методы машинного обучения на основе нейросетевых подходов. Структура системы и составляющие её процессы, а также процессы взаимодействующие с системой извне, представлены в виде формализованного математического описания. Результаты. Разработанное формализованное математическое описание модели системы наглядно показывает взаимосвязь компонентов системы между собой, а также внутренние процессы. Применяемый подход позволяет детализировать представление системы на основе ее декомпозиции на подсистемы и модули. Все это дает возможность упорядочить последовательности этапов создания системы и декомпозировать их на отдельные этапы работ. Заключение. Результаты, полученные в ходе проведенного исследования, позволяют перейти к следующему этапу жизненного цикла разрабатываемой информационной системы - ее программной разработке.

Мониторинг информации сми, анализ данных, система мониторинга и анализа данных, анализ текста, математическая модель системы, интеллектуальный анализ данных, нейросетевые методы, системный анализ, классификация текстов, кластеризация текстов

Короткий адрес: https://sciup.org/147236499

IDR: 147236499 | УДК: 004.853 | DOI: 10.14529/ctcr210403

Formalization of basic processes and mathematical model of the system for monitoring and analysis of publications of electronic media

The article describes an approach to formalizing basic processes and building a mathematical model for a system for collecting and analyzing data from electronic media. The authors, as part of a scientific study, are creating a system, including the development of new algorithms, methods and approaches for collecting and analyzing textual information from Internet news sources. The main direction of the study is the application of methods for the mining of text data based on the technology of artificial neural networks, methods of natural language processing, text mining, machine learning and big data processing. Purpose of the study. To develop a formalized description of the model of the system for monitoring and analyzing the text information of electronic news media using the methods of mathematical modeling. Research methods and tools. The use of the toolkit of the methodology of mathematical modeling, with the methods of system analysis is proposed. To study the system, such methods of system analysis as abstraction, formalization, composition and decomposition, structuring and restructuring, modeling, recognition and identification were used. The system is considered as a formalized model of an automatic classifier and clusterizer for a set of text documents in a natural language in the form of an algebraic system. To solve the problems of classification and clustering of texts, it is proposed to apply machine learning methods based on neural network approaches. The structure of the system and its constituent processes, as well as processes interacting with the system from outside, are presented in the form of a formalized mathematical description. Results. The developed formalized mathematical description of the system model clearly shows the interconnection of the system components with each other, as well as internal processes. The applied approach makes it possible to detail the representation of the system based on its decomposition into subsystems and modules. All this makes it possible to streamline the sequence of stages of creating a system and decompose them into separate stages of work. Conclusion. The results obtained in the course of the study allow us to move on to the next stage of the life cycle of the information system being developed - its software development.

Текст научной статьи Формализация базовых процессов и математическая модель системы мониторинга и анализа публикаций электронных СМИ

Ранее, в рамках диссертационного исследования, авторы в статьях [1, 2] исследовали вопросы воздействия современных электронных новостных интернет-источников на общество, в частности на оборонно-промышленные предприятия нашей страны. Были представлены обобщенный алгоритм работы и структура создаваемой автоматизированной системы мониторинга и анализа текстовой информации в электронных СМИ.

В статье [3] авторы показали моделирование системы методами модельно-ориентированного системного инжиниринга.

В настоящей статье показано формализованное представление базовых процессов системы и её математическая модель.

1. Формализация базовых процессов системы

Многообразие различных процессов, протекающих в любой системе или с которыми она взаимодействует из вне, затруднительно изучить без создания упрощенной модели. Однако упрощение должно включать процессы наиболее значимые для изучения [4]. Именно поэтому применительно к разрабатываемой авторами системе мониторинга и анализа текстовой информации из электронных СМИ, целесообразно рассмотреть лишь основные, базовые процессы, протекающие как в самой системе, так и взаимодействующие с ней извне.

Ключевыми методами в задаче анализа текстовой информации являются классификация и кластеризация, поскольку другие функции системы, например, определение эмоциональной окраски текста, также сводятся к классификации [5, 6].

В виде алгебраической системы формализованную модель автоматического классификатора текстовых данных, позволяющую применять методы классификации, применяемые в данной работе, можно описать как кортеж [7]:

R = < C , T , F , R C , f > , (1.1)

где C – множество тематических рубрик; T – выборка текстов из рубрик C ; F – множество описаний тематических рубрик; R_C^F – отношение на C × F , соотносящее тематические рубрики и соответствующие им описания; f - операция классификации - отображение T ^ 2 ^C , такое что f ( t ) = о , где t - текст из Т , а се 2 C - элемент множества всех подмножеств С , т. е. множество тематических рубрик из С . Таким образом, отображение f позволяет каждому документу множества T поставить в соответствие некоторую тематическую рубрику из С .

Модель автоматического классификатора документов текстовых коллекций на естественном языке представляет собой систему R . Построение классификатора подразумевает частичное или полное формирование C , F , R_C^F , f на основе некоторых априорных данных. На практике это означает, что экспертом формируется иерархия тематических рубрик. Описания тематических рубрик могут создаваться вручную, в виде правил соотнесения документов к тематическим рубрикам по определенным признакам или автоматически, на основе методов машинного обучения. Тогда в качестве обучающего множества выступает набор документов, ранее сопоставленных с категориями T 0 с помощью экспертных оценок.

Задачу кластеризации в общем случае можно выразить следующим образом [8].

Дано:

1) множество текстов T = { t 1 , 1 2, . . , t_N };
2) количество кластеров K , предполагаемое или желательное в имеющемся наборе;
3) целевая функция, позволяющая оценить качество кластеризации.

Определяем соответствие у : T ^ { 1, . , K } , при котором будет достигаться минимум или максимум (экстремум) целевой функции. Целевая функция определяется в терминах сходства или расстояния между документами. Сходство документов выражается в виде одной из функций тематического сходства или в значениях на одних и тех же осях векторного пространства. Тематическое сходство определяется как косинусное или евклидово расстояния в векторном пространстве.

Получаемые при мониторинге новостные сообщения представляют собой большие объемы текстовых данных в неструктурированном или слабоструктурированном виде. Для обработки таких данных в настоящее время широкое распространение получило направление машинного обучения с применением нейросетевых методов [9]. Преимущество данных методов перед традиционными в следующем [10]:

1) обучаемость и самообучаемость;
2) быстродействие за счет распараллеливания вычислений;
3) устойчивость к шумам во входных данных.

Решение задач классификации и кластеризации текстов, целесообразно проводить с применением этих методов. Первостепенно для обучения системы необходимо произвести разметку имеющейся коллекции текстовых документов T и каждому учебному тексту назначить метку класса, которому он соответствует. Кроме того, нужно определить способ формализации этих

Информатика и вычислительная техника

данных, т. е. показать соответствие функции f из множества текстовых документов T в пространстве признаков X :

f : T ^ X , (1.2)

где f – функция излечения признаков (feature extraction).

После определения f и построения пространства признаков X , каждому тексту из T ставится в соответствие точка из Х , что дает возможность разделить все точки Х на подмножества.

Таким образом, поиск схожих текстовых документов сводится к задаче кластеризации точек из X , а распределение текстов по тематическим рубрикам сводиться к задаче классификации точек из X [11].

Формализовано, требуется создать представление g из множества вектор-признаков X во множество меток L :

g : X ^ L . (1.3)

В результате, задача обработки текста сводится:

а) к извлечению признаков;
б) распределению пространства признаков на части.
2. Математическая модель системы

Математическая модель является математическим аналогом проектируемого объекта и описывает зависимость между исходными данными и искомыми величинами [12]. Её построение позволяет структурировать процессы, протекающие в системе при её функционировании, что даст возможность перейти к натурному физическому построению компонентов системы и обеспечению их взаимодействия. Для этого целесообразно применить методы математического моделирования.

Построение математической модели предполагает следующие этапы [13]:

1) составление описания, как в целом функционирует система;
2) описание, какие подсистемы и элементы входят в систему, как они взаимодействуют между собой, описание их функционирования и характеристик, а также начальных условий;
3) определение, какие внешние факторы перечня могут оказывать влияние на систему;
4) выбор характеристик системы, которые определяют степень ее соответствия заявленным требованиям;
5) составление формального математического описания системы;
6) построение математической модели системы.

Работа по первым четырем пунктам была описана авторами в предыдущих работах [14, 15]. Далее представлен процесс разработки формальной математической модели разрабатываемой системы.

Входными параметрами для работы системы являются информационные текстовые сообщения, получаемые из множества новостных источников в сети Интернет [16, 17].

Обозначим данное множество сообщений, получаемых из одного информационного источ- ника – RSS-канала, как

Mn ={m\, m2, — , m,},(2.1)

где каждое сообщение m i , представляет собой кортеж, состоящий из идентификатора i i , заголовка h i , основного текста сообщения t i , ссылки на источник l i , даты публикации d i :

mi =< ч, hi, ti, li, di >;

множество источников сообщений:

Ln ={li, 12, —, l};(2.3)

множество тематических рубрик сообщений:

Cn ={cl, c2, —, c}, тогда модель собранной коллекции текстовых документов T будет представлять собой кортеж:

Tn =< Mn, Ln, Cn >.(2.5)

Совокупность компонентов (модулей и блоков) системы мониторинга и анализа публикаций можно описать в виде:

K n =< B , A, S , V , E > ,

(2.6)

где B – модуль мониторинга с блоками парсинга RSS-каналов b rss , сайтов b site и социальных сетей b soc :

B = { b rss , b site , b soc } ; (2.⁷⁾

модуль аналитики A с блоками предварительной обработки текста a pre-proc , извлечения информации a extr , text mining a tm , обработки естественного языка a nlp , нейросетевых моделей a neuro :

(2.8)

A ^{ a pre - proc , a extr , a tm , ^anlp , a neuro ^} ^;

модуль хранения S с блоками необработанных данных s rd , обработанных данных s pd , метаданных s md , исторических данных s hd :

S = ^{ s rd , s pd , s md , s hd ^} ; ^(2.9)

модуль вывода V с блоками текстового представления v txt , табличного v tb и графического v g :

V = { v txt , v b , v g } ; ^(2.10)

модуль управления системой E с блоками административного e_adm , и экспертного уровня e_exp :

E = ^{ e adm , e exp ^} ^. ^(2.11)

Взаимодействие системы с источниками информации при сборе текстовых данных (процесс мониторинга) можно представить как функцию

f : B ^ L . (2.12)

Процесс анализа текстовых данных можно обозначить как взаимодействие модуля аналитики системы с полученными данными:

f : A ^ M . (2.13)

Процесс хранения данных в хранилище можно показать как

f : S ^ M str , (2.14)

где M_str – структурированные данные.

Взаимодействие пользователя c системой можно показать как

f : E ^ K n . (2.15)

Рассмотрим протекающие ключевые процессы в модулях системы при её функционировании.

Модуль мониторинга B посылает сформированное пользователем через модуль управления Е множество запросов Q_n множеству источников L_n .

f : e ^ b ^ Q n ^ L n . (2.16)

Результатом запросов является полученное множество сообщений M_n , которое передаётся в блок предварительной обработки a pre-proc модуля аналитики A , а затем в блок обработанных данных s pd , модуля хранения S .

f : A ^ M n . (2.17)

Полученные данные могут и без предварительной обработки помещаться в блок необработанных данных s_rd модуля хранения с целью их накопления.

f : S ^ M n . (2.18)

На следующем этапе данные выгружаются из блока необработанные данных в модуль аналитики, где проходят предварительную обработку в блоке a pre-proc , затем, исходя из того, какой результат необходимо получить, предаются в блоки извлечения информации a extr , text mining a tm , обработки естественного языка a nlp , нейросетевых моделей a neuro . Задействование различных блоков определяется пользователем.

В блоке предварительной обработки a pre-proc применяются как по отдельности, так и комплексно, следующие методы:

– токенизация – разбивка текста на отдельные токены (абзацы, предложения, слова, символы, знаки пунктуации и т. д.), обозначим этот метод как f_token ( m_i ) ;
– удаление неинформативных, малоинформативных слов (стоп-слов), обозначим этот метод как f_stop ( m_i ) ;

Информатика и вычислительная техника

– удаление числовых символов – f_num ( m_i ) ;

– приведение регистра – преобразование всех символов слов к верхнему или нижнему регистру – f_registr ( m_i ) ;
– стемминг – нахождение основы слов – f_stemm ( m_i ) ;
– лемматизация – приведения словоформ текста к леммам – нормальной (словарной) форме – f_lemm ( m_i ).

Таким образом, процесс предварительной обработки текста в системе можно показать, как кортеж применяемых методов:

f pre - proc ⁽ mi ) = < J token ⁽ mi ) , f stop ⁽ mi ) , fnum ⁽ mi ) , frepstr ⁽ mi ) , fseemm ⁽ mi ) , f lemm ⁽ mi ) > ^.

(2.19)

В блоке извлечения информации aextr применяются, как по отдельности, так и комплексно, следующие методы:

– метод извлечения именованных сущностей, таких как имена людей, названий организаций, событий и т. п.) – f_name ( m_i ) ;
– метод разрешение кореференции f_co _- _ref ( m_i ) – поиск связей нескольких разных отсылок в тексте к одному реальному объекту;

– метод извлечения фактов (события, мнения, отзывы, объявления, контактные данные и т. п.) – f_fact ( m_i );

– метод аннотирования текста f_abstr ( m_i ) – преобразование текста с целью получения его

краткого описания.

Таким образом, процесс извлечения информации из текста в системе можно показать как кортеж методов:

fexrr ⁽ m i ) = < frame ⁽ m i ) , fee- - ref ⁽ m i ) , ^faact ⁽ m i ) , fabsrr ⁽ m i ) > ^. (2.2⁰)

В блоке методов text mining a tm применяются как по отдельности, так и комплексно, следующие методы:

– классификация (категоризация) – f_class ( m_i ) ;

– кластеризация – f_claster ( m_i ) .

Описанный ранее блок извлечения информации a extr также использует методы, относящиеся к text mining. В разрабатываемой системе целесообразно разделить описанные методы, оставив в блоке a tm только два ключевых – классификацию и кластеризацию, поскольку данные методы будут использоваться и в других блоках, таких как обработка естественного языка a_nlp и нейросетевые модели a neuro .

Таким образом, процессы блока методов text mining atm можно показать как ftm ( mi ) = < /class ( mi), fclaster ( m ) > . (2.21)

В блоке методов обработки естественного языка a nlp применяются как по отдельности, так и комплексно, следующие методы:

– векторизация данных методом «Мешок слов» [18] (Bag of words (BOW)) – f_BOW ( m_i ) ;

– векторизация данных методом TF-IDF [19] – f_TF _- _IDF ( m_i ) ;

– оценка тональности текста (Sentiment Analysis) [20] – f_sent ( m_i ) .

Описанный ранее блок предварительной обработки a pre-proc также использует методы, относящиеся к обработке естественного языка. Разделение этих методов по двум блокам системы обусловлено тем, что предварительная обработка, с выделенными в ней методами, необходима для работы других блоков и модулей.

Таким образом, процессы блока anlp можно показать как fnp (mt ) = < fBOW (m ), fTF-IDF (m ), fsert (mt ) > . (2.22)

В блоке методов нейросетевых моделей a neuro применяются как по отдельности, так и комплексно, следующие методы на основе машинного обучения:

– классификация (категоризация) – f_{class ML} ( m ) ;

– класстеризация – f_claster _{_} _ML ( m_i );

– оценка тональности текста – f_{sent ML} ( m_i ) .

Таким образом, процессы блока aneuro можно показать как fneuroo ( mi ) = < fclass _ ML ( mi ), fclaseer _ ML ( mi ), fseintt _ ML ( mi) > . (2.23)

Заключение

Приведенное формализованное описание базовых процессов, протекающих в разрабатываемой системе мониторинга и анализа информации электронных СМИ и их математическое описание даёт четкое представление о ней и позволяет перейти к следующему этапу разработки – программной реализации системы.

Список литературы Формализация базовых процессов и математическая модель системы мониторинга и анализа публикаций электронных СМИ

Комаров, В.Н. Мониторинг и системный анализ информации электронных СМИ для промышленных предприятий / В.Н. Комаров, С.М. Рощин // Наукоемкие технологии и интеллектуальные системы: сб. ст. по итогам Междунар. науч.-практ. конф. - Самара: ООО «Агентство международных исследований», 2018. - С. 36-40.
Комаров, В.Н. Разработка архитектуры системы мониторинга и анализа публикаций в сети интернет / В.Н. Комаров, С.М. Рощин // Передовые инновационные разработки. Перспективы и опыт использования, проблемы внедрения в производство: сб. науч. ст. по итогам девятой междунар. науч. конф. (31 октября 2019 г.). Ч. 2. - Казань: ООО «Конверт», 2019. -С. 27-29.
Комаров, В.Н. Моделирование системы мониторинга и анализа информации электронных СМИ методами модельно-ориентированного системного инжиниринга / В.Н. Комаров, С.М. Рощин // Вестник ЮУрГУ. Серия «Компьютерные технологии, управление, радиоэлектроника». -2021 - Т. 21, № 1 - С. 12-22. DOI: 10.14529/ctcr210102
Зайцева, Н.А. Математическое моделирование: учеб. пособие / Н.А. Зайцева. - М.: РУТ (МИИТ), 2017. - 110 с.
Аверченков, В.И. Мониторинг и системный анализ информации в сети Интернет / B.И. Аверченков, С.М. Рощин. - Брянск: БГТУ, 2012. - 160 с.
Анализ данных и процессов / А.А. Барсегян, М.С. Куприянов, И.И. Холод и др. - 3-е изд., перераб. и доп. - СПб.: БХВ-Петербург, 2009. - 512 с.
Борисов, Е.С. Классификатор текстов на естественном языке / Е.С. Борисов. -http://mechanoid.kiev.ua/neural-net-classifier-text.html (дата обращения: 5.08.2021).
Дюк, В.А. Применение технологий интеллектуального анализа данных в естественнонаучных, технических и гуманитарных областях / В.А. Дюк, А.В. Флегонтов, И.К. Фомина // Известия российского государственного педагогического университета им. А.И. Герцена. - 2011. -№ 138. - С. 77-87.
Акимов, Д.А. Подход к классификации интернет-страниц по степени их информативности / Д.А. Акимов, О.К. Редькин, И.В. Садыков // Вестник МГТУ МИРЭА. - 2015, № 4-1 (9). - C. 206-217.
Созыкин, А.В. Анализ текстов с помощью рекуррентных нейронных сетей / А.В. Созыкин. - https://www.youtube.com/watch?v=7Tx_cewjhGQ (дата обращения: 05.08.2021).
Архипенко, К. Рекуррентные нейронные сети в задачах анализа текстов / К. Архипенко. -https://docplayer.ru/42578505-Rekurrentnye-neyronnye-seti-v-zadachah-analiza-tekstov.html (дата обращения: 10.08.2021).
Трусов, П.В. Введение в математическое моделирование / П.В. Трусов. - М. : Университетская книга; Логос, 2007. - 440 с.
Русаков, А.М. Исследование и моделирование сложных систем / А.М. Русаков. - М. : Мос-ков. гос. ун-т приборостроения и информатики, 2014. - 90 с.
Комаров, В.Н. Структура и обобщенный алгоритм работы системы мониторинга и анализа публикаций электронных СМИ / В.Н. Комаров, С.М. Рощин //XXI век: итоги прошлого и проблемы настоящего плюс. - 2019. - Т. 8, № 4 (48). - С. 61-66.
Комаров, В.Н. Мониторинг и системный анализ информации электронных СМИ для предприятий оборонно-промышленного комплекса России / В.Н. Комаров, С.М. Рощин //XXI век: итоги прошлого и проблемы настоящего плюс. - 2019. - Т. 8, № 2 (46). - С. 22-25.
Борисов, Е.С. Автоматизированная обработка текстов на естественном языке, с использованием инструментов языка Python / Е.С. Борисов. - http://mechanoid.kiev.ua/ml-text-proc.html (дата обращения: 10.08.2021).
Васильев, Ю. Обработка естественного языка. Python и spaCy на практике /Ю. Васильев. - СПб.: Питер, 2021. - 256 с.
Система формирования знаний в среде интернет: моногр. / В.И. Аверченков, А.В. Заболеева-Зотова, Ю.М. Казаков и др. - 3-е изд., стереотип. -М.: ФЛИНТА, 2016. - 181 с.
Вершинин, В.Е. Решение задач обработки естественного языка на основе нейросетевых моделей / В.Е. Вершинин, Е.В. Вершинин // Международная научно-практическая конференция НИЦ Аэтерна, 2018. - С. 54-59.
Витковский, А.В. Применение рекурсивных нейронных сетей для анализа тональности текста /А.В. Витковский, А.В. Жвакина // 54-я научная конференция аспирантов, магистрантов и студентов БГУИР, 2018. - С. 152-153.

Еще