Формализация базовых процессов и математическая модель системы мониторинга и анализа публикаций электронных СМИ
Автор: Комаров Виталий Николаевич, Рощин Сергей Михайлович
Рубрика: Информатика и вычислительная техника
Статья в выпуске: 4 т.21, 2021 года.
Бесплатный доступ
В статье описан подход формализации базовых процессов и построения математической модели для системы сбора и анализа данных из электронных СМИ. Авторы, в рамках проведения научного исследования, занимаются созданием системы, в том числе ведется разработка новых алгоритмов, методов и подходов сбора и анализа текстовой информации из новостных интернет-источников. Основным направлением в исследовании рассматривается применение методов интеллектуального анализа текстовых данных на основе технологии искусственных нейронных сетей, методов обработки естественного языка, text mining, машинного обучения и обработки больших данных. Цель исследования. Разработать формализованное описание модели системы мониторинга и анализа текстовой информации электронных новостных СМИ методами математического моделирования. Методы и инструментарий исследования. Предложено использование инструментария методологии математического моделирования с методами системного анализа. Для исследования системы применены такие методы системного анализа, как абстрагирование, формализация, композиция и декомпозиция, структурирование и реструктурирование, моделирование, распознавание и идентификация. Система рассматривается как формализованная модель автоматического классификатора и кластеризатора набора текстовых документов на естественном языке в виде алгебраической системы. Для решения задач классификации и кластеризации текстов предложено применять методы машинного обучения на основе нейросетевых подходов. Структура системы и составляющие её процессы, а также процессы взаимодействующие с системой извне, представлены в виде формализованного математического описания. Результаты. Разработанное формализованное математическое описание модели системы наглядно показывает взаимосвязь компонентов системы между собой, а также внутренние процессы. Применяемый подход позволяет детализировать представление системы на основе ее декомпозиции на подсистемы и модули. Все это дает возможность упорядочить последовательности этапов создания системы и декомпозировать их на отдельные этапы работ. Заключение. Результаты, полученные в ходе проведенного исследования, позволяют перейти к следующему этапу жизненного цикла разрабатываемой информационной системы - ее программной разработке.
Мониторинг информации сми, анализ данных, система мониторинга и анализа данных, анализ текста, математическая модель системы, интеллектуальный анализ данных, нейросетевые методы, системный анализ, классификация текстов, кластеризация текстов
Короткий адрес: https://sciup.org/147236499
IDR: 147236499 | DOI: 10.14529/ctcr210403
Текст научной статьи Формализация базовых процессов и математическая модель системы мониторинга и анализа публикаций электронных СМИ
Ранее, в рамках диссертационного исследования, авторы в статьях [1, 2] исследовали вопросы воздействия современных электронных новостных интернет-источников на общество, в частности на оборонно-промышленные предприятия нашей страны. Были представлены обобщенный алгоритм работы и структура создаваемой автоматизированной системы мониторинга и анализа текстовой информации в электронных СМИ.
В статье [3] авторы показали моделирование системы методами модельно-ориентированного системного инжиниринга.
В настоящей статье показано формализованное представление базовых процессов системы и её математическая модель.
-
1. Формализация базовых процессов системы
Многообразие различных процессов, протекающих в любой системе или с которыми она взаимодействует из вне, затруднительно изучить без создания упрощенной модели. Однако упрощение должно включать процессы наиболее значимые для изучения [4]. Именно поэтому применительно к разрабатываемой авторами системе мониторинга и анализа текстовой информации из электронных СМИ, целесообразно рассмотреть лишь основные, базовые процессы, протекающие как в самой системе, так и взаимодействующие с ней извне.
Ключевыми методами в задаче анализа текстовой информации являются классификация и кластеризация, поскольку другие функции системы, например, определение эмоциональной окраски текста, также сводятся к классификации [5, 6].
В виде алгебраической системы формализованную модель автоматического классификатора текстовых данных, позволяющую применять методы классификации, применяемые в данной работе, можно описать как кортеж [7]:
R = < C , T , F , R C , f > , (1.1)
где C – множество тематических рубрик; T – выборка текстов из рубрик C ; F – множество описаний тематических рубрик; RCF – отношение на C × F , соотносящее тематические рубрики и соответствующие им описания; f - операция классификации - отображение T ^ 2 C , такое что f ( t ) = о , где t - текст из Т , а се 2 C - элемент множества всех подмножеств С , т. е. множество тематических рубрик из С . Таким образом, отображение f позволяет каждому документу множества T поставить в соответствие некоторую тематическую рубрику из С .
Модель автоматического классификатора документов текстовых коллекций на естественном языке представляет собой систему R . Построение классификатора подразумевает частичное или полное формирование C , F , RCF , f на основе некоторых априорных данных. На практике это означает, что экспертом формируется иерархия тематических рубрик. Описания тематических рубрик могут создаваться вручную, в виде правил соотнесения документов к тематическим рубрикам по определенным признакам или автоматически, на основе методов машинного обучения. Тогда в качестве обучающего множества выступает набор документов, ранее сопоставленных с категориями T 0 с помощью экспертных оценок.
Задачу кластеризации в общем случае можно выразить следующим образом [8].
Дано:
-
1) множество текстов T = { t 1 , 1 2, . . , tN };
-
2) количество кластеров K , предполагаемое или желательное в имеющемся наборе;
-
3) целевая функция, позволяющая оценить качество кластеризации.
Определяем соответствие у : T ^ { 1, . , K } , при котором будет достигаться минимум или максимум (экстремум) целевой функции. Целевая функция определяется в терминах сходства или расстояния между документами. Сходство документов выражается в виде одной из функций тематического сходства или в значениях на одних и тех же осях векторного пространства. Тематическое сходство определяется как косинусное или евклидово расстояния в векторном пространстве.
Получаемые при мониторинге новостные сообщения представляют собой большие объемы текстовых данных в неструктурированном или слабоструктурированном виде. Для обработки таких данных в настоящее время широкое распространение получило направление машинного обучения с применением нейросетевых методов [9]. Преимущество данных методов перед традиционными в следующем [10]:
-
1) обучаемость и самообучаемость;
-
2) быстродействие за счет распараллеливания вычислений;
-
3) устойчивость к шумам во входных данных.
Решение задач классификации и кластеризации текстов, целесообразно проводить с применением этих методов. Первостепенно для обучения системы необходимо произвести разметку имеющейся коллекции текстовых документов T и каждому учебному тексту назначить метку класса, которому он соответствует. Кроме того, нужно определить способ формализации этих
Информатика и вычислительная техника
данных, т. е. показать соответствие функции f из множества текстовых документов T в пространстве признаков X :
-
f : T ^ X , (1.2)
где f – функция излечения признаков (feature extraction).
После определения f и построения пространства признаков X , каждому тексту из T ставится в соответствие точка из Х , что дает возможность разделить все точки Х на подмножества.
Таким образом, поиск схожих текстовых документов сводится к задаче кластеризации точек из X , а распределение текстов по тематическим рубрикам сводиться к задаче классификации точек из X [11].
Формализовано, требуется создать представление g из множества вектор-признаков X во множество меток L :
-
g : X ^ L . (1.3)
В результате, задача обработки текста сводится:
-
а) к извлечению признаков;
-
б) распределению пространства признаков на части.
-
2. Математическая модель системы
Математическая модель является математическим аналогом проектируемого объекта и описывает зависимость между исходными данными и искомыми величинами [12]. Её построение позволяет структурировать процессы, протекающие в системе при её функционировании, что даст возможность перейти к натурному физическому построению компонентов системы и обеспечению их взаимодействия. Для этого целесообразно применить методы математического моделирования.
Построение математической модели предполагает следующие этапы [13]:
-
1) составление описания, как в целом функционирует система;
-
2) описание, какие подсистемы и элементы входят в систему, как они взаимодействуют между собой, описание их функционирования и характеристик, а также начальных условий;
-
3) определение, какие внешние факторы перечня могут оказывать влияние на систему;
-
4) выбор характеристик системы, которые определяют степень ее соответствия заявленным требованиям;
-
5) составление формального математического описания системы;
-
6) построение математической модели системы.
Работа по первым четырем пунктам была описана авторами в предыдущих работах [14, 15]. Далее представлен процесс разработки формальной математической модели разрабатываемой системы.
Входными параметрами для работы системы являются информационные текстовые сообщения, получаемые из множества новостных источников в сети Интернет [16, 17].
Обозначим данное множество сообщений, получаемых из одного информационного источ- ника – RSS-канала, как
Mn ={m\, m2, — , m,},(2.1)
где каждое сообщение m i , представляет собой кортеж, состоящий из идентификатора i i , заголовка h i , основного текста сообщения t i , ссылки на источник l i , даты публикации d i :
mi =< ч, hi, ti, li, di >;
множество источников сообщений:
Ln ={li, 12, —, l};(2.3)
множество тематических рубрик сообщений:
Cn ={cl, c2, —, c}, тогда модель собранной коллекции текстовых документов T будет представлять собой кортеж:
Tn =< Mn, Ln, Cn >.(2.5)
Совокупность компонентов (модулей и блоков) системы мониторинга и анализа публикаций можно описать в виде:
K n =< B , A, S , V , E > ,
(2.6)
где B – модуль мониторинга с блоками парсинга RSS-каналов b rss , сайтов b site и социальных сетей b soc :
B = { b rss , b site , b soc } ; (2.7)
модуль аналитики A с блоками предварительной обработки текста a pre-proc , извлечения информации a extr , text mining a tm , обработки естественного языка a nlp , нейросетевых моделей a neuro :
(2.8)
A { a pre - proc , a extr , a tm , anlp , a neuro } ;
модуль хранения S с блоками необработанных данных s rd , обработанных данных s pd , метаданных s md , исторических данных s hd :
S = { s rd , s pd , s md , s hd } ; (2.9)
модуль вывода V с блоками текстового представления v txt , табличного v tb и графического v g :
-
V = { v txt , v b , v g } ; (2.10)
модуль управления системой E с блоками административного eadm , и экспертного уровня eexp :
E = { e adm , e exp } . (2.11)
Взаимодействие системы с источниками информации при сборе текстовых данных (процесс мониторинга) можно представить как функцию
-
f : B ^ L . (2.12)
Процесс анализа текстовых данных можно обозначить как взаимодействие модуля аналитики системы с полученными данными:
-
f : A ^ M . (2.13)
Процесс хранения данных в хранилище можно показать как
-
f : S ^ M str , (2.14)
где Mstr – структурированные данные.
Взаимодействие пользователя c системой можно показать как
-
f : E ^ K n . (2.15)
Рассмотрим протекающие ключевые процессы в модулях системы при её функционировании.
Модуль мониторинга B посылает сформированное пользователем через модуль управления Е множество запросов Qn множеству источников Ln .
-
f : e ^ b ^ Q n ^ L n . (2.16)
Результатом запросов является полученное множество сообщений Mn , которое передаётся в блок предварительной обработки a pre-proc модуля аналитики A , а затем в блок обработанных данных s pd , модуля хранения S .
-
f : A ^ M n . (2.17)
Полученные данные могут и без предварительной обработки помещаться в блок необработанных данных srd модуля хранения с целью их накопления.
-
f : S ^ M n . (2.18)
На следующем этапе данные выгружаются из блока необработанные данных в модуль аналитики, где проходят предварительную обработку в блоке a pre-proc , затем, исходя из того, какой результат необходимо получить, предаются в блоки извлечения информации a extr , text mining a tm , обработки естественного языка a nlp , нейросетевых моделей a neuro . Задействование различных блоков определяется пользователем.
В блоке предварительной обработки a pre-proc применяются как по отдельности, так и комплексно, следующие методы:
-
– токенизация – разбивка текста на отдельные токены (абзацы, предложения, слова, символы, знаки пунктуации и т. д.), обозначим этот метод как ftoken ( mi ) ;
-
– удаление неинформативных, малоинформативных слов (стоп-слов), обозначим этот метод как fstop ( mi ) ;
Информатика и вычислительная техника
– удаление числовых символов – fnum ( mi ) ;
-
– приведение регистра – преобразование всех символов слов к верхнему или нижнему регистру – fregistr ( mi ) ;
-
– стемминг – нахождение основы слов – fstemm ( mi ) ;
-
– лемматизация – приведения словоформ текста к леммам – нормальной (словарной) форме – flemm ( mi ).
Таким образом, процесс предварительной обработки текста в системе можно показать, как кортеж применяемых методов:
f pre - proc ( mi ) = < J token ( mi ) , f stop ( mi ) , fnum ( mi ) , frepstr ( mi ) , fseemm ( mi ) , f lemm ( mi ) > .
(2.19)
В блоке извлечения информации aextr применяются, как по отдельности, так и комплексно, следующие методы:
-
– метод извлечения именованных сущностей, таких как имена людей, названий организаций, событий и т. п.) – fname ( mi ) ;
-
– метод разрешение кореференции fco - ref ( mi ) – поиск связей нескольких разных отсылок в тексте к одному реальному объекту;
-
– метод извлечения фактов (события, мнения, отзывы, объявления, контактные данные и т. п.) – ffact ( mi );
– метод аннотирования текста fabstr ( mi ) – преобразование текста с целью получения его
краткого описания.
Таким образом, процесс извлечения информации из текста в системе можно показать как кортеж методов:
fexrr ( m i ) = < frame ( m i ) , fee- - ref ( m i ) , faact ( m i ) , fabsrr ( m i ) > . (2.20)
В блоке методов text mining a tm применяются как по отдельности, так и комплексно, следующие методы:
– классификация (категоризация) – fclass ( mi ) ;
– кластеризация – fclaster ( mi ) .
Описанный ранее блок извлечения информации a extr также использует методы, относящиеся к text mining. В разрабатываемой системе целесообразно разделить описанные методы, оставив в блоке a tm только два ключевых – классификацию и кластеризацию, поскольку данные методы будут использоваться и в других блоках, таких как обработка естественного языка anlp и нейросетевые модели a neuro .
Таким образом, процессы блока методов text mining atm можно показать как ftm ( mi ) = < /class ( mi), fclaster ( m ) > . (2.21)
В блоке методов обработки естественного языка a nlp применяются как по отдельности, так и комплексно, следующие методы:
– векторизация данных методом «Мешок слов» [18] (Bag of words (BOW)) – fBOW ( mi ) ;
– векторизация данных методом TF-IDF [19] – fTF - IDF ( mi ) ;
– оценка тональности текста (Sentiment Analysis) [20] – fsent ( mi ) .
Описанный ранее блок предварительной обработки a pre-proc также использует методы, относящиеся к обработке естественного языка. Разделение этих методов по двум блокам системы обусловлено тем, что предварительная обработка, с выделенными в ней методами, необходима для работы других блоков и модулей.
Таким образом, процессы блока anlp можно показать как fnp (mt ) = < fBOW (m ), fTF-IDF (m ), fsert (mt ) > . (2.22)
В блоке методов нейросетевых моделей a neuro применяются как по отдельности, так и комплексно, следующие методы на основе машинного обучения:
– классификация (категоризация) – fclass ML ( m ) ;
– класстеризация – fclaster _ ML ( mi );
-
– оценка тональности текста – fsent ML ( mi ) .
Таким образом, процессы блока aneuro можно показать как fneuroo ( mi ) = < fclass _ ML ( mi ), fclaseer _ ML ( mi ), fseintt _ ML ( mi) > . (2.23)
Заключение
Приведенное формализованное описание базовых процессов, протекающих в разрабатываемой системе мониторинга и анализа информации электронных СМИ и их математическое описание даёт четкое представление о ней и позволяет перейти к следующему этапу разработки – программной реализации системы.
Список литературы Формализация базовых процессов и математическая модель системы мониторинга и анализа публикаций электронных СМИ
- Комаров, В.Н. Мониторинг и системный анализ информации электронных СМИ для промышленных предприятий / В.Н. Комаров, С.М. Рощин // Наукоемкие технологии и интеллектуальные системы: сб. ст. по итогам Междунар. науч.-практ. конф. - Самара: ООО «Агентство международных исследований», 2018. - С. 36-40.
- Комаров, В.Н. Разработка архитектуры системы мониторинга и анализа публикаций в сети интернет / В.Н. Комаров, С.М. Рощин // Передовые инновационные разработки. Перспективы и опыт использования, проблемы внедрения в производство: сб. науч. ст. по итогам девятой междунар. науч. конф. (31 октября 2019 г.). Ч. 2. - Казань: ООО «Конверт», 2019. -С. 27-29.
- Комаров, В.Н. Моделирование системы мониторинга и анализа информации электронных СМИ методами модельно-ориентированного системного инжиниринга / В.Н. Комаров, С.М. Рощин // Вестник ЮУрГУ. Серия «Компьютерные технологии, управление, радиоэлектроника». -2021 - Т. 21, № 1 - С. 12-22. DOI: 10.14529/ctcr210102
- Зайцева, Н.А. Математическое моделирование: учеб. пособие / Н.А. Зайцева. - М.: РУТ (МИИТ), 2017. - 110 с.
- Аверченков, В.И. Мониторинг и системный анализ информации в сети Интернет / B.И. Аверченков, С.М. Рощин. - Брянск: БГТУ, 2012. - 160 с.
- Анализ данных и процессов / А.А. Барсегян, М.С. Куприянов, И.И. Холод и др. - 3-е изд., перераб. и доп. - СПб.: БХВ-Петербург, 2009. - 512 с.
- Борисов, Е.С. Классификатор текстов на естественном языке / Е.С. Борисов. -http://mechanoid.kiev.ua/neural-net-classifier-text.html (дата обращения: 5.08.2021).
- Дюк, В.А. Применение технологий интеллектуального анализа данных в естественнонаучных, технических и гуманитарных областях / В.А. Дюк, А.В. Флегонтов, И.К. Фомина // Известия российского государственного педагогического университета им. А.И. Герцена. - 2011. -№ 138. - С. 77-87.
- Акимов, Д.А. Подход к классификации интернет-страниц по степени их информативности / Д.А. Акимов, О.К. Редькин, И.В. Садыков // Вестник МГТУ МИРЭА. - 2015, № 4-1 (9). - C. 206-217.
- Созыкин, А.В. Анализ текстов с помощью рекуррентных нейронных сетей / А.В. Созыкин. - https://www.youtube.com/watch?v=7Tx_cewjhGQ (дата обращения: 05.08.2021).
- Архипенко, К. Рекуррентные нейронные сети в задачах анализа текстов / К. Архипенко. -https://docplayer.ru/42578505-Rekurrentnye-neyronnye-seti-v-zadachah-analiza-tekstov.html (дата обращения: 10.08.2021).
- Трусов, П.В. Введение в математическое моделирование / П.В. Трусов. - М. : Университетская книга; Логос, 2007. - 440 с.
- Русаков, А.М. Исследование и моделирование сложных систем / А.М. Русаков. - М. : Мос-ков. гос. ун-т приборостроения и информатики, 2014. - 90 с.
- Комаров, В.Н. Структура и обобщенный алгоритм работы системы мониторинга и анализа публикаций электронных СМИ / В.Н. Комаров, С.М. Рощин //XXI век: итоги прошлого и проблемы настоящего плюс. - 2019. - Т. 8, № 4 (48). - С. 61-66.
- Комаров, В.Н. Мониторинг и системный анализ информации электронных СМИ для предприятий оборонно-промышленного комплекса России / В.Н. Комаров, С.М. Рощин //XXI век: итоги прошлого и проблемы настоящего плюс. - 2019. - Т. 8, № 2 (46). - С. 22-25.
- Борисов, Е.С. Автоматизированная обработка текстов на естественном языке, с использованием инструментов языка Python / Е.С. Борисов. - http://mechanoid.kiev.ua/ml-text-proc.html (дата обращения: 10.08.2021).
- Васильев, Ю. Обработка естественного языка. Python и spaCy на практике /Ю. Васильев. - СПб.: Питер, 2021. - 256 с.
- Система формирования знаний в среде интернет: моногр. / В.И. Аверченков, А.В. Заболеева-Зотова, Ю.М. Казаков и др. - 3-е изд., стереотип. -М.: ФЛИНТА, 2016. - 181 с.
- Вершинин, В.Е. Решение задач обработки естественного языка на основе нейросетевых моделей / В.Е. Вершинин, Е.В. Вершинин // Международная научно-практическая конференция НИЦ Аэтерна, 2018. - С. 54-59.
- Витковский, А.В. Применение рекурсивных нейронных сетей для анализа тональности текста /А.В. Витковский, А.В. Жвакина // 54-я научная конференция аспирантов, магистрантов и студентов БГУИР, 2018. - С. 152-153.