Математическое моделирование рекомендательной системы и обработка данных телекоммуникационной компании с помощью моделей машинного обучения

Автор: Андриянов Никита Андреевич, Атаходжаева Мадина-Бону Рустамовна, Бородин Евгений Игоревич

Журнал: Вестник Южно-Уральского государственного университета. Серия: Компьютерные технологии, управление, радиоэлектроника @vestnik-susu-ctcr

Рубрика: Информатика и вычислительная техника

Статья в выпуске: 2 т.22, 2022 года.

Бесплатный доступ

Цель исследования: разработка методов моделирования данных для разработки рекомендательных алгоритмов с использованием дважды стохастических авторегрессионных моделей случайных процессов и проверка их адекватности путем применения алгоритмов машинного обучения для кластеризации пользователей в имитируемом наборе данных и прогнозирования вероятностей интереса. Методы исследования. В статье рассмотрены методы, используемые при построении рекомендательных систем. При этом рассмотрена задача моделирования поведения пользователей с помощью дважды стохастической модели. Данная модель предложена для генерации искусственных данных. Дважды стохастическая модель позволяет генерировать нестационарные процессы, таким образом, создает пользователей с разными вероятностными свойствами в разных группах объектов интереса. После этого искусственно созданные пользователи (и их активность) кластеризуются на основе модифицированного алгоритма K-средних. Основная модификация заключается в необходимости автоматической предварительной оценки числа кластеров, а не его выбора человеком. Далее моделируется поведение представителей каждой группы пользователей для новых событий. На основе сгенерированной информации и обучающих данных решается задача прогнозирования и ранжирования предлагаемых услуг. При этом на первом этапе использования регрессионных моделей достаточно для отнесения пользователя к группе и формирования предложений данному пользователю. Результаты исследования. На обучающих данных в 2 кластерах были достигнуты высокие индексы детерминации, что говорит примерно о 90 % объясненной дисперсии при использовании предложенной дважды стохастической модели. Особое внимание уделено работе современных рекомендательных систем на примере системы «Диско» от Яндекс. Кроме того, выполнена предобработка и предварительный анализ данных реального сектора, а именно: исследуются данные телекоммуникационной компании. С целью выдачи релевантных предложений по услугам связи разработана тестовая рекомендательная система. Заключение. Таким образом, к основным результатам работы относится математическая модель, симулирующая реакцию пользователей на различные услуги, а также модель логистической регрессии, используемая для прогнозирования вероятности заинтересованности пользователя новой услугой. На основе прогнозируемых вероятностей не составляет труда ранжирование новых предложений. Апробация на синтезированных данных показала высокую эффективность модели.

Еще

Рекомендательные системы, математическое моделирование, дважды стохастическая модель, логистическая регрессия, машинное обучение

Короткий адрес: https://sciup.org/147237450

IDR: 147237450   |   УДК: 004.8

Mathematical modeling of recommender system and data processing of a telecommunications company using machine learning models

The purpose of the study is to develop data modeling methods for projecting recommender algorithms using doubly stochastic autoregressive models of random processes and checking their adequacy by applying machine learning algorithms to cluster users in a simulated data set and predict probabilities of interest. Research methods. The article discusses the methods used in the construction of recommender systems. At the same time, the problem of modeling user behavior using a doubly stochastic model is considered. This model is proposed for generating artificial data. The doubly stochastic model allows generating non-stationary processes, thus creating users with different probabilistic properties in different groups of objects of interest. After that, artificially created users (and their activity) are clustered based on a modified K-means algorithm. The main modification is the need for automatic pre-estimation of the number of clusters, and not its choice by a person. Next, the behavior of representatives of each user group for new events is modeled. Based on the generated information and training data, the problem of predictiing and ranking the services offered is solved. At the same time, at the first stage, the use of regression models is sufficient to assign users to a group and form offers for this user. Results of the study. On the training data in 2 clusters, high determination indices were achieved, which indicates approximately 90% of the explained variance when using the proposed doubly stochastic model. Particular attention is paid to the work of modern recommender systems on the example of the Disco system developed by Yandex. In addition, pre-processing and preliminary analysis of data from the real sector was performed, namely, the data of a telecommunications company are being studied. For the purpose of issuing relevant proposals for communication services, a test recommender system has been developed. Conclusion. Thus, the main results of the work include a mathematical model that simulates the reaction of users to various services, as well as a logistic regression model used to predict the probability of a user's interest in a new service. Based on predicted probabilities, it is not difficult to rank new proposals. Approbation on the synthesized data showed the high efficiency of the model.

Еще

Список литературы Математическое моделирование рекомендательной системы и обработка данных телекоммуникационной компании с помощью моделей машинного обучения

  • Будущее искусственного интеллекта в России: как технологии превратятся в решения. URL: cnews.ru/articles/2019-10-02_budushchee_iskusstvennogo_intellekta (дата обращения: 02.03.2022).
  • Сбербанк заработает на искусственном интеллекте 450 миллиардов рублей. URL: www.vedomosti.ru/technology/articles/2020/02/19/823464-sberbank-zarabotaet (дата обращения: 06.03.2022).
  • Авхадеев Б.Р., Воронова Л.И., Охапкина Е.П. Разработка рекомендательной системы на основе данных из профиля социальной сети «ВКонтакте» // Вестник НВГУ. 2014. № 3. URL: https://cyberleninka.ru/article/n/razrabotka-rekomendatelnoy-sistemy-na-osnove-dannyh-iz-profilya-sotsialnoy-seti-vkontakte (дата обращения: 08.03.2022).
  • Кластеризация профилей пользователей в рекомендательных системах поддержки жизнеобеспечения на основе реальных неявных данных / С.А. Филиппов, В.Н. Захаров, С.А. Ступни-ков, Д.Ю. Ковалев // Труды XVIII Международной конференции DAMDID/RCDL'2016 «Аналитика и управление данными в областях с интенсивным использованием данных». 2016. С. 98-103.
  • Isinkaye F.O., Folajimi Y.O., Ojokoh B.A. Recommendation systems: Principles, methods and evaluation // Egyptian Informatics Journal. 2015. Vol. 16 (3). P. 261-273.
  • Нефедова Ю.С. Архитектура гибридной рекомендательной системы GEFEST (Generation-Expansion-Filtering-Sorting-Truncation) // Системы и средства информатики. 2012. Т. 22 (2). С.176-196.
  • Ullrich T. On the Autoregressive Time Series Model Using Real and Complex Analysis // Forecasting. 2021. Vol. 3. P. 716-728. DOI: 10.3390/forecast3040044
  • Neural autoregressive distribution estimation / B. Uria, M.-A. Côté, K. Gregor et al. // JMLR. 2016. Vol. 17 (1). P. 7184-7220.
  • Модели систем квазипериодических процессов на основе цилиндрических и круговых изображений / В.Р. Крашенинников, Ю.Е. Кувайскова, О.Е. Маленова, А.Ю. Субботин // Известия Самарского научного центра Российской академии наук. 2021. Т. 23, № 1. C. 103-110. DOI: 10.37313/1990-5378-2021-23-1-103-110
  • Андриянов Н.А., Васильев К.К. Свойства авторегрессий с кратными корнями характеристических уравнений // Вестник УлГТУ. 2019. № 1 (85). URL: https://cyberleninka.ru/article/n/ svoystva-avtoregressiy-s-kratnymi-kornyami-harakteristicheskih-uravneniy (дата обращения: 08.03.2022).
  • Васильев К.К., Попов О.В. Авторегрессионные модели случайных полей с кратными корнями // Труды 4-й конференции «РОАИ: новые информационные технологии». 1998. Т. 4 (1). С.258-260.
  • Krasheninnikov V.R., Subbotin A.Yu. Doubly stochastic model of a quasi-periodic process as an image on a cylinder // Proceedings of the International Scientific and Technical Conference "Advanced Information Technologies". 2018. P. 1017-1021.
  • Васильев К.К., Дементьев В.Е., Андриянов Н.А. Оценивание параметров дважды стохастических случайных полей // Радиотехника. 2014. № 7. С. 103-106.
  • Vasil'ev K.K., Dement'ev V.E., Andriyanov N.A. Doubly stochastic models of images // Pattern Recognition and Image Analysis. 2015. Vol. 25 (1). P. 105-110. DOI: 10.1134/S1054661815010204
  • Dementyiev V.E., Andriyanov N.A., Vasilyiev K.K. Use of Images Augmentation and Implementation of Doubly Stochastic Models for Improving Accuracy of Recognition Algorithms Based on Convo-lutional Neural Networks // 2020 Systems of Signal Synchronization, Generating and Processing in Telecommunications (SYNCHROINFO). 2020. P. 1-4. DOI: 10.1109/SYNCHR0INF049631.2020.9166000
  • Alzen J.L., Langdon L.S., Otero V.K. A logistic regression investigation of the relationship between the Learning Assistant model and failure rates in introductory STEM courses // IJ STEM. 2018. Vol. 5. P. 56-63. DOI: 10.1186/s40594-018-0152-1
  • Coates A., Ng A.Y. Learning Feature Representations with K-means. Stanford University Press. 2012. 318 p.
  • Севастьянова М.Д., Желябин Д.В., Андриянов Н.А. Применение прикладных методов обработки данных в задаче кластеризации многомерных данных в сфере образования // Современные проблемы проектирования, производства и эксплуатации радиотехнических систем: сб. науч. тр. 2021. С. 172-177.
Еще