Математическое моделирование рекомендательной системы и обработка данных телекоммуникационной компании с помощью моделей машинного обучения

Автор: Андриянов Никита Андреевич, Атаходжаева Мадина-Бону Рустамовна, Бородин Евгений Игоревич

Журнал: Вестник Южно-Уральского государственного университета. Серия: Компьютерные технологии, управление, радиоэлектроника @vestnik-susu-ctcr

Рубрика: Информатика и вычислительная техника

Статья в выпуске: 2 т.22, 2022 года.

Бесплатный доступ

Цель исследования: разработка методов моделирования данных для разработки рекомендательных алгоритмов с использованием дважды стохастических авторегрессионных моделей случайных процессов и проверка их адекватности путем применения алгоритмов машинного обучения для кластеризации пользователей в имитируемом наборе данных и прогнозирования вероятностей интереса. Методы исследования. В статье рассмотрены методы, используемые при построении рекомендательных систем. При этом рассмотрена задача моделирования поведения пользователей с помощью дважды стохастической модели. Данная модель предложена для генерации искусственных данных. Дважды стохастическая модель позволяет генерировать нестационарные процессы, таким образом, создает пользователей с разными вероятностными свойствами в разных группах объектов интереса. После этого искусственно созданные пользователи (и их активность) кластеризуются на основе модифицированного алгоритма K-средних. Основная модификация заключается в необходимости автоматической предварительной оценки числа кластеров, а не его выбора человеком. Далее моделируется поведение представителей каждой группы пользователей для новых событий. На основе сгенерированной информации и обучающих данных решается задача прогнозирования и ранжирования предлагаемых услуг. При этом на первом этапе использования регрессионных моделей достаточно для отнесения пользователя к группе и формирования предложений данному пользователю. Результаты исследования. На обучающих данных в 2 кластерах были достигнуты высокие индексы детерминации, что говорит примерно о 90 % объясненной дисперсии при использовании предложенной дважды стохастической модели. Особое внимание уделено работе современных рекомендательных систем на примере системы «Диско» от Яндекс. Кроме того, выполнена предобработка и предварительный анализ данных реального сектора, а именно: исследуются данные телекоммуникационной компании. С целью выдачи релевантных предложений по услугам связи разработана тестовая рекомендательная система. Заключение. Таким образом, к основным результатам работы относится математическая модель, симулирующая реакцию пользователей на различные услуги, а также модель логистической регрессии, используемая для прогнозирования вероятности заинтересованности пользователя новой услугой. На основе прогнозируемых вероятностей не составляет труда ранжирование новых предложений. Апробация на синтезированных данных показала высокую эффективность модели.

Еще

Рекомендательные системы, математическое моделирование, дважды стохастическая модель, логистическая регрессия, машинное обучение

Короткий адрес: https://sciup.org/147237450

IDR: 147237450

Список литературы Математическое моделирование рекомендательной системы и обработка данных телекоммуникационной компании с помощью моделей машинного обучения

  • Будущее искусственного интеллекта в России: как технологии превратятся в решения. URL: cnews.ru/articles/2019-10-02_budushchee_iskusstvennogo_intellekta (дата обращения: 02.03.2022).
  • Сбербанк заработает на искусственном интеллекте 450 миллиардов рублей. URL: www.vedomosti.ru/technology/articles/2020/02/19/823464-sberbank-zarabotaet (дата обращения: 06.03.2022).
  • Авхадеев Б.Р., Воронова Л.И., Охапкина Е.П. Разработка рекомендательной системы на основе данных из профиля социальной сети «ВКонтакте» // Вестник НВГУ. 2014. № 3. URL: https://cyberleninka.ru/article/n/razrabotka-rekomendatelnoy-sistemy-na-osnove-dannyh-iz-profilya-sotsialnoy-seti-vkontakte (дата обращения: 08.03.2022).
  • Кластеризация профилей пользователей в рекомендательных системах поддержки жизнеобеспечения на основе реальных неявных данных / С.А. Филиппов, В.Н. Захаров, С.А. Ступни-ков, Д.Ю. Ковалев // Труды XVIII Международной конференции DAMDID/RCDL'2016 «Аналитика и управление данными в областях с интенсивным использованием данных». 2016. С. 98-103.
  • Isinkaye F.O., Folajimi Y.O., Ojokoh B.A. Recommendation systems: Principles, methods and evaluation // Egyptian Informatics Journal. 2015. Vol. 16 (3). P. 261-273.
  • Нефедова Ю.С. Архитектура гибридной рекомендательной системы GEFEST (Generation-Expansion-Filtering-Sorting-Truncation) // Системы и средства информатики. 2012. Т. 22 (2). С.176-196.
  • Ullrich T. On the Autoregressive Time Series Model Using Real and Complex Analysis // Forecasting. 2021. Vol. 3. P. 716-728. DOI: 10.3390/forecast3040044
  • Neural autoregressive distribution estimation / B. Uria, M.-A. Côté, K. Gregor et al. // JMLR. 2016. Vol. 17 (1). P. 7184-7220.
  • Модели систем квазипериодических процессов на основе цилиндрических и круговых изображений / В.Р. Крашенинников, Ю.Е. Кувайскова, О.Е. Маленова, А.Ю. Субботин // Известия Самарского научного центра Российской академии наук. 2021. Т. 23, № 1. C. 103-110. DOI: 10.37313/1990-5378-2021-23-1-103-110
  • Андриянов Н.А., Васильев К.К. Свойства авторегрессий с кратными корнями характеристических уравнений // Вестник УлГТУ. 2019. № 1 (85). URL: https://cyberleninka.ru/article/n/ svoystva-avtoregressiy-s-kratnymi-kornyami-harakteristicheskih-uravneniy (дата обращения: 08.03.2022).
  • Васильев К.К., Попов О.В. Авторегрессионные модели случайных полей с кратными корнями // Труды 4-й конференции «РОАИ: новые информационные технологии». 1998. Т. 4 (1). С.258-260.
  • Krasheninnikov V.R., Subbotin A.Yu. Doubly stochastic model of a quasi-periodic process as an image on a cylinder // Proceedings of the International Scientific and Technical Conference "Advanced Information Technologies". 2018. P. 1017-1021.
  • Васильев К.К., Дементьев В.Е., Андриянов Н.А. Оценивание параметров дважды стохастических случайных полей // Радиотехника. 2014. № 7. С. 103-106.
  • Vasil'ev K.K., Dement'ev V.E., Andriyanov N.A. Doubly stochastic models of images // Pattern Recognition and Image Analysis. 2015. Vol. 25 (1). P. 105-110. DOI: 10.1134/S1054661815010204
  • Dementyiev V.E., Andriyanov N.A., Vasilyiev K.K. Use of Images Augmentation and Implementation of Doubly Stochastic Models for Improving Accuracy of Recognition Algorithms Based on Convo-lutional Neural Networks // 2020 Systems of Signal Synchronization, Generating and Processing in Telecommunications (SYNCHROINFO). 2020. P. 1-4. DOI: 10.1109/SYNCHR0INF049631.2020.9166000
  • Alzen J.L., Langdon L.S., Otero V.K. A logistic regression investigation of the relationship between the Learning Assistant model and failure rates in introductory STEM courses // IJ STEM. 2018. Vol. 5. P. 56-63. DOI: 10.1186/s40594-018-0152-1
  • Coates A., Ng A.Y. Learning Feature Representations with K-means. Stanford University Press. 2012. 318 p.
  • Севастьянова М.Д., Желябин Д.В., Андриянов Н.А. Применение прикладных методов обработки данных в задаче кластеризации многомерных данных в сфере образования // Современные проблемы проектирования, производства и эксплуатации радиотехнических систем: сб. науч. тр. 2021. С. 172-177.
Еще
Статья научная