Проектирование информационной системы комплексного тематического анализа больших данных социальных медиа

Автор: Фдоров А.М., Датьев И.О., Вишняков И.Г.

Журнал: Онтология проектирования @ontology-of-designing

Рубрика: Прикладные онтологии проектирования

Статья в выпуске: 1 (51) т.14, 2024 года.

Бесплатный доступ

Открытые сообщества пользователей в социальных медиа являются источником данных, оперативно представляющим тематическую повестку актуальных для населения вопросов. Индикаторы активности пользователей - просмотры, комментарии и репосты - обладают динамической природой. В статье представлен новый взгляд на задачи тематического моделирования, результаты которого исследуются на наличие динамических свойств. Эти данные актуальны для решения задач информационной поддержки регионального и муниципального развития. Представлен опыт проектирования информационной системы комплексного тематического анализа больших открытых данных социальных медиа. Система основана на использовании трёх технологий: построения динамических тематических моделей для мониторинга социальных медиа; интеллектуального анализа результатов тематического моделирования объектов и процессов социальных медиа; когнитивной визуализации результатов динамического тематического моделирования. Для учёта проектной неопределённости использованы средства объектного моделирования, системного проектирования и модульный подход.

Еще

Управление региональным развитием, информационно-аналитические системы, сообщества социальных сетей, анализ данных, тематическое моделирование

Короткий адрес: https://sciup.org/170203864

IDR: 170203864   |   DOI: 10.18287/2223-9537-2024-14-1-55-70

Список литературы Проектирование информационной системы комплексного тематического анализа больших данных социальных медиа

  • Боргест Н.М. Научный базис онтологии проектирования // Онтология проектирования. 2013. №1 (7). С.7 -25.
  • Смирнов С.В. Онтологическое моделирование в ситуационном управлении // Онтология проектирования. 2012. №2. С.16-24.
  • Коршунов А.В., Гомзин А.Г. Тематическое моделирование текстов на естественном языке // Труды Института системного программирования РАН. 2012. №23. С.215-244.
  • Allan J., Carbonell J., Doddington G., Yamron J., Yang Y. Topic Detection and Tracking Pilot Study. Final Report // Proceedings of the Broadcast News Transcription and Understanding Workshop (Sponsored by DARPA), Feb. 1998.
  • ВоронцовК.В. Вероятностное тематическое моделирование. 2013. http://www.machinelearning.ru.
  • Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. Автоматическая обработка текстов на естественном языке и анализ данных. М.: Изд-во НИУ ВШЭ, 2017. 269 с. https://www.hse.ru/data/2017/07/22/1173852775/NLPandDA_4print.pdf.
  • Deerwester S., Dumais S.T., Furnas G. W., Landauer T.K., Harshman R. Indexing by Latent Semantic Analysis // J. Am. Soc. Inf. Sci. Vol.41(6). 1990. P.391-407.
  • Hofmann T. Probabilistic latent semantic indexing // In: Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR '99). Association for Computing Machinery, New York, NY, USA, 1999. P.50-57. D0I:10.1145/312624.312649.
  • Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet allocation // J. Mach. Learn. Res. Vol. 3. 2003. P.993-1022.
  • Kuang D., Choo J., Park H. Nonnegative Matrix Factorization for Interactive Topic Modeling and Document Clustering // In: Celebi M. (eds) Partitional Clustering Algorithms. Springer, Cham. 2015. D0I:10.1007/978-3-319-09259-1_7.
  • MacKay D.J.C., Peto L.C.B. A hierarchical Dirichlet language model // Nat. Lang. Eng. Vol. 1(3). 1995. D0I:10.1017/S1351324900000218.
  • Teh Y.W., Jordan M.I., BealM.J., BleiD.M. Sharing clusters among related groups: Hierarchical Dirichlet processes // In: NIPS'04: Proceedings of the 17th International Conference on Neural Information Processing Systems. MIT Press, Cambridge, MA, United States, 2004. P.1385-1392.
  • Vayansky I., Kumar S. A review of topic modeling methods // Information Systems. 2020. Vol.94. 101582. D0I:10.1016/j.is.2020.101582.
  • Yan X., Guo J., Lan Y., Cheng X. A biterm topic model for short texts // In: Proceedings of the 22nd International Conference on World Wide Web, Rio de Janeiro, Brazil. 2013. P.1445-1455. D0I:10.1145/2488388.2488514.
  • Zuo Y. et al. Topic Modeling of Short Texts: A Pseudo-Document View // In: KDD'16: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Association for Computing Machinery, New York, NY, USA, 2016. P.2105-2114. D0I:10.1145/2939672.2939880.
  • Blei D.M., Lafferty J.D. Dynamic topic models // In: ICML '06: Proceedings of the 23rd International Conference on Machine Learning. New York, NY, USA, ACM, 2006. P.113-120. D0I:10.1145/1143844.1143859.
  • Nodelman U., Shelton C.R., Koller D. Continuous time bayesian networks // In: Proceedings of the Eighteenth Conference on Uncertainty in Artificial Intelligence. Alberta, Canada, 2002. P.378-387.
  • Beykikhoshk A., Arandjelovic O., Phung D., Venkatesh S. Discovering topic structures of a temporally evolving document corpus // Knowl Inf Syst. 2018. Vol. 55. P.599-632. D0I:10.1007/s10115-017-1095-4.
  • Датьев И.О., Федоров А.М. Аддитивная регуляризация при тематическом моделировании текстов сообществ онлайновых социальных сетей // Онтология проектирования. 2022. Том 12, №2(44). С.186-199. D0I:10.18287/2223-9537-2022-12-2-186-199.
  • Mimno D. Wallach H., Talley Ed., Leenders M., McCallum A. 0ptimizing semantic coherence in topic models // In: Proc. of the 2011 Conf. on Empirical Methods in Natural Language Processing, Edinburgh, Scotland, UK. Association of Computational Linguistics, 2011. P.262-272.
  • Vorontsov K., Potapenko A. Additive regularization of topic models // Mach Learn. 2015. Vol. 101. P. 303-323. https://doi.org/10.1007/s10994-014-5476-6.
  • Gomaa W. H., Fahmy A. A. A Survey of Text Similarity Approaches // International Journal of Computer Applications. 2013. Vol. 68(13). P.13-18.
  • Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Доклады Академий Наук СССР. 1965. Том 163.4. C.845-848.
  • Jones K.S. A statistical interpretation of term specificity and its application in retrieval // Journal of Documentation. MCB University: MCB University Press, 2004. Vol. 60, no. 5. P. 493-502.
  • Allan J., Lavrenko V., Malin D., Swan R. Detections, bounds, and timelines: UMass and TDT-3 // In Proceedings of Topic Detection and Tracking Workshop. Vienna, VA, 2000. P. 167-174.
  • Краснов Ф.В., Диментов А.В., Шварцман М.Е. Использование тематических моделей для парного сравнения коллекций научных статей // Информатика и её применения. 2020. Том 14, выпуск 3. C.129-135.
  • Kilgarriff A., Rose T. Measures for corpus similarity and homogeneity. 1998. http://aclweb.org/anthology/W98-1506.
  • Fothergill R., Cook P., Baldwin T. Evaluating a topic modelling approach to measuring corpus similarity, In Proceedings of the Tenth International Conference on Language Re-sources and Evaluation (LREC 2016), Portoroz, Slovenia. 2016. P.273-279.
  • Федоров А.М., Датьев И.О., Щур А.Л. «ИС МСВ» //Роспатент: Свидетельство о государственной регистрации программы для ЭВМ №2020619469 от 17 августа 2020 г.
  • Sievert C., Shirley K. LDAvis: A method for visualizing and interpreting topics // In Proceedings of the Workshop on Interactive Language Learning, Visualization, and Interfaces, Baltimore, Maryland, USA. Association for Computational Linguistics, 2014. P.63-70.
  • Jolliffe IT, Cadima J. Principal component analysis: a review and recent developments // Philos Trans A Math Phys Eng Sci. 2016 Apr 13; 374(2065):20150202. D0I:10.1098/rsta.2015.0202. PMID: 26953178; PMCID: PMC4792409.
  • Информационно-аналитическая система поддержки управления региональным развитием на основе открытых больших данных социальных медиа: концепция разработки и практика реализации / А. М. Федоров и др. // Труды Кольского научного центра РАН. Серия: Технические науки. 2022. Т.13, № 2. С.5-22. D0I:10.37614/2949-1215.2022.13.2.001
Еще
Статья научная