Создание алгоритма для предсказания наличия недостоверной информации в социальных сетях на русском языке
Автор: Черняев А.А., Ивашко А.Г.
Журнал: Вестник Пермского университета. Математика. Механика. Информатика @vestnik-psu-mmi
Рубрика: Информатика
Статья в выпуске: 1 (64), 2024 года.
Бесплатный доступ
Развитие способов передачи информации от пользователя к пользователю, таких как социальные сети, привело к тому, что количество недостоверной информации достигает рекордных показателей. Данная проблема касается не только обычных пользователей социальных сетей, но и средств массовой информации, которые в качестве источника информации могут обращаться к подобным сообщениям. Распространение ложной информации приводит как к проблемам финансовым, так и к опасности жизнедеятельности человека. Отследить данные сообщения вручную уже почти не представляется возможным, и в связи с этим требуется создать алгоритм, который способен выполнять этот процесс автоматически. Целью данной работы является попытка создать подобный алгоритм для русского языка методами машинного обучения. В качестве данных, на которых основаны модели, взята выборка данных, которая прошла процесс ручной аннотации. Выборка прошла процесс подготовки и балансировки. Из этой выборки были получены 29 атрибутов, которые можно разделить на 3 категории: пользователя, текста и распространения. Эти атрибуты и были применены для получения классифицирующих моделей, которые способны предсказывать с достаточно большой вероятностью. Результатом данной работы стал алгоритм для предсказания наличия недостоверной информации в сообщении социальной сети.
Машинное обучение, нейронные сети, анализ данных, лингвистический анализ, семантический анализ, социальные сети
Короткий адрес: https://sciup.org/147246642
IDR: 147246642 | УДК: 004.891.2 | DOI: 10.17072/1993-0550-2024-1-60-71
An algorithm creating for predicting the inaccurate information presence in social networks in Russian language
The development of user-to-user communication methods, such as social media, has resulted in the amount of inaccurate information reaching record levels. This problem affects not only regular users of social media, but also the media, which may refer to such messages as a source of information. The spread of false information leads to both financial and life-threatening problems. It is almost impossible to trace these messages manually and therefore it is required to create an algorithm that can perform this process automatically. The purpose of this paper is to try to create such an algorithm for the Russian language using machine learning methods. The data on which the models are based is a sample of data that has undergone the process of manual annotation. The sample has undergone the process of preparation and balancing. From this sample, 29 attributes were obtained which can be divided into 3 categories: user, text and distribution. These attributes and were applied to obtain classification models that are able to predict with sufficiently high probability. The result of this work is an algorithm for predicting the presence of inaccurate information in a social network post.
Список литературы Создание алгоритма для предсказания наличия недостоверной информации в социальных сетях на русском языке
- Pennycook G. The Psychology of Fake News. Trends in Cognitive Sciences. 2021. Vol. 25. P. 321-357. DOI: 10.1016/j.tics.2021.02.007.
- Banda Juan M., Tekumalla Ramya, Wang Guanyu, Yu, Jingyuan Liu, Tuo Ding, Yuning, Artemova, Katya Tutubalina, Elena & Chowell Gerardo. A large-scale COVID-19 Twitter chatter dataset for open scientific research - an international collaboration (Version 67) [Data set]. Zenodo. DOI1O.52S1/zenodo.5OOO423.
- Черняев А.А. 2019. Математическое моделирование оценки достоверности слухов в средствах массовой информации / А.А. Черняев, А.Г. Ивашко // Вестник Тюменского государственного университета. Физико-математическое моделирование. Нефть, газ, энергетика. 2019. Т. 5, № 4(20). С. 181-199. DOI 10.21684/2411-7978-2019-5-4-181-199. EDN SQYEWN.
- Chernyaev A. Spryiskov A. Ivashko A., Bidulya Y. A Rumor Detection in Russian Tweets. 2020. P. 108-118. DOI: 10.1007/978-3-030-60276-5_11.
- Eismann K. Diffusion and persistence of false rumors in social media networks: implications of searchability on rumor self-correction on Twitter. Journal of Business Economics. 2021. Vol. 91. P. 1299-1329. DOI: 91. 10.1007/ s11573-020-01022-9.
- Vosoughi S. Automatic detection and verification of rumors on Twitter. 2015. P. 1-147.
- Иванова Г.Ф. О мнениях и оценках / Г.Ф. Иванова // Известия Российского государственного педагогического университета им. А.И. Герцена. 2007. Т. 8, № 41. С. 25-31. EDN JXKQIX.
- Емельянова О.Н. Бранная и вульгарная лексика в толковых словарях русского языка // Вестник Красноярского государственного педагогического университета им. В.П. Астафьева. 2015. № 4(34). С. 126-130. EDN VDKKMN.
- Рамазанова Р.З. Вводно-модальные слова как средство выражения уверенности в современном русском языке // Филология и культура. 2020. № 2(60). С. 77-82. DOI 10.26907/2074-0239-2020-60-2-77-82. EDN PWAYJW.
- Селезнёва Е.В. Сложноподчиненное предложение с придаточным условия: содержание и объем понятия // Филология на стыке научных эпох: сб. статей памяти доктора филол. наук, проф. Анатолия Михайловича Ломова / Автономная некоммерческая организация по оказанию издательских и полиграфических услуг. Воронеж: "Наука-Юни-пресс", 2020. С. 158-164. EDN HESCYX.
- Шульга М.В. 2002. Количественная оце-ночность в газетно-публицистическом тексте // Вестник МГУЛ - Лесной вестник. 2002. № 3. URL: https://cyberleninka.ru/ article/n/kolichestvennaya-otsenochnost-v-gazetno-publitsisticheskom-tekste (дата обращения: 22.02.2023).
- Туманова А.Б. Категория времени в современной науке: анализ и интерпретация / А.Б. Туманова, ТВ. Павлова, Н.Ю. Зуева // Неофилология. 2019. Т. 5, № 18. С. 131-138. DOI 10.20310/2587-6953-2019-5-18-131138. EDN EAONIK.
- Lachowicz D. Библиотека для Python Enchant. URL: https://abiword.github.io/ enchant/ (дата обращения: 22.02.2023).
- Vicenzi A. Библиотека для Python Emojis. URL: https://emojis.readthedocs.io/en/latest/ (дата обращения: 22.02.2023).
- Jahanbakhsh-Nagadeh Z., Feizi-Derakhshi MR., Ramezani M. A model to measure the spread power of rumors. J Ambient Intell Human Comput. 2022. DOI: 10.1007/s12652-022-04034-1.
- Castillo C., Mendoza M., Poblete B. Information credibility on Twitter. Proceedings of the 20th International Conference on World Wide Web. 2011. P. 675-684. 10.1145/ 1963405.1963500.
- Chaw la N., Bowyer K., Hall L., Kegelmeyer P. Smote: synthetic minority over-sampling technique. Journal of artificial intelligence research. 2002. Vol. 16. P. 321-357, DOI: 10.1613/jair.953.
- Черняев А.А., Ивашко А.Г. Математическое моделирование оценки доверия к сообщению в социальных сетях на русском языке // Прикладная информатика. 2023. Т. 18, № 4. С. 121-132. DOI: 10.37791/2687-0649-202318-4-121-132.
- Kumar A., Sangwan S.R., Nayyar A. Rumour veracity detection on twitter using particle swarm optimized shallow classifiers. Mul-timed Tools Appl 78, 2019. Vol. 78. P. 2408324101. DOI: 10.1007/s11042-019-7398-6.
- Kennedy J., Eberhart R. Particle swarm optimization. Proceedings of ICNN'95 - International Conference on Neural Networks, Perth, WA, Australia, 1995, pp. 1942-1948 Vol. 4, DOI: 10.1109/ICNN.1995.488968.