Создание алгоритма для предсказания наличия недостоверной информации в социальных сетях на русском языке

Автор: Черняев А.А., Ивашко А.Г.

Журнал: Вестник Пермского университета. Математика. Механика. Информатика @vestnik-psu-mmi

Статья в выпуске: 1 (64), 2024 года.

Бесплатный доступ

Развитие способов передачи информации от пользователя к пользователю, таких как социальные сети, привело к тому, что количество недостоверной информации достигает рекордных показателей. Данная проблема касается не только обычных пользователей социальных сетей, но и средств массовой информации, которые в качестве источника информации могут обращаться к подобным сообщениям. Распространение ложной информации приводит как к проблемам финансовым, так и к опасности жизнедеятельности человека. Отследить данные сообщения вручную уже почти не представляется возможным, и в связи с этим требуется создать алгоритм, который способен выполнять этот процесс автоматически. Целью данной работы является попытка создать подобный алгоритм для русского языка методами машинного обучения. В качестве данных, на которых основаны модели, взята выборка данных, которая прошла процесс ручной аннотации. Выборка прошла процесс подготовки и балансировки. Из этой выборки были получены 29 атрибутов, которые можно разделить на 3 категории: пользователя, текста и распространения. Эти атрибуты и были применены для получения классифицирующих моделей, которые способны предсказывать с достаточно большой вероятностью. Результатом данной работы стал алгоритм для предсказания наличия недостоверной информации в сообщении социальной сети.

Еще

Машинное обучение, нейронные сети, анализ данных, лингвистический анализ, семантический анализ, социальные сети

Короткий адрес: https://sciup.org/147246642

IDR: 147246642 | DOI: 10.17072/1993-0550-2024-1-60-71

Список литературы Создание алгоритма для предсказания наличия недостоверной информации в социальных сетях на русском языке

Pennycook G. The Psychology of Fake News. Trends in Cognitive Sciences. 2021. Vol. 25. P. 321-357. DOI: 10.1016/j.tics.2021.02.007.
Banda Juan M., Tekumalla Ramya, Wang Guanyu, Yu, Jingyuan Liu, Tuo Ding, Yuning, Artemova, Katya Tutubalina, Elena & Chowell Gerardo. A large-scale COVID-19 Twitter chatter dataset for open scientific research - an international collaboration (Version 67) [Data set]. Zenodo. DOI1O.52S1/zenodo.5OOO423.
Черняев А.А. 2019. Математическое моделирование оценки достоверности слухов в средствах массовой информации / А.А. Черняев, А.Г. Ивашко // Вестник Тюменского государственного университета. Физико-математическое моделирование. Нефть, газ, энергетика. 2019. Т. 5, № 4(20). С. 181-199. DOI 10.21684/2411-7978-2019-5-4-181-199. EDN SQYEWN.
Chernyaev A. Spryiskov A. Ivashko A., Bidulya Y. A Rumor Detection in Russian Tweets. 2020. P. 108-118. DOI: 10.1007/978-3-030-60276-5_11.
Eismann K. Diffusion and persistence of false rumors in social media networks: implications of searchability on rumor self-correction on Twitter. Journal of Business Economics. 2021. Vol. 91. P. 1299-1329. DOI: 91. 10.1007/ s11573-020-01022-9.
Vosoughi S. Automatic detection and verification of rumors on Twitter. 2015. P. 1-147.
Иванова Г.Ф. О мнениях и оценках / Г.Ф. Иванова // Известия Российского государственного педагогического университета им. А.И. Герцена. 2007. Т. 8, № 41. С. 25-31. EDN JXKQIX.
Емельянова О.Н. Бранная и вульгарная лексика в толковых словарях русского языка // Вестник Красноярского государственного педагогического университета им. В.П. Астафьева. 2015. № 4(34). С. 126-130. EDN VDKKMN.
Рамазанова Р.З. Вводно-модальные слова как средство выражения уверенности в современном русском языке // Филология и культура. 2020. № 2(60). С. 77-82. DOI 10.26907/2074-0239-2020-60-2-77-82. EDN PWAYJW.
Селезнёва Е.В. Сложноподчиненное предложение с придаточным условия: содержание и объем понятия // Филология на стыке научных эпох: сб. статей памяти доктора филол. наук, проф. Анатолия Михайловича Ломова / Автономная некоммерческая организация по оказанию издательских и полиграфических услуг. Воронеж: "Наука-Юни-пресс", 2020. С. 158-164. EDN HESCYX.
Шульга М.В. 2002. Количественная оце-ночность в газетно-публицистическом тексте // Вестник МГУЛ - Лесной вестник. 2002. № 3. URL: https://cyberleninka.ru/ article/n/kolichestvennaya-otsenochnost-v-gazetno-publitsisticheskom-tekste (дата обращения: 22.02.2023).
Туманова А.Б. Категория времени в современной науке: анализ и интерпретация / А.Б. Туманова, ТВ. Павлова, Н.Ю. Зуева // Неофилология. 2019. Т. 5, № 18. С. 131-138. DOI 10.20310/2587-6953-2019-5-18-131138. EDN EAONIK.
Lachowicz D. Библиотека для Python Enchant. URL: https://abiword.github.io/ enchant/ (дата обращения: 22.02.2023).
Vicenzi A. Библиотека для Python Emojis. URL: https://emojis.readthedocs.io/en/latest/ (дата обращения: 22.02.2023).
Jahanbakhsh-Nagadeh Z., Feizi-Derakhshi MR., Ramezani M. A model to measure the spread power of rumors. J Ambient Intell Human Comput. 2022. DOI: 10.1007/s12652-022-04034-1.
Castillo C., Mendoza M., Poblete B. Information credibility on Twitter. Proceedings of the 20th International Conference on World Wide Web. 2011. P. 675-684. 10.1145/ 1963405.1963500.
Chaw la N., Bowyer K., Hall L., Kegelmeyer P. Smote: synthetic minority over-sampling technique. Journal of artificial intelligence research. 2002. Vol. 16. P. 321-357, DOI: 10.1613/jair.953.
Черняев А.А., Ивашко А.Г. Математическое моделирование оценки доверия к сообщению в социальных сетях на русском языке // Прикладная информатика. 2023. Т. 18, № 4. С. 121-132. DOI: 10.37791/2687-0649-202318-4-121-132.
Kumar A., Sangwan S.R., Nayyar A. Rumour veracity detection on twitter using particle swarm optimized shallow classifiers. Mul-timed Tools Appl 78, 2019. Vol. 78. P. 2408324101. DOI: 10.1007/s11042-019-7398-6.
Kennedy J., Eberhart R. Particle swarm optimization. Proceedings of ICNN'95 - International Conference on Neural Networks, Perth, WA, Australia, 1995, pp. 1942-1948 Vol. 4, DOI: 10.1109/ICNN.1995.488968.

Еще

Статья научная