Сравнительный анализ выявления слухов в социальных сетях с использованием различных классификаторов

Манья Гидвани; Ашвини Рао

doi:10.15622/ia.22.4.3

Scientific articles \ Prolegomena. Fundamentals of knowledge and culture. Propaedeutics \ Computer science and technology. Computing. Data processing \ Application-oriented computer-based techniques

Сравнительный анализ выявления слухов в социальных сетях с использованием различных классификаторов

Author: Манья Гидвани, Ашвини Рао

Journal: Информатика и автоматизация (Труды СПИИРАН) @ia-spcras

Section: Информационная безопасность

Article in issue: Том 22 № 4, 2023.

Free access

По мере того, как число пользователей социальных сетей растет, создание и распространение информации увеличиваются каждый день в огромных масштабах. Люди могут делиться своими идеями и мнениями на этих платформах. Сайт микроблогов в социальных сетях, таких как Facebook или Twitter, является предпочтительным средством обсуждения любого важного события, и информация передается немедленно. Это приводит к быстрому распространению слухов и распространению неточной информации, что вызывает у людей беспокойство. Поэтому важно оценить и подтвердить уровень достоверности такой информации. Из-за сложности текста автоматическое обнаружение слухов на ранних стадиях затруднительно. В данном исследовании используются различные методы NLP для извлечения информации из твитов, а затем применяются различные модели машинного обучения, чтобы определить, является ли информация слухом. Классификация выполняется с использованием трех классификаторов, таких как SVC (Support Vector Classifier), Gradient Boosting и классификаторы Naive Bayes для пяти различных событий из набора данных PHEME. Существуют некоторые недостатки: ограниченная обработка несбалансированных данных, трудность улавливания сложных лингвистических шаблонов, отсутствие интерпретируемости, сложности с обработкой больших пространств признаков и нечувствительность к порядку слов и контексту при использовании вышеуказанных классификаторов. Подход суммирования используется для преодоления вышеуказанных недостатков, при котором выходные данные комбинированных классификаторов представляют собой ансамбль с LSTM. Была проанализирована производительность моделей. Экспериментальные результаты показывают, что ансамблевая модель дает эффективные результаты по сравнению с другими классификаторами с точностью 93,59%.

Обнаружение слухов, машинное обучение, социальные сети, SVC, градиентный бустинг, наивный байесовский классификатор

Short address: https://sciup.org/14127448

IDR: 14127448 | DOI: 10.15622/ia.22.4.3