Метод интеграции больших языковых моделей в алгоритмы фокусированного мониторинга открытых данных социальных медиа
Автор: Андрей Михайлович Федоров, Игорь Олегович Датьев, Иван Геннадьевич Вишняков
Журнал: Информатика и автоматизация (Труды СПИИРАН) @ia-spcras
Рубрика: Искусственный интеллект, инженерия данных и знаний
Статья в выпуске: Том 24 №6, 2025 года.
Бесплатный доступ
Актуальность исследования определяется важностью и сложностью выполнения оперативных обобщений постоянно возрастающего массива пользовательских сообщений в социальных сетях. Предлагается уменьшить сложность решаемой задачи за счет использования роботизированных алгоритмов и их автоматизированной интеллектуальной фокусировки на целевые платформы, доступность данных и их объемы. Рассматривается способность больших языковых моделей (LLMs) генерировать высококачественные, связные и контекстно-зависимые аннотации (рефераты), подходящие для динамической природы неструктурированных, «зашумленных» данных социальных сетей. Представлены особенности технологии RAG LLM при реферировании публикаций социальных сетей. Основным недостатком языковых моделей является нестабильность и сложность прослеживания результатов для подтверждения фактической точности. Авторами предложен гибридный метод для обобщения сообщений в социальных сетях за определенный период времени. Метод заключается в комплексном и вариативном сочетании классических способов извлечений данных из их хранилищ, а также реферативных и генеративных возможностей больших языковых моделей. Большие языковые модели использованы для векторизации анализируемых данных. Применение алгоритмов кластеризации к полученным векторным представлениям позволило повысить стабильность и качество результатов. В рамках технологии RAG возможности больших языковых моделей расширены средствами интеллектуального поиска в используемой для хранения исходных данных базе MongoDB. В работе представлены три конвейера, каждый из которых является вариантом реализации метода и обладает преимуществами и недостатками в различных условиях применения. Приведены используемые для оценки конвейеров метрики и произведен сравнительный анализ. В целом, метод позволяет уменьшить конфабуляции большой языковой модели и получать обобщения публикаций за разные временные периоды в режиме реального времени. Предложенный метод применяется на практике в разработанной авторами системе мониторинга открытых данных социальных медиа.
Социальные медиа×публикации×обобщение×большие языковые модели×генерация дополненная поиском×интеллектуальные агенты×гибридный метод
Короткий адрес: https://sciup.org/14134145
IDR: 14134145 | УДК: 004.8 | DOI: 10.15622/ia.24.6.4