Семантическая зависимость для выявления закономерностей новостных кластеров

Автор: Головащенко Р.А., Степанов А.В., Ларин А.А.

Журнал: Форум молодых ученых @forum-nauka

Статья в выпуске: 5-1 (21), 2018 года.

Бесплатный доступ

Статья посвящена исследованию семантическому анализу для выявления закономерностей кластеров. В современном мире информация представляет собой ресурс, обладание которым приносит ценную информацию для реализаций проектов, стартапор или компаний. Данные инструменты позволяют структурировать важные стадии для реализация методов принятий решений. К кластерам относят ключевые слова или значения из семантической сети, которые имеют свою подструктуру ключевых значений. Закономерности данных новостных событиях определяются зависимостью количества просмотров от количества кластера.

Кластер, новость, динамика, пуассоновское распределение, экспоненциальная закономерность, ключевые значения

Короткий адрес: https://sciup.org/140282547

IDR: 140282547

Текст научной статьи Семантическая зависимость для выявления закономерностей новостных кластеров

Master, 2 year

Department of Information Processing and Management Systems Bauman Moscow State Technical University Russia, Moscow

Master, 2 year

Department of Information Processing and Management Systems Bauman Moscow State Technical University Russia, Moscow Larin A.A.

Master, 2 year

Department of Information Processing and Management Systems Bauman Moscow State Technical University Russia, Moscow

SEMANTIC DEPENDENCE FOR DETECTION THE REGULARITIES OF NEWS CLUSTERS

В работе [1] описан метод подхода основанный на кластеризации. Принцип метода таков, что каждое новостное сообщение относится к одному из к - кластеров. Так как, авторы применяют разработанный метод для анализа в социальных сетей, в моделях мониторинга новостных сообщений, учитывается структурная составляющая. Кластеры представлены в виде векторов тематик, а именно ключевых слов в новостном сообщении.

При поступлении нового новостного сообщения, ключевые слова сравниваются с каждым кластером, которые задаются с помощью построения семантической сетью [2]. На вход подается текстовая информация, которая обрабатывается лингвистически, а именно, определяется множество лексем, множество векторов морфологической информации, множество векторов статической информации о лексемах, множество графов семантической окрестности термина. В данном случае кластер из семантической сети, является концептуальным объектом знака «величина».

Для расчета кластера C j рассчитывается содержательная близость новостного сообщения Sim(St, C j ) посредством сравнения векторов терминов и кластера с использованием косинусной меры.

В конечном итоге кластер C * рассчитывается следующим образом:

с * = Ы7) arg max c/ Sim(Sf, C j )) (1) где h число сообщений в классе i; n - число сообщений в контексте; C j -кластеры; Sim(St, C j ) - содержательная близость новостного сообщения.

По обнаружению популярности новостных данных, была разработана математическая модель [3]. Выявление динамики популярности осуществляется за счет кликов новостных данных, за определенное количество времени. Динамика выявляется по Пуассоновскому распределению, степенное количество просмотров за среднее статическое время t.

Мы рассматриваем кластеры, как ключевые слова и каждый кластер имеет свой класс ключевых слов. Для новостного ресурса РБК, существует тысяча кластеров и больше ста тысяч показов по поисковой системе Яндекс. После результата кластеризации получается график, зависимости количества просмотров от кластеров, описывающий экспоненциальную закономерность, а именно экспоненциальное падение стремящаяся к бесконечности с допустимым значением.

Чем больше кластеров в новостном потоке, тем меньше просмотров; чем меньше кластеров в новостном потоке, тем больше просмотров (см. рис. 1.). Это говорится о том, что человек не способен физически одновременно анализировать все тысячи кластеров, да и к тому же, для каждой предметной области требуется несколько десятков кластеров. Итоговый алгоритм поведения новостных данных с кластеризацией: How does the number of "Кластеры"® compare by "Показов в месяц (Яндекс "!")" ® ?

:: + - А

5   140.00

3 120 00

“ 100 00

Рис. 1. Графическая зависимость кластеров от показов в месяц

С* = |e -pq                              (2)

Экспоненциальный рост или падение, описывает при следующих условиях:

(sr = iooo)

F    {  Pi <64  }                           (3)

Fj   {  Pj >64  }                             (4)

где F i —экспоненциальная зависимость кластера от количества показов в месяц I - контекста; С* количество кластеров; P i - количество показов в контексте i.

Список литературы Семантическая зависимость для выявления закономерностей новостных кластеров

  • Aggarwal C. C., Subbian K. Event detection in social streams //Proceedings of the 2012 SIAM international conference on data mining. - Society for Industrial and Applied Mathematics, 2012. - С. 624-635.
  • Найханова Л. В., Аюшеева Н. Н., Хаптахаева Н. Б. Построение семантической сети предметной области на основе извлечения знаний из научного текста //Известия высших учебных заведений. Поволжский регион. Технические науки. - 2007. - №. 4.
  • Ratkiewicz J. et al. Characterizing and modeling the dynamics of online popularity //Physical review letters. - 2010. - Т. 105. - №. 15. - С. 158701.
Статья научная