Поиск значимых новостей методами науки о сетях

Бесплатный доступ

Роль средств массовой информации в Интернете значительно выросла в течение последних лет. Новостные публикации из сети Твиттер были исследованы с точки зрения науки о сетях. Была определена значимость как качественная характеристика, отражающая степень влияния новостной информации на общественное мнение. Новостная информация, опубликованная популярными медиа источниками, была проанализирована с целью выявления наиболее значимых новостей за определенный временной промежуток. Был задан порог значимости и вычислено множество новостей, которые были общественно значимы в период с июля 2014 г. по январь 2015 г.

Наука о сетях, значимые новости, масштабно-инвариантные сети

Короткий адрес: https://sciup.org/14729966

IDR: 14729966

Текст научной статьи Поиск значимых новостей методами науки о сетях

Роль средств массовой информации в Интернете значительно выросла в течение последних лет [1]. Интернет и СМИ год от года имеют всё большую аудиторию, а значит и их роль в формировании и влиянии на общественное мнения усиливается. Общественные организации, политические партии, коммерческие предприятия, а наравне с ними и публичные персоны, политики и предприниматели зачастую оказываются заинтересованы в том, чтобы понимать, что именно говорят о них, и с какой оценкой упоминают их в средствах массовой информации, в том числе представленных в сети Интернет. Для решения этой задачи необходим комплексный обзор различных новостных источников, где может быть опубликована интересующая, значимая для конкретного субъекта, новость. Также идентификация значимых новостей может быть полезна и для широкого круга интернет-пользователей ввиду того, что значимую для конкретного пользователя новость может быть затруднительно выявить среди огромного ежедневно публикуемого объема информа-

ции. Таким образом, идентификация значимых в заданном контексте новостей является актуальной и важной проблемой.

На сегодняшний день существует множество исследований в области поиска и анализа новостных данных, публикуемых СМИ в Интернете. Можно выделить следующие виды новостей, представляющих интерес для отдельного исследования:

  • 1.    Мировые новости. К данному виду относятся новости и события в независимости от их принадлежности к той или иной предметной области. Это наиболее обширная категория, охватывающая упоминания о событиях различного характера в мире или отдельном регионе.

  • 2.    Отраслевые новости. К отраслевым новостям относятся упоминания, касающиеся определенной предметной области, например финансовые новости, новости политики и пр.

  • 3.    Экстренные новости. К данной категории относятся новости о чрезвычайных событиях и происшествиях.

  • 4.    Новости будущего. Отдельным предметом исследования являются методы прогнозирования новостей или трендов ближайшего будущего.

Отдельной областью исследования являются методы персонализации новостей и разработки персонализованных поисковых систем.

Подходы к анализу различных видов новостей весьма различны: от традиционных поисковых алгоритмов, базирующихся на индексации документов, до сематических методов, основанных на идее Семантической сети [8–10]. Помимо этого, существуют исследования, использующие обработку ключевых слов и фраз [11,12], методы нейролингвистического программирования [13]. Подходы, основанные на онтологиях [14–16], также широко представлены в данной области. К тому же, для поиска, интерпритации и анализа новостей используют методы дата майнинга [17], логического программирования [18] и машинного обучения [19].

Данная работа посвящена анализу новостей с позиции науки о сетях.

1.    Границы области исследования

Твиттер – это социальная сеть, в которой одновременно используется несколько способов распространения информации: механизмы подписки, ретвитов и упоминаний. Основные свойства этих механизмов исследованы в работе [3]. В работе [2] были изучены топологические характиристики всей сети Твиттер. В частности, было доказано, что Твиттер является масштабно-инвариантой сетью. В такой сети вершины представляют пользователей Твиттера, а связи представляют отношение подписки.

Рис. 1. Структура сети Твиттер

Однако если рассматривать в качестве вершины сети не пользователя, а одно опубликованное информационное сообщение (твит), то структура сети будет иной. В таком случае, набору твитов одного уникального пользователя будет соответствовать множество вершин сети. Любой твит может быть распространён другим пользователем. Каждому ретвиту соответствует одна исходящая из вершины связь. Таким образом, количество исходящих связей каждой вершины является сте- пенью вершины, а следовательно, для каждого набора твитов, формирующих сеть, можно построить распределение степеней вершин. Для дальнейшего анализа свойств сети необходимо определить, в первую очередь, является ли распределение масштабно-инвариантным.

Рис. 2. Схема ретвитов для одной ленты твитов

Областью данного исследования являются сети, сформированные на основе твитов отдельных аккаунтов пользователей Твиттера, публикующие новостную информацию.

2.    Определение значимости новостей

Целью исследования является выявление значимых новостей среди всего объема новостных данных. Под значимостью понимается некая качественная характеристика, отражающая степень влияния новости на общественное мнение и силу социальной реакции на новость. Для определения значимости необходимо задать количественные метрики значимости новостей. Такой метрикой может выступить количество ретвитов за определенный временной промежуток. Такое определение метрики является естественным, так как количество ретвитов является показателем того, как много людей проявили интерес к конкретной новости.

Следующим шагом в исследовании свойств сети, после проверки на масштабно-инвариантность, является нахождение способа выделения значимых новостей, для чего необходимо определить порог значимости.

3.    Сбор данных

Были проанализированы новостные публикации пяти крупных новостных агенств, имеющих от 5 до 20 миллионов читателей в Твиттере: BBC, CNN, New York Times, Mashable и TechCrunch . Собранные данные относятся к периоду с июля 2014 г. по январь 2015 г. и содержат информацию из приблизительно 16500 твитов.

Распределение степеней вершин сети для каждого источника было построено и отображено на графике. На каждом графике вертикальная ось отображает количество ретвитов, а горизонтальная ось – номер твита в ленте публикаций источника (рис. 3–7).

Рис. 3. Распределение степеней аккаунта BBC Breaking News

Рис. 4. Распределение степеней аккаунта New York Times

Рис. 5. Распределение степеней аккаунта CNN Breaking News

Рис. 6. Распределение степеней аккаунта Mashable.

Рис. 7. Распределение степеней аккаунта Techcrunch.

На графиках наглядно видно, что во всех случаях распределение степеней вершин сетей имеет экспоненциальное распределение. Далее будут вычислены параметры распределения [4] .

4.    Анализ данных

Для вычисления параметров распределения каждой сети, использовался метод, описанный в [7]. Полученные результаты изложены в табл. 1:

Таблица 1. Параметры экспоненциальных распределений для новостных источников

Новостной источник

y

BBC Breaking

1.39

NYTimes

1.47

CNN Breaking

1.36

Mashable

1.23

TechCrunch

1.27

Для всех вычисленных значений параметров распределения справедливо, что y < 3 , а следовательно, сети являются масштабноинвариантными [4]. Одно из свойств масштабно-инвариантной сети – наличие небольшого количества вершин с высокой степенью, также называемых хабами . В то же время большая часть вершин в масштабноинвариантной сети имеет степень на несколько порядков ниже, чем у хабов. В построенных сетях ¾ вершин имеют степень меньшую, чем среднее значение степени вершины сети. При этом хабы имеют степень, превосходящую более, чем в 20 раз среднее значение степени вершины сети.

Таким образом, новость будет относиться к значимым в случае, если соответствующая этой новости вершина является ха- бом. В табл. 2 приведены значимые новости, опубликованные источниками.

Таблица 2. Значимые новости. Временной период: 15.07.2014 – 10.01.2015

К-во ретвитов

Источник новости

Текст новости

20134

BBC Breaking

Full statement from family of #MichaelBrown after #Fergu-son ruling

15075

BBC Breaking

US actor Robin Williams found dead, aged 63, in apparent suicide, California police say

13995

BBC Breaking

Scotland has rejected independence, #indyref results confirm

10640

BBC Breaking

Air Asia flight QZ 8501 travelling from Indonesia to Singapore has gone missing - reports

15104

New  York

Times

1989 was the year Taylor Swift was born. 2014 was The Year of Taylor Swift

5439

New  York

Times

It should come as no surprise that music sales in 2014 were dominated by Taylor Swift

3400

New  York

Times

How exercise changes our DNA

16137

CNN Breaking

Comedic actor Robin Williams, 63, died at his Northern California home Monday, law enforcement officials say.

15166

CNN Breaking

Cleveland police's fatal shooting of 12-year-old Tamir Rice ruled a homicide.

13943

CNN Breaking

Apple CEO Tim Cook an

nounces he's gay.

11379

CNN Breaking

Grand jury has decided not to indict Ferguson police Officer Darren Wilson. #FergusonDe-cision

47549

Mashable

The people have spoken! Freedom has prevailed! Sony didn't give up! The Interview will be shown at theaters willing to play

8674

Mashable

Street artist Banksy's powerful message of perseverance after Paris attack

1345

TechCrunch

Start-up Opportunities Abound In The Age Of Infinite, Resilient, Immutable Infrastructure

810

TechCrunch

My Kim Kardashian: Hollywood game has been nominated for a @TechCrunch Crunchies Award!

Заключение

Были извлечены и структурированы в набор сетей данные из нескольких источников новостной информации, представленных в социальной сети Твиттер. В качестве источников были выбраны пять популярных новостных агентств: BBC, CNN, New York Times, Mashable и TechCrunch. Извлеченные данные покрывают период с июля 2014г. по январь 2015г. и включают в себя более чем 16500 твитов с новостной информацией. Были построены сети на основе принципа, согласно которому твитам соответствуют вершины сети, а ретвиты отражаются как связи. Каждая вершина имеет степень, соответствующую количеству ретвитов новости. Анализ распределения степеней вершин сети показал, что сеть является масштабно-инвариантной.

Было дано определение значимости новости как степени влияния новости на общественное мнение и силу социальной реакции на неё. На основании количества ретвитов как количественного показателя значимости, было сформировано множество хабов сети, соответствующих значимым новостям.

В дальнейшем исследовании планируется увеличить объём анализируемых данных, включив данные из других социальных сетей, а также нарастив объём извлекаемой информации из сети Твиттер. Одним из основных направлений в будущей работе является разработка подхода анализа различных точек зрения на одну и ту же новостную информацию. В широком смысле такой анализ можно называть анализом информационных войн. К тому же, будут применены методы оптимизационного подхода для поиска и анализа значимых новостей.

Список литературы Поиск значимых новостей методами науки о сетях

  • Quint Randle. A historical overview of the effects of new mass media: Introductions in magazine publishing during the twentieth century. Volume 6, Number 9-3 September 2001.
  • PL. Kwak, C. Lee, PL. Park, S. Moon.What is Twitter, a social network or a news media?, Proceedings of the 19th international conference on World wide web, 591-600, 2010.
  • M. Cha, PL. Haddadi, P. Benevenuto and K. P. Gummadi. Measuring user influence in Twit-ter:The million follower fallacy, Proceedings of international AAAI Conference on Weblogs and Social, 2010.
  • Albert-Laszlo Barabasi (2013). Network Science.
  • Gourab Ghoshal, Albert-Laszlo Barabasi (2011). Ranking stability and super-stable nodes in complex networks.
  • Dashun Wang, Zhen Wen, Hanghang Tong, Ching-Yung Lin, Chaoming Song. Albert-Laszlo Barabasi (2011)/Information Spreding in Context.
  • A.Clauset, C.R.Shalizi, and M.E.J.New-man. Power-law distributions in empirical data. SIAM Review SI: 661-703. ArXiv e-prints, 2009.
  • R. Guha, R. McCool, E. Miller. Semantic search, in: Proceedings of the 12th International Conference on World Wide Web, Budapest, Hungary, 2003. P. 700-709.
  • G. Giannopoulos, N. Bikakis, T. Dalamagas, T. Sellis. GoNTogle: A Tool for semantic annotation and search, in: Proceedings of 7th Extended Semantic Web Conference, ESWC 2010, Herak-lion, Crete, Greece, 2010.
  • J. LLendler. Web 3.0: the dawn of semantic search, Computer 43 (1) (2010) 77-80.
  • Tsuyoshi Murata: Towards the Detection of Breaking News from Online Web Search Keywords. Proceedings of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology (WI-IAT 2006 Workshops) (WI-IATW06).
  • Allan, J., "Topic Detection and Tracking". Kluwer Academic Publishers, 2002.
  • H. Cunningham, D. Maynard, K. Bontcheva, V. Tablan. GATE: a framework and graphical development environment for robust NLP tools and applications, in: Proceedings of 40th Anniversary Meeting of the Association for Computational Linguistics (ACL'02), Philadelphia, July 2002.
  • XBRL International (2009). XBRL: extensible Business Reporting Language. Retrieved June 19, 2009, from XBRL International Web site: http://www.xbrl.org.
  • D.C. Wimalasuriya, D. Dou. Ontology-based information extraction: an introduction and a survey of current approaches, Journal of Information Science 36 (2010) 306-323.
  • H. Alani, S. Kim, D.E. Millard, M.J. Weal, W. Hall, P.H. Lewis, NR. Shadbolt. Automatic ontology-based knowledge extraction from web documents, IEEE Intelligent Systems 18 (1) (2003) 14-21.
  • Kleinberg, J. "Temporal Dynamics of On-Line Information Streams", in Garofalakis, M., Ge-hrke, J., Rastogi, R. (Eds), "Data Stream Management: Processing High-Speed Data Streams", Springer, 2006.
  • J.W. Lloyd. Foundations of Logic Programming, 2nd extended ed., Springer-Verlag, New York, 1987.
  • H. Han, C. Lee Giles, E. Manavoglu, H. Zha, Z. Zhang, E.A. Fox. Automatic document metadata extraction using support vector machines, in: Proceedings of 3rd ACM/IEEE-CS Joint Conference on Digital Libraries, 2003, Houston, Texas.
Еще
Статья научная