Технологии исследования социального самочувствия горожан на основе анализа web-контента

Автор: Овчар Надежда Андреевна, Воробьев Андрей Сергеевич, Парыгин Данила Сергеевич, Садовникова Наталья Петровна

Журнал: Сетевое научное издание «Системный анализ в науке и образовании» @journal-sanse

Статья в выпуске: 1, 2019 года.

Бесплатный доступ

В статье рассматривается проблема использования современных методов анализа web-контента для исследования социального самочувствия. Проведен анализ понятия «социальное самочувствие» и рассмотрены подходы к его изучению. Структурированы источники данных и технологии их сбора. Определены возможные индикаторы социального самочувствия, значения которых могут быть получены в результате анализа социальных сетей, запросов поисковых систем, специализированных сайтов и пр. На основе проведенных исследований выявлены основные проблемы, связанные с получением информации и определены основные положения предлагаемой методологии.

Социальное самочувствие, индикаторы социального самочувствия, горожане, социальная сеть, поисковая система, тональность текста

Короткий адрес: https://sciup.org/14123295

IDR: 14123295

Текст научной статьи Технологии исследования социального самочувствия горожан на основе анализа web-контента

Город – это пространство сосуществования множества городских сообществ, это своеобразная сцена, на которой каждое из этих сообществ, играя определенную роль, пытается удовлетворить собственные потребности и осуществить надежды. Все эти попытки (как удачные, так и не очень) отражаются на уровне социального самочувствия горожан, определяя дальнейшие перспективы развития города в целом.

Учитывая высокую социальную динамику в современном обществе, а также развитие новых компьютерных технологий, создание систем обработки больших объемов данных, характеризующих социальные явления и процессы, является крайне важным. Одной из значимых проблем социологических исследований является изменение и модификация методов сбора информации. Социальная информация, собираемая традиционными опросными методами, подвержена некоторому искажению в сторону социально приемлемой и одобряемой (например, «спираль молчания» Ноэль-Нойман). Кроме того, всем известен так называемый «эффект интервьюера». Именно поэтому анализ больших данных [1, с. 42], накапливаемых в результате опосредованного наблюдения за людьми, которые, например, комментируют те или иные события в социальных сетях или обращаются с запросами к поисковым системам по тем или иным проблемам, не обсуждая их ни с кем, не вербализируя свое отношение или мнение по тому или иному вопросу в социологическом опросе, может дать новое, отличное от традиционных интерпретаций понимание социального самочувствия.

  • 1.    Описание проблемы

  • 2.    Обзор основных источников данных для анализа социального самочувствия горожан

Исследование социального самочувствия широко представлено в научной литературе. Необходимо отметить, что исследователи рассматривают разные аспекты социального самочувствия. Ряд из них обсуждают саму категорию «социальное самочувствие», устанавливают сходство и различие с понятиями «социальное настроение», «социальное здоровье», «социальная напряженность», «удовлетворенность» (Ж. Т. Тощенко [2], Н. Латова [3], А. Л. Стризое [4] и др.) Социальное самочувствие рассматривают как категорию, сопряженную с эмоциональным состоянием оценочного характера из-за субъективного восприятия реальности и себя в ней (Т. Н. Юдина, О. Л. Барская [5], Т. Т. Тарасова [6], Н. Е. Тихонова [7]).

Проблематика социального самочувствия была исследована в различных социальных общностях – территориальных, профессиональных, этнических, связанных другими признаками. Так, например, Т. Н. Успенская и М. Корнилова, О. Н. Дудченко, А. Мытиль проводили мониторинг уровня и качества жизни старшего поколения москвичей [8], Е. Ю. Баженова, М. А. Васьков, Ю. Волков – адаптацию ростовчан к условиям кризиса [9], Р. М. Валиахметов и др. – социальное самочувствие населения Башкортостана [10], М. К. Горшков – региональный аспект социального самочувствия в условиях реформ.

Исследуя различные социальные общности, ученые рассматривают удовлетворенность различными сферами жизнедеятельности – бытом, жилищными условиями, работой, медицинским обслуживанием, продолжительностью и проведением свободного времени, материальным положением, жизнью в целом [11].

Одной из известнейших работ в исследовании социального самочувствия является работа Cоrey Lee M. Keyes , который представил измерение социального самочувствия на основе пяти категорий – это социальная интеграция, социальный вклад, социальная согласованность, социальная актуализация и социальное признание [12]. Весьма интересной и валидной методикой измерения социального самочувствия является украинская методика Е. И. Головахи и Н. В. Паниной, которая применяется ими с 1995 года [13]. Так, они определяют социальное самочувствие как обобщенный индикатор реакции населения на социальные преобразования. Разработка индикаторов и показателей социального самочувствия осуществлялась также авторами данной статьи совместно с Н. В. Дулиной, В. В. Токаревым (см., например, [14]), а также в ходе собственных изысканий [15-17].

Что касается использования Big Data в социологии, то можно сказать, что это перспективное направление стартовало в России совсем недавно. Первое научное обсуждение данной темы прозвучало на Грушинской конференции (2015 г.) «Большая социология: расширение пространства данных», где было отмечено, что прежние форматы опросных технологий устаревают, новым трендом и одним из приоритетных направлений развития крупных исследовательских компаний становится именно использование уже накопленных огромных массивов данных. Однако заметим, что социальное самочувствие с использованием Big Data еще не изучалось, хотя, в целом, как уже было отмечено выше, применение открытых баз данных, материалов форумов, социальных сетей и т.д. [18] является актуальным направлением для социальных наук.

Горожане как социальный объект могут быть представлены как наиболее динамично трансформирующаяся общность, определяемая типом поселения и особенностями организации повседневности, а также как общность, подверженная наиболее явным изменениям. В городе выше уровень информатизации в сравнении с другими типами поселения, горожане оставляют больше «следов» пребывания в Интернет-пространстве, их повседневные практики содержат применение средств доступа в Интернет, выше уровень использования социальных сетей, поисковых запросов, представленности на форумах, т.е. больше Big Data , больше показателей.

Для оценки социального самочувствия требуется обширный набор данных, затрагивающий многие аспекты жизни городского населения. Для получения общественного мнения можно использовать различные Интернет-источники, имеющие большую аудиторию [19, с. 91]. К ним можно отнести социальные сети как наиболее крупного представителя социальных медиа. Несмотря на тот объем данных, который можно из них получить, их анализ может осветить проблему только в контексте самого человека, а точнее той информации, которую он решается открыть общественности.

Для получения более полной картины требуется непредвзятый источник данных, который значительно расширит базу для анализа и повысит объективность исследования.

2.1.    Данные из социальных сетей

По данным Brand Analytics на май 2017 года 81% активных пользователей в социальных медиа российского сегмента сети Интернет приходится на социальные сети [20]. Очевидно, что превалирующая доля контента сосредоточена именно в них, что делает социальные сети очень важным источником данных для исследования.

На территории России и стран СНГ наибольшую популярность среди социальных сетей имеет «ВКонтакте», в то время как мировой лидер среди социальных сетей Facebook в России по разным показателям занимает лишь 3-е и 4-е место [20]. Так, по данным Brand Analitycs на сентябрь 2018 года первое место цитирования в социальных медиа среди аудитории до 18 лет занимает «ВКонтакте» – 492 тыс. раз, Youtube – 363,1 тыс. ссылок, Instagram – 274 тыс., Facebook – 85,3 тыс. На пятом месте рейтинга – Telegram с 52 тысячами ссылок [21].

Среди социальных сетей, пользующихся в России наибольшей популярность можно выделить следующие:

  • -    ВКонтакте;

  • -    Одноклассники;

  • -    Facebook ;

  • -    Instagram ;

  • -   Twitter.

Социальные сети позволяют пользователям вступать в различные сообщества, тематические паблики и каналы, где регулярно публикуются записи, соответствующие направленности сообщества. По количеству участников той или иной группы можно судить о популярности поднимаемых проблем и вопросов в ней. Другим показателем является популярность конкретной записи - поста. Оценить её можно по количеству т.н. «лайков» - отметке пользователем понравившейся записи, а также «репостов» - публикации ссылки на интересную запись на своей странице с целью поделиться ей со своими друзьями и знакомыми. Используя эти данные можно судить о повышенном внимании пользователей к поднятой темой. Немаловажной частью оценки является анализ комментариев записи, которые могут предоставить наиболее точную позицию пользователей. Чем более остро стоит проблема, тем активней будет её обсуждение, в том числе в комментариях.

Доступ к этой информации определяется настройками приватности пользователя или сообщества, в зависимости от того, чьи записи анализируются.

Для работы с данными сервисы предоставляют открытый API , который позволяет получать описанные данных программно. Таким образом можно автоматизировать сбор и анализ данных. Для первичного анализа популярности записи наиболее важной и сложной задачей является определение ее темы. Задача может усложниться тем, что запись может содержать графический контент -изображение или видео вместо текста, который проще поддаётся такого рода анализу.

Самая популярная социальная сеть в России «Вконтакте» имеет активно развивающийся API и предоставляет официальные библиотеки для различных платформ: Android , iOS , Windows Phone , Unity ; а также для нескольких языков программирования: Java, PHP, JavaScript . Существуют также неофициальные библиотеки, предоставляющие доступ к VK API для языков: Python, C#, C++ , Ruby, Perl , Rust , Golang .

«Одноклассники» и Facebook также имеют внешний API с поддержкой основных популярных платформ: Android , iOS , Unity . Кроме того Facebook поддерживает языки PHP , Java , JavaScript , Python , Objective-C , Swift , Ruby .

Instagram официально предоставляет две библиотеки для доступа к своему API , для языков Python и Ruby . Однако, как указано в документации, они не поддерживаются с 2016 года.

Так как Instagram изначально предназначался для того, чтобы пользователи делились своими фото и короткими видео, то использовать его для анализа социального самочувствия будет крайне неудобно. Однако, спецификой российского Instagram стали развернутые посты блогеров - лидеров мнений - в масштабах одного города их изучение возможно традиционными методами качественного исследования.

Twitter API разделен на пять частей:

  • -  « Search Tweets » для поиска твитов за доступный период времени;

  • -  « Filter realtime Tweets » для получения конкретных твитов, используя расширенные средства

фильтрации;

  • -  « Account Activity API » позволяет производить манипуляции сразу с несколькими аккаунтами

через одно соединение;

  • -  «Direct Message API» предоставляет расширенные возможности для работы с сообщениями,

  • с оздания приложений для общения с пользователями и чат-ботов;

  • -  «Ads API» позволяет создавать и управлять рекламными компаниями.

  • 2.2.    Поисковые системы 2.3.    Сервисы сбора статистики

Twitter предлагает несколько категорий доступа к своему API : « Standard », « Premium » и « Enterprise ». Они применяются только в первых трех интерфейсах и регулируют временной интервал, виды операций, количество фильтров и возможностей фильтрации и количество аккаунтов, которыми можно управлять. Бесплатным уровнем доступа является только « Standard » [22].

Социальные сети уже применялись с целью получения данных для анализа социальных показателей. Например, в статье [23, с. 364] рассмотрен подход, позволяющий анализировать социальную напряженность. В исследовании « Predicting Depression via Social Media » используется анализ постов, публикуемых в социальной сети Twitter , для выявления у пользователей склонностей к депрессии [24]. Для решения этой задачи авторы статьи исследуют каждый пост на наличие в нем лексикона, более типичного для людей, страдающих депрессией, а также исследуют эмоциональную тональность постов.

Поисковые системы используются для поиска различного рода информации в интернете. Ежедневно они получают колоссальное количество поисковых запросов [25]. Зная статистику запросов, можно сделать вывод об интересе пользователей к тому или иному вопросу или событию. Но этот инструмент едва ли поможет определить, как пользователь к ним относится.

« Google » и «Яндекс» – наиболее популярные поисковые системы в России, чья суммарная доля аудитории превышает 90% как для десктопного, так и для мобильного использования [25].

Обе системы имеют сервисы, позволяющие просматривать статистику запросов пользователей, их популярность в различных регионах в различные периоды времени, а также динамику изменения популярности. Их называют сервисами подбора слов: у Google это « Google Trends »; у Яндекс – «Яндекс Wordstat ».

Чаще всего полученная с их помощью информация используется для продвижение Интернет ресурсов путем выявления наиболее популярных ключевых слов в поисковых запросах, соответствующих тематике сайта, и составления его семантического ядра на их основе. Для привлечения новых клиентов сервисы используются и рекламными компаниями. Работа с ними имеет свою специфику получить доступ к этим данным по средствам API несколько сложней, чем для социальных сетей.

С другой стороны, существуют государственные ресурсы открытых данных, предоставляющие большие массивы информации. Как правило это официальная статистика по множеству направлений, таких как демографические, экономические, научные, экологические, технологические, общественные показатели и многое другое. Ресурсы располагают огромным объемом данных за десятки лет. Все это делает их перспективным источником данных для анализа не только социальных проблем, но и многих других вопросов. Среди наиболее известных ресурсов можно выделить следующие:

  • -    Федеральная служба государственной статистики [26];

  • -    Открытое правительство [27];

  • -    Портал открытых данных Российской Федерации [28].

  • 3.    Методология анализа данных

    3.1.    Особенности информации в социальных сетях

В федеральных ресурсах статистика как правило имеет более глобальный формат. Но существуют также и муниципальные порталы, публикующие данные, относящиеся к конкретному региону [29, 30].

Несмотря на достоинства, данные источники имеют ряд недостатков, из-за которых они не пользуются большой популярностью. Для всех ресурсов нет единого стандарта хранения данных, даже в масштабах одного ресурса. Форматы могут быть разные: CSV , XML , JSON , XLS , DOC и др. В том числе различается организация данных внутри самих документов, что значительно затрудняет анализ данных из нескольких источников.

Зачастую сам документ может быть не валидным, когда при записи не были соблюдены стандарты используемого формата данных. Это приводит к тому, что нет возможности открыть

Сетевое научное издание «Системный анализ в науке и образовании» Выпуск №1, 2019 год документ без предварительного исправления его структуры. Это в свою очередь затрудняется большим объемом записанной информации.

Большинство подобных систем не имеют открытого API , с помощью которого можно автоматизировать получение опубликованных данных. Таким образом для использования данных необходимо скачивать документ с необходимой информацией, после чего его можно использовать в проекте. Отслеживать изменение данных и актуальность приходится вручную. Это сопряжено со значительными сложностями при работе с большими объемами данных. Среди ресурсов, не имеющих этот недостаток можно отметить «Хаб открытых данных» [31] и «Портал открытых данных правительства Москвы» [29], тем не менее возможности их API сильно ограничены.

Используя описанные источники можно получить множество объективных статистических данных, личные данные пользователей сети Интернет, а также различную информацию субъективного характера, отражающую отношение пользователя к тому или иному вопросу.

В социальных сетях люди часто оставляют немало личной информации: имя, фамилия, пол, страна и город проживания, возраст, место учебы или образование, место работы, интересы, свои мысли и т.д. Эта информация может быть недостоверной, однако, если пользователь указал большую часть этой информации в своем профиле, то с большой долей вероятности она соответствует действительности. Ведь если человек не хочет публиковать такого рода данные, он просто их не указывает.

Для оценки интересов и предпочтений пользователя социальной сети можно проанализировать группы и сообщества, в которых он состоит. Это могут быть клубы по интересам, говорящие об увлечениях или хобби человека. Связь с политическими пабликами может означать, что человеку не безразлична политическая обстановка в стране или мире. Если пользователь проявляет активность в группах для знакомств, то скорее всего он не состоит в отношениях.

Один лишь факт принадлежности пользователя к какому-либо сообществу не так информативен, как проявление активности в нем. Это может выражаться в публикации записей сообщества на своей странице – «репост», отметке понравившиеся записи «лайком», а также комментирование записей. Чем эта активность выше, тем ярче выражена озабоченность поднимаемыми в сообществе темами.

3.2.    Проблемы извлечения данных из социальных сетей

Многие люди делают личную информацию доступной абсолютно для всех. При этом немалую долю пользователей составляют те, кто ограничивает к ней доступ, например, только для друзей или только для себя. Это в значительной степени влияет на количество данных, которые можно получить из социальных сетей.

Существует еще одна проблема использования социальных сетей для извлечения информации. Чем популярней социальная сеть, тем больше среди ее пользователей «фейковых», т.е. поддельных аккаунтов, за каждым из которых стоит реальный человек, преследующий корыстные цели. По некоторым данным около 8% всех пользователей Facebook и Instagram являются поддельными или дублированными [32, 33]. Несмотря на то, что с этой проблемой активно борются, она может иметь большие последствия, особенно, если это связано с политикой. Так Twitter заблокировал около 70 миллионов профилей из-за подозрения в их недействительности и причастности к крупному скандалу вокруг президентских выборов в США [34].

Фальшивые профили можно классифицировать следующим образом:

  • -    поддельные профили реальных людей или компаний – они создаются с целью накрутки подписчиков, компрометации человека или бренда, или мошеннического заработка. Данный вид фейков опасен тем, что из-за него может пострадать репутация реального человека. Также есть риск приобрести услуги в подобном аккаунте и потерять деньги;

  • -    боты – профили, которые обычно создаются для продвижения сайта или сервиса. Также ботами наполняют группы с целью создания эффекта массовости;

  • -    «умные» боты, которые в отличие от обычных ботов комментируют записи, публикуют полезный контент, принимают участие в опросах и проявляют другие виды активности. Однако чаще всего это делается для достижения конкретных задач – продвижения ресурса, продукта или идеи;

  • -    псевдоботы, к которым относятся профили реальных людей в надежде попасть в ленту рекомендаций и привлечь трафик в свою группу или страницу.

  • 3.3.    Поисковые системы и сервисы сбора статистики 3.4.    Подход к анализу данных для оценки социального самочувствия

Иногда идентифицировать фальшивый аккаунт можно с помощью поверхностного анализа его содержимого. Например, если страница создана две недели назад и уже имеет несколько сотен подписчиков, то это повод для основательных сомнений. Но страница может быть хорошо замаскирована под реального пользователя. Однако, при более тщательном анализе активности пользователя, его контактов и личной информации можно заметить противоречия или повторяющиеся шаблоны поведения. Также эту работу можно доверить специальным сервисам, которые разработаны для большинства популярных социальных сетей. Для профилей популярных людей или организаций социальные сети предлагают услугу верификации. После прохождения этой процедуры страница помечается специальным знаком.

Эти ресурсы позволяют получать наиболее объективные данные, основанные на статистических показателях. В случае поисковых систем это наиболее популярные запросы, произведенные пользователями за конкретный период. Эти данные можно фильтровать и группировать по разным признакам, например, по территориальному. Зная тренд популярности среди пользователей, можно определить, что востребовано в данный момент. Если жители города задают в Интернете вопросы о том, как устроить ребенка в детский сад, то это признак дефицита соответствующих учреждений. А имея в распоряжении статистику рождаемости за последние несколько лет, количества детских садов в регионе и долю детей дошкольного возраста среди населения города, можно делать более точный анализ качества предоставляемой услуги, а также прогнозировать спрос на нее. Поскольку удовлетворенность является частью социального самочувствия, замеры ряда показателей помогут оценивать комплексный индекс социального благополучия горожан.

Очевидно, что анализ столь большого объема неоднородных данных является нетривиальной задачей и для ее решение необходимо применить современные инструменты и технологии. В связи с этим предлагается использовать следующую последовательность этапов для анализа собранной информации.

  • 1.    Если данные имеют неупорядоченный характер, то первоначально их следует сгруппировать.

  • 2.    На следующем этапе требуется определить маркеры для идентификации уровня измеряемого показателя. В качестве таких маркеров могут быть использованы маркеры активности, психолингвистические маркеры, лексические маркеры, семантические маркеры.

  • 3.    Далее необходимо определить шкалу для оценки каждого показателя и провести оценку.

Для этого необходимо решить задачу классификации текстовых данных по темам, связанным с выбранными показателями социального самочувствия. Сделать это можно, например, с использованием линейных классификаторов или нейронных сетей.

Заключение

Проведенное исследование позволило сформировать рамки перспективного направления междисциплинарных работ, результатом которых станет применение современных методов интеллектуального анализа данных для оценки качества жизни населения городов. Прогресс в этой сфере имеет большое значение как для решения локальных задач анализа удовлетворения потребностей жителей [35, с. 82], так и для комплексного анализа в целях выстраивания сбалансированной социально-экономической политики лицами, принимающими решения [36, с. 47].

Предложенный подход к анализу данных для оценки социального самочувствия, ориентированный на обработку данных открытых сетевых источников, позволит реализовать инструменты для охвата максимально широкого информационного поля. При этом появляется возможность анализировать качество реализации отдельных потребностей населения в контексте определенной городской среды и выявлять соотношение отчётных показателей и субъектноориентированной оценки ситуации с обеспечением условий жизнедеятельности.

Исследование выполнено при финансовой поддержке РФФИ в рамках научных проектов № 1837-20066 «мол_а_вед», № 16-07-00388 «a» и № 16-07-00353 «a», а также гранта РФФИ и Волгоградской области № 18-47-340012 «р_a». Авторы выражают благодарность коллегам по лаборатории UCLab , участвующим в разработке проекта UrbanBasis.com .

Список литературы Технологии исследования социального самочувствия горожан на основе анализа web-контента

  • Парыгин Д.С., Садовникова Н.П., Шабалина О.А. Информационно-аналитическая поддержка задач управления городом. Монография. - Волгоград, 2017.
  • EDN: ZGTIJR
  • Тощенко Ж.Т. Социальное настроение - феномен современной социологической теории и практики // Социс, 1998. - №1. - С. 21-35.
  • EDN: MPABMT
  • Латова Н. Психологическая атмосфера в стране и социальное самочувствие россиян // Россий-ское общество и вызовы времени. Книга четвертая. - 2016. - С. 26-47.
  • Стризое А.Л. Социальное самочувствие населения как индикатор модернизации современного общества // Социальное самочувствие населения в условиях реформ: региональный аспект. - М.: Нестор-История, 2011.
  • Барская О.Л. Социальное самочувствие: методологические и методические проблемы исследования. Автореф. дис. канд. философ. наук. - М., 1989.
Статья научная