Применение Big Data в социологических исследованиях: новые возможности и перспективы

Бесплатный доступ

В данной статье рассматривается использование больших данных для проведения социологических исследований в связи с развитием информационных технологий. В статье приводится определение понятия «Big Data», описываются изменения, которые произошли в проведении исследований в области социологически наук, описаны преимущества и недостатки использования больших данных, области их применения.

Социологическое исследование, большие данные, социология, информационные технологии

Короткий адрес: https://sciup.org/142243464

IDR: 142243464   |   DOI: 10.24412/1994-3776-2024-4-138-143

Текст научной статьи Применение Big Data в социологических исследованиях: новые возможности и перспективы

Социологические исследования играют важную роль в жизни общества, поскольку являются инструментом для понимания социальных процессов и принятия решений, которые необходимы для разрешения проблем, влияющих на уклад и уровень жизни населения. Благодаря всестороннему изучению всех сфер человеческого взаимодействия социологические исследования проводятся во многих областях профессиональной деятельности.

Социология – это наука о социальных отношениях как механизмах взаимосвязи и взаимодействия между многообразными социальными общностями; наука о закономерностях социальных действий. Социология находится в тесной связи с другими науками, такими как экономическая теория, психология, философия и этнография. Свой вклад в ее становление и развитие внесли известные по всему миру социологи: О. Конт, Э. Дюргейм, Ф. Теннис и другие.

Изучение фактов общественной жизни не может происходить без использования различных методов познаний.

Эти методы можно классифицировать на:

  • -    общенаучные (анализ, синтез, дедукция, системный подход);

  • -    специальные (наблюдение, опрос, тестирование, социальный эксперимент).

Фокина Елизавета Андреевна – студент Санкт-Петербургского государственного экономического университета

Степанов Станислав Андреевич – старший преподаватель кафедры социологии и управления персоналом Санкт-Петербургского экономического университета

  • E. Fokina - Student of St. Petersburg State University of Economics

S. Stepanov – Senior lecturer at the Department of Sociology and Personnel Management, St. Petersburg State University of Economics

Каждый из этих методов имеет свои преимущества и недостатки и применяется в зависимости от целей исследования. В прикладной социологии наряду с вышеперечисленными используется социальное моделирование, социальная аналитика, социальная экспертиза.

С развитием информационных технологий в социальных науках появились новые возможности для обработки и анализа данных. Так, сбор информации на первом этапе анализа может быть взят из открытых источников сети Интернет или баз данных. Поисковые системы предоставляют необходимые средства по поиску информации, ее сбору и анализу. Большими возможностями для ускорения процесса сбора и обработки необходимых данных обладает Big Data. В последнее время они стали ценным ресурсом, так как частично заменили опросные методики при изучении социальных явлений.

Big Data или большие данные – это термин, используемый при описании огромных объемов данных, характеризующихся большим объемом информации и требующих специфических способов обработки и анализа в отличие от традиционных методов в социологии [4, c.12].

Ключевыми особенностями Big Data по Д. Ленни являются:

  • 1.    volume – размер: объем данных превышает 150 Гб в сутки;

  • 2.    velocity – скорость: регулярное обновление;

  • 3.    variety – многообразие: данные могут быть как структурированные, так и неструктурированные [1, c. 32].

Однако многие специалисты в области IT-технологий относят еще некоторый ряд признаков:

  • 1.    veracity- правдивость: достоверность всего объема данных;

  • 2.    variability- изменчивость: нестабильность в потоке данных;

  • 3.    value-ценность: значимость данных для принятия решения;

Big Data также можно разделить на структурированные, неструктурированные и частично структурированные. Их различие состоит в разделении по определенным параметрам. Структурированные данные хранятся в упорядоченных базах и имеют организованную структуру, благодаря чему могут быть легко обработаны традиционными способами. Частично структурированные чаще всего систематизированы в виде иерархии, где элементы распределены по уровням или категориям в зависимости от их значимости. Неструктурированные данные хранятся в неопределенной, неорганизованной форме без строгой схемы или структуры, например, аудио- или видеоматериалы, социальные сети, форумы [4].

Впервые термин «Big Data» был использован в 2008 году редактором журнала «Nature» Клиффордом Линчем. Он говорил о большом росте объемов информации по всему миру. Акцент делался именно на размере данных, с которыми не удавалось справиться простым компьютерам. Под большими данными Клиффорд Линч понимал любые массивы неоднородной информации, появляющиеся в объеме более 150 Гб в сутки, однако единые критерии Big Data так и не были выделены.

В 2010-х годах специалисты стали интересоваться объемом данных и заниматься научными и статистическими исследованиями для систематизации и практического применения в науке. С 2014 года на подобную проблему стали обращать внимание мировые вузы, предоставляющие программы по обучению прикладным специальностям. Позже мировые IT-компании (Microsoft, IBM, Apple, Oracle, EMC, Google), которые теперь используют большие данные во всех областях свое деятельности. Мировые данные по распространению интернета по всему миру ежегодно увеличиваются (см. рис.1). Все больше людей выходят в глобальные сети и распространяют личные данные в сети.

Рисунок 7. Рост числа пользователей, млн. чел.

На данный момент главными источниками для пополнения информацией выступают:

  • -    социальные сети,

  • -    СМИ,

  • -    данные компании (транзакции, оформленные товары и услуги),

  • -    показания приборов метеорологических станций, данные спутников и др.,

  • -    статистические данные городов или государств (информация о рождаемости, смертности, перемещениях),

  • -    данные, получаемые из медицинских центров (анализы, диагностические снимки, температура, давление и ЭКГ).

Постоянно увеличивающиеся данные расширяют пространство и предоставляют новые пути для развития привычных направлений исследования, особенно тех, что нуждаются в больших объемах информации и пользуются онлайн-данными. Сбор и обработка данных из разных областей действия сложны, а применение новых информационных технологий сильно упрощают задачу. Новые данные превосходят старые в своем объеме, разнообразии и глубине.

Основными преимуществами использования Big Data в социологических исследованиях являются:

  • 1.    Работа с большими объемами информации: использование баз данных миллионов пользователей по всему миру;

  • 2.    Сбор данных из разных источников: непрерывное накопление данных из разных областей деятельности;

  • 3.    Совершенствование бизнес-процессов через аналитику: проведение аналитики данных с приборов мониторинга, средств связи для исключения поломки или неэффективных операций;

  • 4.    Обеспечение безопасности транзакций: обнаружение подозрительных моделей поведения;

  • 5.    Визуализация данных: представление информации в виде графиков или схем.

Большие данные имеют ряд существенных минусов, которые необходимо учитывать при их использовании для аналитики и прогнозирования бизнес-процессов или общественных явлений.

  • 1.    Сложность проведения анализа: возникновение проблем с хранением данных или их обработкой из-за больших объемов; дорогостоящее аппаратное обеспечение для управления большими массивами данных.

  • 2.    Отсутствие стандартизации: новая информация генерируется из разных источников и касается разных областей использования, что приводит к появлению неструктурных или полуструктурных данных.

  • 3.    Мнимая безопасность использования: полученный объем данных – мишень для киберпреступников, начавших охоту за информацией. Это может привести к серьезным последствиям, например, для компаний. Они могут столкнуться с финансовыми потерями или получением ущерба для их репутации.

  • 4.    Колонизация социальных дисциплин инженерными науками: один из недостатков, оказывающий глобальное влияние на значение академической социологии как на знания о социальном. Еще в 2007 году в свет вышла статья о «Наступающем кризисе эмпирической социологии». Авторы данной статьи увидели опасность в использовании коммерческими компаниями данных для извлечения большей прибыли в условиях рыночной экономики. Ранее исследования проводились социологами при использовании традиционных методов сбора информации, теперь анализ данных проводится при помощи инновационных методов в области технических наук.

  • 5.    Этическая сторона вопроса использования конфиденциальных данных: по мере сбора данных пользователей растет опасность в распространении личной информации. Информация о здоровье, предпочтениях, покупках и местоположении, которая чаще всего используется для целевой рекламы может попасть в руки третьих лиц и использована против других пользователей.

Некоторые из ученых занимались исследованиями вопросов, касающихся уязвимости и вреда «эры больших данных». Социологи Д. Бойд и К. Кроуфорд указывали на то, что такие данные не всегда могут быть объективны [1, c. 34]. Это связано с получением данных, так как они интерпретируются по найденным закономерностям. Например, Е. В. Карчагин выделил следующие нарушение в этичности Big Data: слежение, приватность и социальное неравенство [1, c. 36].

Несмотря на все перечисленные недостатки, большие данные привели к масштабным и глубоким трансформациям в области проведения социологических исследований. Компании используют любые объемы больших данных для анализа, а иногда сначала структурируют, отбирая только те, что нужны для анализа.

В основе технологии Big Data лежат несколько ключевых компонентов: сбор, хранение, обработка и анализ данных.

Сбор осуществляется из разных источников: из того, что публикуют в свободный доступ пользователи социальных сетей, онлайн-сервисов, например, фото, видео или сообщения. Собираются данных из государственных структур, данные из электронных карт о медицинских показаниях, анализах, аппаратной диагностике, данные о платежах и переводах денежных средств.

В процессе данные фильтруют, то есть отбирают только те данные, которые нужны для исследования.

После данные помещаются на один носитель, где обрабатываются с помощью облачных серверов и распределённых вычислительных мощностей. Это происходит при помощи специальных программ таких, как NoSQL, MapReduce, Hadoop и других [4, c.18].

На следующем этапе для удобства использования данных в работе их разделяют по разным параметрам. Это делается для того, чтобы извлекать нужные области информации и преобразовывать их в понятные схемы и таблицы. Аналитики также могут пользоваться специальными аналитическими сервисами, которые собирают данные из систем по работе с клиентами, Excel-таблиц и других источников, а затем самостоятельно преобразуют информацию в виде интерактивных отчётов, что существенно упрощает процесс работы с данными.

Большие данные предоставляют широкий спектр информации из различных областей деятельности, что дает возможность использовать их в социологических исследованиях, касающихся практически любых сфер жизнедеятельности человека. Так Big Data применяются в самых разнообразных условиях и направлениях деятельности: от бизнес-процессов до науки. Примеры использования больших данных:

  • 1.    Розничная торговля

  • 2.    Здравоохранение.

  • 3.    Транспорт.

  • 4.    HR.

  • 5.    Наука.

Один из наиболее ярких направлений, в которых применяются большие данные. Многие производители применяю технологии интеллектуального анализа при изучении предпочтений целевой аудитории, построения рекламной компании, расчета объема продаж. Компаниям удается выявить потребительские ожидания относительно современных трендов. Так, например, крупнейший производитель газированных напитков (Coca-Cola), стал продвигать свой бренд холодного чая «Gold Peak» на основе анализа фото пользователей в социальных сетях [5].

Медицинские учреждения часто используют интеллектуальный анализ данных о видах заболеваниях и их особенностях для предсказания эпидемиологической обстановки, разработки новых лекарств и своевременного предоставления медицинской помощи.

Исследования в области транспортной логистики проводятся для оптимизации маршрутов, планирования грузоперевозок. В 2018 году крупная компания Uber анонсировала статью на своем сайте о информационных технологиях, позволяющих обрабатывать огромные массивы данных для улучшения сервиса, прогнозирования спроса и расчета стоимости поездки [6].

В HR большие данные собирают всю информацию о поиске, найме сотрудников, текучести кадров, анализе вовлеченности и производительности работников. Благодаря таким возможностям руководителям удается удовлетворяет потребности компании в квалифицированных специалистах, обеспечивать устойчивое развитие и выводить компанию на новый конкурентный уровень за счет совершенствования кадровой стратегии организации.

Возможности Big Data используются во многих областях науки, включая биологию, химию и физику. Биологи собирают информацию о геномах и белковых структурах для изучения биологических процессов, физики – для проведения исследования фундаментальных законов природы и разработки новых технологий.

Для обработки и анализа больших данных используются различные технологии. Советский и российский социолог, Юлия Николаевна Толстова, определила несколько методов компьютерных технологий, которые используются в социальных науках. Data mining или интеллектуальный анализ - один из них. Он представляет процесс, проводимый компанией, для извлечения ценной информации из большого массива данных. Автором термина Data Mining считается Григорий Пятецкий-Шапиро. Интеллектуальный анализ он интерпретировал как процесс обнаружения в неструктурированных «сырых» данных знаний, которые доступны и полезны для принятия решений. Подобная технология чаще всего используется отраслями, которые предлагают свой товар или сервис потребителям. Data Mining позволяет анализировать данные о продуктовой корзине, чтобы разработать рекламные проекты, создать запас товаров на складе и определить необходимость открытия новых магазинов. Другой способ, которые активно применяются в социальных науках - Data Science или наука о данных. Data Science представляет из себя междисциплинарную область, которая занимается всеми этапами работы с данными. Для изучения больших массивов данных используют знания из статистики, математики и системного анализа. Развитие науки о данных произошло после внедрения технологий Big Data. Впервые о науке об данных заговорили еще в прошлом веке с подачи датского ученого Петера Наура. Сам он определил Data Science как «дисциплину, изучающую жизненный цикл цифровых данных от появления до использования в других областях знаний». На данный момент специалисты уделяют большое внимание прогнозированию будущего с использованием моделей.

Эксперты прогнозируют активный рост объема данных по всему миру. Так, IDC в своем отчете для компании Seagate пишет, что глобальная база данных достигнет 175 зеттабайт к 2025 году. Такой большой объемом данных будет сложнее хранить и обрабатывать, что приведет к появлению новых технологий работы с данными. Увеличится число вакансий специалиста по обработке и анализу массивов данных. В будущем Big Data будет все более широко использоваться в различных отраслях и сферах деятельности.

В заключение хотелось бы отметить, что социология – это наука, занимающаяся изучением социальных проблем таких, как бедность, преступность, уровень жизни и дискриминация. Социологические исследования имеют большое значение для общества, так как они помогают лучше понять процессы, явления и закономерности, которые возникают в обществе. Они позволяют получить ценную информацию, на основе которой проводится аналитика и принимаются важные решения. С развитием компьютерных технологий и перехода в цифровую среду методы социологических исследований существенно изменились: базы данных ускорили и автоматизировали процесс сбора и хранения информации из разных сфер общественной жизни. После создания глобальных сетей объемы данных стали расти в экспоненциальной прогрессии. Подобные изменения не могли не повлиять на появление других специализированных методов сбора и обработки данных. Социологи столкнулись с новыми проблемами в проведении социологических исследований. Современные данные превосходят старые в своем разнообразии и количестве, но они не подготовлены для использования. Превращение данных в нужный формат требует специальных компетенций в области компьютерных наук. Исследователям приходится применять другие методы: математическое и статистическое моделирование, методы интеграции мультимодальных данных и другие. Это дает возможность оценить, насколько велики опасения по поводу перехода социальных наук под влияние инженерных дисциплин. Такой процесс ставит под сомнения использование методов традиционной социологии как основного источника знания о социальном в будущем.

Список литературы Применение Big Data в социологических исследованиях: новые возможности и перспективы

  • Одинцов А.В. Социология общественного мнения и вызов Big Data //Мониторинг общественного мнения: Экономические и социальные перемены. 2017. № 3. С. 30-43. DOI: 10.14515/monitoring.2017.3.04 EDN: ZQQENZ
  • Сизова, Г. Б. Социология. Курс лекций: учеб. пособие / Г. Б. Сизова. - СПб.: ФГБОУВО "СПбГУПТД", 2018. - 65 с.
  • Социология: теория, история, методология: учебник/ под ред. Д.В.Иванова. - СПб.: Изд-во С.-Петерб. ун-та, 2019. - 480 с.
  • Big Data = Большие данные: учеб. пособие / И. Б. Тесленко [и др.]; Владим. гос. ун-т им. А. Г. и Н. Г. Столетовых. - Владимир: Изд-во ВлГУ, 2021. - 123 с.
  • Mark van Rijmenam. How Coca-Cola Takes a Refreshing Approach to Big Data, July 19, 2013.
  • Cohen, P., R. Hahn, J. Hall, S. Levitt and R. Metcalfe (2016). Using Big Data to Estimate Consumer Surplus: The Case of Uber. NBER Working paper, 22627.
Статья научная