Прогнозирование социальных изменений с помощью алгоритмов машинного обучения
Автор: Рафикова К.Ф.
Журнал: Теория и практика общественного развития @teoria-practica
Рубрика: Социология
Статья в выпуске: 4, 2024 года.
Бесплатный доступ
Настоящее исследование посвящено анализу возможностей алгоритмов машинного обучения в контексте прогнозирования социальных изменений. Основная цель работы заключается в оценке эффективности и точности различных моделей машинного обучения, в том числе искусственных нейронных сетей, деревьев решений и методов кластеризации, применяемых для анализа социальных данных и предсказания соответствующих тенденций. Методология исследования включает сбор и предварительную обработку данных, обучение моделей на основе выбранных алгоритмов и оценку их производительности с использованием стандартных метрик, таких как точность, полнота и F1-мера. Результаты исследования демонстрируют, что применение машинного обучения позволяет не только выявлять текущие социальные тренды, но и с достаточной степенью вероятности прогнозировать будущие общественные изменения. В работе также рассматриваются потенциальные ограничения, связанные с доступностью и качеством данных, а также этические аспекты использования алгоритмических методов в социальных науках. Обозначены направления возможных дальнейших исследований, включая улучшение интерпретируемости моделей и расширение мультидисциплинарного сотрудничества для более глубокого понимания социальных процессов.
Машинное обучение, прогнозирование социальных изменений, анализ данных, социоэкономические тренды, анализ общественного мнения, нейронные сети, деревья решений, кластеризация, этические аспекты применения алгоритмов, динамика общественных процессов
Короткий адрес: https://sciup.org/149145297
IDR: 149145297 | DOI: 10.24158/tipor.2024.4.9
Текст научной статьи Прогнозирование социальных изменений с помощью алгоритмов машинного обучения
Российская академия народного хозяйства и государственной службы при Президенте Российской Федерации, Москва, Россия, ,
В последние десятилетия в свете ускоренного развития цифровых технологий и накопления больших объемов данных встает вопрос о применении алгоритмов машинного обучения (ML) для улучшения качества и точности прогнозов социальных изменений.
Настоящее исследование направлено на оценку потенциала машинного обучения в контексте социальных наук. Основные его цели заключаются в анализе способов применения ML-алгоритмов для предсказания общественных тенденций, оценки их эффективности и выявления возможных ограничений.
Интеграция машинного обучения в социальные науки открывает новые горизонты для исследований. Алгоритмы ML способны обрабатывать и анализировать массивы данных, что недоступно традиционным статистическим методам, это делает принципы машинного обучения особенно ценными для прогнозирования и понимания сложных социальных процессов. Тем не менее важно осознавать ограничения и этические аспекты применения этих технологий.
Обзор литературы . Основой для развития машинного обучения стали идеи Алана Тьюринга, который задался вопросом «Могут ли машины мыслить?» и предложил тест как способ оценки искусственного интеллекта (Turing, 2009).
Чуть позже Фрэнк Розенблатт создал «Перцептрон» – первую модель нейронной сети, способную обучаться и принимать решения, что положило начало развитию области искусственных нейронных сетей (Rosenblatt, 1958).
Важным моментом в истории машинного обучения стало введение алгоритма обратного распространения ошибки, разработанного Д. Румельхартом, Дж. Хинтоном и Р. Вильямсом (Rumelhart et al., 1986). Этот метод значительно улучшил способность нейронных сетей обучаться и адаптироваться.
В 1990–2000-е гг. наблюдалось активное развитие машинного обучения, включая улучшение алгоритмов, увеличение вычислительной мощности техники и использование больших данных. Особенно важными были работы, связанные с применением методов опорных векторов (SVM (Vapnik, 1995)) и алгоритмов случайных лесов (Random Forests (Breiman, 2001)).
С 2000-х гг. начался новый виток развития – распространение глубокого обучения. Исследования Ю. ЛеКуна, Ю. Бенджио и Г. Хинтона показали, что нейронные сети могут достигать выдающихся результатов в различных задачах, таких как распознавание речи, обработка изображений и многие другие (LeCun et al., 2015).
Современное машинное обучение характеризуется интеграцией различных подходов и технологий. Большое внимание уделяется таким темам, как улучшение интерпретируемости моделей, этические аспекты искусственного интеллекта, а также развитие методов обучения с подкреплением (Jordan, Mitchell, 2015).
Примеры использования машинного обучения в прогнозировании социальных изменений . Использование машинного обучения в анализе социальных сетей открывает новые возможности для исследователей и аналитиков. Например, алгоритмы могут обрабатывать тексты публикаций и комментарии, чтобы оценить общее настроение сообщества по отношению к определенным темам или событиям. Это может помочь предсказать деятельность социальных движений, например, когда определенная тема начинает набирать популярность в Интернете и становится мотивом для организации общественных акций или протестов (Conover et al., 2013). Кроме того, анализ данных социальных сетей может выявлять изменения в общественном мнении, что особенно ценно в преддверии выборов или других значимых общественных событий. Алгоритмы машинного обучения способны выявлять не только явные, но и скрытые взаимосвязи между данными, что позволяет предсказывать изменения в общественных настроениях с высокой точностью.
Применение ML в области экономических прогнозов открывает новые перспективы для анализа и понимания сложных процессов, протекающих в народном хозяйстве. Исследования в этой сфере демонстрируют потенциал машинного обучения в предсказании ключевых экономических индикаторов, таких как рыночные тенденции и состояние сферы занятости. Одним из примеров таких исследований является работа Дж. Бушина и его коллег, в которой подробно рассматривается использование машинного обучения для анализа рыночных тенденций (Bughin et al., 2017).
Алгоритмы ML используют большие объемы данных, чтобы выявить закономерности и предсказать будущие изменения на рынках. Анализ включает в себя обзор исторических данных о ценах акций, экономических отчетов, новостей и других соответствующих источников информации. Такой подход позволяет получить глубокое понимание о динамике рынка и предсказать направление его развития с большей точностью, чем это возможно сделать при помощи традиционных экономических моделей.
Машинное обучение также применяется для изучения рынка труда: данных о вакансиях, уровнях занятости, зарплатах и других факторах, позволяющих предсказать изменения в спросе и предложении в сфере занятости, а также влияние экономических циклов на нее.
Алгоритмы машинного обучения все чаще используются для прогнозирования социальных кризисов и катастроф, включая глобальные миграционные потоки, эпидемии и другие чрезвычайные ситуации. Так, благодаря машинному обучению можно анализировать экономические условия, социально-политическую обстановку и природные катастрофы в разных регионах, чтобы предсказать миграционные тенденции. Это дает возможность правительствам и международным организациям более эффективно планировать и распределять ресурсы для оказания помощи мигрантам и беженцам.
В области эпидемиологии алгоритмы машинного обучения могут анализировать данные о заболеваемости, передаче инфекций и мобильности населения, чтобы предсказать распространение инфекционных болезней. Это позволяет заранее определить потенциальные очаги заболеваний и своевременно принять меры по их предотвращению и контролю, такие как вакцинация, карантин и разработка лекарственных препаратов.
Теоретические основы прогнозирования социальных изменений . Теоретические аспекты прогнозирования социальных изменений охватывают широкий спектр подходов и моделей, которые помогают анализировать и предвидеть динамику в обществе. Среди них выделяются статистические методы, которые предполагают применение математических моделей для анализа социальных данных; теории игр – для изучения стратегического взаимодействия между индивидами или группами; системного анализа – для рассмотрения социальных систем в их сложности и взаимосвязях.
Важным направлением для исследования является интеграция социальных теорий с методами машинного обучения. Так, теория социального выбора, исследующая решения индивидов в контексте общественных интересов, или теория сетей, анализирующая структуру и динамику социальных связей, могут обогатить применение машинного обучения новыми перспективами для понимания социальных процессов.
При этом важно учитывать этические и методологические вопросы, связанные с применением обозначенных технологий в социальных науках. К ним относятся вызовы, обусловленные недостоверностью данных, необходимостью обеспечения прозрачности алгоритмов и защиты конфиденциальности личной информации. Рефлексия этих аспектов необходима для обеспечения ответственного и этичного подхода к прогнозированию социальных изменений.
Методология . Рассмотрим разнообразие существующих алгоритмов машинного обучения.
В первую очередь следует сказать о нейронных сетях, эффективных в выявлении сложных нелинейных связей между данными (Goodfellow et al., 2016).
В применении специализированных алгоритмов для решения задач классификации и регрессии особое внимание уделяется методам, базирующимся на деревьях решений, таким как метод случайных лесов, благодаря их эффективности в обработке больших объемов данных (Breiman, 2001).
Методы кластеризации позволяют выявлять скрытые структуры в данных, что подтверждается исследованиями А. Джайна (Jain, 2010).
Чтобы обеспечить оптимальную настройку гиперпараметров моделей, мы опираемся на методики, предложенные Дж. Бергстрой и Й. Бенгио (Bergstra, Bengio, 2012), которые включают в себя сеточный и случайный поиск.
Для оценки производительности моделей и обеспечения их надежности, как правило, используется метод перекрестной проверки, рекомендованный Р. Кохави (Kohavi, 1995), который позволяет проводить тестирование на различных подмножествах данных.
Важным условием качественного исследования является выбор подходящих исходных данных. При этом используются как структурированные, так и неструктурированные наборы данных (Halevy et al., 2009). Оценка их качества производится на основе ряда критериев, таких как полнота, точность, актуальность и согласованность, в соответствии с рекомендациями П. Чепмена (Chapman et al., 2000).
Перед анализом данных необходима их тщательная обработка, включая нормализацию, стандартизацию и кодирование категориальных переменных. Данные процедуры проводятся в строгом соответствии с методологиями, разработанными С. Гарсией и его коллегами (García et al., 2015), что позволяет подготовить информацию к обучению моделей машинного обучения наиболее эффективным образом.
Для обеспечения объективности оценки производительности последних исходный набор информации делится на три части: обучающую, валидационную и тестовую выборки, что соответствует подходу, рекомендованному Р. Кохави (Kohavi, 1995). Такая стратегия позволяет не только точно оценить качество моделей в условиях, приближенных к реальным, но и предотвратить переобучение, способствуя лучшей адаптации к новым данным. Последнему необходимо уделять особое внимание, чтобы гарантировать получение надежных результатов.
Эффективность моделей оценивается с использованием различных метрик, таких как точность, полнота и F1-мера для задач классификации, а также MSE и RMSE для задач регрессии (The Elements of Statistical Learning: Data Mining, Inference, and Prediction …, 2009).
Наконец, для интерпретации результатов применяются методы анализа значимости признаков и визуализации данных, что позволяет не только количественно оценить эффективность моделей, но и обеспечить их понимание и интерпретацию, что подкрепляется работами Р. Ги-дотти (Guidotti et al., 2019). Этот подход обеспечивает комплексное и глубокое понимание полученных результатов, способствуя дальнейшему развитию области машинного обучения.
Анализ и результаты . Обратимся к примерам применения алгоритмов машинного обучения в отношении общественных явлений. Одним из них является изучение настроений в социальных сетях. Применяя методы обработки естественного языка, о которых писали Б. Панг и Л. Ли (Pang, Lee, 2008), можно выполнить анализ эмоциональной окраски содержания постов, чтобы определить, носят ли они позитивный или негативный характер. Для этого целесообразно использовать модель глубокого обучения, обученную на обширном наборе данных, содержащем посты с хэштегами, относящимися к различным событиям. Исследование позволит сделать выводы о том, какие настроения преобладают в общественном мнении по важным социальным вопросам.
Для анализа и прогнозирования экономических тенденций, таких как изменения во внутреннем валовом продукте (ВВП), уровне безработицы и индексах потребительских цен, применяются алгоритмы на основе деревьев решений. Эти методы были описаны Дж. Куинланом (Quinlan, 1986) и демонстрируют эффективность в обработке и анализе экономических данных, обеспечивая достоверное предсказание значений показателей на краткосрочную и среднесрочную перспективу.
Через анализ изображений из социальных сетей с применением сверхточных нейронных сетей, подробно описанных в работе И. Гудфеллоу (Goodfellow et al., 2016), можно выявлять актуальные социальные тренды. Этот подход обеспечивает глубокое понимание текущих тенденций в моде, политике, экономике, демонстрируя широкие возможности машинного обучения в анализе визуального контента.
С применением ансамблевых методов, описанных Л. Брейманом (Breiman, 2001), осуществляется анализ данных о перемещении населения, включая информацию о запросах на убежище и миграционных путях. Этот подход позволяет делать прогнозы относительно будущих миграционных кризисов и оценивать их возможное воздействие на социальную инфраструктуру. В подобных исследованиях использование машинного обучения для анализа миграционных потоков способствует пониманию их влияния на демографические сдвиги, как отмечено в работе Дж. Реймера и коллег (Raymer et al., 2013).
Анализ данных из социальных медиа с помощью машинного обучения открывает новые возможности для прогнозирования тенденций в области общественного здравоохранения, включая предсказание вспышек инфекционных заболеваний, таких как грипп или COVID-19. Результаты исследований в этой сфере, в том числе выполненного А. Синьорини (Signorini et al., 2011), продемонстрировали, что данные, собранные из социальных сетей, могут служить ценным ресурсом для раннего выявления и отслеживания распространения заболеваний, что значительно улучшает возможности по предотвращению и контролю эпидемий.
С использованием методов машинного обучения для анализа экономических данных осуществляется работа по предсказанию финансовых кризисов и определению их потенциальных социальных последствий. В рамках исследования, осуществленного А. Гонсалесом и единомышленниками, эти технологии были применены для прогнозирования банковских кризисов в странах с развивающейся экономикой (González et al., 2017). Этот подход позволяет не только выявлять предвестники кризисных явлений, но и разрабатывать стратегии для смягчения их воздействия на общество.
Исследование А. Тумасяна и его коллег (Tumasjan et al., 2010), посвященное изучению воздействия медиа на общественное мнение и политические процессы, включало анализ данных из социальных сетей для выявления настроений электората и прогнозирования результатов выборов. Особое внимание учеными было уделено анализу активности пользователей в социальных сетях в период предвыборной кампании, что позволило обнаружить связь между динамикой обсуждений на интернет-площадках и финальными исходами голосования. Полученные результаты исследования подчеркивают значительное влияние социальных медиа на формирование политических предпочтений и решений избирателей.
Для интерпретации их применяются методы визуализации и анализа значимости признаков, что обеспечивает возможность не только количественно оценить выходные данные, но и выявить, какие конкретные факторы имеют наибольшее влияние на исследуемые явления. Важную роль в этом процессе играют подходы, описанные М. Рибейро и коллегами (Ribeiro et al.,
2016) в их работе о LIME (Local Interpretable Model-Agnostic Explanations), которые позволили углубить понимание о работе сложных моделей глубокого обучения, о том, как создаются с их помощью прогнозы, обеспечивается прозрачная и понятная интерпретация результатов.
Обсуждение . Как видим, алгоритмы машинного обучения могут быть эффективно применены для прогнозирования и анализа социальных изменений. Однако, несмотря на значительный потенциал машинного обучения в социальных науках, существуют ограничения, которые необходимо учитывать. Среди них – качество и доступность данных. Многие социальные явления сложно квантифицировать и оцифровать, что может привести к предвзятости в отражении данных, их недостоверности и, как следствие, к ошибкам в прогнозах. Кроме того, сложность некоторых алгоритмов машинного обучения может ограничивать их интерпретируемость, что затрудняет понимание причинно-следственных связей в социальных процессах.
Этические аспекты использования машинного обучения в социальных науках освещены в работах Б. Миттельштадта и коллег (Mittelstadt et al., 2016), которые рассматривают возможность обеспечения прозрачности, ответственности и справедливости алгоритмического принятия решений. В дополнение к этому В. Юбэнкс (Eubanks, 2018) предлагает глубокий анализ влияния алгоритмического управления на социальную справедливость и равенство.
Заключение . Таким образом, значительный потенциал алгоритмов машинного обучения в прогнозировании и анализе социальных изменений не подлежит сомнению. Разнообразные методы, включая искусственные нейронные сети, деревья решений и кластеризацию, могут эффективно применяться для анализа и интерпретации сложных социальных данных. Это позволяет не только предсказывать общественные тенденции, но и глубже понимать динамику настроений граждан и эволюцию социоэкономических процессов.
Следует отметить существование ряда ограничений на использование возможностей машинного обучения, включая проблемы с доступностью и качеством данных, а также вопросы интерпретируемости сложных моделей. Этические аспекты применения данных и алгоритмического анализа также находятся сегодня в центре внимания научной общественности, что обуславливает необходимость разработки прозрачных подходов к реализации машинного обучения.
Для дальнейшего развития области прогнозирования социальных изменений с помощью изучаемой технологии представляются перспективными следующие направления исследований.
-
1. В рамках улучшения качества и доступности данных следует обратить внимание на исследование новых источников информации и разработку методик ее очистки и обработки, что будет способствовать повышению точности прогнозов.
-
2. Следующим шагом является создание интерпретируемых моделей машинного обучения, которые будут не только высокоточными, но и способными выявлять причинно-следственные связи в социальных процессах.
-
3. Необходимо также осуществлять глубокий анализ этических аспектов, связанных с алгоритмическим анализом в социальных науках, что предполагает разработку соответствующих этических рекомендаций. 4
-
4. Дополнительно можно использовать возможности мультидисциплинарного подхода, предполагающего сотрудничество с экспертами из различных сфер, таких как социология, психология и экономика, что будет способствовать более глубокому пониманию и анализу социальных процессов через обогащение аналитических моделей.
Настоящее исследование подтверждает значительные перспективы применения машинного обучения в социальных науках, одновременно выделяя важность критического подхода к анализу данных, этическим вопросам и междисциплинарному взаимодействию для достижения более глубокого и всестороннего понимания социальных изменений, однако обозначенная проблематика нуждается в дальнейшей разработке и исследовательском внимании.
Список литературы Прогнозирование социальных изменений с помощью алгоритмов машинного обучения
- Bergstra J., Bengio Y. Random Search for Hyper-Parameter Optimization // Journal of Machine Learning Research. 2012. Vol. 13, iss. 2. Р. 281–305.
- Breiman L. Random Forests // Machine Learning. 2001. Vol. 45. Р. 5–32. https://doi.org/10.1023/a:1010933404324.
- Bughin J., Hazan E., Ramaswamy S., Allas T., Dahlström P., Henke N., Trench M. Artificial Intelligence the Next Digital Frontier. Chicago, 2017. 80 р.
- Chapman P., Clinton J., Kerber R., Khabaza T., Reinartz T., Shearer C., Wirth R. CRISP-DM 1.0: Step-by-Step Data Mining Guide. Chicago, 2000. 73 р.
- Conover M.D., Ferrara E., Menczer F., Flammini A. The Digital Evolution of Occupy Wall Street // PloS One. 2013. Vol. 8, iss. 5. Р. e64679. https://doi.org/10.1371/journal.pone.0064679.
- Eubanks V. Automating Inequality: How High-Tech Tools Profile, Police, and Punish the Poor. N. Y., 2018. 260 р.
- García S., Luengo J., Herrera F. Data Preprocessing in Data Mining. Cham, 2015. 320 р. https://doi.org/10.1007/978-3-319-10247-4.
- González A., Teräsvirta T., Dijk D., Yang Yukai. Panel Smooth Transition Regression Models. Aarhus, 2005. 36 р.
- Goodfellow I., Bengio Y., Courville A. Deep Learning. Cambridge, 2016. 800 р.
- Guidotti R., Monreale A., Ruggieri S., Turini F., Giannotti F., Pedreschi D. A Survey of Methods for Explaining Black Box Models // ACM Computing Surveys (CSUR). 2019. Vol. 51, iss. 5. Р. 1–42. https://doi.org/10.1145/3236009.
- Halevy A., Norvig P., Pereira F. The Unreasonable Effectiveness of Data // IEEE Intelligent Systems. 2009. Vol. 24, iss. 2. Р. 8–12. https://doi.org/10.1109/mis.2009.36.
- Jain A.K. Data Clustering: 50 Years Beyond K-Means // Pattern Recognition Letters. 2010. Vol. 31, iss. 8. Р. 651–666. https://doi.org/10.1016/j.patrec.2009.09.011.
- Jordan M.I., Mitchell T.M. Machine Learning: Trends, Perspectives, and prospects // Science. 2015. Vol. 349, iss. 6245. Р. 255–260. https://doi.org/10.1126/science.aaa8415.
- Kohavi R. A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection // IJCAI. 1995. Vol. 2. Р. 1137–1145.
- LeCun Y., Bengio Y., Hinton G. Deep Learning // Nature. 2015. Vol. 521. Р. 436–444. https://doi.org/10.1038/nature14539.
- Mittelstadt B.D., Allo P., Taddeo M., Wachter S., Floridi L. The Ethics of Algorithms: Mapping the Debate // Big Data & Society. 2016. Vol. 3, iss. 2. Р. 1–21. https://doi.org/10.1177/2053951716679679.
- Pang B., Lee L. Opinion Mining and Sentiment Analysis. Now Publishers Inc., 2008. 137 р. https://doi.org/10.1561/9781601981516.
- Quinlan J.R. Induction of Decision Trees // Machine Learning. 1986. Vol. 1. Р. 81–106. https://doi.org/10.1007/bf00116251.
- Raymer J., Wiśniowski A., Forster J.J., Smith P.W.F., Bijak J. Integrated Modeling of European Migration // Journal of the American Statistical Association. 2013. Vol. 108, iss. 503. Р. 801–819. https://doi.org/10.1080/01621459.2013.789435.
- Ribeiro M.T., Singh S., Guestrin C. "Why Should I Trust You?": Explaining the Predictions of Any Classifier // Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations. San Diego, 2016. Р. 97–101. https://doi.org/10.18653/v1/n16-3020.
- Rosenblatt F. The Perceptron: a Probabilistic Model for Information Storage and Organization in the Brain // Psychological Review. 1958. Vol. 65, iss. 6. Р. 386–408. https://doi.org/10.1037/h0042519.
- Rumelhart D.E., Hinton G.E., Williams R.J. Learning Representations by Back-Propagating Errors // Nature. 1986. Vol. 323. Р. 533–536. https://doi.org/10.1038/323533a0.
- Signorini A., Segre A.M., Polgreen P.M. The Use of Twitter to Track Levels of Disease Activity and Public Concern in the US during the Influenza A H1N1 Pandemic // PloS One. 2011. Vol. 6, iss. 5. Р. e19467. https://doi.org/10.1371/journal.pone.0019467.
- The Elements of Statistical Learning: Data Mining, Inference, and Prediction / eds.: T. Hastie, R. Tibshirani, J. Friedman. N. Y., 2009. 758 р.
- Tumasjan A., Sprenger T., Sandner Ph., Welpe I. Predicting Elections with Twitter: What 140 Characters Reveal about Political Sentiment // Proceedings of the International AAAI Conference on Web and Social Media. 2010. Vol. 4, iss. 1. Р. 178–185. https://doi.org/10.1609/icwsm.v4i1.14009.
- Turing A.M. Computing Machinery and Intelligence // Parsing the Turing Test. Dordrecht, 2009. Р. 25–65. https://doi.org/10.1007/978-1-4020-6710-5_3.
- Vapnik V. The Nature of Statistical Learning Theory. N. Y., 1995. 188 р. https://doi.org/10.1007/978-1-4757-2440-0.