Метод оценки эффективности мероприятий по формированию комфортной городской среды

Бесплатный доступ

В статье рассматривается актуальная проблема несоответствия реализуемых мероприятий по формированию комфортной городской среды реальным потребностям и ожиданиям граждан. Анализируются существующие методы оценки таких мероприятий, включая индексный метод оценки качества городской среды, применяемый в рамках национального проекта «Жилье и городская среда», а также различные социологические исследования и опросы. Отмечаются недостатки этих подходов, такие как ограниченность выборки респондентов и тематики опросов. Цель исследования - разработка метода оценки мероприятий по формированию комфортной городской среды на основе семантического сравнения мнений граждан из социальных сетей, поисковых запросов и описаний самих мероприятий с использованием алгоритмов обработки естественного языка.

Еще

Семантический анализ, tf-idf, трансформеры, sentence transformer, комфортная городская среда, nlp

Короткий адрес: https://sciup.org/147242626

IDR: 147242626   |   УДК: 004.822   |   DOI: 10.14529/ctcr240108

Method of assessing the effectiveness of measures to form a comfortable urban environment

The article deals with the urgent problem of inconsistency of the implemented measures to form a comfortable urban environment with the real needs and expectations of citizens. It analyzes the existing methods of assessing such measures, including the index method of assessing the quality of urban environment, used within the framework of the national project “Housing and Urban Environment”, as well as various sociological studies and surveys. The shortcomings of these approaches, such as the limited sample of respondents and survey topics, are noted. The aim of the study is to develop a method for evaluating measures to form a comfortable urban environment based on semantic comparison of citizens' opinions from social networks, search queries and descriptions of the measures themselves using natural language processing algorithms.

Еще

Текст научной статьи Метод оценки эффективности мероприятий по формированию комфортной городской среды

А.В. Мельников1, , К.В. Галаган2, , 1 Югорский научно-исследовательский институт информационных технологий, Ханты-Мансийск, Россия

A.V. Melnikov1, , K.V. Galagan2, , 1 Ugra Research Institute of Information Technologies, Khanty-Mansiysk, Russia 2 Yugra State University, Khanty-Mansiysk, Russia

В настоящее время формирование качественной городской среды невозможно представить без участия граждан, жителей города. Более того, вовлечение граждан в мероприятия по формированию качественной городской среды (МФКГС) является одной из целей национального проекта «Жилье и городская среда» (Нацпроект) [1]. Значимость данной цели для Нацпроекта подчеркивается утверждением Минстроем России методических рекомендаций по вовлечению граждан и иных лиц, их объединений в решении вопросов развития городской среды (Методика) [2]. Для граждан вовлеченность в МФКГС означает возможность преобразовать городское пространство согласно своим предпочтениям и потребностям.

Методика предписывает организацию обратной связи от граждан на всех этапах реализации МФКГС. Для этого предполагается, в частности, организовать электронные площадки для сбора обратной связи и выбора МФКГС для реализации. Исследованию вопроса оценки и эффективности подобных платформ посвящена работа [3]. Как показывает исследование, описанное в работе [4], такой способ взаимодействия с гражданами низкоэффективен.

На получение более широкой и качественной обратной связи направлено проведение различных социологических исследований, выявляющих потребности жителей, связанные с комфортной городской средой (КГС). Например, в работах [5-8] представлены результаты таких исследований. При исследованиях в области КГС такой способ получения обратной связи может иметь ряд ограничений. Прежде всего это ограниченность географии и выборки респондентов. Также в социологических опросах жестко ограничены тематика вопросов и варианты ответов.

Снять эти ограничения позволяет получение обратной связи от неограниченного количества респондентов с неограниченным количеством тематик и вопросов. В работах [9, 10] авторы, используя нейросетевые методы обработки естественного языка (NLP), извлекают полезную информацию из сообщений пользователей социальной сети Twitter, что позволяет говорить о существенном расширении географии, аудитории и тематик. Также в работе [11] для получения обратной связи предлагается анализировать сведения об использовании горожанами определенных мобильных приложений.

Такие методы получения обратной связи более оперативны, чем классические социологические опросы.

В настоящей статье представляется описание метода оценки эффективности реализации МФКГС (МОЭР). Метод позволяет на основании мнений граждан, связанных с комфортной городской средой (МГКГС), в социальных медиа, запросов в поисковой системе «Яндекс», а также описаний МФКГС оценить, насколько предлагаемые для реализации МФКГС отвечают ожиданиям граждан. Метод основан на использовании алгоритмов и нейросетевых моделей NLP.

Также произведена экспериментальная проверка метода с использованием прототипа информационной системы (Система).

  • 1.    Описание МОЭР

Предлагаемый метод заключается в использовании семантического анализа текстовых сообщений с помощью алгоритмов и нейросетевых моделей NLP. Существенная особенность МОЭР состоит в синтезе алгоритма TF-IDF [12] для нахождения и извлечения из текста семантически значимых фраз и словосочетаний (N-грамм, где N – число слов во фразе или словосочетании) и применения нейросетевых моделей-трансформеров, основанных на архитектуре BERT [13]. Такой подход позволяет сохранить семантическое ядро сообщений, ранжировать полученные N-граммы, получить и проанализировать семантически значимые векторные представления N-грамм на семантическое сходство.

МОЭР включает в себя следующие этапы:

Этап 0. Предобработка и очистка текстовых сообщений.

Этап 1. Извлечение N-грамм и расчет ранга их значимости ®.

Этап 2. Получение вектора контекстного представления (ВКП) для каждой N-граммы.

Этап 3. Расчет семантического сходства ВКП.

На рис. 1 представлена схема этапов и задач метода МОЭР.

  • 1.1.    Этап 0. Предобработка и очистка датасета текстовых сообщений

На данном этапе выполняются следующие задачи:

  •    формирование набора датасетов путем разделения исходного датасета по тематикам сообщений;

  •    очистка исходных текстовых сообщений от спецсимволов и латиницы с помощью регулярных выражений;

  •    преобразование слов в сообщениях к их начальной форме (лемматизация);

  •    частеречная разметка, определение частей речи (POS-tagging).

Лемматизация и POS-tagging производятся с применением методов Python-библиотеки pymorphy2 [14]. Приведение текстов сообщений к начальной форме необходимо для унификации работы алгоритма TF-IDF и последующего ранжирования N-грамм. POS-tagging используется для управления частеречным составом N-грамм.

Рис. 1. Схема этапов и задач метода МОЭР

Fig. 1. Scheme of stages and tasks of the method MEII

  • 1.2.    Этап 1. Извлечение N-грамм и расчет их ранга значимости

На данном этапе выполняются следующие задачи:

  •    извлечение N- грамм из датасетов;

  •    расчет показателя R N- граммы для датасета;

  •    расчет показателя R N- граммы для набора датасетов.

Для извлечения N- грамм из датасетов используется алгоритм TF -IDF. Расчет значения R N-грамы для датасета (R ds ) рассчитывается по формуле

Rds = FFn-gramm ^ ^^Fn-gramm, где Rds - ранг N-граммы в датасете; TFn-gramm - частота N-граммы в пределах отдельного сообщения; IDFn-gramm - инверсия частоты, с которой N-грамма встречается во всех сообщениях датасета. Расчет значения R для набора датасетов (Rsum) производится по формуле р = у m sum ^к=1 ds^,

где R sum - суммарный ранг N - граммы в наборе; R ds - ранг N-граммы в датасете.

  • 1.3.    Этап 2. Получение ВКП для каждой N-граммы

На данном этапе выполняются следующие задачи:

  •    ранжирование N-грамм;

  •    получение ВКП для каждой N-граммы.

Получение ВКП для N-грамм является ключевой особенностью МОЭР. Для получения ВКП N-грамм используется нейросетевая модель, основанная на архитектуре BERT. Это позволяет сформировать векторное пространство, пригодное для различного рода математических преобразований, в частности, расчета меры сходства векторов.

  • 1.4.    Этап 3. Расчет семантического сходства ВКП

На данном этапе выполняются следующие задачи:

  •    расчет косинусного расстояния;

  •    визуализация.

  • 2.    Данные и эксперимент

Для расчета меры сходства ВКП в Методе предлагается использовать метрику косинусного расстояния. Метрика принимает значение от 0, что соответствует максимально далекому расстоянию, до 1, что соответствует максимально близкому расстоянию между векторами. Косинусное расстояние вычисляется по формуле

A-В           Z^iAjXBi

similarity = cos 9 = —— =      1 1         ,                                    (3)

"А""В" JWxJW

где A и B - сравниваемые векторы N-грамм; cos 9 - косинусное расстояние.

Цель эксперимента – определить семантическую близость между мнениями граждан о проблемах городской среды и описаниями мероприятий, направленных на формирование комфортной городской среды. Данные представляют собой две коллекции датасетов с текстами МГКГС, относящихся к территории Ханты-Мансийского автономного округа – Югры, и описания МФКГС, проводимые властями муниципальных образований. Для каждого текстового сообщения в датасете устанавливается категория сообщения, наименование муниципального образования, месяц и год публикации сообщения. В табл. 1 представлены краткие характеристики коллекций датасетов.

Таблица 1

Краткие характеристики коллекций датасетов

Table 1

Brief characteristics of dataset collections

Коллекция датасетов

Количество датасетов

Общее количество сообщений в наборе

МГКГС

6224

73 897

МФКГС

108

290

Первичная обработка датасета проводится с помощью регулярных выражений. Удаляются все символы, кроме кириллических и знаков препинания. Также удаляются «стоп-слова»:

  •    фразы общепринятых обращений;

  •    фразы приветствий и прощаний;

  •    названия населенных пунктов, улиц;

  •    имена собственные.

Из каждого датасета алгоритмом TF-IDF извлекаются N-граммы с параметром N от 2 до 4 и количеством извлеченных N-грамм = 100. Значение Rds и R sum рассчитываются по формулам (1) и (2) соответственно. Значения RSMm для ТОП-20 извлеченных N-грамм приведены в табл. 2.

Таблица 2

Значения R sum для ТОП-20 извлеченных N-грамм

Table 2

R sum values for TOP-20 extracted N-grams

Значение N

Набор датасетов МГКГС

Датасет МФКГС

Max R sum

Min R sum

Max R sum

Min R sum

N = 2

59,2314

9,7534

3,8184

1,0173

N = 3

3,7017

1,1024

1,0693

0,5232

N = 4

2,5768

0,8919

0,9183

0,3788

Для дальнейшего анализа из каждого набора датасетов отбираются два набора ТОП-20 N-грамм для N = 2. ТОП-20 значений R sum N-грамм при N = 2 для каждого набора приведены на рис. 2 и 3.

Рис. 2. Значения R sum для ТОП-20 N-грамм датасета МГКГС, при N = 2 (N-граммы лемматизированы)

Fig. 2. R sum values for the TOP-20 N-grams of the OCCUE dataset, with N = 2 (N-grams are lemmatized)

Рис. 3. Значения R sum для ТОП-20 N-грамм датасета МФКГС, при N = 2 (N-граммы лемматизированы)

Fig. 3. R sum values for the TOP-20 N-grams of the MCQUE dataset, with N = 2 (N-grams are lemmatized)

Для преобразования N- г р ам м в ВКП использована предобученная нейро с етевая м оде л ь sentence-BERT [1 5 ] . Ника кой тонк ой на стр ойк и и дооб у че ни я д ля s e n t e n c e-BERT не проводилось.

Для каждой N-гра мм ы п олу чен одномерный вектор контекстного предс тав ле н и я ра зме рностью 512.

Р ас че т кос и н усного расс т ояния проводится между векторами двух наборов Т ОП -20 по формул е ( 3) . В и зу а ли за ц и я рез у ль та та ра с че тов п ри в е де н а н а ри с . 4.

Косинусное расстояние для ВКП ТОП-20 N-грамм

(О О Л5 СО s X 1S 1Д Е5 >S СО к со :<у

1     С Н ы

68 К5 = 2 я

к

СО и СО со

2 о а ^ ^ В

Рис. 4. Результат расчета косинусного расстояния между ТОП-20 N-грамм (N-граммы лемматизированы) Fig. 4. The result of calculating the cosine distance between the TOP-20 N-grams (N-grams are lemmatized)

Заключение

Р ас с мотренн ы й в ст а тье ме тод оценки мероприятий по формированию к омфортн ой горо д ск ой с р е д ы п озв оляе т э ф фе к ти в н о р а н жи ров а т ь и с оп ос та в лять МФКГС с актуальными потребностями граждан.

С п омощ ью МОЭ Р б ыл а п ров е д е н а оц е н ка э ф фе кти в н ос ти МФКГС, проведенных или пла н и ру е мых к п ровед е н и ю в 2020 –21 гг. на территории Ханты-Мансийского автономного округа Югры.

Р ез у льтаты п ров е д е н н о го с использованием МОЭР эксперимента указыв аю т н а то, что п одавляющее количество М Ф КГ С слабо связаны с реальными потребностями граждан в вопросах К Г С и , к а к с ле дс тв и е , буду т н и зк оэ ффе к ти в н ы.

При в е д ен ны й МО Э Р мо же т быть применен в системах поддержки при няти я ре ш ен ий п ри п ров е де н и и оц е н к и з н ачи мос ти МФКГС. Своевременная и качественная реализация МФКГС, н аправл е н н ых н а р е ш е н ие ре альных потребностей жителей города, положи те льн о ск аже тс я на о ценке граж д а на ми д е ятельн ос ти местных властей и повысит вовлеченность гражд а н в в оп ро сы у п ра в лен ия городс кими прос тра н с тв а ми .

Список литературы Метод оценки эффективности мероприятий по формированию комфортной городской среды

  • Паспорт национального проекта «Жилье и городская среда» // Минстрой России: сайт. URL: https://minstroyrf.gov.ru/docs/221887/ (дата обращения: 21.09.2021).
  • Об утверждении методических рекомендаций по вовлечению граждан, их объединений и иных лиц в решение вопросов развития городской среды: приказ Минстроя России № 913/пр от 30.12.2020. URL: https://minstroyrf.gov.ru/upload/iblock/315/30_12_2020_913_pr_Metodicheskie_rekomendatsii_po_vovlecheniyu.pdf (дата обращения: 31.03.2022).
  • Мухаметов Д.Р. Модели платформ вовлечения граждан для создания в России умных городов нового поколения // Вопросы инновационной экономики. 2020. Т. 10, № 3. С. 1605–1622. DOI: 10.18334/vinec.10.3.110683
  • Опыт общественного участия в планировании комфортной городской среды на примере Архангельской области / А.Г. Деменев, Т.Ф. Шубина, П.В. Шубина и др. // Арктика и Север. 2018. № 33. С. 91–117. DOI: 10.17238/issn2221-2698.2018.33.91
  • Аксенова В.В. Комфортная городская среда: общественное мнение москвичей // Социальная политика и социология. 2020. Т. 19, № 4 (137). С. 76–84. DOI: 10.17922/2071-36652020-19-4-76-84
  • Богданова Л.П., Глушкова М.А. Оценка качества городской среды населением города Твери // Вестник Тверского государственного университета. Серия: География и геоэкология. 2021. № 2 (34). С. 14–24. DOI: 10.26456/2226-7719-2021-2-14-24
  • Дунаева Д.О. Дискурсивные практики горожан как коммуникативный механизм формирования образа комфортного города (опыт полевого исследования) // Вестник Томского государственного университета. Философия. Социология. Политология. 2021. № 60. С. 137–150. DOI: 10.17223/1998863X/60/13
  • Руссова О.Н., Смак Т.С., Тарасов И.А. Оценка комфортности городской среды как фактор социального самочувствия городских жителей Архангельской области // Арктика и Север. 2020. № 41. P. 236–247. DOI: 10.37482/issn2221-2698.2020.41.236
  • Detecting citizen problems and their locations using twitter data / G. Abalı, E. Karaarslan, A. Hürriyetoğlu, F. Dalkılıç // 2018 6th International Istanbul Smart Grids and Cities Congress and Fair (ICSG). Istanbul, Turkey, 2018. P. 30–33. DOI: 10.1109/SGCF.2018.8408936
  • Estévez-Ortiz F.-J., García-Jiménez A., Glösekötter P. An application of people’s sentiment from social media to smart cities // El profesional de la información. 2016. Vol. 25, no. 6. P. 851–858. DOI: 10.3145/epi.2016.nov.02
  • Алексеев С.А. Коммуникативно-информационные технологии в повышении качества городской среды // Управление устойчивым развитием. 2019. № 6 (25). С. 36–40.
  • Spärck Jones K. A statistical interpretation of term specificity and its application in retrieval // Journal of Documentation. 2004. Vol. 60, no. 5. P. 493–502. DOI: 10.1108/00220410410560573
  • Attention Is All You Need / Ashish Vaswani, Noam Shazeer, Niki Parmar et al. // 31st Conference on Neural Information Processing Systems (NIPS 2017). Long Beach, CA, USA. 2017. URL: https://arxiv.org/pdf/1706.03762.pdf (дата обращения: 30.05.2022).
  • Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages. 2015. URL: https://arxiv.org/pdf/1503.07283.pdf (дата обращения: 30.05.2022).
  • Reimers N., Gurevych I. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. 2019. URL: https://arxiv.org/pdf/1908.10084.pdf (дата обращения: 30.05.2022).
Еще