Метод оценки эффективности мероприятий по формированию комфортной городской среды
Автор: Мельников Андрей Витальевич, Галаган Константин Владимирович
Рубрика: Управление в социально-экономических системах
Статья в выпуске: 1 т.24, 2024 года.
Бесплатный доступ
В статье рассматривается актуальная проблема несоответствия реализуемых мероприятий по формированию комфортной городской среды реальным потребностям и ожиданиям граждан. Анализируются существующие методы оценки таких мероприятий, включая индексный метод оценки качества городской среды, применяемый в рамках национального проекта «Жилье и городская среда», а также различные социологические исследования и опросы. Отмечаются недостатки этих подходов, такие как ограниченность выборки респондентов и тематики опросов. Цель исследования - разработка метода оценки мероприятий по формированию комфортной городской среды на основе семантического сравнения мнений граждан из социальных сетей, поисковых запросов и описаний самих мероприятий с использованием алгоритмов обработки естественного языка.
Семантический анализ, tf-idf, трансформеры, sentence transformer, комфортная городская среда, nlp
Короткий адрес: https://sciup.org/147242626
IDR: 147242626 | DOI: 10.14529/ctcr240108
Текст научной статьи Метод оценки эффективности мероприятий по формированию комфортной городской среды
А.В. Мельников1, , К.В. Галаган2, , 1 Югорский научно-исследовательский институт информационных технологий, Ханты-Мансийск, Россия
A.V. Melnikov1, , K.V. Galagan2, , 1 Ugra Research Institute of Information Technologies, Khanty-Mansiysk, Russia 2 Yugra State University, Khanty-Mansiysk, Russia
В настоящее время формирование качественной городской среды невозможно представить без участия граждан, жителей города. Более того, вовлечение граждан в мероприятия по формированию качественной городской среды (МФКГС) является одной из целей национального проекта «Жилье и городская среда» (Нацпроект) [1]. Значимость данной цели для Нацпроекта подчеркивается утверждением Минстроем России методических рекомендаций по вовлечению граждан и иных лиц, их объединений в решении вопросов развития городской среды (Методика) [2]. Для граждан вовлеченность в МФКГС означает возможность преобразовать городское пространство согласно своим предпочтениям и потребностям.
Методика предписывает организацию обратной связи от граждан на всех этапах реализации МФКГС. Для этого предполагается, в частности, организовать электронные площадки для сбора обратной связи и выбора МФКГС для реализации. Исследованию вопроса оценки и эффективности подобных платформ посвящена работа [3]. Как показывает исследование, описанное в работе [4], такой способ взаимодействия с гражданами низкоэффективен.
На получение более широкой и качественной обратной связи направлено проведение различных социологических исследований, выявляющих потребности жителей, связанные с комфортной городской средой (КГС). Например, в работах [5-8] представлены результаты таких исследований. При исследованиях в области КГС такой способ получения обратной связи может иметь ряд ограничений. Прежде всего это ограниченность географии и выборки респондентов. Также в социологических опросах жестко ограничены тематика вопросов и варианты ответов.
Снять эти ограничения позволяет получение обратной связи от неограниченного количества респондентов с неограниченным количеством тематик и вопросов. В работах [9, 10] авторы, используя нейросетевые методы обработки естественного языка (NLP), извлекают полезную информацию из сообщений пользователей социальной сети Twitter, что позволяет говорить о существенном расширении географии, аудитории и тематик. Также в работе [11] для получения обратной связи предлагается анализировать сведения об использовании горожанами определенных мобильных приложений.
Такие методы получения обратной связи более оперативны, чем классические социологические опросы.
В настоящей статье представляется описание метода оценки эффективности реализации МФКГС (МОЭР). Метод позволяет на основании мнений граждан, связанных с комфортной городской средой (МГКГС), в социальных медиа, запросов в поисковой системе «Яндекс», а также описаний МФКГС оценить, насколько предлагаемые для реализации МФКГС отвечают ожиданиям граждан. Метод основан на использовании алгоритмов и нейросетевых моделей NLP.
Также произведена экспериментальная проверка метода с использованием прототипа информационной системы (Система).
-
1. Описание МОЭР
Предлагаемый метод заключается в использовании семантического анализа текстовых сообщений с помощью алгоритмов и нейросетевых моделей NLP. Существенная особенность МОЭР состоит в синтезе алгоритма TF-IDF [12] для нахождения и извлечения из текста семантически значимых фраз и словосочетаний (N-грамм, где N – число слов во фразе или словосочетании) и применения нейросетевых моделей-трансформеров, основанных на архитектуре BERT [13]. Такой подход позволяет сохранить семантическое ядро сообщений, ранжировать полученные N-граммы, получить и проанализировать семантически значимые векторные представления N-грамм на семантическое сходство.
МОЭР включает в себя следующие этапы:
Этап 0. Предобработка и очистка текстовых сообщений.
Этап 1. Извлечение N-грамм и расчет ранга их значимости ®.
Этап 2. Получение вектора контекстного представления (ВКП) для каждой N-граммы.
Этап 3. Расчет семантического сходства ВКП.
На рис. 1 представлена схема этапов и задач метода МОЭР.
-
1.1. Этап 0. Предобработка и очистка датасета текстовых сообщений
На данном этапе выполняются следующие задачи:
-
• формирование набора датасетов путем разделения исходного датасета по тематикам сообщений;
-
• очистка исходных текстовых сообщений от спецсимволов и латиницы с помощью регулярных выражений;
-
• преобразование слов в сообщениях к их начальной форме (лемматизация);
-
• частеречная разметка, определение частей речи (POS-tagging).
Лемматизация и POS-tagging производятся с применением методов Python-библиотеки pymorphy2 [14]. Приведение текстов сообщений к начальной форме необходимо для унификации работы алгоритма TF-IDF и последующего ранжирования N-грамм. POS-tagging используется для управления частеречным составом N-грамм.

Рис. 1. Схема этапов и задач метода МОЭР
Fig. 1. Scheme of stages and tasks of the method MEII
-
1.2. Этап 1. Извлечение N-грамм и расчет их ранга значимости
На данном этапе выполняются следующие задачи:
-
• извлечение N- грамм из датасетов;
-
• расчет показателя R N- граммы для датасета;
-
• расчет показателя R N- граммы для набора датасетов.
Для извлечения N- грамм из датасетов используется алгоритм TF -IDF. Расчет значения R N-грамы для датасета (R ds ) рассчитывается по формуле
Rds = FFn-gramm ^ ^^Fn-gramm, где Rds - ранг N-граммы в датасете; TFn-gramm - частота N-граммы в пределах отдельного сообщения; IDFn-gramm - инверсия частоты, с которой N-грамма встречается во всех сообщениях датасета. Расчет значения R для набора датасетов (Rsum) производится по формуле р = у m sum ^к=1 ds^,
где R sum - суммарный ранг N - граммы в наборе; R ds - ранг N-граммы в датасете.
-
1.3. Этап 2. Получение ВКП для каждой N-граммы
На данном этапе выполняются следующие задачи:
-
• ранжирование N-грамм;
-
• получение ВКП для каждой N-граммы.
Получение ВКП для N-грамм является ключевой особенностью МОЭР. Для получения ВКП N-грамм используется нейросетевая модель, основанная на архитектуре BERT. Это позволяет сформировать векторное пространство, пригодное для различного рода математических преобразований, в частности, расчета меры сходства векторов.
-
1.4. Этап 3. Расчет семантического сходства ВКП
На данном этапе выполняются следующие задачи:
-
• расчет косинусного расстояния;
-
• визуализация.
-
2. Данные и эксперимент
Для расчета меры сходства ВКП в Методе предлагается использовать метрику косинусного расстояния. Метрика принимает значение от 0, что соответствует максимально далекому расстоянию, до 1, что соответствует максимально близкому расстоянию между векторами. Косинусное расстояние вычисляется по формуле
A-В Z^iAjXBi
similarity = cos 9 = —— = 1 1 , (3)
"А""В" JWxJW
где A и B - сравниваемые векторы N-грамм; cos 9 - косинусное расстояние.
Цель эксперимента – определить семантическую близость между мнениями граждан о проблемах городской среды и описаниями мероприятий, направленных на формирование комфортной городской среды. Данные представляют собой две коллекции датасетов с текстами МГКГС, относящихся к территории Ханты-Мансийского автономного округа – Югры, и описания МФКГС, проводимые властями муниципальных образований. Для каждого текстового сообщения в датасете устанавливается категория сообщения, наименование муниципального образования, месяц и год публикации сообщения. В табл. 1 представлены краткие характеристики коллекций датасетов.
Таблица 1
Краткие характеристики коллекций датасетов
Table 1
Brief characteristics of dataset collections
Коллекция датасетов |
Количество датасетов |
Общее количество сообщений в наборе |
МГКГС |
6224 |
73 897 |
МФКГС |
108 |
290 |
Первичная обработка датасета проводится с помощью регулярных выражений. Удаляются все символы, кроме кириллических и знаков препинания. Также удаляются «стоп-слова»:
-
• фразы общепринятых обращений;
-
• фразы приветствий и прощаний;
-
• названия населенных пунктов, улиц;
-
• имена собственные.
Из каждого датасета алгоритмом TF-IDF извлекаются N-граммы с параметром N от 2 до 4 и количеством извлеченных N-грамм = 100. Значение Rds и R sum рассчитываются по формулам (1) и (2) соответственно. Значения RSMm для ТОП-20 извлеченных N-грамм приведены в табл. 2.
Таблица 2
Значения R sum для ТОП-20 извлеченных N-грамм
Table 2
R sum values for TOP-20 extracted N-grams
Значение N |
Набор датасетов МГКГС |
Датасет МФКГС |
||
Max R sum |
Min R sum |
Max R sum |
Min R sum |
|
N = 2 |
59,2314 |
9,7534 |
3,8184 |
1,0173 |
N = 3 |
3,7017 |
1,1024 |
1,0693 |
0,5232 |
N = 4 |
2,5768 |
0,8919 |
0,9183 |
0,3788 |
Для дальнейшего анализа из каждого набора датасетов отбираются два набора ТОП-20 N-грамм для N = 2. ТОП-20 значений R sum N-грамм при N = 2 для каждого набора приведены на рис. 2 и 3.

Рис. 2. Значения R sum для ТОП-20 N-грамм датасета МГКГС, при N = 2 (N-граммы лемматизированы)
Fig. 2. R sum values for the TOP-20 N-grams of the OCCUE dataset, with N = 2 (N-grams are lemmatized)

Рис. 3. Значения R sum для ТОП-20 N-грамм датасета МФКГС, при N = 2 (N-граммы лемматизированы)
Fig. 3. R sum values for the TOP-20 N-grams of the MCQUE dataset, with N = 2 (N-grams are lemmatized)
Для преобразования N- г р ам м в ВКП использована предобученная нейро с етевая м оде л ь sentence-BERT [1 5 ] . Ника кой тонк ой на стр ойк и и дооб у че ни я д ля s e n t e n c e-BERT не проводилось.
Для каждой N-гра мм ы п олу чен одномерный вектор контекстного предс тав ле н и я ра зме рностью 512.
Р ас че т кос и н усного расс т ояния проводится между векторами двух наборов Т ОП -20 по формул е ( 3) . В и зу а ли за ц и я рез у ль та та ра с че тов п ри в е де н а н а ри с . 4.
Косинусное расстояние для ВКП ТОП-20 N-грамм

(О О Л5 СО s X 1S 1Д Е5 >S СО к со :<у
1 С Н ы
68 К5 = 2 я
к
СО и СО со

2 о а ^ ^ В
Рис. 4. Результат расчета косинусного расстояния между ТОП-20 N-грамм (N-граммы лемматизированы) Fig. 4. The result of calculating the cosine distance between the TOP-20 N-grams (N-grams are lemmatized)
Заключение
Р ас с мотренн ы й в ст а тье ме тод оценки мероприятий по формированию к омфортн ой горо д ск ой с р е д ы п озв оляе т э ф фе к ти в н о р а н жи ров а т ь и с оп ос та в лять МФКГС с актуальными потребностями граждан.
С п омощ ью МОЭ Р б ыл а п ров е д е н а оц е н ка э ф фе кти в н ос ти МФКГС, проведенных или пла н и ру е мых к п ровед е н и ю в 2020 –21 гг. на территории Ханты-Мансийского автономного округа Югры.
Р ез у льтаты п ров е д е н н о го с использованием МОЭР эксперимента указыв аю т н а то, что п одавляющее количество М Ф КГ С слабо связаны с реальными потребностями граждан в вопросах К Г С и , к а к с ле дс тв и е , буду т н и зк оэ ффе к ти в н ы.
При в е д ен ны й МО Э Р мо же т быть применен в системах поддержки при няти я ре ш ен ий п ри п ров е де н и и оц е н к и з н ачи мос ти МФКГС. Своевременная и качественная реализация МФКГС, н аправл е н н ых н а р е ш е н ие ре альных потребностей жителей города, положи те льн о ск аже тс я на о ценке граж д а на ми д е ятельн ос ти местных властей и повысит вовлеченность гражд а н в в оп ро сы у п ра в лен ия городс кими прос тра н с тв а ми .
Список литературы Метод оценки эффективности мероприятий по формированию комфортной городской среды
- Паспорт национального проекта «Жилье и городская среда» // Минстрой России: сайт. URL: https://minstroyrf.gov.ru/docs/221887/ (дата обращения: 21.09.2021).
- Об утверждении методических рекомендаций по вовлечению граждан, их объединений и иных лиц в решение вопросов развития городской среды: приказ Минстроя России № 913/пр от 30.12.2020. URL: https://minstroyrf.gov.ru/upload/iblock/315/30_12_2020_913_pr_Metodicheskie_rekomendatsii_po_vovlecheniyu.pdf (дата обращения: 31.03.2022).
- Мухаметов Д.Р. Модели платформ вовлечения граждан для создания в России умных городов нового поколения // Вопросы инновационной экономики. 2020. Т. 10, № 3. С. 1605–1622. DOI: 10.18334/vinec.10.3.110683
- Опыт общественного участия в планировании комфортной городской среды на примере Архангельской области / А.Г. Деменев, Т.Ф. Шубина, П.В. Шубина и др. // Арктика и Север. 2018. № 33. С. 91–117. DOI: 10.17238/issn2221-2698.2018.33.91
- Аксенова В.В. Комфортная городская среда: общественное мнение москвичей // Социальная политика и социология. 2020. Т. 19, № 4 (137). С. 76–84. DOI: 10.17922/2071-36652020-19-4-76-84
- Богданова Л.П., Глушкова М.А. Оценка качества городской среды населением города Твери // Вестник Тверского государственного университета. Серия: География и геоэкология. 2021. № 2 (34). С. 14–24. DOI: 10.26456/2226-7719-2021-2-14-24
- Дунаева Д.О. Дискурсивные практики горожан как коммуникативный механизм формирования образа комфортного города (опыт полевого исследования) // Вестник Томского государственного университета. Философия. Социология. Политология. 2021. № 60. С. 137–150. DOI: 10.17223/1998863X/60/13
- Руссова О.Н., Смак Т.С., Тарасов И.А. Оценка комфортности городской среды как фактор социального самочувствия городских жителей Архангельской области // Арктика и Север. 2020. № 41. P. 236–247. DOI: 10.37482/issn2221-2698.2020.41.236
- Detecting citizen problems and their locations using twitter data / G. Abalı, E. Karaarslan, A. Hürriyetoğlu, F. Dalkılıç // 2018 6th International Istanbul Smart Grids and Cities Congress and Fair (ICSG). Istanbul, Turkey, 2018. P. 30–33. DOI: 10.1109/SGCF.2018.8408936
- Estévez-Ortiz F.-J., García-Jiménez A., Glösekötter P. An application of people’s sentiment from social media to smart cities // El profesional de la información. 2016. Vol. 25, no. 6. P. 851–858. DOI: 10.3145/epi.2016.nov.02
- Алексеев С.А. Коммуникативно-информационные технологии в повышении качества городской среды // Управление устойчивым развитием. 2019. № 6 (25). С. 36–40.
- Spärck Jones K. A statistical interpretation of term specificity and its application in retrieval // Journal of Documentation. 2004. Vol. 60, no. 5. P. 493–502. DOI: 10.1108/00220410410560573
- Attention Is All You Need / Ashish Vaswani, Noam Shazeer, Niki Parmar et al. // 31st Conference on Neural Information Processing Systems (NIPS 2017). Long Beach, CA, USA. 2017. URL: https://arxiv.org/pdf/1706.03762.pdf (дата обращения: 30.05.2022).
- Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages. 2015. URL: https://arxiv.org/pdf/1503.07283.pdf (дата обращения: 30.05.2022).
- Reimers N., Gurevych I. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. 2019. URL: https://arxiv.org/pdf/1908.10084.pdf (дата обращения: 30.05.2022).