Метод оценки эффективности мероприятий по формированию комфортной городской среды

Бесплатный доступ

В статье рассматривается актуальная проблема несоответствия реализуемых мероприятий по формированию комфортной городской среды реальным потребностям и ожиданиям граждан. Анализируются существующие методы оценки таких мероприятий, включая индексный метод оценки качества городской среды, применяемый в рамках национального проекта «Жилье и городская среда», а также различные социологические исследования и опросы. Отмечаются недостатки этих подходов, такие как ограниченность выборки респондентов и тематики опросов. Цель исследования - разработка метода оценки мероприятий по формированию комфортной городской среды на основе семантического сравнения мнений граждан из социальных сетей, поисковых запросов и описаний самих мероприятий с использованием алгоритмов обработки естественного языка.

Еще

Семантический анализ, tf-idf, трансформеры, sentence transformer, комфортная городская среда, nlp

Короткий адрес: https://sciup.org/147242626

IDR: 147242626   |   DOI: 10.14529/ctcr240108

Текст научной статьи Метод оценки эффективности мероприятий по формированию комфортной городской среды

А.В. Мельников1, , К.В. Галаган2, , 1 Югорский научно-исследовательский институт информационных технологий, Ханты-Мансийск, Россия

A.V. Melnikov1, , K.V. Galagan2, , 1 Ugra Research Institute of Information Technologies, Khanty-Mansiysk, Russia 2 Yugra State University, Khanty-Mansiysk, Russia

В настоящее время формирование качественной городской среды невозможно представить без участия граждан, жителей города. Более того, вовлечение граждан в мероприятия по формированию качественной городской среды (МФКГС) является одной из целей национального проекта «Жилье и городская среда» (Нацпроект) [1]. Значимость данной цели для Нацпроекта подчеркивается утверждением Минстроем России методических рекомендаций по вовлечению граждан и иных лиц, их объединений в решении вопросов развития городской среды (Методика) [2]. Для граждан вовлеченность в МФКГС означает возможность преобразовать городское пространство согласно своим предпочтениям и потребностям.

Методика предписывает организацию обратной связи от граждан на всех этапах реализации МФКГС. Для этого предполагается, в частности, организовать электронные площадки для сбора обратной связи и выбора МФКГС для реализации. Исследованию вопроса оценки и эффективности подобных платформ посвящена работа [3]. Как показывает исследование, описанное в работе [4], такой способ взаимодействия с гражданами низкоэффективен.

На получение более широкой и качественной обратной связи направлено проведение различных социологических исследований, выявляющих потребности жителей, связанные с комфортной городской средой (КГС). Например, в работах [5-8] представлены результаты таких исследований. При исследованиях в области КГС такой способ получения обратной связи может иметь ряд ограничений. Прежде всего это ограниченность географии и выборки респондентов. Также в социологических опросах жестко ограничены тематика вопросов и варианты ответов.

Снять эти ограничения позволяет получение обратной связи от неограниченного количества респондентов с неограниченным количеством тематик и вопросов. В работах [9, 10] авторы, используя нейросетевые методы обработки естественного языка (NLP), извлекают полезную информацию из сообщений пользователей социальной сети Twitter, что позволяет говорить о существенном расширении географии, аудитории и тематик. Также в работе [11] для получения обратной связи предлагается анализировать сведения об использовании горожанами определенных мобильных приложений.

Такие методы получения обратной связи более оперативны, чем классические социологические опросы.

В настоящей статье представляется описание метода оценки эффективности реализации МФКГС (МОЭР). Метод позволяет на основании мнений граждан, связанных с комфортной городской средой (МГКГС), в социальных медиа, запросов в поисковой системе «Яндекс», а также описаний МФКГС оценить, насколько предлагаемые для реализации МФКГС отвечают ожиданиям граждан. Метод основан на использовании алгоритмов и нейросетевых моделей NLP.

Также произведена экспериментальная проверка метода с использованием прототипа информационной системы (Система).

  • 1.    Описание МОЭР

Предлагаемый метод заключается в использовании семантического анализа текстовых сообщений с помощью алгоритмов и нейросетевых моделей NLP. Существенная особенность МОЭР состоит в синтезе алгоритма TF-IDF [12] для нахождения и извлечения из текста семантически значимых фраз и словосочетаний (N-грамм, где N – число слов во фразе или словосочетании) и применения нейросетевых моделей-трансформеров, основанных на архитектуре BERT [13]. Такой подход позволяет сохранить семантическое ядро сообщений, ранжировать полученные N-граммы, получить и проанализировать семантически значимые векторные представления N-грамм на семантическое сходство.

МОЭР включает в себя следующие этапы:

Этап 0. Предобработка и очистка текстовых сообщений.

Этап 1. Извлечение N-грамм и расчет ранга их значимости ®.

Этап 2. Получение вектора контекстного представления (ВКП) для каждой N-граммы.

Этап 3. Расчет семантического сходства ВКП.

На рис. 1 представлена схема этапов и задач метода МОЭР.

  • 1.1.    Этап 0. Предобработка и очистка датасета текстовых сообщений

На данном этапе выполняются следующие задачи:

  •    формирование набора датасетов путем разделения исходного датасета по тематикам сообщений;

  •    очистка исходных текстовых сообщений от спецсимволов и латиницы с помощью регулярных выражений;

  •    преобразование слов в сообщениях к их начальной форме (лемматизация);

  •    частеречная разметка, определение частей речи (POS-tagging).

Лемматизация и POS-tagging производятся с применением методов Python-библиотеки pymorphy2 [14]. Приведение текстов сообщений к начальной форме необходимо для унификации работы алгоритма TF-IDF и последующего ранжирования N-грамм. POS-tagging используется для управления частеречным составом N-грамм.

Рис. 1. Схема этапов и задач метода МОЭР

Fig. 1. Scheme of stages and tasks of the method MEII

  • 1.2.    Этап 1. Извлечение N-грамм и расчет их ранга значимости

На данном этапе выполняются следующие задачи:

  •    извлечение N- грамм из датасетов;

  •    расчет показателя R N- граммы для датасета;

  •    расчет показателя R N- граммы для набора датасетов.

Для извлечения N- грамм из датасетов используется алгоритм TF -IDF. Расчет значения R N-грамы для датасета (R ds ) рассчитывается по формуле

Rds = FFn-gramm ^ ^^Fn-gramm, где Rds - ранг N-граммы в датасете; TFn-gramm - частота N-граммы в пределах отдельного сообщения; IDFn-gramm - инверсия частоты, с которой N-грамма встречается во всех сообщениях датасета. Расчет значения R для набора датасетов (Rsum) производится по формуле р = у m sum ^к=1 ds^,

где R sum - суммарный ранг N - граммы в наборе; R ds - ранг N-граммы в датасете.

  • 1.3.    Этап 2. Получение ВКП для каждой N-граммы

На данном этапе выполняются следующие задачи:

  •    ранжирование N-грамм;

  •    получение ВКП для каждой N-граммы.

Получение ВКП для N-грамм является ключевой особенностью МОЭР. Для получения ВКП N-грамм используется нейросетевая модель, основанная на архитектуре BERT. Это позволяет сформировать векторное пространство, пригодное для различного рода математических преобразований, в частности, расчета меры сходства векторов.

  • 1.4.    Этап 3. Расчет семантического сходства ВКП

На данном этапе выполняются следующие задачи:

  •    расчет косинусного расстояния;

  •    визуализация.

  • 2.    Данные и эксперимент

Для расчета меры сходства ВКП в Методе предлагается использовать метрику косинусного расстояния. Метрика принимает значение от 0, что соответствует максимально далекому расстоянию, до 1, что соответствует максимально близкому расстоянию между векторами. Косинусное расстояние вычисляется по формуле

A-В           Z^iAjXBi

similarity = cos 9 = —— =      1 1         ,                                    (3)

"А""В" JWxJW

где A и B - сравниваемые векторы N-грамм; cos 9 - косинусное расстояние.

Цель эксперимента – определить семантическую близость между мнениями граждан о проблемах городской среды и описаниями мероприятий, направленных на формирование комфортной городской среды. Данные представляют собой две коллекции датасетов с текстами МГКГС, относящихся к территории Ханты-Мансийского автономного округа – Югры, и описания МФКГС, проводимые властями муниципальных образований. Для каждого текстового сообщения в датасете устанавливается категория сообщения, наименование муниципального образования, месяц и год публикации сообщения. В табл. 1 представлены краткие характеристики коллекций датасетов.

Таблица 1

Краткие характеристики коллекций датасетов

Table 1

Brief characteristics of dataset collections

Коллекция датасетов

Количество датасетов

Общее количество сообщений в наборе

МГКГС

6224

73 897

МФКГС

108

290

Первичная обработка датасета проводится с помощью регулярных выражений. Удаляются все символы, кроме кириллических и знаков препинания. Также удаляются «стоп-слова»:

  •    фразы общепринятых обращений;

  •    фразы приветствий и прощаний;

  •    названия населенных пунктов, улиц;

  •    имена собственные.

Из каждого датасета алгоритмом TF-IDF извлекаются N-граммы с параметром N от 2 до 4 и количеством извлеченных N-грамм = 100. Значение Rds и R sum рассчитываются по формулам (1) и (2) соответственно. Значения RSMm для ТОП-20 извлеченных N-грамм приведены в табл. 2.

Таблица 2

Значения R sum для ТОП-20 извлеченных N-грамм

Table 2

R sum values for TOP-20 extracted N-grams

Значение N

Набор датасетов МГКГС

Датасет МФКГС

Max R sum

Min R sum

Max R sum

Min R sum

N = 2

59,2314

9,7534

3,8184

1,0173

N = 3

3,7017

1,1024

1,0693

0,5232

N = 4

2,5768

0,8919

0,9183

0,3788

Для дальнейшего анализа из каждого набора датасетов отбираются два набора ТОП-20 N-грамм для N = 2. ТОП-20 значений R sum N-грамм при N = 2 для каждого набора приведены на рис. 2 и 3.

Рис. 2. Значения R sum для ТОП-20 N-грамм датасета МГКГС, при N = 2 (N-граммы лемматизированы)

Fig. 2. R sum values for the TOP-20 N-grams of the OCCUE dataset, with N = 2 (N-grams are lemmatized)

Рис. 3. Значения R sum для ТОП-20 N-грамм датасета МФКГС, при N = 2 (N-граммы лемматизированы)

Fig. 3. R sum values for the TOP-20 N-grams of the MCQUE dataset, with N = 2 (N-grams are lemmatized)

Для преобразования N- г р ам м в ВКП использована предобученная нейро с етевая м оде л ь sentence-BERT [1 5 ] . Ника кой тонк ой на стр ойк и и дооб у че ни я д ля s e n t e n c e-BERT не проводилось.

Для каждой N-гра мм ы п олу чен одномерный вектор контекстного предс тав ле н и я ра зме рностью 512.

Р ас че т кос и н усного расс т ояния проводится между векторами двух наборов Т ОП -20 по формул е ( 3) . В и зу а ли за ц и я рез у ль та та ра с че тов п ри в е де н а н а ри с . 4.

Косинусное расстояние для ВКП ТОП-20 N-грамм

(О О Л5 СО s X 1S 1Д Е5 >S СО к со :<у

1     С Н ы

68 К5 = 2 я

к

СО и СО со

2 о а ^ ^ В

Рис. 4. Результат расчета косинусного расстояния между ТОП-20 N-грамм (N-граммы лемматизированы) Fig. 4. The result of calculating the cosine distance between the TOP-20 N-grams (N-grams are lemmatized)

Заключение

Р ас с мотренн ы й в ст а тье ме тод оценки мероприятий по формированию к омфортн ой горо д ск ой с р е д ы п озв оляе т э ф фе к ти в н о р а н жи ров а т ь и с оп ос та в лять МФКГС с актуальными потребностями граждан.

С п омощ ью МОЭ Р б ыл а п ров е д е н а оц е н ка э ф фе кти в н ос ти МФКГС, проведенных или пла н и ру е мых к п ровед е н и ю в 2020 –21 гг. на территории Ханты-Мансийского автономного округа Югры.

Р ез у льтаты п ров е д е н н о го с использованием МОЭР эксперимента указыв аю т н а то, что п одавляющее количество М Ф КГ С слабо связаны с реальными потребностями граждан в вопросах К Г С и , к а к с ле дс тв и е , буду т н и зк оэ ффе к ти в н ы.

При в е д ен ны й МО Э Р мо же т быть применен в системах поддержки при няти я ре ш ен ий п ри п ров е де н и и оц е н к и з н ачи мос ти МФКГС. Своевременная и качественная реализация МФКГС, н аправл е н н ых н а р е ш е н ие ре альных потребностей жителей города, положи те льн о ск аже тс я на о ценке граж д а на ми д е ятельн ос ти местных властей и повысит вовлеченность гражд а н в в оп ро сы у п ра в лен ия городс кими прос тра н с тв а ми .

Список литературы Метод оценки эффективности мероприятий по формированию комфортной городской среды

  • Паспорт национального проекта «Жилье и городская среда» // Минстрой России: сайт. URL: https://minstroyrf.gov.ru/docs/221887/ (дата обращения: 21.09.2021).
  • Об утверждении методических рекомендаций по вовлечению граждан, их объединений и иных лиц в решение вопросов развития городской среды: приказ Минстроя России № 913/пр от 30.12.2020. URL: https://minstroyrf.gov.ru/upload/iblock/315/30_12_2020_913_pr_Metodicheskie_rekomendatsii_po_vovlecheniyu.pdf (дата обращения: 31.03.2022).
  • Мухаметов Д.Р. Модели платформ вовлечения граждан для создания в России умных городов нового поколения // Вопросы инновационной экономики. 2020. Т. 10, № 3. С. 1605–1622. DOI: 10.18334/vinec.10.3.110683
  • Опыт общественного участия в планировании комфортной городской среды на примере Архангельской области / А.Г. Деменев, Т.Ф. Шубина, П.В. Шубина и др. // Арктика и Север. 2018. № 33. С. 91–117. DOI: 10.17238/issn2221-2698.2018.33.91
  • Аксенова В.В. Комфортная городская среда: общественное мнение москвичей // Социальная политика и социология. 2020. Т. 19, № 4 (137). С. 76–84. DOI: 10.17922/2071-36652020-19-4-76-84
  • Богданова Л.П., Глушкова М.А. Оценка качества городской среды населением города Твери // Вестник Тверского государственного университета. Серия: География и геоэкология. 2021. № 2 (34). С. 14–24. DOI: 10.26456/2226-7719-2021-2-14-24
  • Дунаева Д.О. Дискурсивные практики горожан как коммуникативный механизм формирования образа комфортного города (опыт полевого исследования) // Вестник Томского государственного университета. Философия. Социология. Политология. 2021. № 60. С. 137–150. DOI: 10.17223/1998863X/60/13
  • Руссова О.Н., Смак Т.С., Тарасов И.А. Оценка комфортности городской среды как фактор социального самочувствия городских жителей Архангельской области // Арктика и Север. 2020. № 41. P. 236–247. DOI: 10.37482/issn2221-2698.2020.41.236
  • Detecting citizen problems and their locations using twitter data / G. Abalı, E. Karaarslan, A. Hürriyetoğlu, F. Dalkılıç // 2018 6th International Istanbul Smart Grids and Cities Congress and Fair (ICSG). Istanbul, Turkey, 2018. P. 30–33. DOI: 10.1109/SGCF.2018.8408936
  • Estévez-Ortiz F.-J., García-Jiménez A., Glösekötter P. An application of people’s sentiment from social media to smart cities // El profesional de la información. 2016. Vol. 25, no. 6. P. 851–858. DOI: 10.3145/epi.2016.nov.02
  • Алексеев С.А. Коммуникативно-информационные технологии в повышении качества городской среды // Управление устойчивым развитием. 2019. № 6 (25). С. 36–40.
  • Spärck Jones K. A statistical interpretation of term specificity and its application in retrieval // Journal of Documentation. 2004. Vol. 60, no. 5. P. 493–502. DOI: 10.1108/00220410410560573
  • Attention Is All You Need / Ashish Vaswani, Noam Shazeer, Niki Parmar et al. // 31st Conference on Neural Information Processing Systems (NIPS 2017). Long Beach, CA, USA. 2017. URL: https://arxiv.org/pdf/1706.03762.pdf (дата обращения: 30.05.2022).
  • Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages. 2015. URL: https://arxiv.org/pdf/1503.07283.pdf (дата обращения: 30.05.2022).
  • Reimers N., Gurevych I. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. 2019. URL: https://arxiv.org/pdf/1908.10084.pdf (дата обращения: 30.05.2022).
Еще
Статья научная