Факторный анализ и кластеризация данных состояния инженерной инфраструктуры сельских территорий субъектов Российской Федерации

Автор: Яковлев И.В., Яковлева О.А.

Журнал: Вестник Академии права и управления @vestnik-apu

Рубрика: Вопросы экономики и управления

Статья в выпуске: 4 (57), 2019 года.

Бесплатный доступ

В статье рассматриваются возможности применения факторного анализа для анализа данных региональной статистики состояния инженерной инфраструктуры сельских территорий субъектов Российской федерации и дальнейшая их кластеризация с помощью возможностей аналитического приложения Deductor Studio. Факторный анализ обеспечил снижение размерности данных, объединив их в два фактора, по результатам кластерного анализа проведена типология и получены группы регионов с близкими характеристиками.

Сельские территории регионов, статистика состояния инженерной инфраструктуры, факторный анализ, кластерный анализ, типология регионов

Короткий адрес: https://sciup.org/14120007

IDR: 14120007

Текст научной статьи Факторный анализ и кластеризация данных состояния инженерной инфраструктуры сельских территорий субъектов Российской Федерации

Анализ информации является важной частью современных научных исследований и одним из факторов повышения их результативности. Однако очень часто для оценки тех или иных явлений или процессов исследователь вынужден пользоваться множеством разнонаправленных показателей, что значительно затрудняет выполнение задачи. Для этого ис- пользуют различные методы статистического анализа. Значительно совершенствует процесс инструментальные средства такое как аналитическое приложение Deductor Studio [2], которое позволяет решить значительный спектр задач полноценного анализа данных.

Целью исследования стало показать возможности использования аналитического приложения

Deductor Studio для анализа и типологии субъектов Российской Федерации по состоянию инженерной инфраструктуры сельских территорий.

Для исследования состояния инженерной инфраструктуры сельских территорий субъектов Российской Федерации были взяты следующие показатели: доля сельского жилищного фонда, оборудованного всеми видами благоустройства; доля газифицированных сельских населенных пунктов; доля сельских населенных пунктов, имеющих водопровод, доля сельских населенных пунктов, имеющих связь по дорогам с твердым покрытием. Все показатели выражены в относительных единицах – процентах и содержат позитивную информацию, то есть чем больше доля, тем лучше состояние.

При использовании массива разнонаправленных и многомерных данных необходим переход к вы-боркеменьшего размера илиснижению размерности. Для этого используют факторный анализ. С помощью него исходные переменные сводятся к меньшему количеству независимых величин, которые называют факторами. В результате в один фактор объединяются показатели, сильно коррелирующие между собой, а дисперсия перераспределяется между факторами и получается упрощенная структура.

Для этого разработаны многочисленные методы факторного анализа. Чаще всего из них применяют метод анализа главных компонент, считающийся наиболее универсальным методом. В процессе применения метода выделяются факторы (компоненты), который используют для формирования некоррелированных линейных комбинаций наблюдаемых переменных. При этом первый фактор компонента имеет максимальную дисперсию. Остальные получаемые компоненты объясняют уменьшающиеся доли дисперсии. При этом выделенные факторы не коррелируют между собой.

Метод главных компонент был применен для анализа состояния инженерной инфраструктуры сельских территорий. Расчеты проведены с помощью аналитического приложения Deductor Studio [3].

В результате была получена матрица факторов (компонент), преобразованная с помощью критерия «варимакс», назначение которого, уменьшить количество переменных, имеющих значительные нагрузки на данных фактор, что упрощает его описание за счет обобщения в нем только тех показателей, которые с ним связаны в большей степени, чем с остальными факторами. Были выделены два фактора, на их долю приходится 78,9 % суммарной дисперсии (рис 1) [6].

На рис. 2 представлено распределение показателей по факторам. Первый фактор нами обозначен как «бытовые условия», так как наиболее тесно связан с благоустроенностью бытовой инфраструктуры сельских населенных пунктов: доля газифицированных и имеющих водопровод и доля жилищного фонда, оборудованного всеми видами благоустройств. Во вторую компоненту (фактор) вошел один признак, характеризующий доступность сельских населенных пунктов по дорогам с твердым покрытием и назван «транспортная доступность».

Рис. 1. Матрица факторов

Рис. 2. Распределение показателей по факторам

На основе корреляций между исходными показателями и матрицей компонент были определены численные значения полученных факторов для каждого из исследуемых регионов. Обычными методами данные значения численно не измеряются. Это в свою очередь, позволило проранжировать исследуемые территории по факторам, характеризующим состоянию инженерной инфраструктуры (рис. 3, 4) [1].

По фактору «бытовые условия» в сельских территориях лидером является Липецкая область, пятое место занимает Мурманская область, также в число лидеров входят три региона Северо-Кавказского ФО. Худшие позиции занимают сельские территории Дальневосточного и Сибирского ФО, а также нечерноземная Новгородская область.

По фактору «транспортная доступность» первое место занимает Республика Дагестан, аутсайде- рами являются сельские регионы субъектов с традиционно сложной транспортной ситуацией в силу особенностью климатических условий.

Далее проведен кластерный анализ на основе значений факторов. В результате получено три кластера. Первый кластер объединил 32 региона, или 40,5 % от общего числа, во второй кластер вошел 31 регион (39,2 %), в третий кластер отнесены 16 регионов (20,3 %). Каждый кластер имеет средние характеристики факторов, в зависимости от которых нами определены типологические оценки состоянию инженерной инфраструктуры (рис. 5) [4, 5].

Субъекты из первого кластера нами отнесены к группе с благоприятной ситуацией по состоянию инженерной инфраструктуры сельских территорий, как по бытовым условиям, так и по транспортной доступности – средние величины факторов положительные.

(Sj

й1 де - Л т

1 /79

► н

№ n/п

Субъекты РФ

Бытовые условия

Транепортная доступность

Место по бытовым условиям

Место по транспортной доступности

9

Липецкая область       2,236

■0,415

1

58

36

Кабардино-Б алкарская

2217

1.063

2

9

35

Республика Ингушетия

1.970

1.056

3

10

40

Ставропольский край

1.747

0.970

4

12

25

Мурманская область

1.650

•0.806

5

67

Таблица

Ge) ”

Й* £3 - ^ т

И N

1/79

► н

№ п/п

Субъекты РФ

Бытовые условия

Транспорткая доступность

Место по бытовым * условиям

Место по транспортной доступности

66

Забайкальский край

■1.684

0.632

79

23

68

Иркутская область

-1.623

0.504

78

29

78

Еврейская авт область

-1.548

1.477

77

2

26

Новгородская область

•1.451

0.245

76

37

75

Приморский край

-1.390

1.380

75

4

Рис. 3. Рейтинг пяти лучших и худших регионов по фактору «бытовые условия»

Таблица

а

Tei -

Й'^’Л т

К 4

1/79

► Н

№ п/п

Субъекты РФ

Бытовые условия

Т ранспортная доступность

Место по бытовым условиям

Место по транспортной 5 доступности

Республика Дагестан

-0.007

1.618

41

1

78

Еврейская авт область

■1.548

1.477

77

2

37

Карачаево-Черкесская

0.941

1.469

18

3

75

Приморский край

•1.390

1.380

75

4

67

Красноярский край

•1,134

1.210

68

5

Таблица

ti

а -

» 0- Л т|

М ◄

1 /79

► м

№ п/п

Субъекты РФ

Бытовые условия

Iранспортная доступность

Место по бытовым условиям

Место по транспортной доступности

И

Ненецкий АО

-0.813

•3293

56

79

58

Я мало-Н енецкий АО

0.667

•3.162

24

78

79

Чукотский авт округ

0.505

•2.578

28

77

57

Ханты-Мансийский АО

1.060

•2.147

13

76

76

Хабаровский край

•0.604

•1.685

51

75

Рис. 4. Рейтинг пяти лучших и худших регионов по фактору «транспортная доступность»

Рис. 5. Типология на основе кластерного анализа значений факторов

Сочетание максимально высоких факторов отмечается в следующих субъектах: Белгородская, Воронежская, Оренбургская, Пензенская области, республики Татарстан, Ингушетия и Кабардино-Балкария, Карачаево-Черкессия, Адыгея, Ставропольский и Краснодарский край.

Ко второму кластеру отнесены регионы с напряженной ситуацией по бытовым условиям, этот фактор стал решающим для формирования группы. Максимально высокие отрицательные показатели, характеризующие этот фактор, отмечаются в сельских территориях Тверской, Архангельской, Вологодской, Новгородской, Курганской, Иркутской областей, республиках Тыва, Хакасия, Якутия, Забайкальском, Красноярском, Приморском краях, Еврейской автономной области.

В третий кластер вошли сельские территории субъектов, обозначенные нами как регионы с напряженной ситуацией по транспортной доступности, то есть этот фактор оказался решающим для отнесения в эту группу. Сюда вошли следующие регионы: Ненецкий, Ямало-Ненецкий, Чукотский, Ханты-Мансийский АО, Хабаровский край и если сельские территории этих субъектов исторически имеют слабую транспортную доступность, то попадание областей Центрального федерального округа в этот список обращает на себя внимание – это Костромская, Тульская, Ярославская, Калужская и Орловская области [7].

Проведенный анализ позволяет сделать вывод, что применение факторного анализа предпочтительнее по сравнению с традиционными методами, в которых сравнение производится по от- дельным показателям. В рассмотренном примере четыре исходных показателя были сведены к двум факторам, которые характеризуют основные стороны состояния инженерной инфраструктуры, что по- зволило типизировать сельские территории субъектов Российской Федерации и выявить проблемные регионы по анализируемым аспектам социального развития [8].

Список литературы Факторный анализ и кластеризация данных состояния инженерной инфраструктуры сельских территорий субъектов Российской Федерации

  • Козлов А.В., Яковлева О.А. Типология сельских территорий Российской Федерации по уровню развития на основе кластерного анализа // Экономика, труд и управление в сельском хозяйстве, 2018, № 11 (44). - С. 97-103
  • Яковлев В.Б. Анализ данных в Deductor Studio: Учебное пособие. - М.: ОнтоПринт, 2018. - 256 с.
  • Яковлев В.Б., Яковлева О.А. Кластеризация сельских территорий субъектов Российской Федерации в Deductor Studio: Монография. - М.: ОнтоПринт, 2019. - 264 с.
  • Яковлев В.Б., Яковлева О.А. Применение карт Кохонена для кластеризации сельских территорий: Монография. - Palmarium Academic Publishing, 2019. - 168 с.
  • Яковлев В.Б., Яковлев И.В. Классификация и снижение размерности данных в SPSS: Учебное пособие. - М.: Эдитус, 2016. - 75 с.
  • Яковлев В.Б., Яковлев И.В. Регрессионный анализ в Deductor Studio: Учебное пособие. - Lambert Academic Publishing: Germany, Saarbrücken, 2017. - 128 с.
  • Корнилович В.А. Научное и информационное сопровождение стратегического планирования в Российской Федерации // Вестник Академии права и управления. 2015. № 39. С. 187-198.
  • Назаров А.Г. Приоритеты стратегического инвестирования регионов России // Вестник Академии права и управления. 2015. № 40. С. 116-123.
Еще
Статья научная