Использование методов кластерного анализа для исследования затрат на технологические инновации организаций по субъектам Российской Федерации
Автор: Тихомирова С.А.
Журнал: Экономика и бизнес: теория и практика @economyandbusiness
Статья в выпуске: 5-3 (63), 2020 года.
Бесплатный доступ
Объем инвестиций в технологические инновации в Российской Федерации растет с каждым годом. В настоящей статье продемонстрировано использование инструментальных средств платформы RapidMiner для обработки и анализа данных организаций о затратах на технологические инновации. Для проведения исследования выбраны методы кластерного анализа, с помощью которых регионы были разделены на шесть групп в соответствии с затратами в области инноваций находящихся на их территории предприятий.
Инновации, машинное обучение, кластерный анализ, обработка данных
Короткий адрес: https://sciup.org/170182781
IDR: 170182781 | DOI: 10.24411/2411-0450-2020-10513
Текст научной статьи Использование методов кластерного анализа для исследования затрат на технологические инновации организаций по субъектам Российской Федерации
В настоящее время перед каждым регионом стоит задача инновационного развития, любой регион обладает своим собственным потенциалом и различными особенностями. Региональным субъектам необходимо развивать инновационную деятельность для сохранения своей конкурентоспособности и для того, чтобы справляться с экономической нестабильностью в стране [1]. Для анализа результатов выполнения этой задачи целесообразно использовать статистические методы.
Одним из наиболее распространенных методов подобного исследования является кластерный анализ. Методы кластеризации используются в таких прикладных задачах как обработка данных, снижение размерности изображений, выделение сегментов в маркетинге. Кластерный анализ за разные временные периоды позволяет получить представление о динамике развития регионов.
Целью данной работы является проведение кластерного анализа субъектов Российской Федерации по тратам на инновационные технологии за последние годы. Регионы имеют различный уровень дохода, и денежные средства на внедрение инноваций распределяются в них по-разному.
Методы и инструменты для исследования
Исходная выборка данных была получена на сайте Федеральной службы государственной статистики. Данная выборка представляет из себя данные о затратах организаций на технологические инновации для всех субъектов Российской Федерации за 9 лет с 2010 г. по 2018 г. [2].
Для классификации регионов используются общие методы кластерного анализа, такие как метод иерархической агломерации и метод k-средних [3].
Метод иерархической агломерации заключается в последовательном объединении N исходных объектов до момента, пока все они не будут объединены в один кластер объёма N. При этом, на каждом шаге подвергаются слиянию только два кластера, а процедура содержит N-1 шагов объединения. Весь процесс объединения изображают в виде дендрограммы, графика, на котором по оси абсцисс нанесены номера объектов, по оси ординат изображено расстояние объединения [4].
Метод k-средних заключается в разбиении всего исходного множества объектов на кластеры вокруг заданных на первом этапе k начальных точек.
Применение кластерного анализа осуществлялось на базе платформы RapidMiner Studio [5]. Платформа RapidMiner является средой для проведения экспериментов, а также решения задач интеллектуального анализа данных и машинного обучения, визуализации и моделирования [6].
В начале были загружены исходные данные с помощью элемента «Read Excel» в RapidMiner, регион был указан как идентификатор, а остальным переменным был присвоен формат REAL.
Для корректной работы программы была проведена замена пропущенных значений нулем с помощью элемента «Replace Missing Values», поскольку в рассматриваемом периоде у некоторых регионов не было никаких затрат в области технологических инноваций. Данный элемент при необходимости позволяет произвести замену на «минимум», «максимум», «среднее» или ввести значение самостоятельно.
При построении процесса «Кластерного анализа» (рис. 1) также были использованы следующие элементы:
– Multiply, позволяющий работать одновременно с несколькими выходами.
– Normalize, позволяющий нормализовать значения для того, чтобы все составляющие давали одинаковый вклад при расчете расстояния.
– Correlation Matrix, предоставляющий возможность построить матрицу корреляции исследуемых векторов значений.
– Agglomerative clustering, определяющий количество кластеров.
– k–Means с помощью которого можно минимизировать суммарное квадратичное отклонение точек кластеров от центров этих кластеров путем их смещения на каждой итерации алгоритма.
– Cluster Distance Performance, определяющий качество полученной кластеризации.

Рис. 1. Процесс кластерного анализа
Описанные выше методы позволили подготовить данные в необходимом формате для дальнейшего проведения кластеризации.
Кластеризация и анализ результатов
Дендрограмма позволяет принять решение об оптимальной численности кластеров и их составе [7]. При этом выбирают шаг, после которого расстояние агломерации резко возрастает (рис. 2).
гГТ? "

Рис. 2. Дендрограмма
Наибольшая разница по оси расстояний между соседними уровнями указывает на предпочтительное число классов. В рассматриваемом случае оптимальным можно считать выделение 6 кластеров.
Следующим этапом после нахождения количества кластеров является непосредственно применение метода k-средних. В качестве метрики сходства между объектами обычно принимают евклидовое расстояние [8].
p(X,Y)-xL7x^W (1)
где X j и Y j - координаты точек, задаваемые значениями переменных кластеризации.
После запуска процесса кластеризации выводятся результаты для 85 регионов, представленные в таблице 1.
Также необходимо проанализировать количественные значения затрат на технологические инновации в выделенных кластерах относительно друг друга.
Таблица 1. Описание кластеров субъектов РФ за период с 2010-2018 гг.
№ к ластера |
Количество областей, входящих в кластер |
Перечень областей, которые вошли в кластер |
0 |
65 |
Все оставшиеся регионы |
1 |
1 |
г. Москва |
2 |
6 |
г. Санкт-Петербург, Республика Татарстан, Нижегородская область, Самарская область, Ханты-Мансийский автономный округ – Югра, Красноярский край |
3 |
1 |
Московская область |
4 |
9 |
Ярославская область, Ленинградская область, Волгоградская область, Ростовская область, Республика Башкортостан, Пермский край, Иркутская область, Омская область, Сахалинская область |
5 |
3 |
Липецкая область, Свердловская область, Челябинская область |
На рисунок 3 синим цветом (самый нижний) отображен кластер №0, бирюзовым (самый верхний) – кластер №1, зеленым – кластер №2, салатовым – кластер №3, оранжевым – кластер №4, красным – кластер №5.
В кластер №1 включен только один субъект – Москва. Важно учесть, что в
2011 году произошло самое масштабное расширение территории Москвы за всю историю административно-территориального деления города, примерно в 2,4 раза, за счёт территории Московской области. В связи с этим заметен резкий скачок, начиная с этого года.
В кластер №2 вошли шесть областей, в которых развито автомобилестроение, нефтегазопереработка (республика Татарстан), радиоэлектроника, а так же расположено относительно большое количество технологических организаций.
В кластер №3 отдельно вышел регион Московской области за счет широкой территории, где развита инновационная деятельность в области ядерно-физических и нанотехнологий, а также в биотехнологической области.
В кластер №4 входят небольшие регионы, которые стараются вкладываться в развитие инновационной отрасли, исходя из финансовых возможностей.
В кластер №5 вошли области затраты, у которых существенно больше, чем у тех, кто вошел в кластер №4, но меньше, чем у крупных регионов, входящих в кластер №2.

ййййййййя
Рис. 3. Визуализация нормализованных значений кластеров
В кластер №0 вошли регионы, которые тратят на технологические инновации мало в сравнении с остальными субъектами. Это в основном связано с меньшей населенностью и доходами этих субъектов, и как следствие, их большей сфокусированностью на других статьях расходов.
Данная кластеризация описывает затраты на технологические инновации в млн. руб. за период с 2010-2018 гг. по регионам и может быть в дальнейшем использована для принятия управленческих решений [9].
Таким образом, осуществив кластерный анализ можно построить определенную иерархию из субъектов РФ.
После проведения кластеризации необходимо оценить качество получившегося разделения. Оператор Cluster Distance
Performance применяется для оценки эффективности кластеризации. В частности, он вычисляет значение индекса Davies Bouldin [10], который основывается на вычислении расстояний между центрами кластеров и их количестве.
DB=;∑i=l max i*j { d- • } (2)
,j где n – это количество кластеров, ԁ, – среднее расстояние между точками кластера i и центроидом кластера i, ԁj – среднее расстояние между точками кластера i и центроидом кластера j, ԁ , – евклидово расстояние между центроидами кластеров i и j.
В результате применения данного оператора было получено значение Davies
Bouldin = 0,667, которое является приемлемым и означает, что кластеризация была проведена качественно.
Заключение. В работе продемонстри- ровано применение методов машинного обучения с помощью платформы RapidMiner для решения задачи по оценке затрат на технологические инновации по регионам России. В ходе исследования мы кластеризации данных, среди которых для применения в настоящей работе выделены метод k-средних и метод иерархической агломерации. Проведена проверка качества кластеризации с помощью метрики расстояния индекса Davies Bouldin. Регионы были разбиты на шесть кластеров в зависимости от суммы затрат, находящихся на территории региона предприятий по рассмотрены основные методы и алгорит- годам.
Список литературы Использование методов кластерного анализа для исследования затрат на технологические инновации организаций по субъектам Российской Федерации
- Мильская Е.А., Бычкова А.В. Анализ и оценка потенциала инновационно-инвестиционной деятельности экономических субъектов // Научно-технические ведомости Санкт-Петербургского государственного политехнического университета. Экономические науки. - 2017. - № 2.
- Федеральная служба государственной статистики. - [Электронный ресурс]. - Режим доступа: https://www.gks.ru/folder/14477 (дата обращения: 29.05.2020).
- Многомерные статистические методы и основы эконометрики / Дубров А.М., Мхитарян В.С., Трошин Л.И. - М.: МЭСИ, 2002. - 79 с.
- Анализ данных: учебник для академического бакалавриата / В.С. Мхитарян [и др.]; под редакцией В.С. Мхитаряна. - М.: Изд-во Юрайт, 2019. - 490 с.
- RapidMiner / Best Data Science & Machine Learning Platform rapidminer.com. - [Электронный ресурс]. - Режим доступа: https://rapidminer.com/ (дата обращения 29.05.2020).
- Гремякина, О. А. Выбор платформы интеллектуального анализа данных для применения в академических целях // Молодой ученый. - 2015. - № 22 (102). - С. 26-29.
- Мансуров П.М. Статистический анализ показателей, влияющих на развитие сельской социальной инфраструктуры Ульяновской области // Современные проблемы науки и образования. - 2012. - №2.
- Буреева Н.Н. Многомерный статистический анализ с использованием ППП "STATISTICA" // Учебно-методический материал по программе повышения квалификации "Применение программных средств в научных исследованиях и преподавании математики и механики". - Нижний Новгород, 2007. - 112 с.
- Васильев Ф.Н., Вишнеков А.В., Ферапонтова Е.С. Методы поддержки принятия групповых решений // Качество и ИПИ-технологии. - 2007. - №2. - С. 51-55.
- Davies D. L., Bouldin D. W. A cluster separation measure // IEEE transactions on pattern analysis and machine intelligence. - 1979. - № 2. - С. 224-227.