Использование методов кластерного анализа для исследования затрат на технологические инновации организаций по субъектам Российской Федерации
Автор: Тихомирова С.А.
Журнал: Экономика и бизнес: теория и практика @economyandbusiness
Статья в выпуске: 5-3 (63), 2020 года.
Бесплатный доступ
Объем инвестиций в технологические инновации в Российской Федерации растет с каждым годом. В настоящей статье продемонстрировано использование инструментальных средств платформы RapidMiner для обработки и анализа данных организаций о затратах на технологические инновации. Для проведения исследования выбраны методы кластерного анализа, с помощью которых регионы были разделены на шесть групп в соответствии с затратами в области инноваций находящихся на их территории предприятий.
Инновации, машинное обучение, кластерный анализ, обработка данных
Короткий адрес: https://sciup.org/170182781
IDR: 170182781 | DOI: 10.24411/2411-0450-2020-10513
The use of cluster analysis methods for research of organizations' costs on technological innovations by the Russian Federation regions
The overall investment to technological innovation in the Russian Federation is growing every year. This article demonstrates the use of the RapidMiner platform for processing and analyzing organizations' data on the costs of technological innovations. Cluster analysis methods were used to divide the regions into six groups by the costs on innovations of located on their territory enterprises.
Текст научной статьи Использование методов кластерного анализа для исследования затрат на технологические инновации организаций по субъектам Российской Федерации
В настоящее время перед каждым регионом стоит задача инновационного развития, любой регион обладает своим собственным потенциалом и различными особенностями. Региональным субъектам необходимо развивать инновационную деятельность для сохранения своей конкурентоспособности и для того, чтобы справляться с экономической нестабильностью в стране [1]. Для анализа результатов выполнения этой задачи целесообразно использовать статистические методы.
Одним из наиболее распространенных методов подобного исследования является кластерный анализ. Методы кластеризации используются в таких прикладных задачах как обработка данных, снижение размерности изображений, выделение сегментов в маркетинге. Кластерный анализ за разные временные периоды позволяет получить представление о динамике развития регионов.
Целью данной работы является проведение кластерного анализа субъектов Российской Федерации по тратам на инновационные технологии за последние годы. Регионы имеют различный уровень дохода, и денежные средства на внедрение инноваций распределяются в них по-разному.
Методы и инструменты для исследования
Исходная выборка данных была получена на сайте Федеральной службы государственной статистики. Данная выборка представляет из себя данные о затратах организаций на технологические инновации для всех субъектов Российской Федерации за 9 лет с 2010 г. по 2018 г. [2].
Для классификации регионов используются общие методы кластерного анализа, такие как метод иерархической агломерации и метод k-средних [3].
Метод иерархической агломерации заключается в последовательном объединении N исходных объектов до момента, пока все они не будут объединены в один кластер объёма N. При этом, на каждом шаге подвергаются слиянию только два кластера, а процедура содержит N-1 шагов объединения. Весь процесс объединения изображают в виде дендрограммы, графика, на котором по оси абсцисс нанесены номера объектов, по оси ординат изображено расстояние объединения [4].
Метод k-средних заключается в разбиении всего исходного множества объектов на кластеры вокруг заданных на первом этапе k начальных точек.
Применение кластерного анализа осуществлялось на базе платформы RapidMiner Studio [5]. Платформа RapidMiner является средой для проведения экспериментов, а также решения задач интеллектуального анализа данных и машинного обучения, визуализации и моделирования [6].
В начале были загружены исходные данные с помощью элемента «Read Excel» в RapidMiner, регион был указан как идентификатор, а остальным переменным был присвоен формат REAL.
Для корректной работы программы была проведена замена пропущенных значений нулем с помощью элемента «Replace Missing Values», поскольку в рассматриваемом периоде у некоторых регионов не было никаких затрат в области технологических инноваций. Данный элемент при необходимости позволяет произвести замену на «минимум», «максимум», «среднее» или ввести значение самостоятельно.
При построении процесса «Кластерного анализа» (рис. 1) также были использованы следующие элементы:
– Multiply, позволяющий работать одновременно с несколькими выходами.
– Normalize, позволяющий нормализовать значения для того, чтобы все составляющие давали одинаковый вклад при расчете расстояния.
– Correlation Matrix, предоставляющий возможность построить матрицу корреляции исследуемых векторов значений.
– Agglomerative clustering, определяющий количество кластеров.
– k–Means с помощью которого можно минимизировать суммарное квадратичное отклонение точек кластеров от центров этих кластеров путем их смещения на каждой итерации алгоритма.
– Cluster Distance Performance, определяющий качество полученной кластеризации.
Рис. 1. Процесс кластерного анализа
Описанные выше методы позволили подготовить данные в необходимом формате для дальнейшего проведения кластеризации.
Кластеризация и анализ результатов
Дендрограмма позволяет принять решение об оптимальной численности кластеров и их составе [7]. При этом выбирают шаг, после которого расстояние агломерации резко возрастает (рис. 2).
гГТ? "
Рис. 2. Дендрограмма
Наибольшая разница по оси расстояний между соседними уровнями указывает на предпочтительное число классов. В рассматриваемом случае оптимальным можно считать выделение 6 кластеров.
Следующим этапом после нахождения количества кластеров является непосредственно применение метода k-средних. В качестве метрики сходства между объектами обычно принимают евклидовое расстояние [8].
p(X,Y)-xL7x^W (1)
где X j и Y j - координаты точек, задаваемые значениями переменных кластеризации.
После запуска процесса кластеризации выводятся результаты для 85 регионов, представленные в таблице 1.
Также необходимо проанализировать количественные значения затрат на технологические инновации в выделенных кластерах относительно друг друга.
Таблица 1. Описание кластеров субъектов РФ за период с 2010-2018 гг.
|
№ к ластера |
Количество областей, входящих в кластер |
Перечень областей, которые вошли в кластер |
|
0 |
65 |
Все оставшиеся регионы |
|
1 |
1 |
г. Москва |
|
2 |
6 |
г. Санкт-Петербург, Республика Татарстан, Нижегородская область, Самарская область, Ханты-Мансийский автономный округ – Югра, Красноярский край |
|
3 |
1 |
Московская область |
|
4 |
9 |
Ярославская область, Ленинградская область, Волгоградская область, Ростовская область, Республика Башкортостан, Пермский край, Иркутская область, Омская область, Сахалинская область |
|
5 |
3 |
Липецкая область, Свердловская область, Челябинская область |
На рисунок 3 синим цветом (самый нижний) отображен кластер №0, бирюзовым (самый верхний) – кластер №1, зеленым – кластер №2, салатовым – кластер №3, оранжевым – кластер №4, красным – кластер №5.
В кластер №1 включен только один субъект – Москва. Важно учесть, что в
2011 году произошло самое масштабное расширение территории Москвы за всю историю административно-территориального деления города, примерно в 2,4 раза, за счёт территории Московской области. В связи с этим заметен резкий скачок, начиная с этого года.
В кластер №2 вошли шесть областей, в которых развито автомобилестроение, нефтегазопереработка (республика Татарстан), радиоэлектроника, а так же расположено относительно большое количество технологических организаций.
В кластер №3 отдельно вышел регион Московской области за счет широкой территории, где развита инновационная деятельность в области ядерно-физических и нанотехнологий, а также в биотехнологической области.
В кластер №4 входят небольшие регионы, которые стараются вкладываться в развитие инновационной отрасли, исходя из финансовых возможностей.
В кластер №5 вошли области затраты, у которых существенно больше, чем у тех, кто вошел в кластер №4, но меньше, чем у крупных регионов, входящих в кластер №2.
ййййййййя
Рис. 3. Визуализация нормализованных значений кластеров
В кластер №0 вошли регионы, которые тратят на технологические инновации мало в сравнении с остальными субъектами. Это в основном связано с меньшей населенностью и доходами этих субъектов, и как следствие, их большей сфокусированностью на других статьях расходов.
Данная кластеризация описывает затраты на технологические инновации в млн. руб. за период с 2010-2018 гг. по регионам и может быть в дальнейшем использована для принятия управленческих решений [9].
Таким образом, осуществив кластерный анализ можно построить определенную иерархию из субъектов РФ.
После проведения кластеризации необходимо оценить качество получившегося разделения. Оператор Cluster Distance
Performance применяется для оценки эффективности кластеризации. В частности, он вычисляет значение индекса Davies Bouldin [10], который основывается на вычислении расстояний между центрами кластеров и их количестве.
DB=;∑i=l max i*j { d- • } (2)
,j где n – это количество кластеров, ԁ, – среднее расстояние между точками кластера i и центроидом кластера i, ԁj – среднее расстояние между точками кластера i и центроидом кластера j, ԁ , – евклидово расстояние между центроидами кластеров i и j.
В результате применения данного оператора было получено значение Davies
Bouldin = 0,667, которое является приемлемым и означает, что кластеризация была проведена качественно.
Заключение. В работе продемонстри- ровано применение методов машинного обучения с помощью платформы RapidMiner для решения задачи по оценке затрат на технологические инновации по регионам России. В ходе исследования мы кластеризации данных, среди которых для применения в настоящей работе выделены метод k-средних и метод иерархической агломерации. Проведена проверка качества кластеризации с помощью метрики расстояния индекса Davies Bouldin. Регионы были разбиты на шесть кластеров в зависимости от суммы затрат, находящихся на территории региона предприятий по рассмотрены основные методы и алгорит- годам.
Список литературы Использование методов кластерного анализа для исследования затрат на технологические инновации организаций по субъектам Российской Федерации
- Мильская Е.А., Бычкова А.В. Анализ и оценка потенциала инновационно-инвестиционной деятельности экономических субъектов // Научно-технические ведомости Санкт-Петербургского государственного политехнического университета. Экономические науки. - 2017. - № 2.
- Федеральная служба государственной статистики. - [Электронный ресурс]. - Режим доступа: https://www.gks.ru/folder/14477 (дата обращения: 29.05.2020).
- Многомерные статистические методы и основы эконометрики / Дубров А.М., Мхитарян В.С., Трошин Л.И. - М.: МЭСИ, 2002. - 79 с.
- Анализ данных: учебник для академического бакалавриата / В.С. Мхитарян [и др.]; под редакцией В.С. Мхитаряна. - М.: Изд-во Юрайт, 2019. - 490 с.
- RapidMiner / Best Data Science & Machine Learning Platform rapidminer.com. - [Электронный ресурс]. - Режим доступа: https://rapidminer.com/ (дата обращения 29.05.2020).
- Гремякина, О. А. Выбор платформы интеллектуального анализа данных для применения в академических целях // Молодой ученый. - 2015. - № 22 (102). - С. 26-29.
- Мансуров П.М. Статистический анализ показателей, влияющих на развитие сельской социальной инфраструктуры Ульяновской области // Современные проблемы науки и образования. - 2012. - №2.
- Буреева Н.Н. Многомерный статистический анализ с использованием ППП "STATISTICA" // Учебно-методический материал по программе повышения квалификации "Применение программных средств в научных исследованиях и преподавании математики и механики". - Нижний Новгород, 2007. - 112 с.
- Васильев Ф.Н., Вишнеков А.В., Ферапонтова Е.С. Методы поддержки принятия групповых решений // Качество и ИПИ-технологии. - 2007. - №2. - С. 51-55.
- Davies D. L., Bouldin D. W. A cluster separation measure // IEEE transactions on pattern analysis and machine intelligence. - 1979. - № 2. - С. 224-227.