Использование методов кластерного анализа для исследования затрат на технологические инновации организаций по субъектам Российской Федерации

Автор: Тихомирова С.А.

Журнал: Экономика и бизнес: теория и практика @economyandbusiness

Статья в выпуске: 5-3 (63), 2020 года.

Бесплатный доступ

Объем инвестиций в технологические инновации в Российской Федерации растет с каждым годом. В настоящей статье продемонстрировано использование инструментальных средств платформы RapidMiner для обработки и анализа данных организаций о затратах на технологические инновации. Для проведения исследования выбраны методы кластерного анализа, с помощью которых регионы были разделены на шесть групп в соответствии с затратами в области инноваций находящихся на их территории предприятий.

Инновации, машинное обучение, кластерный анализ, обработка данных

Короткий адрес: https://sciup.org/170182781

IDR: 170182781 | DOI: 10.24411/2411-0450-2020-10513

Текст научной статьи Использование методов кластерного анализа для исследования затрат на технологические инновации организаций по субъектам Российской Федерации

В настоящее время перед каждым регионом стоит задача инновационного развития, любой регион обладает своим собственным потенциалом и различными особенностями. Региональным субъектам необходимо развивать инновационную деятельность для сохранения своей конкурентоспособности и для того, чтобы справляться с экономической нестабильностью в стране [1]. Для анализа результатов выполнения этой задачи целесообразно использовать статистические методы.

Одним из наиболее распространенных методов подобного исследования является кластерный анализ. Методы кластеризации используются в таких прикладных задачах как обработка данных, снижение размерности изображений, выделение сегментов в маркетинге. Кластерный анализ за разные временные периоды позволяет получить представление о динамике развития регионов.

Целью данной работы является проведение кластерного анализа субъектов Российской Федерации по тратам на инновационные технологии за последние годы. Регионы имеют различный уровень дохода, и денежные средства на внедрение инноваций распределяются в них по-разному.

Методы и инструменты для исследования

Исходная выборка данных была получена на сайте Федеральной службы государственной статистики. Данная выборка представляет из себя данные о затратах организаций на технологические инновации для всех субъектов Российской Федерации за 9 лет с 2010 г. по 2018 г. [2].

Для классификации регионов используются общие методы кластерного анализа, такие как метод иерархической агломерации и метод k-средних [3].

Метод иерархической агломерации заключается в последовательном объединении N исходных объектов до момента, пока все они не будут объединены в один кластер объёма N. При этом, на каждом шаге подвергаются слиянию только два кластера, а процедура содержит N-1 шагов объединения. Весь процесс объединения изображают в виде дендрограммы, графика, на котором по оси абсцисс нанесены номера объектов, по оси ординат изображено расстояние объединения [4].

Метод k-средних заключается в разбиении всего исходного множества объектов на кластеры вокруг заданных на первом этапе k начальных точек.

Применение кластерного анализа осуществлялось на базе платформы RapidMiner Studio [5]. Платформа RapidMiner является средой для проведения экспериментов, а также решения задач интеллектуального анализа данных и машинного обучения, визуализации и моделирования [6].

В начале были загружены исходные данные с помощью элемента «Read Excel» в RapidMiner, регион был указан как идентификатор, а остальным переменным был присвоен формат REAL.

Для корректной работы программы была проведена замена пропущенных значений нулем с помощью элемента «Replace Missing Values», поскольку в рассматриваемом периоде у некоторых регионов не было никаких затрат в области технологических инноваций. Данный элемент при необходимости позволяет произвести замену на «минимум», «максимум», «среднее» или ввести значение самостоятельно.

При построении процесса «Кластерного анализа» (рис. 1) также были использованы следующие элементы:

– Multiply, позволяющий работать одновременно с несколькими выходами.

– Normalize, позволяющий нормализовать значения для того, чтобы все составляющие давали одинаковый вклад при расчете расстояния.

– Correlation Matrix, предоставляющий возможность построить матрицу корреляции исследуемых векторов значений.

– Agglomerative clustering, определяющий количество кластеров.

– k–Means с помощью которого можно минимизировать суммарное квадратичное отклонение точек кластеров от центров этих кластеров путем их смещения на каждой итерации алгоритма.

– Cluster Distance Performance, определяющий качество полученной кластеризации.

Рис. 1. Процесс кластерного анализа

Описанные выше методы позволили подготовить данные в необходимом формате для дальнейшего проведения кластеризации.

Кластеризация и анализ результатов

Дендрограмма позволяет принять решение об оптимальной численности кластеров и их составе [7]. При этом выбирают шаг, после которого расстояние агломерации резко возрастает (рис. 2).

гГТ? "

Рис. 2. Дендрограмма

Наибольшая разница по оси расстояний между соседними уровнями указывает на предпочтительное число классов. В рассматриваемом случае оптимальным можно считать выделение 6 кластеров.

Следующим этапом после нахождения количества кластеров является непосредственно применение метода k-средних. В качестве метрики сходства между объектами обычно принимают евклидовое расстояние [8].

p(X,Y)-xL7x^W (1)

где X j и Y j - координаты точек, задаваемые значениями переменных кластеризации.

После запуска процесса кластеризации выводятся результаты для 85 регионов, представленные в таблице 1.

Также необходимо проанализировать количественные значения затрат на технологические инновации в выделенных кластерах относительно друг друга.

Таблица 1. Описание кластеров субъектов РФ за период с 2010-2018 гг.

№ к ластера	Количество областей, входящих в кластер	Перечень областей, которые вошли в кластер
0	65	Все оставшиеся регионы
1	1	г. Москва
2	6	г. Санкт-Петербург, Республика Татарстан, Нижегородская область, Самарская область, Ханты-Мансийский автономный округ – Югра, Красноярский край
3	1	Московская область
4	9	Ярославская область, Ленинградская область, Волгоградская область, Ростовская область, Республика Башкортостан, Пермский край, Иркутская область, Омская область, Сахалинская область
5	3	Липецкая область, Свердловская область, Челябинская область

На рисунок 3 синим цветом (самый нижний) отображен кластер №0, бирюзовым (самый верхний) – кластер №1, зеленым – кластер №2, салатовым – кластер №3, оранжевым – кластер №4, красным – кластер №5.

В кластер №1 включен только один субъект – Москва. Важно учесть, что в

2011 году произошло самое масштабное расширение территории Москвы за всю историю административно-территориального деления города, примерно в 2,4 раза, за счёт территории Московской области. В связи с этим заметен резкий скачок, начиная с этого года.

В кластер №2 вошли шесть областей, в которых развито автомобилестроение, нефтегазопереработка (республика Татарстан), радиоэлектроника, а так же расположено относительно большое количество технологических организаций.

В кластер №3 отдельно вышел регион Московской области за счет широкой территории, где развита инновационная деятельность в области ядерно-физических и нанотехнологий, а также в биотехнологической области.

В кластер №4 входят небольшие регионы, которые стараются вкладываться в развитие инновационной отрасли, исходя из финансовых возможностей.

В кластер №5 вошли области затраты, у которых существенно больше, чем у тех, кто вошел в кластер №4, но меньше, чем у крупных регионов, входящих в кластер №2.

ййййййййя

Рис. 3. Визуализация нормализованных значений кластеров

В кластер №0 вошли регионы, которые тратят на технологические инновации мало в сравнении с остальными субъектами. Это в основном связано с меньшей населенностью и доходами этих субъектов, и как следствие, их большей сфокусированностью на других статьях расходов.

Данная кластеризация описывает затраты на технологические инновации в млн. руб. за период с 2010-2018 гг. по регионам и может быть в дальнейшем использована для принятия управленческих решений [9].

Таким образом, осуществив кластерный анализ можно построить определенную иерархию из субъектов РФ.

После проведения кластеризации необходимо оценить качество получившегося разделения. Оператор Cluster Distance

Performance применяется для оценки эффективности кластеризации. В частности, он вычисляет значение индекса Davies Bouldin [10], который основывается на вычислении расстояний между центрами кластеров и их количестве.

DB=;∑i=l max i*j { d- • } (2)

,j где n – это количество кластеров, ԁ, – среднее расстояние между точками кластера i и центроидом кластера i, ԁj – среднее расстояние между точками кластера i и центроидом кластера j, ԁ , – евклидово расстояние между центроидами кластеров i и j.

В результате применения данного оператора было получено значение Davies

Bouldin = 0,667, которое является приемлемым и означает, что кластеризация была проведена качественно.

Заключение. В работе продемонстри- ровано применение методов машинного обучения с помощью платформы RapidMiner для решения задачи по оценке затрат на технологические инновации по регионам России. В ходе исследования мы кластеризации данных, среди которых для применения в настоящей работе выделены метод k-средних и метод иерархической агломерации. Проведена проверка качества кластеризации с помощью метрики расстояния индекса Davies Bouldin. Регионы были разбиты на шесть кластеров в зависимости от суммы затрат, находящихся на территории региона предприятий по рассмотрены основные методы и алгорит- годам.

Список литературы Использование методов кластерного анализа для исследования затрат на технологические инновации организаций по субъектам Российской Федерации

Мильская Е.А., Бычкова А.В. Анализ и оценка потенциала инновационно-инвестиционной деятельности экономических субъектов // Научно-технические ведомости Санкт-Петербургского государственного политехнического университета. Экономические науки. - 2017. - № 2.
Федеральная служба государственной статистики. - [Электронный ресурс]. - Режим доступа: https://www.gks.ru/folder/14477 (дата обращения: 29.05.2020).
Многомерные статистические методы и основы эконометрики / Дубров А.М., Мхитарян В.С., Трошин Л.И. - М.: МЭСИ, 2002. - 79 с.
Анализ данных: учебник для академического бакалавриата / В.С. Мхитарян [и др.]; под редакцией В.С. Мхитаряна. - М.: Изд-во Юрайт, 2019. - 490 с.
RapidMiner / Best Data Science & Machine Learning Platform rapidminer.com. - [Электронный ресурс]. - Режим доступа: https://rapidminer.com/ (дата обращения 29.05.2020).
Гремякина, О. А. Выбор платформы интеллектуального анализа данных для применения в академических целях // Молодой ученый. - 2015. - № 22 (102). - С. 26-29.
Мансуров П.М. Статистический анализ показателей, влияющих на развитие сельской социальной инфраструктуры Ульяновской области // Современные проблемы науки и образования. - 2012. - №2.
Буреева Н.Н. Многомерный статистический анализ с использованием ППП "STATISTICA" // Учебно-методический материал по программе повышения квалификации "Применение программных средств в научных исследованиях и преподавании математики и механики". - Нижний Новгород, 2007. - 112 с.
Васильев Ф.Н., Вишнеков А.В., Ферапонтова Е.С. Методы поддержки принятия групповых решений // Качество и ИПИ-технологии. - 2007. - №2. - С. 51-55.
Davies D. L., Bouldin D. W. A cluster separation measure // IEEE transactions on pattern analysis and machine intelligence. - 1979. - № 2. - С. 224-227.

Еще

Статья научная