Введение в оценку качества кластерного анализа
Автор: Вашакидзе Н.С., Филиппова Г.В., Рауш Н.Л., Осипов Г.С.
Журнал: Международный журнал гуманитарных и естественных наук @intjournal
Рубрика: Технические науки
Статья в выпуске: 10-2 (97), 2024 года.
Бесплатный доступ
Изложены базовые основы методов оценки качества кластеризации многомерных объектов, характеризуемых разнородными показателями. Проведена практическая реализация кластерного анализа с использованием классической базы данных объектов. В системе символьной математики Wolfram Mathematica построены поэлементные профили кластеров и по кластерам в целом. Выполнен сравнительный анализ основных мер оценки качества кластеризации. Приведена внешняя оценка качества в сравнении с экспертным классификатором.
Оценка качества кластеризации, профили кластеров, сравнение с экспертной классификацией
Короткий адрес: https://sciup.org/170206936
IDR: 170206936 | DOI: 10.24412/2500-1000-2024-10-2-86-89
Introduction to the quality assessment of cluster analysis
The basic principles of methods for assessing the quality of clustering of multidimensional objects characterized by heterogeneous indicators are described. The practical implementation of cluster analysis using a classical database of objects has been carried out. In the Wolfram Mathematica symbolic mathematics system, element-by-element profiles of clusters and clusters in general are constructed. A comparative analysis of the main measures for assessing the quality of clustering has been performed. An external quality assessment is given in comparison with an expert classifier.
Текст научной статьи Введение в оценку качества кластерного анализа
Имеется множество объектов, характеризуемых набором параметров. Требуется провести кластеризацию объектов и оценить качество кластерного анализа с помощью базовых метрик, основанных на гипотезах компактности и отделимости кластеров.
Целью исследование является проведение сравнительного анализ методов оценки качества кластеризации.
м |с ; |
сс=^
7=1i=i где M - количество кластеров,
С - j-й кластер, ху eX - объекты кластеризации.
м
CS = n^(x —
7=1
где n =|X|.
Индекс Данна (Dunn Index)
Индекс Данна рассчитывается по формуле:
-
1. Материал и методы исследования
В работе использовались следующие методы оценки качества кластеризации [1]:
Компактность кластеров (Cluster
Cohesion)
Компактность кластеров обеспечивается минимизацией внутри кластерного расстояния:
-
— xj) 2 ^ min,
Отделимость кластеров (Cluster
Separation)
Определяется, например, суммой квадратов отклонений от среднего:
X j ) 2 ^ max,
_ minCkec{minCieC\Ck{8(ck,ci)}} тахскес{^(ск)} , где δ – меж кластерное расстояние (оценка отделимости кластеров):
8 (ck>c i ) = т1П х^ Ск, х jEc^t-X11';
△ (cfc) — диаметр кластера (оценка компактности кластеров):
Л(ск) = max xixjEck llx i -x j 11
Исходные данные для исследования
Для апробации рассматриваемых методов оценки качества кластеризации используется
база данных из ресурса Wolfram Mathematica [2, 3]. На рисунке 1 представлен фрагмент (5 записей) исходных данных.
data = ResourceData["Sample Data: Fisher's Irises"] //
[данные ресурса
[массив дан-■ ■ [максимальное число элементов
|
Species |
Sepal Length |
SepalWidth |
PetalLength |
Petalwidth |
|
setosa |
5.1cm |
3.5 cm |
1.4 cm |
0.2cm |
|
setosa |
4.9 cm |
3. cm |
1.4 cm |
0.2cm |
|
setosa |
4.7 cm |
3.2 cm |
1.3 cm |
0.2cm |
|
setosa |
4.6 cm |
3.1 cm |
1.5 cm |
0.2 cm |
|
setosa |
5.cm |
3.6 cm |
1.4 cm |
0.2 cm |
A A rows 1-5 of 150 V V
Рис. 1. Фрагмент исходных данных
2. Основные результаты и их обсуждение
В качестве предварительного результата исследования на рисунке 2 приведена класте-
ризация данных по двум характеристикам, что позволяет визуально оценить качество разбиения на кластеры.
Рис. 2. Разбиение на три кластера по двум характеристикам
Результаты кластеризации по всем пара- кластеров, поэлементно и в среднем по кла-метрам исследуемых объектов (профили трех стерам) представлены на рисунке 3.
Рис. 3. Кластерные профили
Результаты экспериментального сравнения базовых методов оценки качества кластеризации сведены в таблицу 1.
Например, индекс Данна достигает наибольшего значения при разбиении объектов на три кластера.
В таблице 2 представлена матрица ошибок, показывающая корректность разделения на кластеры в сравнении с эталонной экспертной классификацией.
Таблица 1 Результаты сравнения
|
Показатель |
Число кластеров |
||
|
2 |
3 |
4 |
|
|
CalinskiHarabasz |
513.925 |
561.594 |
415.438 |
|
DaviesBouldin |
0.404293 |
0.666039 |
0.847592 |
|
Dunn |
0.0765063 |
0.109435 |
0.0547176 |
|
RSquared |
0.559903 |
0.666593 |
0.688495 |
|
Silhouette |
0.681046 |
0.551192 |
0.413767 |
|
StandardDeviation |
1.01458 |
0.732416 |
0.699557 |
Таблица 2. Матрица ошибок
|
Класс |
versicolor |
virginica |
setosa |
∑ |
|
versicolor |
47 |
3 |
50 |
|
|
virginica |
14 |
36 |
50 |
|
|
setosa |
50 |
50 |
||
|
∑ |
61 |
39 |
50 |
150 |
Список литературы Введение в оценку качества кластерного анализа
- Кластеризация: суть и задачи. - [Электронный ресурс]. - Режим доступа: https://gb.ru/blog/klasterizatsiya/?ysclid=m2mv2c9b3w426780127 (дата обращения 27.10.2024).
- Русскоязычная версия WOLFRAM. - [Электронный ресурс]. - Режим доступа: https://www.wolfram.com/russian/?source=frontpage-stripe (дата обращения 27.10.2024).
- Stephen Wolfram. An Elementary Introduction to the Wolfram Language. - [Электронный ресурс]. - Режим доступа: https://www.wolfram.com/language/elementary-introduction/2nd-ed/(Дата обращения 27.10.2022).