Введение в оценку качества кластерного анализа
Автор: Вашакидзе Н.С., Филиппова Г.В., Рауш Н.Л., Осипов Г.С.
Журнал: Международный журнал гуманитарных и естественных наук @intjournal
Рубрика: Технические науки
Статья в выпуске: 10-2 (97), 2024 года.
Бесплатный доступ
Изложены базовые основы методов оценки качества кластеризации многомерных объектов, характеризуемых разнородными показателями. Проведена практическая реализация кластерного анализа с использованием классической базы данных объектов. В системе символьной математики Wolfram Mathematica построены поэлементные профили кластеров и по кластерам в целом. Выполнен сравнительный анализ основных мер оценки качества кластеризации. Приведена внешняя оценка качества в сравнении с экспертным классификатором.
Оценка качества кластеризации, профили кластеров, сравнение с экспертной классификацией
Короткий адрес: https://sciup.org/170206936
IDR: 170206936 | DOI: 10.24412/2500-1000-2024-10-2-86-89
Текст научной статьи Введение в оценку качества кластерного анализа
Имеется множество объектов, характеризуемых набором параметров. Требуется провести кластеризацию объектов и оценить качество кластерного анализа с помощью базовых метрик, основанных на гипотезах компактности и отделимости кластеров.
Целью исследование является проведение сравнительного анализ методов оценки качества кластеризации.
м |с ; |
сс=^
7=1i=i где M - количество кластеров,
С - j-й кластер, ху eX - объекты кластеризации.
м
CS = n^(x —
7=1
где n =|X|.
Индекс Данна (Dunn Index)
Индекс Данна рассчитывается по формуле:
-
1. Материал и методы исследования
В работе использовались следующие методы оценки качества кластеризации [1]:
Компактность кластеров (Cluster
Cohesion)
Компактность кластеров обеспечивается минимизацией внутри кластерного расстояния:
-
— xj) 2 ^ min,
Отделимость кластеров (Cluster
Separation)
Определяется, например, суммой квадратов отклонений от среднего:
X j ) 2 ^ max,
_ minCkec{minCieC\Ck{8(ck,ci)}} тахскес{^(ск)} , где δ – меж кластерное расстояние (оценка отделимости кластеров):
8 (ck>c i ) = т1П х^ Ск, х jEc^t-X11';
△ (cfc) — диаметр кластера (оценка компактности кластеров):
Л(ск) = max xixjEck llx i -x j 11
Исходные данные для исследования
Для апробации рассматриваемых методов оценки качества кластеризации используется
база данных из ресурса Wolfram Mathematica [2, 3]. На рисунке 1 представлен фрагмент (5 записей) исходных данных.
data = ResourceData["Sample Data: Fisher's Irises"] //
[данные ресурса
[массив дан-■ ■ [максимальное число элементов
Species |
Sepal Length |
SepalWidth |
PetalLength |
Petalwidth |
setosa |
5.1cm |
3.5 cm |
1.4 cm |
0.2cm |
setosa |
4.9 cm |
3. cm |
1.4 cm |
0.2cm |
setosa |
4.7 cm |
3.2 cm |
1.3 cm |
0.2cm |
setosa |
4.6 cm |
3.1 cm |
1.5 cm |
0.2 cm |
setosa |
5.cm |
3.6 cm |
1.4 cm |
0.2 cm |
A A rows 1-5 of 150 V V
Рис. 1. Фрагмент исходных данных
2. Основные результаты и их обсуждение
В качестве предварительного результата исследования на рисунке 2 приведена класте-
ризация данных по двум характеристикам, что позволяет визуально оценить качество разбиения на кластеры.

Рис. 2. Разбиение на три кластера по двум характеристикам
Результаты кластеризации по всем пара- кластеров, поэлементно и в среднем по кла-метрам исследуемых объектов (профили трех стерам) представлены на рисунке 3.

Рис. 3. Кластерные профили
Результаты экспериментального сравнения базовых методов оценки качества кластеризации сведены в таблицу 1.
Например, индекс Данна достигает наибольшего значения при разбиении объектов на три кластера.
В таблице 2 представлена матрица ошибок, показывающая корректность разделения на кластеры в сравнении с эталонной экспертной классификацией.
Таблица 1 Результаты сравнения
Показатель |
Число кластеров |
||
2 |
3 |
4 |
|
CalinskiHarabasz |
513.925 |
561.594 |
415.438 |
DaviesBouldin |
0.404293 |
0.666039 |
0.847592 |
Dunn |
0.0765063 |
0.109435 |
0.0547176 |
RSquared |
0.559903 |
0.666593 |
0.688495 |
Silhouette |
0.681046 |
0.551192 |
0.413767 |
StandardDeviation |
1.01458 |
0.732416 |
0.699557 |
Таблица 2. Матрица ошибок
Класс |
versicolor |
virginica |
setosa |
∑ |
versicolor |
47 |
3 |
50 |
|
virginica |
14 |
36 |
50 |
|
setosa |
50 |
50 |
||
∑ |
61 |
39 |
50 |
150 |
Список литературы Введение в оценку качества кластерного анализа
- Кластеризация: суть и задачи. - [Электронный ресурс]. - Режим доступа: https://gb.ru/blog/klasterizatsiya/?ysclid=m2mv2c9b3w426780127 (дата обращения 27.10.2024).
- Русскоязычная версия WOLFRAM. - [Электронный ресурс]. - Режим доступа: https://www.wolfram.com/russian/?source=frontpage-stripe (дата обращения 27.10.2024).
- Stephen Wolfram. An Elementary Introduction to the Wolfram Language. - [Электронный ресурс]. - Режим доступа: https://www.wolfram.com/language/elementary-introduction/2nd-ed/(Дата обращения 27.10.2022).