Введение в оценку качества кластерного анализа

Автор: Вашакидзе Н.С., Филиппова Г.В., Рауш Н.Л., Осипов Г.С.

Журнал: Международный журнал гуманитарных и естественных наук @intjournal

Рубрика: Технические науки

Статья в выпуске: 10-2 (97), 2024 года.

Бесплатный доступ

Изложены базовые основы методов оценки качества кластеризации многомерных объектов, характеризуемых разнородными показателями. Проведена практическая реализация кластерного анализа с использованием классической базы данных объектов. В системе символьной математики Wolfram Mathematica построены поэлементные профили кластеров и по кластерам в целом. Выполнен сравнительный анализ основных мер оценки качества кластеризации. Приведена внешняя оценка качества в сравнении с экспертным классификатором.

Оценка качества кластеризации, профили кластеров, сравнение с экспертной классификацией

Короткий адрес: https://sciup.org/170206936

IDR: 170206936   |   DOI: 10.24412/2500-1000-2024-10-2-86-89

Текст научной статьи Введение в оценку качества кластерного анализа

Имеется множество объектов, характеризуемых набором параметров. Требуется провести кластеризацию объектов и оценить качество кластерного анализа с помощью базовых метрик, основанных на гипотезах компактности и отделимости кластеров.

Целью исследование является проведение сравнительного анализ методов оценки качества кластеризации.

м ; |

сс=^

7=1i=i где M - количество кластеров,

С - j-й кластер, ху eX - объекты кластеризации.

м

CS = n^(x —

7=1

где n =|X|.

Индекс Данна (Dunn Index)

Индекс Данна рассчитывается по формуле:

  • 1.    Материал и методы исследования

В работе использовались следующие методы оценки качества кластеризации [1]:

Компактность кластеров (Cluster

Cohesion)

Компактность кластеров обеспечивается минимизацией внутри кластерного расстояния:

  • xj) 2 ^ min,

Отделимость    кластеров    (Cluster

Separation)

Определяется, например, суммой квадратов отклонений от среднего:

X j ) 2 ^ max,

_ minCkec{minCieC\Ck{8(ck,ci)}} тахскес{^(ск)}       , где δ – меж кластерное расстояние (оценка отделимости кластеров):

8 (ck>c i ) = т1П х^ Ск, х jEc^t-X11';

(cfc) диаметр кластера (оценка компактности кластеров):

Лк) = max xixjEck llx i -x j 11

Исходные данные для исследования

Для апробации рассматриваемых методов оценки качества кластеризации используется

база данных из ресурса Wolfram Mathematica [2, 3]. На рисунке 1 представлен фрагмент (5 записей) исходных данных.

data = ResourceData["Sample Data: Fisher's Irises"] //

[данные ресурса

[массив дан-■ ■ [максимальное число элементов

Species

Sepal Length

SepalWidth

PetalLength

Petalwidth

setosa

5.1cm

3.5 cm

1.4 cm

0.2cm

setosa

4.9 cm

3. cm

1.4 cm

0.2cm

setosa

4.7 cm

3.2 cm

1.3 cm

0.2cm

setosa

4.6 cm

3.1 cm

1.5 cm

0.2 cm

setosa

5.cm

3.6 cm

1.4 cm

0.2 cm

A A rows 1-5 of 150 V V

Рис. 1. Фрагмент исходных данных

2. Основные результаты и их обсуждение

В качестве предварительного результата исследования на рисунке 2 приведена класте-

ризация данных по двум характеристикам, что позволяет визуально оценить качество разбиения на кластеры.

Рис. 2. Разбиение на три кластера по двум характеристикам

Результаты кластеризации по всем пара- кластеров, поэлементно и в среднем по кла-метрам исследуемых объектов (профили трех стерам) представлены на рисунке 3.

Рис. 3. Кластерные профили

Результаты экспериментального сравнения базовых методов оценки качества кластеризации сведены в таблицу 1.

Например, индекс Данна достигает наибольшего значения при разбиении объектов на три кластера.

В таблице 2 представлена матрица ошибок, показывающая корректность разделения на кластеры в сравнении с эталонной экспертной классификацией.

Таблица 1 Результаты сравнения

Показатель

Число кластеров

2

3

4

CalinskiHarabasz

513.925

561.594

415.438

DaviesBouldin

0.404293

0.666039

0.847592

Dunn

0.0765063

0.109435

0.0547176

RSquared

0.559903

0.666593

0.688495

Silhouette

0.681046

0.551192

0.413767

StandardDeviation

1.01458

0.732416

0.699557

Таблица 2. Матрица ошибок

Класс

versicolor

virginica

setosa

versicolor

47

3

50

virginica

14

36

50

setosa

50

50

61

39

50

150

Список литературы Введение в оценку качества кластерного анализа

  • Кластеризация: суть и задачи. - [Электронный ресурс]. - Режим доступа: https://gb.ru/blog/klasterizatsiya/?ysclid=m2mv2c9b3w426780127 (дата обращения 27.10.2024).
  • Русскоязычная версия WOLFRAM. - [Электронный ресурс]. - Режим доступа: https://www.wolfram.com/russian/?source=frontpage-stripe (дата обращения 27.10.2024).
  • Stephen Wolfram. An Elementary Introduction to the Wolfram Language. - [Электронный ресурс]. - Режим доступа: https://www.wolfram.com/language/elementary-introduction/2nd-ed/(Дата обращения 27.10.2022).
Статья научная