Сравнение дендрограмм с равным числом вершин
Автор: Сидоров Юрий Владимирович, Кириков Павел Владимирович, Рогов Александр Александрович
Журнал: Ученые записки Петрозаводского государственного университета @uchzap-petrsu
Рубрика: Физико-математические науки
Статья в выпуске: 8 (121), 2011 года.
Бесплатный доступ
Расстояния между дендрограммами, вероятностный подход, сравнение расстояний
Короткий адрес: https://sciup.org/14750033
IDR: 14750033
Текст статьи Сравнение дендрограмм с равным числом вершин
Один из наиболее популярных алгоритмов кластерного анализа – иерархический алгоритм [1]. Результатом этого алгоритма является дендрограмма. При проведении кластеризации часто приходится рассматривать одни и те же объекты с полным и укрупненным набором признаков [4]. Результаты кластеризации могут в этих случаях отличаться, при этом возникает вопрос о критерии, согласно которому можно решать вопрос о том, значительны или незначительны отличия в результатах. Решение этой задачи и некоторых других требует построения метрики, позволяющей находить расстояния между дендрограммами.
ОПРЕДЕЛЕНИЕ РАССТОЯНИЯ МЕЖДУ ДЕНДРОГРАММАМИ
Пусть A, B – две дендрограммы, содержащие n объектов. Обозначим Ak , Bk – k-е слои данных дендрограмм. Первоначально каждая дендрограмма содержит n объектов, каждый из которых выделен в свой кластер. На каждом слое происходит объединение двух кластеров в один, в результате на k-м слое дендрограмма содержит n – k кластеров. В таком случае функцию схожести ρ ( A , B ) двух дендрограмм можно задать как функцию от функции схожести ρ ( Ak , Bk ) одинаковых слоев дендрограмм. В качестве такой функции могут выступать p m ( A, B ) = ^max_1 р ( A , B ) или P a ( A , B) = -^ £ P ( A k , B k ) . В работе [4] и в данном исследовании используется p a ( А , В ).
Функцию схожести одинаковых слоев дендрограмм можно задать как функцию от функций схожести р (A k , B j ) для каждого из n - k кластера этого слоя.
В зависимости от постановки задачи следует применять различные подходы к определению данного расстояния. В случае сравнения деревь-
ев безотносительно к способу нумерации узлов, например в задачах сравнения деревьев семантического описания, для корректности значения данной функции необходимо произвести нормировку значения, учитывать инвариантность к способу нумерации объектов и кластеров. Этим свойствам будет удовлетворять следующая метрика: р ( A k , B k ) = 'min £ р ( A j , B p, n - k e^ *=7 1
где A j , B ^ j - соответственно i и 6 кластеры k-го слоя дендрограмм A и B, Θ – множество всевозможных n – k элементных размещений номеров групп от 1 до n – k.
При сравнении дендрограмм важно учитывать порядок группировки узлов. В таком случае предлагается применение следующей метрики:
1 n _ k 2 * N
p(Ak, Bk) = — £ pi, pi =-----— для расстояния n=1 N^X + n,2
Хемминга, p =-----1—— для расстояния n,,1 + n,,2 _ N
Роджерса – Танимото, где ni 1 и ni 2– число объектов в группе, содержащей , объе, кт i, соответственно в первом и втором дереве, Ni – число совпадающих элементов в группах, содержащих объект i. В данной статье рассматривается второй подход.
ОПРЕДЕЛЕНИЕ ЗНАЧИМОСТИ РАЗЛИЧИЙ МЕЖДУ ДЕНДРОГРАММАМИ
Независимо от используемых расстояний возникает проблема определения, какие значения расстояний можно считать большими, а какие – малыми для ответа на вопрос о том, является ли отличие между дендрограммами существенным или возникшим случайным образом. В данной статье предлагается подход, основанный на вероятностной модели генерации дендрограмм. Если значение расстояния оказывается таким, что значения не меньше данного встречаются в рамках модели редко, оно считается «большим» (статистически значимым), а если они встречаются часто – то «малым».
Определим случайный эксперимент, порождающий пару дендрограмм. Расстояние между случайно появившимися дендрограммами будет случайной величиной. На этой основе можно получить вероятностное распределение значений расстояния и провести градуировку интервала возможных значений с помощью квантилей функции распределения расстояния. Пусть λa – квантиль уровня a для функции распределения Fp ( t ). Тогда, если расстояние p оказывается не меньше, чем λa , можно сделать вывод, что не менее чем a * 100 % случайно выбранных пар разбиений имеют между собой расстояние меньше, чем p . Аналогичный подход рассмотрен авторами в работе [1] при сравнении расстояний между подмножествами.
ВЕРОЯТНОСТНАЯ МОДЕЛЬ ПОЯВЛЕНИЯ ЗНАЧЕНИЯ РАССТОЯНИЯ
Представим кластера Aki и Bkj в виде бинарных векторов a и b размерности n, построенных по принципу: ai = 1 тогда и только тогда, когда объект u_ входит в кластер А: u_ G A, в противном случае ai = 0 (аналогично для b и B). Обозначим через pi, i = 1, …, n вероятность появления элемента ui в кластере. Рассмотрим случайный эксперимент, состоящий из n независимых испытаний, в каждом из которых элемент может как появиться, так и не появиться в кластерах. Тогда в каждом испытании возможны исходы четырех видов Auv = {Xj = u, y f = v}, где u, v G {0,1}, i - но- мер испытания. Пусть I(A) – индикатор события n
A , I ( A^ ) + 1 ( A ^) + 1 ( A 0 1 ) + 1 ( A 0 0 ) = 1 , a = 1 I ( A^ ) ,
Учитывая, что p i = —Ц-, формула (1) примет n - к
вид: f,(t)= 1, 1 iic^VIw
(a,b,с,d)еC(A1\,„,A„no ) BM n k n - к -1 n - к
1 ( 1 ' ( A 01 )" ' ( A 1 i 0 )
1 [ n - к -1 ] I n - к I n - к ))
у у П 1 ( n - к - 1)2 d ( n - к - 1)
UbTdVcU 1 a- A h( n - к ) 2 a ( n - к ) 2 d ( n - к ) 2 b + 2 c
( a , b , c , d ) I C ( A n,.., A 00 I B 1=1 v 7 v 7 v 7
b + c
- ( n - к - 1) n + d - a
, 1. 1 11 2 n
( a , b , c , d ) e C ( A 1\, „ , A n I B - =l ( n к )
.
РАССТОЯНИЕ ХЕММИНГА
Для конкретных расстояний формула (2) может упрощаться. В [6] в качестве простейшего коэффициента различия между множествами, обладающего свойствами метрики, предлагается мощность симметрической разности: |X A Y | =| ( X \ Y ) u ( Y \ X ) . Если разделить это число на n , то получим расстояние Хэмминга [3] между бинарными векторами, принимающее значения от 0 до 1:
p H ( X , Y ) = ----- = — , где m = b + c .
nn
Вероятность исходов Ai 10 и Ai 01 равняется 1 1 n к 1m
-----* (1--) =------- 2-. Тогда n - к n - к ( n - к )
X \ 2 b + c ( n - к - 1) b + c
F , ( t ) = P ( p H ( X , Y ) < t ) = 1 C — ' 2 b +, ’ x
— ( n к )
m : < t n
((n - к)2 - 2(n - к -1))a+d (n - к)2a+2d b = 11 (Aio),
c = 1 1 ( A 01 ) , d = 1 1 ( A Oo ) . Тогда a +
i = 1 i = 1 i = 1
+ b + c + d = n .
Согласно мультиномиальному (полиномиальному) распределению [5], функция распреде-
1 —
Cn m m:—< t
n
2 b + c ( n - к - 1) b + c *2 b + c ( n - к - 1) b + c
( n - к )2 b + 2 c
( n - к )2 b + 2 c '
ления расстояния примет вид:
F , ( t ) = P p ( X , Y ) < t ) = (1) = 1 1 ri p ' ( A "1» - p ■ *00 ’ ( p. ( 1 - p.» *A "Mo ' ( a , b , c , d ) e C ( A h , _ , A 0По | B i = 1 ’
1C— m m:—< t
n
2 m ( n - к - 1) m ( n - к )2 a + 2 d - 2 n ( n - к - 1) n ( n - к )2 n
C m 2 m ( n - к - 1) m b m- n ( n - к )2 m
m : < t
n
C m 2 n ( И - к - 1) n ^ m? ( n - к )2 n
m :—< t x 7
n
.
где
C
=
{
(
a,b,c,d
)
G
Z
4:
a,b,c,d >
0
, a + b + c + d = = n,h (a,b,c,d
)
Объединение любых двух кластеров на каждом шаге является равновозможным. Будем считать равновозможной нумерацию кластеров на каждом слое. Вычислим вероятность появления произвольного объекта в любом кластере. Вероятность P k, попадания i-го объекта в j-й кластер на k-м слое не зависит от i и j и равняется ——.
n - к
РАССТОЯНИЕ РОДЖЕРСА – ТАНИМОТО
Одним из часто используемых коэффициентов различия между бинарными векторами является расстояние Роджерса – Танимото, получаемое из одноименной меры близости [5] и равное
,R (X, Y ) = 1--a + d 4 = 2(b + c) = 2—, a + d + 2(b + c) n + b + c n + m где m – количество исходов A01 ∪ A10 в n испытаниях, то есть m = b + c.
Число исходов m рассчитывается аналогично предыдущему пункту, следовательно,
2^ ( 2 — k — 1) m
F R ( t ) = P (p RT ( X , Y ) < t ) = - C m 1 2 m
2 m ( 2 — k )
m:-----< t n+m
_ 2 2 ( n — k — 1) 2
m
-
— 2 ( n — k )2 2
-
m :-----< t
n + m
—
m
C n .
2 m m:-----< t n+m
ЧИСЛЕННОЕ ВЫЧИСЛЕНИЕ КВАНТИЛЕЙ РАСПРЕДЕЛЕНИЯ
Для подсчета квантилей функций распределения расстояний была разработана специальная компьютерная программа. Результаты работы этой программы представлены в табл. 1, содержащей в себе квантили уровня a для двух рассмотренных в статье расстояний, рассчитанные для различных n . Для каждого a в табл. 1 представлены 2 квантиля, расположенные следующим образом: вверху – квантиль для расстояния Хэмминга, внизу – для расстояния Роджерса – Танимото.
Таблица 1
Квантили функции распределения для различных n (с точностью 0,001)
k\p |
0,6 |
0,7 |
0,8 |
0,9 |
0,95 |
0,99 |
3 |
0,334 |
0,334 |
0,334 |
0,667 |
0,667 |
0,667 |
0,501 |
0,501 |
0,501 |
0,801 |
0,801 |
0,801 |
|
4 |
0,334 |
0,334 |
0,334 |
0,667 |
0,667 |
0,667 |
0,501 |
0,501 |
0,501 |
0,801 |
0,801 |
0,801 |
|
5 |
0,401 |
0,401 |
0,401 |
0,601 |
0,601 |
0,801 |
0,572 |
0,572 |
0,572 |
0,751 |
0,751 |
0,889 |
|
15 |
0,334 |
0,334 |
0,401 |
0,467 |
0,534 |
0,601 |
0,501 |
0,501 |
0,572 |
0,637 |
0,696 |
0,751 |
|
30 |
0,334 |
0,367 |
0,401 |
0,434 |
0,467 |
0,534 |
0,501 |
0,537 |
0,572 |
0,605 |
0,637 |
0,696 |
|
45 |
0,356 |
0,356 |
0,378 |
0,423 |
0,445 |
0,489 |
0,525 |
0,525 |
0,549 |
0,594 |
0,616 |
0,657 |
|
60 |
0,351 |
0,367 |
0,384 |
0,417 |
0,434 |
0,484 |
0,519 |
0,537 |
0,555 |
0,589 |
0,605 |
0,652 |
АНАЛИЗ ДЕНДРОГРАММ ПРИ КЛАССИФИКАЦИИ ТЕКСТОВ С РАЗНЫМ НАБОРОМ ПРИЗНАКОВ
Задача сравнения дендрограмм была поставлена в [4], где анализировались результаты кластеризации объектов с разным количеством при- знаков. При проведении исследований по атрибуции текстов использовалось: распределение 16 частей речи на первых трех и последних трех позициях каждого предложения. Таким образом, каждому тексту соответствовал набор 96 (16 х 6) признаков; расширенный набор признаков за счет учета дополнительных морфологических характеристик, свойственных каждой части речи (например, падеж для существительных, форму и степень сравнения для прилагательных, вид, залог и лицо для глаголов и т. д.). В итоге стали использоваться 156 признаков, соответственно, текст стал характеризоваться набором в 936 (156 х 6) признаков.
Была обнаружена визуальная схожесть дендрограмм, полученных при иерархической классификации 60 текстов. Проверим эту схожесть с помощью предложенного метода. Коэффициенты близости между иерархическими деревьями приведены в табл. 2.
Таблица 2
Коэффициенты близости между иерархическими деревьями, построенными на основе различного числа признаков: 16 (1) и 156 (2)
По всему тексту |
(1) |
0,877995 |
(2) |
0,839487 |
|
По первому и последнему предложению абзаца |
(1) |
0,936056 |
(2) |
0,914381 |
|
По первому предложению абзаца |
(1) |
0,910971 |
(2) |
0,880166 |
|
По последнему предложению абзаца |
(1) |
0,941005 |
(2) |
0,921237 |
Из табл. 2 видно, что коэффициенты близости текстов принимают значения немногим меньше 1. Сравнивая их с экспериментальными результатами (табл. 1), можно сделать вывод, что значения мер близости встречаются менее чем в 1 % случаев (уровень надежности – 0,99). Это означает, что увеличение числа грамматических признаков не позволяет эффективно решать задачу атрибуции анонимных и псевдонимных литературных произведений. Проведенное исследование показало статистически незначимое отличие классификации текстов по двум наборам признаков.
Список литературы Сравнение дендрограмм с равным числом вершин
- Варфоломеев А. А., Кириков П. В., Рогов А. А. Вероятностный подход к сравнению расстояний между подмножествами конечного множества//Ученые записки Петрозаводского государственного университета. Сер. «Естественные и технические науки». 2010. № 8 (113). С. 83-88.
- Дюран Б., Оделл П. Кластерный анализ. М.: Статистика, 1977. 128 с.
- Орлов А. И. Нечисловая статистика. М.: МЗ-Пресс, 2004. 513 с.
- Сидоров Ю. В. Математическая и информационная поддержка методов обработки литературных текстов на основе формально-грамматических параметров: Автореф. дис. … канд. техн. наук. Петрозаводск, 2002. 19 с.
- Ширяев А. Н. Вероятность. М.: Наука, 1980. 576 с.
- Rogers D., Tanimoto T. A computer program for classifying plants//Science. 1960. Vol. 132. № 3434. P. 1115-1118.