Формирование признаков на основе методов вычислительной топологии

Автор: Чуканов Сергей Николаевич

Журнал: Компьютерная оптика @computer-optics

Рубрика: Численные методы и анализ данных

Статья в выпуске: 3 т.47, 2023 года.

Бесплатный доступ

Использование традиционных методов алгебраической топологии для получения информации о форме объекта связано с проблемой формирования малого количества информации: чисел Бетти и характеристик Эйлера. Центральным инструментом топологического анализа данных является метод персистентной гомологии, который суммирует геометрическую и топологическую информацию в данных с использованием персистентных диаграмм и баркодов. На основе методов персистентной гомологии может быть выполнен анализ топологических данных для получения информации о форме объекта. Построение персистентных баркодов и персистентных диаграмм в вычислительной топологии не позволяет построить гильбертово пространство со скалярным произведением. Возможность применения методов топологического анализа данных основана на отображении персистентных диаграмм в гильбертово пространство; одним из способов такого отображения является метод построения персистентного ландшафта. Его преимущества заключаются в том, что он обратим, поэтому он не теряет никакой информации и имеет свойства персистентности. В работе рассматриваются математические модели и функции представления объектов персистентного ландшафта на основе метода персистентной гомологии. Рассмотрены методы преобразования персистентных баркодов и персистентных диаграмм в функции персистентного ландшафта. С функциями персистентного ландшафта ассоциируется ядро персистентного ландшафта, которое формирует отображение в гильбертово пространство со скалярным произведением. Предложена формула для определения расстояния между персистентными ландшафтами, которая позволяет находить расстояния между изображениями объектов. Функции персистентного ландшафта отображают персистентные диаграммы в гильбертово пространство. Приведены примеры определения расстояния между изображениями на основании построения функций персистентного ландшафта этих изображений. Рассмотрены представления топологических характеристик в различных моделях вычислительной топологии. Расширены результаты для модулей персистентности с одним параметром на многопараметрические модули персистентности.

Еще

Распознавание образов, многопараметрический персистентный ландшафт, гильбертово пространство, топологический анализ данных

Короткий адрес: https://sciup.org/140300072

IDR: 140300072   |   DOI: 10.18287/2412-6179-CO-1190

Текст научной статьи Формирование признаков на основе методов вычислительной топологии

В последние годы возрос интерес к использованию методов алгебраической топологии для топологического анализа данных [1] и применению в различных областях знаний. Целью топологического анализа данных является определение информативных топологических свойств и использование их в качестве дескрипторов.

Ключевым математическим инструментом в топологическом анализе данных является метод персистентных гомологий, который используется для извлечения топологической информации из данных. Рассмотрим способ формирования персистентной гомологии из точек данных в евклидовом пространстве.

Целью является получение топологии из конечных данных. Рассмотрим r -шары (радиуса r ) для реконструкции топологии. Ожидается, что модель r -шаров может представлять основные топологические структуры. Если r мал, то объединение всех r -шаров состоит из непересекающихся r -шаров. Если радиусы r -шаров слишком большие, то объединение становится одним пространственным компонентом. Персистентная гомология [2] рассматривает все значения r одновременно и обеспечивает выражение для топологических свойств.

Персистентная гомология может быть визуализирована персистентной диаграммой D ={(bi, di) e R2|i e I, bi < di}. Каждая точка (bi, di) eD, которая называется генератором персистентной го- мологии, представляет топологическое свойство, появляющееся при Xbi и исчезающее при Xdi в модели шаров с изменяющемся радиусом r; здесь bi – диаметр шара при появлении (birth) i-й персистентной гомологии; di – диаметр шара при исчезновении (death) i-й персистентной гомологии. Топологическое свойство с высокой персистентностью di – bi может рассматриваться как надежная структура, в то время как топологическое свойство с низкой персистентностью может рассматриваться как шум. Персистентные диаграммы кодируют топологическую и геометрическую информацию о точках данных.

Применение методов для получения информации о форме объекта для сложных систем большой размерности затруднено из-за методов адекватного представления функций, так как формирование баркодов не обеспечивает функциональную зависимость [4]. Геометрический анализ характеризует локальную структуру, но приводит к сложности представления данных. Элементы, полученные из топологических моделей, определяют глобальную внутреннюю структурную информацию, но редуцируют много локальной структурной информации [5].

Метод персистентных гомологий разработан для многомасштабного представления топологических признаков [1, 2, 6]; метод персистентных гомологий обеспечивает связь между топологическими и геометрическими методами. Основная идея персистентных гомологий – применение фильтрации для присвоения каждому топологическому признаку геометрической размерности. Процесс фильтрации генерирует серии симплициальных комплексов, кодируемых со структурной информацией различных масштабов. Персистентная гомология может быть представлена персистентным баркодом или персистентной диаграммой.

Персистентные гомологии могут быть использованы для анализа топологических данных. Существуют подходы к формированию персистентных гомологий, основанные на построении персистентных диаграмм. Однако стандартные меры для персистентных диаграмм (например, расстояние Вассерштейна) не подходят для топологического анализа данных из-за большого количества вычислительных операций. Одним из подходов к топологическому анализу данных является отображение персистентных диаграмм в гильбертово пространство на основе формирования функций персистентного ландшафта (landscape functions) [7, 8].

В работе представлено расширение результатов для модулей персистентности с одним параметром на многопараметрические модули персистентности. Многопараметрический персистентный ландшафт сводится к семейству ландшафтов персистентности с одним параметром. В пространстве Лебега измеримых функций Lp многопараметрических ландшафтов можно построить функции расстояния; естественная структура внутреннего произведения ландшафтных функций порождает положительно определенное ядро. Использование многопараметрических функций персистентного ландшафта повышает разнообразие параметров, характеризующих форму объекта, точность определения расстояния между изображениями объектов.

1. Персистентные гомологии

Предположим, что к +1 точек и0, , uk е R k аффинно независимы. Тогда симплекс – это множество точек:

f 1

C = <ц и 0 + — + Ц kUk\ V. i = 1; Н i ^ 0, i = 0, —, к f-

[ i = 0 J

Симплициальный комплекс K – это множество симплексов, удовлетворяющее условиям: 1) каждая грань K принадлежит K ; 2) [( с 1 n с 2) е с 1 ] л [( c 1 n с 2) е с 2].

Функцию на симплициальном комплексе K / : K ^ R ; /(g) ( т ); те K , для любой грани сет . Множество подуровней K ( a ) = / -1[- да, a ]; V а е R является подкомплексом в K , и упорядочение значений / на симплексах K индуцирует фильтрацию 0 = K 0 с K 1 с-- K n = K . Включение K i ^ K j ; 0 < i < j < n индуцирует гомоморфизм f p , j : Hp ( K i ) ^ Hp ( K j ) на симплициальных группах гомологий для каждой размерности p . p -е персистентные группы гомологий являются образами этих гомоморфизмов; p -е числа Бетти являются рангами этих групп [2].

Персистентные гомологии можно представить в виде топологических генераторов (баркодов) – пар появления (BT – birth time) и исчезновения (DT – death time) баркодов, которые можно обозначить как ljk ={bk,djk}, j е{1,2,...,Nk}, где Nk – общее число k-мерных топологических генераторов [9]. Определим множество баркодов k-го измерения:

Lk =b k ={ b k , d k) , 3.

k (j j , j’j е { 1,2,..., Nk }j

Топологическая персистентность может быть представлена персистентным баркодом (каждый l k j рассматривается как баркод) или персистентной диаграммой (каждый l k j рассматривается как двумерная точка с координатой V j = ( b j k , d k ) ) [10].

Пусть X = { x i , , xn } - множество точек в метрическом пространстве ( M , d M ). Чтобы проанализировать топологические свойства X , рассмотрим модель

n xr=U в (Xi;r), i=1

состоящую из шаров B ( x i , r ) = { x е M | dM ( x i , x ) r} с радиусом r , где d M ( x i , x ) – метрическое расстояние от точки x i до точки x , и используем гомологии H q ( X r )

для описания топологии X r . Здесь для топологического пространства S его q -я гомология Hq ( S ), q = 0,1, ^ , определяется как векторное пространство. Так как X r с X s для r s множество X ={ Xr | r 0} становится фильтрацией. При изменении радиуса новый генератор a i е Hq ( Xr ) появляется на каком-то радиусе r = b i (birth) и исчезает на радиусе r = d i ( death) большем, чем b i . Собирая все a i ( i е I ) в фильтрации X , получаем множество пар Dq ( X )={( b i , d i ) е R 2 | i е I } в виде мультимножества. Персистентная диаграмма D q ( X ) определяется несвязным объединением D q ( X ) и диагонального множества А = {( a , a ) | а е R }, учитываемого с бесконечной кратностью. Точку x = ( b , d ) е Dq ( X ) называют генератором персистентной диаграммы. Персистентность точки x равна: pers ( x ) = d b .

Желательно, чтобы персистентные диаграммы были устойчивыми при возмущении данных. Мерой для изучения сходства между двумя персистентными диаграммами D и E является расстояние bottleneck dB (D, E ) = inf sup | x -y( x )|| ,

Y x е D где у - это различные биекции от D до E: (x еD) ^ (у (x) е E). В качестве расстояния между конечными множествами X, Y в метрическом пространстве M можно использовать Hausdorff расстояние, определяемое формулой:

d H ( X , Y ) =

= max / supinf d M ( x , y ) ,supinf dM ( x , y ) | .

[ x е X y е У                y е У x е X             J

Для представления топологической информации были предложены различные функции, основанные на результатах обработки баркодов.

Непрерывная персистентная функция Бетти определяется как [11]:

k /7k                         —i f (x; Lk ) = E exp I -Ix - j э j |( wj (dk bk)) I,(2)

j k k 2 /                  )

где w j – значения весов.

Для каждого отдельного баркода можно определить кусочно-линейную функцию f ( x , l k ) [7]:

где X m ( x ) - m -е наибольшее значение

( f ( x . i k ) i:.

Для баркодов B = { I j } можно определить функцию персистентного ландшафта как:

X ( k , t ) =

=sup ( h 0| [ t - h , t + h ] с I j , по k различных j

Определим функцию для персистентных диаграмм: D = {( b i , d i )}, b i d i :

f i b.ь , d ) ( t ) = max ( 0,min ( b + 1 , d - 1 ) ) ;

тогда X ( k , t ) = kmax{( b i , d i ) ( t )} i е i , где kmax обозначает k -й наибольший элемент.

Пусть задано множество S . Функция F : S ^ W, где W - гильбертово пространство, называется функцией отображения признаков. Ядро на S является таким симметричным отображением K : S х S ^ R , что для любого n и всех

n x1,...,xn е S,a1,...,an е R: ^aiajK(xi,xj)> 0.

i j=i

RKHS (Reproducing kernel Hilbert space) на множестве S – это гильбертово пространство функций на S , где точечная оценка – непрерывный линейный функционал. Для заданного отображения характеристик существует ассоциированное ядро, определяемое формулой: K ( x , y )= ( F ( x ), F ( y ) ) h .

С ядром K связано гильбертово пространство RKHS W k , которое является пополнением множества функций Kx : S ^ R , заданных формулой: K x ( y )= K ( x , y ), V x е S , относительно скалярного произведения: ( Kx , K y ) = K ( x , y ).

Поскольку функция персистентного ландшафта является отображением характеристик из множества персистентных диаграмм в L 2 ( N x R ), то с ней ассоциируется ядро персистентного ландшафта:

да да

K ( D ( 1 ) , D ( 2 )) = (х( 1 ) , X( 2)) = ^ J x k 1)( t )X k 2)( t ) dt .   (4)

k = 1 -да

Для персистентного ландшафта сформируем p- норму:

x - b k

if x £ (bj, dj), kk if x е bk, —---j k 2

,

да Г да ,            . „     "1 7

IXI=Z J(Xk(t))'dt k=1 -да

if 1 ' < да ,

- x + d j

if x е

b k + d k лк )

2 , d j ) .

2. Персистентные ландшафты

Персистентный ландшафт k -мерного баркода L k – это последовательность функций:

X PL : R ^ [ 0, да ] , m = 1,2,3,...,

и: llXIL = su P X k ( t ) , if ' = да .

Ядро можно рассматривать как ассоциированное отображение признаков:

да

D ^^Xk (D), k=1

которое формирует отображение в гильбертово пространство со скалярным произведением:

to to

{f, g^ = Ef fk (t) gk (t) dt.

k = 1 -to

Расстояния между персистентными ландшафтами можно определить с помощью нормы L :

II X PL-X' PLL = sup| XPL (t )-л^ (t), k,t или нормы [12, 13]:

IIXPL-X' PLIL = г "                       ix                      (6)

= ^f|XPL (t)-XkPL(t)|P dt ,1 ^ p

-to

Пример 1.

Аппроксимируем контур 2D-изображения House пятью точками одинаковой яркости и одинакового цвета в нотации Matlab:

qq_x= [–1 1 1 –1 0];

qq_y=[0 0 2 2 3];

plot (qq_x, qq_y); plot (qq_x, qq_y).

Используя пакет JavaPlex [12, 13], определим баркоды размерности 0:2 [0 1,4142), 2 [0 2), [0 ∞); и размерности 1: [2 2,82825); см. табл. 1.

Табл. 1. Баркоды изображения House

Barcode

dim

birth

peak

death

bar1,2

0

(0, 0)

(0,707, 0,707)

(1,41, 0)

bar3,4

0

(0, 0)

(1, 1)

(2, 0)

bar5

1

(2, 0)

(2,414, 0,414)

(2,828, 0)

Получим функции персистентного ландшафта изображения (см. (3)) для размерности 0:

XHouse (1, t) = t. st (t,(0.1])+ (2 -1). st (t,(1.2]),

X House (2, t ) =

= t. st (t, (0.0,707])+ (1,414 -t). st (t, (0,707^1,414]), где st (t, (a.b]) - ступенчатая функция:

, ,               |1 ift e( a b ], st\t,(a...b ) = <            \

( ,(       ]) [0 ift *( a... b ].

Аппроксимируем контур 2D-изображения House1 пятью точками одинаковой яркости и одинакового цвета в нотации Matlab:

qq_x= [–1 1 1 –1 0];

qq_y=[0 0 2 2 4];

plot(qq_x,qq_y);plot(qq_x,qq_y).

Используя пакет JavaPlex [12, 13], определим баркоды размерности 0: 0: 3 [0, 2,0), [0, 2,233), [0, ∞); и размерности 1: [2,0, 2,828); см. табл. 2.

Получим функции персистентного ландшафта изображения (см. (3)) для размерности 0:

X House1(1, t ) =

= t. st (t ,(0.1,116]) + (2,233 -1). st (t ,(1,116.2,233]),

X House1(2, t ) = t. st (t, (0.1]) + ( 2 -1). st (t, (1.2]).

Табл. 2. Баркоды изображения House1

Barcode

dim

birth

peak

death

bar1,2,3

0

(0, 0)

(1,0, 1,0)

(2,0, 0)

bar4

0

(0, 0)

(1,116, 1,116)

(2,233, 0)

bar5

1

(2, 0)

(2,414, 1,298)

(2,828, 0)

Определим расстояние между изображениями на основании нормы L2, используя соотношение (6) и методы топологического анализа данных:

||X House-xHouse i||2 = 0,5451,

Использование методов традиционной алгебраической топологии не позволяет различить изображения House и House1, так как они имеют одинаковые числа Бетти. ⧠

Пример 2. Рассмотрим пример, аналогичный примеру 1, в котором находится расстояние между изображениями стеклянных бутылок.

Аппроксимируем шестнадцатью точками контур 2D-изображения бутылки молока (в нотации Matlab):

qq_x=[0–1–1,75–1,75–1,75–0,75–1–

1 1 10,75 1,751,751,7510];

qq_y=[0013,756,59,259,251010

9,259,256,53,75100];

plot (qq_x,qq_y); plot(qq_x,qq_y);

и бутылки шампанского (в нотации Matlab):

qq_x=[0–1,25–1,75–1,75–1,075–0,4–0,5

–0,50,50,50,41,075 1,75 1,75 1,250];

qq_y=[000,546,759,59,75 10109,759,56,7540,500]; plot(qq_x,qq_y);

По полученным баркодам сформируем функции персистентных ландшафтов X (k,t) изображения бутылки молока для размерности 0:

X milk (1, t ) =

= t. st (t, (0.2,75]) + (5,5 -1). st (t, (2,75.5,5));

X milk (2, t ) =

= t. st (t, (0.1,45])+ (2,9 -1). st (t ,(1,45.2,9));

X milk (3, t ) =

= t. st (t, (0.0,75]) +(1,5 -1). st (t, (0,75.1,5));

X milk (4, t ) =

= t.st (t,(0.0,615]) + (1,23 -1). st (t,(0,615.1,23));

X milk (5, t ) =

= t.st (t, (0.0,5])+ (1,0 -1). st (t, (0,5.1,0));

и изображения для бутылки шампанского:

X champ (1, t ) =

= tst (t, (0...1,75]) + (3.5 -t )st (t ,(1,75^3,5));

Xchamp (2, t ) =

= t • st (t, (01,4]) + ( 2,8 -t )st (t, (1,4...2,8));

Xchamp (3, t ) =

= t ■ st (t, (0^1,065]) + ( 2,13 -1 )st (t, (1,065...2,13));

Xchamp (4, t ) =

= t st (t, (0...0,615]) + (1,23 -1 )st (t, (0,615...1,23));

Xchamp (5, t ) =

= tst (t, (0...0,4]) + (0,8 -1 )st (t, (0,4...0,8));

Xchamp (6, t ) =

= tst (t, (0^0,35]) + (0,7 -1) st (t, (0,35^0,7));

X champ (7, t ) =

= t st (t, (0...0,13]) + ( 0,26 -1 )st (t,(0,13^0,26));

Xchamp (8, t ) =

= t st (t, (0^0,115]) + ( 0,23 -1 )st (t, (0,115...0,23)).

Для нахождения расстояния между контурами 2D-изображений бутылки молока и бутылки шампанского используем соотношение (6):

||Xmilk - Xchamp 112 = £ j |Xmilk (k, t) - Xchamp (k, t)|2dt. у к -j

В результате получим расстояние между аппроксимированными контурами 2D-изображений бутылки молока и бутылки шампанского: ||Xmilk-Xchamp||2 = 2,68, что указывает на возможность сравнения аппроксимированных контуров 2D-изображений и распознавание различий между этими изображениями. ⧠

Выводы по параграфу 2. В параграфе рассмотрен метод отображения персистентных диаграмм в гильбертово пространство на основе построения функций персистентного ландшафта. Его преимущества в том, что он обратим, поэтому он не теряет никакой информации и имеет свойства персистентности. Нахождение расстояния между объектами (изображениями) с использованием функций персистентного ландшафта (по формуле (6)) значительно уменьшает объем вычислительных операций по сравнению методом нахождения расстояния по формуле Л. Вассерштейна [2].

  • 3.    Методы ядра для персистентных диаграмм

Рассмотрим ядро для персистентных диаграмм, называемое персистентным взвешенным ядром Гаусса (PWGK – persistent weighted Gaussian kernel) [3]. Пусть kw (x, y) = w (x) w (y) k (x, y) – взвешенное ядро весовой функцией w (); рассмотрим отображение:

Ekw : ЦD ^£ w (x) w (■) k (■, x )G 'H .

X G L

Для практических целей выбираем ядро Гаусса kG (x, y ) = exp

IIX -y|12' 2g2

; g0

для k и warc (x) = arctan (C (bxax) p ); C > 0, p > 0 для весовой функции.

Персистентное взвешенное ядро Гаусса (PWGK) определяется следующим образом:

KPWGK

(Lk, Lk, g) =

(

= £   Ware (lk) Ware (lj) eXP

1e Lk, le Lk-

2g2

Ware(Ijk) = aretan (C (dj - bkk )p); C, p0.

Коэффициент warc (x) является возрастающей функцией по отношению к персистентности x. Следовательно, генератор x дает малое значение warc (x) при малых x. Изменяя параметры C, p, можно контролировать эффект персистентности.

По расстоянию между множествами точек персистентных диаграмм Lk и Lk можно оценить расстояния между соответствующими изображениями. Если персистентные диаграммы представлены векторами в RKHS, можно применять к этим векторам методы ядра для определения расстояния между Lk и L'k . Самый простой выбор – рассмотреть линейное ядро на RKHS:

kL ( D, E )=££ Ware ( X ) Ware ( У ) ^G ( X, У ). (8) XG Lk yGL'k

Также можно рассмотреть нелинейное ядро на RKHS, такое как ядро Гаусса:

kG (Lk, Lk ) = exp

dkWG- (Lk, Lk )21 2T2

где dkWGr (Lk, Lk )2 =

= £ £ Ware (X) Ware (X') kG (X, X') + x G Lk X G Lk

+£ £ Ware (У ) Ware ( У') kG (У, У ') -У G Lk У-G Lk

  • -2 ££Ware ( X ) Ware ( У ) kG ( X, У ).

X G Lk У G Lk

Пример 2. Рассмотрим изображение House из пяти точек [–1 0; 1 0; 1 2; –1 2; 0 4] с баркодами в размерности 0: 2 [0 1,4142), 2 [0 2), [0 ∞) и изображение House1 из пяти точек [–1 0; 1 0; 1 2; –1 2; 0 4] с баркодами в размерности 0: 3 [0, 2, 0), [0, 2,233), [0, ∞).

Определим расстояние dkG(House, House1)2 на основе соотношения (9) при wHuse = wHOuse1= 1,2т2 = 1:

£ £ kG (x,x') = 4,838;

xe Lk x'e Lk

££ kG (у,у') =5,841;

уeLk у'e Lk

£ £ kG (x, у ) = 4,098;

xe Lk уe Lk dwar (Lk, Lk)2 = 2,482.

Для оценивания расстояния между изображениями по формуле (8): kG (Lk,Lk) = 0,0836. □

Выводы по параграфу 3. В параграфе рассмотрена структура ядра для топологического анализа данных на основе анализа персистентных диаграмм. Использование персистентного взвешенного ядра позволяет повысить точность определения расстояния между изображениями объектов.

  • 4.    Многопараметрические персистентные ландшафты

Пусть X - топологическое пространство и /: X^ Rn, называемая фильтрующей функцией. Можно связать семейство топологических подпространств, индексированных векторами a = (a 1,...,an) e Rn, индуцированными /: Xi ={ x e X: / (x) iai V i=1,..., n }; это известно как фильтрация множества подуровней. Для любого b e Rn такого, что {a<b | ai<bi, Vi = 1,...,n}, имеем отображение включения Xi ^Xb Если H - функтор гомологий, то применение этого функтора к набору {Xt}aeRn и соответствующим отображениям включения приведет к семейству векторных пространств {H(Xi)}aeRn и линейных отображений {H(Xi) ^ H(X>)}a<b , известному как многопараметрический персистентный модуль с множеством подуровней.

Пусть M – многопараметрический персистентный модуль, тогда при a b функция P (,), задающая соответствующее число Бетти, является ранговым инвариантом M:

в(а,b) = dim(Im(Ma^ Mb)).

Многопараметрическая ранговая функция rk: R2n ^ R задается формулой:

./. .a /P(b,d) ifb<d, rk(b,d) = < v '                                     (11)

  • [ 0 otherwise.

Перемасштабированная ранговая функция r: R2n ^ R:

z A [p(m — h, m + h)   if h > 0, r (m, h) = < v ’

  • [       0 otherwise.

Многопараметрический персистентный ландшафт рассматривает максимальный радиус, в котором k признаков сохраняются в каждом (положительном) направлении через x в пространстве параметров X : N x Rn ^ R :

X( k, x) =

  • = sup{e > 0: P(x -h, x + h) k, Vh 0,||h||^ < ej.

Пусть we {ueRn: ui> 0, || u ||®=1} - весовой вектор, соответствующий перемасштабированию пространства параметров Rn. Определим w-взвешенную норму IIhlIW : IhIW =||(w ® h)|| . w-взвешенный персистентный ландшафт представляет собой функцию X„ : N x Rn ^ R :

Xw(k, x ) = w (13)

  • = sup{e >0:P(x-h,x + h)>k,Vh>0,||h||mj.

Декартово произведение функций p-ландшафта соответствует использованию функции персистентного ландшафта по каждой координате и последующему применению p-нормы, Xp : N x Rn ^ R :

  • X p (k, x)=||(sup{ h0: P( x - hiei; x + h,-ei)>k}) j . (14)

Определим ландшафтное q-расстояние:

dXqAM,M') = |Xp (M)-Xp (M')|L,             (15)

где M, M' – многопараметрические персистентные модули.

Пример 3. Поскольку изображение числа 6 можно получить из изображения числа 9 с помощью евклидова преобразования (поворота относительно центра изображения на п рад), то топологические характеристики этих изображений неразличимы.

Определим координаты точек изображения цифры 9 (в нотации Matlab):

9x =[1 1 2 3 4 4 4 4 4 4 4 3 2 1 1 1 1 2 3 4];

9у = [2 1 1 1 1 2 3 4 5 6 7 7 7 7 6 5 4 4 4 4].

Традиционным методом определения баркодов является метод изменения радиусов r шаров [2]. Найдем баркоды при сканировании изображений цифр 9 и 6 слева направо (то есть прямая вертикальная линия сканируется слева направо, при этом становится известна информация об изображении слева от прямой, но неизвестна информация об изображении справа от прямой) и при сканировании изображений снизу вверх, то есть прямая горизонтальная линия сканируется снизу вверх, при этом становится известна информация об изображении снизу от прямой, но неизвестна информация об изображении сверху от прямой) (см. табл. 3 и 4). Баркоды, полученные при сканировании изображений слева напра- во и снизу вверх, повышают разнообразие информации об объекте (изображении) и повышают надежность определения характеристик; например, расстояния между изображениями.

Табл. 3. Баркоды при сканировании изображения цифры 9 слева направо и снизу вверх

Баркоды при сканировании изображения цифры 9 слева направо (right) [16]

p

в1=1

Баркоды

[1,5]; [1,4]

[1,5]

Баркоды при сканировании изображения

цифры 9 снизу вверх (up)

[16]

p

Po=1

P1 = 1

Баркоды

[1,8]

[4,8]

Функции персистентного ландшафта для Р0 = 1:

Xright (1, xright )= tst (t,(1^3]) + (5 -t)st (t, (3^5]);

Xright (2,x„ght) = tst(t,(1...2,5]) + (4-1)st(t,(2,5...4]);

X up (1, Xup )= tst (t, (1^4,5])+ (8 -1 )st (t, (4,5...8]).

Определим координаты точек изображения цифры 6 (в нотации Matlab):

6x = [4 4 3 2 1 1 1 1 1 1 1 2 3 4 4 4 4 3 2 1];

6y = [6 7 7 7 7 6 5 4 3 2 1 1 1 1 2 3 4 4 4 4].

Табл. 4. Баркоды при сканировании изображения цифры 6 слева направо и снизу вверх

Баркоды при сканировании изображения цифры 6 слева направо (right)

p

Po=1

в1=1

Баркоды

[1,5]

[4,5]

Баркоды при сканировании изображения цифры 6 снизу вверх (up)

p

Po=1

P1 = 1

Баркоды

[1,8]; [6,7]

[1,8]

Функции персистентного ландшафта для Ро = 1:

Xright (1,xright) = tst(t,(1^3]) + (5 -1)st(t,(3...5]);

X up (1, Xup ) = tst (t, (1^4,5]) + (8 -1 )st (t, (4,5...8]);

Xup (2,Xup ) = tst (t,(6^6,5])+ (7 -1)st(t,(6,5...7]).

Найдем q – расстояние между изображениями цифры 9 и цифры 6:

d (M (9), M (6)) =

При p = q =2 получим: в случае i = right:

to                                                                         2

^J |t ■ st (t, (1^2,5]) + ( 4 -1 )■ st (t, (2,5...4])| k -to

0,5

dt

= 2,449;

в случае i = up:

' да                                                                                  2I0-5

^J|t■ st(t,(6^6,5]) + (7-1)■ st(t,(6,5^7])| dt =

-да,

= 4,425.

q – расстояние между многопараметрическими персистентными ландшафтами равно:

d (M (9), M (6)) =(2,4492+4,4252)0,5=5,057;

то есть изображение цифры 9 отличается от изображения цифры 6.

Выводы по параграфу 4. В параграфе представлены методы формирования инвариантов для многопараметрических модулей персистентности, которые расширяют результаты для модулей персистентности с одним параметром на многопараметрические модули персистентности. Использование многопараметрических функций персистентного ландшафта повышает разнообразие параметров, характеризующих форму объекта, точность определения расстояния между изображениями объектов.

Заключение

Для повышения производительности моделей топологического анализа данных необходимо ввести функциональные возможности, способные сохранить внутреннюю информацию данных и уменьшить размерность данных. Использование традиционных методов алгебраической топологии для получения информации о форме объекта связано с проблемой формирования малого количества информации. Основным инструментом топологического анализа данных является метод персистентной гомологий, который суммирует геометрическую и топологическую информацию в данных. Использование методов персистентной гомологии по отношению к традиционным методам алгебраической топологии дает дополнительную информацию о форме объекта. Применение методов топологического анализа данных для сложных систем большой размерности затруднено из-за методов адекватного представления функций, так как формирование баркодов не обеспечивает функциональную зависимость. Использование стандартных метрик для персистентных диаграмм затрудняет выполнение вычислительных операций. Построение персистентных баркодов и персистентных диаграмм в вычислительной топологии не позволяет построить гильбертово пространство со скалярным произведением. Возможность применения методов топологического анализа данных основано на отображении персистентных диаграмм в гильбертово пространство;

одним из способов такого отображения является метод построения персистентного ландшафта. Его преимущества в том, что он обратим, поэтому он не теряет никакой информации и имеет свойства персистентности. В работе рассматриваются математические модели персистентных гомологий и функции персистентных ландшафтов представления признаков в методах топологического анализа данных. Функции персистентных ландшафтов отображают диаграммы персистентности в гильбертово пространство. Рассмотрена структура ядра для анализа персистентных диаграмм. Представлены инварианты для многопараметрических модулей персистентности, которые расширяют результаты для модулей персистентности с одним параметром на многопараметрические модули персистентности. Использование многопараметрических функций персистентного ландшафта повышает разнообразие параметров, характеризующих форму объекта, точность определения расстояния между изображениями объектов.

Работа выполнена при поддержке Программы фундаментальных исследований СО РАН I.5.1, проект № 0314-2019-0020 и Российского научного фонда, грант № 22-21-00035.

Список литературы Формирование признаков на основе методов вычислительной топологии

  • Carlsson G. Topology and data. Bulletin of the American Mathematical Society 2009; 46(2): 255-308. DOI: 10.1090/S0273-0979-09-01249-X.
  • Edelsbrunner H, Harer JL. Computational topology: an introduction. American Mathematical Society, 2010. ISBN: 978-0-8218-4925-5.
  • Kusano G, Hiraoka Y, Fukumizu K. Persistence weighted Gaussian kernel for topological data analysis. Int Conf on Machine Learning (PMLR) 2016: 2004-2013.
  • Hofer C, et al. Deep learning with topological signatures. NIPS'17: Proc 31st Int Conf on Neural Information Processing Systems 2017: 1633-1643.
  • Hatcher A. Algebraic topology. Cambridge UP; 2005. ISBN: 978-0-521-79160-1.
  • Zomorodian AJ. Topology for computing. Cambridge University Press; 2005. ISBN: 978-0-521-83666-1.
  • Bubenik P. The persistence landscape and some of its properties. In Book: Topological data analysis. Cham: Springer; 2020: 97-117. DOI: 10.1007/978-3-030-43408-3_4.
  • Pun CS, Xia K, Lee SX. Persistent-homology-based machine learning and its applications--A survey. arXiv preprint. 2018. Source: https://arxiv.org/abs/1811.00252. DOI: 10.48550/arXiv.1811.00252.
  • Ghrist R. Barcodes: the persistent topology of data. Bulletin of the American Mathematical Society 2008; 45(1): 61-75. DOI: 10.1090/S0273-0979-07-01191-3.
  • Mischaikow K, Nanda V. Morse theory for filtrations and efficient computation of persistent homology. Discrete & Computational Geometry 2013; 50(2): 330-353. DOI: 10.1007/s00454-013-9529-6.
  • Xia K. A quantitative structure comparison with persistent similarity. arXiv preprint. 2017. Source: https://arxiv.org/abs/1707.03572. DOI: 10.48550/arXiv.1707.03572.
  • Chukanov SN. Comparison of objects' images based on computational topology methods. Informatics and Automation 2019; 18(5): 1043-1065. DOI: 10.15622/sp.2019.18.5.1043-1065.
  • Chukanov SN. The comparison of diffeomorphic images based on the construction of persistent homology. Automatic Control and Computer Sciences 2020; 54(7): 758-771. DOI: 10.3103/S0146411620070056.
  • Vipond O. Multiparameter persistence landscapes. J Mach Learn Res 2020; 21(61): 1-38.
  • Botnan MB, Lesnick M. An introduction to multiparameter persistence. arXiv preprint. 2022. Source: https://arxiv.org/abs/2203.14289. DOI: 10.48550/arXiv.2203.14289.
  • Adcock A, Carlsson E, Carlsson G. The ring of algebraic functions on persistence bar codes. arXiv preprint. 2013. Source: https://arxiv.org/abs/1304.0530.
  • Kwitt R, et al. Statistical topological data analysis-a kernel perspective. NIPS'15: Proc 28th Int Conf on Neural Information Processing Systems 2015; 2: 3070-3078.
  • Sriperumbudur BK, Fukumizu K, Lanckriet GRG. Universality, characteristic kernels and RKHS embedding of measures. J Mach Learn Res 2011; 12(7): 2389-2410.
Еще
Статья научная