Модельно-ориентированный дескриптор поля градиента как удобный аппарат распознавания и анализа цифровых изображений

Бесплатный доступ

В работе предлагается новый дескриптор, используемый для описания цифрового изображения – модельно-ориентированный дескриптор поля градиента. Производные характеристики дескриптора, рассматриваемые как признаки цифрового изображения, позволяют эффективным образом решать задачи анализа, распознавания и поиска изображений. Представлены примеры решения таких задач с использованием предложенного дескриптора.

Цифровые изображения, дескрипторы, признаки, анализ, распознавание, поиск

Короткий адрес: https://sciup.org/14059126

IDR: 14059126

Текст научной статьи Модельно-ориентированный дескриптор поля градиента как удобный аппарат распознавания и анализа цифровых изображений

Локальные дескрипторы, вычисляемые для определённых зон интереса анализируемого изображения, – достаточно мощное современное средство решения широкого класса задач обработки, анализа, понимания и поиска цифровых изображений [1-6]. В настоящее время существует множество различных дескрипторов, которые условно можно разделить на следующие категории.

Дескрипторы на основе вероятностных распределений . Для этой категории дескрипторов фрагмент изображения используется для построения оценки некоторого распределения вероятностей. Наиболее простыми вариантами являются гистограмма распределения функции яркости в анализируемом фрагменте или гистограмма распределения расстояний между «особыми точками», найденными на этом фрагменте. Дескрипторы этой категории были предложены, в частности, Johnson и Hebert [7], Zabih и Woodfill [8] и другими авторами. Особую популярность за универсальность и качественные показатели в последнее время приобрели дескрипторы SIFT [9], HOG [3] и LESH [10], предложенные соответственно Lowe в 1999 году (SIFT – scale invariant feature transform), Dalal и Triggs в 2005 году (HOG-histogram of gradients) и Sarfraz и Hellwich в 2008 году (LESH – Local Energy based Shape Histogram). По принципу построения некоторые другие дескрипторы оказываются похожими на эти дескрипторы либо используют схожие подходы. В частности, геометрические гистограммы [11] и контекст формы [12] используют ту же идею, что и SIFT дескриптор, а GLOH (Gradient Location and Orientation Histogram) [2] – аналогичную дескриптору HOG.

Дескрипторы на основе спектрального и спектрально-частотного представления. Дескрипторы этого класса формируются как функции отсчётов спектрального или спектрально-частотного разложения анализируемого фрагмента изображения. Наиболее популярными способами построения дескрипторов этой категории являются использование фильтров Габора [4-6, 13] и вейвлетов [4-6, 14]. Другими популярными способами является использование Фурье-разложения [6], преобразований Радона или Hough [4-6, 15, 16] степенных моментов или моментных инвариантов [4-6, 17-20] и др.

Дифференциальные дескрипторы . Дескрипторы этой категории рассчитываются как функции частных производных функции яркости анализируемого изображения. Такой способ описания анализируемого изображения использовали в своих работах Koenderink [21], Florack и соавторы [22], Freeman и Adelson [23] при построении управляемых фильтров ( steerable filters ), Baumberg [24], Schaffalitzky and Zisserman [25] и другие. В рамках рассматриваемой категории дескрипторов особо стоит отметить направление, связанное с использованием только фазовой составляющей градиента изображения – так называемого поля направлений [6, 26]. Использование только этой частичной информации позволяет достаточно эффективно анализировать особый тип изображений – изображения со структурной избыточностью , – к которым можно отнести широкий спектр медицинский изображений, микро- и нано-масштабные изображения [6, 26].

Следует дополнительно отметить, что использование вероятностно-статистического аппарата для последней рассмотренной категории дескрипторов – дифференциальных дескрипторов – переводит их из третьей категории в первую, что подчёркивает (как было указано в начале обзора) условный характер представленной классификации. Более подробный анализ дескрипторов, их категорий, а также их аналитическое сравнение и сравнение их эффективности при решении прикладных задач могут быть найдены в работах [1,2, 27] и других.

В настоящей работе предлагается новый тип дескриптора изображения, конструируемый на основе дифференциальных и вероятностных свойств локальной окрестности наблюдаемого изображения (комбинация первой и третьей рассмотренных категорий). Спецификой вводимого дескриптора является наличие априори заданного (или заранее определённого по обучающему множеству изображений) вероятностного распределения поля градиента, характеризующего модель анализируемого изображения и/или решаемую задачу. Значения компонент дескриптора для конкретного изображения (фрагмента) вычисляются как значения этой плотности вероятностей с аргументом в виде конкретного поля градиента, то есть оказываются зависимы как от реализации (конкретного изображения), так и от модели (распределения вероятностей). Такая специфика расчёта дескриптора позволяет классифицировать его как модельно-ориентированного и использовать двумя способами. Во-первых, напрямую в решающем правиле классификатора, поскольку значение функции плотности на конкретной реализации – ключевая составляющая байесовского решающего правила [28]. Во-вторых, аналогично любым другим дескрипторам – в качестве численной характеристики некоторой локальной области изображения [2, 27, 29-30]. В этом случае для описания этой локальной области можно (и в ряде случаев – удобнее и численно проще) использовать не сами значения дескриптора, а некоторые их производные характеристики – признаки дескриптора.

Работа построена следующим образом. В первом разделе вводится предлагаемый модельноориентированный дескриптор поля градиента ( MGFD – model-based gradient field descriptor ). Во втором разделе предлагается ряд числовых признаков – производных характеристик, вычисляемых на основании значений введённого дескриптора. В третьем разделе представлена практически удобная для построения дескриптора модель градиентного поля с независимыми отсчётами, а также приведён ряд примеров с конкретными видами аналитических моделей. Показывается, что ряд известных способов обнаружения объектов на изображении (коррелятор, фазовая корреляция) оказываются частными случаями механизма расчёта признаков введённого дескриптора. Четвёртый раздел даёт краткое описание метода построения модели градиентного поля с зависимыми отсчётами. В пятом разделе предлагаются типовые способы построения алгоритмов обнаружения и распознавания на изображениях с использованием введённого дескриптора. В шестом разделе представлены примеры практических задач, решённых автором с использованием предложенного подхода. Наконец, в заключение работы приведены выводы, благодарности и список использованной литературы.

Модельно-ориентированный дескриптор поля градиента

Пусть f (^1,t2) - дифференцируемая функция яркости, определённая на области анализа min Tmax ^min      ^max ti, 12): Ti < t1 < Ti ,T2 < 12 < T2 }. В качестве области анализа может выступать как область определения изображения целиком, так и фрагмент этого изображения. Пусть далее А - шаг дискретизации непрерывного изображения, область анализа цифрового изображения определим в виде:

{ T max _ T min __

( n i , n 2 ) :0 < nt <- i-----—i ----, i = 1,2 . ,

А J и определим g (ni, n 2) = Vf (n 1А + Timin, n 2 А + Timin )= fdf /5 ti) Idf/a12 J

min ti = niA+Ti , min t 2 = n 2 A+T 2

( n i , n 2 ) g D

– цифровое поле градиента, в котором для каждого отсчёта анализируемого изображения хранится информация о модуле градиента | g ( n i , n 2 ) и его ориентации по отношению к осям координат arg ( g ( n i , n 2 )) .

Для цифрового изображения градиентное поле может быть получено с использованием любого известного способа, например, с использованием оператора Превитта [4-6]. Обозначим далее анализируемый фрагмент цифрового изображения целиком как g = { g ( n i ,n 2 )} ( n i , n 2^ d .

Пусть далее G – случайное градиентное поле с плотностью вероятностей p g ( ) , характеризующей модель наблюдения и/или решаемую задачу.

Определение 1. Модельно-ориентированным дескриптором поля градиента g (дескриптором по отношению к модели G ) называется вектор

P G ( g )     )

mgn pG-(g) mr pG (g) min pg (g) arg g max pg (g) arg g min min pg (g) argg |g|       _ max min pg (g) argg |g|       _ max min pg (g)

I g l arg g min max p g ( g ) arg g g l mmmax p g ( g )

Ig| argg maxmax pG (g) ( |g| argg

Величина вида min pg (g) определяется как зна-argg чение плотности pg (■) для экземпляра градиентного поля, в каждом отсчёте (ni,n2) которого модуль градиента совпадает со значением модуля градиента |g(ni,n2) поля g , а фазовые значения градиентов подобраны таким образом, чтобы минимизировать значение плотности pg (■). Остальные величины определяются аналогичным образом.

В соответствии с определением элементов дескриптора все они принимают значения в интервале

P G ( g )

min min pg (g), max max g argg          g argg причём min min pg (g )> 0. Для них оказывается g argg справедливым ряд очевидных соотношений, в частности:

min P G ( g )- P G ( g )- max P G ( g ) ,            (2а)

gg min PG(g)- PG(g)- max PG(g),           (2б)

argg                    argg min min pG (g)- min pG (g)- max min pG (g) (2в) g argg          argg            g argg и т.п.

На весь набор этих неравенств далее в тексте будем ссылаться как на соотношения (2).

Признаки модельно-ориентированного дескриптора поля градиента

Признаками анализируемого поля градиента могут являться производные характеристики введённого дескриптора. Учитывая соотношения (2), их удобно определить как относительное положение величины (например, pg (g)) в интервале от её минимального до её максимального значения. Учитывая, что величины типа max min pg (g) характери-g argg зуют исключительно модель наблюдения, а не анализируемую реализацию g градиентного поля, получаем семь основных признаков следующего вида (здесь ф: R + ^ R - произвольная монотонно-возрастающая функция):

ф( P G ( g ))-ф | min P G ( g )| J

9 0 z           х z

, ф| max pg (g )| - ф| min pg (g) I J |g|         J J g J

ф(PG(g))-ф| minPG(g)| Jarg gJ

91 —  Z             X    Z             X ф| max PG (g) - ф| min PG (g) I

J arg g        J J arg gJ

ф( PG ( g ))-ф 1 min min PG ( g )|

Q _                 J arg g gJ

92 — —7---------------7---7--------------- ф1 maxmax pg (g )|-ф| min min PG (g)

J |g| arg g J     J arg g |g| ф| min pg (g)1 - ф| min min PG (g)1

_     J arg g        J    J arg g |g|

9з — —7---------------7---77

ф 1 maxmin p g ( g )M min min P G ( g )

J |g| arg g         J     J arg g |g|

(3а)

^ 4

^ 5

9 б

ф max p: ( g ) - ф[ minmax P g ( g ) I

\ arg g             у J arg g |g|     G v / j

, ф| maxmax P5 (g) |-ф| minmax Pc (g )|

J |g| argg             J      J argg |g|              J ф| min Pg (g) |-ф| minmin Pg (g) I g G              argg g G

| z --------------, (36)

ф| maxmin рб ( g ) |-ф| minmin p6 ( g ) I

J argg |g|              J      J argg |g|              J ф| max Pg (g) I -ф| minmax Pg (g) I

J | g|               J J arg g |g|               J

.

ф| maxmax P c ( g ) |-ф| minmax Pg ( g )

J arg g |g|                 J       J arg g |g|

Введённые признаки 9 i характеризуют степень

похожести анализируемого градиентного поля на потенциально-возможные реализации случайного поля G (на модель). Б о льшие значения означают б о льшую похожесть, а м е ньшие – м е ньшую. При этом если 9 о , например, определяет степень схожести поля модуля градиента, то 9 1 - степень схожести фазового рисунка и т.п. На всё множество этих признаков ниже будем ссылаться как на вектор 9 ( П о . 9 1 , ^ , 9 б ) T .

Выбор функции ф существенным образом зависит от вида плотности p g ( ) - Более того, на практике вместо признаков 9 1 может быть удобным использование «вторичных» признаков вида 9 i ( 9 , ) , где к : R [ 0,1 ] ^ R - произвольная взаимно-однозначная функция. Следует, однако, отметить, что такая замена может уничтожить следующее очевидное, но очень полезное свойство исходных признаков.

Предложение 1 .

V i 0,6 0 -9 i - 1.

Это свойство позволяет относительно просто решать задачи параметрической настройки решающих правил, входящих в состав алгоритмов обнаружения и распознавания на изображениях (см. два заключительных раздела настоящей работы).

Модель градиентного поля с независимыми отсчётами

Пусть отсчёты поля градиента независимы. Тогда плотность вероятностей градиентного поля, характеризующая его вероятностную модель, запишется в виде:

PG(g)—, П Pg (n1, n 2)(g(n1,n 2)), (4) (n1, n 2 )е D где pg(n1,n2 )(■) - плотность вероятностей градиента в конкретном отсчёте (П1, n2) цифрового изображения. Используя различные способы задания плотности Pg(n1,n2 )(■), можно получать различные группы при- знаков (в том числе известные). Заметим, что в отличие от широко распространённой практики работы с градиентным полем в HOG-дескрипторах [3, 27], функцию плотности pg (n1, n2)(-) предлагается задавать аналитически с точностью до некоторого числа неизвестных параметров. Параметрическая оценка плотности (оценка неизвестных параметров) может быть получена хорошо известными методом моментов или методом максимального правдоподобия [31].

Замечание 1 . Дополнительным удобством модели с независимыми отсчётами является возможность упрощения вычислений в ситуации, когда рассчитываются дескрипторы по целому ряду областей, в том числе – перекрывающимся и/или являющимися объединением областей. В частности, для произвольных непересекающихся областей D 1 и D 2 справедливо соотношение:

D 1 D 2 D 1 D 2

p G ( ) = p G 1 () p G 2 ( )

Ниже мы рассмотрим несколько способов задания плотности p g ( n 1 , n 2 ) ( - ) , которые приводят либо к известным результатам (признакам), либо были успешно использованы автором для решения реальных задач обнаружения и распознавания изображений. В последнем случае описание решённых прикладных задач представлено в заключительном разделе настоящей работы.

Пример 1. Амплитудное соответствие

Зададим плотность вероятностей для отсчётов градиентного поля в виде

PG (”1, n 2)(g (”1,” 2 )) = a (”1, ” 2)-exP [—( g (”1’ ” 2 H( ”1, ” 2 ))2],

= ”                        0 ^ g ( 1 , 2 ) ^ g max ;

0,                           g ( 1 , 2 ) > g max .

Здесь a ( n 1 , n 2 ) - масштабный множитель; P ( n 1 , n 2 )

– величина, определяющая наиболее вероятное значение модуля градиента в соответствующем отсчёте изображения; gmax – наибольшее значение для мо- дуля градиента на изображении. Тогда f

PG(g ) = A exp - S( g (”1’ ” 2 )-P( ”1, ” 2)? ’ v (”1. ” 2)

max PG (g ) = A ’ min PG (g ) = A exP(-Amax ) gg где

A a n a a ( n 1 n 2 ) ’

( 1 . 2 )

A max = ^^ max ^ n 1 , n 2 ). g max P ( n 1 , n 2 ))^ •

( 1 . 2 )

Полагая функцию ф : R + ^ R в виде

ф( x ) = lnf -) , v A 7

имеем

9 q

E ( g ( 1 1 , 1 2 )- P ( 1b1 2 ) ) 2

1 ( 1 1 . 1 2 ) __________________________________

A max

Здесь, например, удобно взять

~~ 0 = ^ ( g ( t 1 , 1 2 )- P ( 1 1 , 1 2 ) ) 2 , ( 1 1 , 1 2 )

и итоговый признак принимает легко интерпретируемый смысл: эта величина характеризует суммарное рассогласование модулей градиентов с величинами P ( 1 1 , 1 2 ), определяющими их наиболее вероятные значения. Здесь очевидна связь с обычным корреляционным способом обнаружения на изображении объекта по шаблону [6].

Пример 2. Фазовое соответствие

Пусть

P g ( n 1 , n 2 ) ( g ( 1 , 2 )) =

[ a ( n 1 , n 2 ) - exp [ cos(arg g ( 1 , 2 )- Ф ( n 1 , n 2 )) + 1].

= 1                       0 ^ g ( 1 , 2 ) ^ g max ;

[ 0,         |g ( 1 , 2 ) > g max .

Параметры gmax и a(n1,n2) имеют тот же смысл, что и в первом примере; величина ф(n1 n ) определяет наиболее вероятное значение фазы градиента arg g(”1, n2) в соответствующем отсчёте изображения. Тогда

PG(g ) =

= A exP ^[ cos(arg g ( 1 , 2 )- Ф ( n 1 , n 2 )) + 1 ] ,

v ( 1 , 2 )

max PG ( g ) = A exp(2| D\ )- min PG ( g ) = A arg g                         arg g

Здесь | D | = ^ 1 - мощность области D . Полагая ( 1 , 2 )

функцию ф в виде (5), имеем:

$ 1 = A S 1 [ cos(arg g ( 1 , 2 )- Ф ( 1 , 2 )) + 1 ]

। D ( 1 , 2 ) 2

и признак также приобретает легко интерпретируемый смысл: эта величина характеризует среднее согласование (по фазе) анализируемого поля градиента с полем наиболее вероятных направлений Ф ( 1 , n 2 ) • Данная величина удобна при анализе полей направления [6, 26] в качестве показателя, определяющего их фазовую согласованность: чем больше величина $ , тем выше степень согласованности.

Пример 3. Амплитудная величина фазового соответствия

Зададим плотность вероятностей для отсчётов градиентного поля в виде

Pg (n1, n 2)(g(n 1, n 2 )) = min PG(g ) = A exP arg g

min P G ( g ) = g

- 2 ( g ( n 1 , n 2 ) - P ( n 1 , n 2 )f ( n 1, n 2 )

a ( П 1 , n 2 ) exp

= 5

| g ( n 1 , n 2 )

P arg g ( n 1 , n 2 )- cos l

( -ф( n i , n 2 )

0 ^ | g ( n 1 , n g max ;

0,         |g ( n 1 , n 2 ) > g max .

Параметры g m ax , a ( , 1 ,1 2 ) и ф ( , 1 , 1 2 ) имеют тот же смысл, что и выше. Тогда

PG (g ) =

= A exP 21 g ( n b n 2

J n b n 2 )

)

) cos(arg g ( П 1 ,n 2 )- ф ( 1 , n 2 ) )

J

P             )

max P g ( g ) = A exp 21 g ( n 1 , n 2 ) , arg g

V(”1-n 2 )            J min Pg(g ) =A . argg

Полагая функцию ф в виде (5), имеем признак

следующего вида:

2 g ( n 1 , n 2 )| cosk g ( n 1 , n 2 ) - ф ( n 1 , n 2 ) ) (hh!

У 1                   21 g ( n 1 , n 2 )

( « 1 . n 2 )

Эта величина характеризует относительную суммарную величину проекции модуля градиента на наиболее вероятное его направление ф ( n 1 , n 2 ).

= A exp

- 2 ( A m n ax n 2 ^Marg g ( n 1 , n 2 )- ф ( nb n 2 ) )

( n 1, n 2 )

min min PG (g) = A exP[- A max ]■ argg g

Здесь A ( n 1 , n 2 ) = max( g max - P ( n 1 , n 2 ), P ( n 1 , n 2 ) ) .

Также используя функцию ф в виде (5), пред-

ставим весь набор признаков:

9 q = 1 -

2 ( g ( n 1 , n 2 )-Р ( nbn 2 )H sin ( arg g ( n 1 , n 2 )-ф ( n , , n 2 ) )

( n 1, n 2 ) _______________________________________________________________________________________

2       n 2 ) ) 2 Marg g ( n 1 , n 2 )-ф ( nb n 2 ) )

( n1 , n 2 )

= 1 -

2 ( g ( n 1 , n 2 )- P ( nb n 2 )) 2|sin ( ar g g ( n 1 , n 2 )- Ф ( nb n 2 ) ) ( n 1 , n 2 ) ________________________________________________________________________________________

2 ( g ( n 1 , n 2 )- P ( n 1 , n 2 )) 2

( n 1 , n 2 )

9 2 = 1 -

A max

x p g ( n 1 , n 2 h2 ( n 2 2 ) l -P i - i n 2 ) J

. P arg g ( n 1 , n 2 )- sin l

(      -ф( n 1 , n 2 )

9 3 = 1 -Д---- 2 ( g ( n 1 , n 2 )- P ( n 1 , n 2 ) ) 2 , A max ( n 1 , n 2 )

Пример 4. Амплитудно-фазовое соответствие

Зададим плотность вероятностей для отсчётов градиентного поля в виде

P g ( n 1 , n 2 ) ( g ( n 1 , n 2 )) =

9 4 =9 6 = 1,

9 5 = 1 -

-

x 1 2 ( A max n 2 ) ) 2isin(arg g ( n 1 , n 2 )- ф ( nb n 2 ) ) .

A max ( n 1 , n 2 )

a ( n„ n 2 ) exp

= 5

0,

- ( g ( n 1 , n 2 ) - P ( nbn 2 ) ) 2

_       ■ srn l arg g ( n 1 , n 2 )- ф ( щ, n 2 ) ] _ (6)

0 ^ | g ( n 1 , n 2 ) ^ g max ;

|g ( n 1 , n 2 ) > g max .

Значения всех параметров описаны выше. Тогда

P g ( g ) = A exP

- 2 ( g ( n 1 , n 2 )- P ( n 1 , n 2 ) ) 2

( 1 . n 2 )

|sin(arg g ( n 1 , n 2 )- ф ( n 1 , n 2 ) )

max Pg ( g ) = max PG ( g ) = max max PG ( g ) = arg g            g            arg g  g

= minmax pG ( g ) = min max pG ( g ) = g arg g          arg g  g

= max min p G ( g ) = max min pG ( g ) = A , arg g g             g  arg g

Приведённые компоненты вектора признаков 9 совместно характеризуют согласованность анализируемого градиентного поля с моделью, выбранной в виде указанного распределения с параметрами.

Метод построения модели градиентного поля с зависимыми отсчётами

Для построения модели градиентного поля с зависимыми отсчётами используем следующее представление функции плотности:

к - 1

PG(g)=2 П  pG(n,n2)(g(n1,n2)), k=0(n1-n 2)

где pG(n n )(g(n1, n2)) - плотность вероятностей градиента в конкретном отсчёте (n1, n2) изображения для k-го «слоя» представления плотности, заданная аналитически с точностью до набора пара- метров. В качестве такой «элементарной» плотности может выступать любая из плотностей, представленная в приведённых выше примерах 1-4. Более того, при таком представлении можно использовать плотность PG(n n )(g(ni,n2)) в виде, допускающем независимость модуля и фазы градиента:

p G ( n i , n 2 ) ( g ( n i , n 2 )) =

= P \G ( nb n 2 )( g ( n i , n 2 Й P arg G ( nb n 2 ) ( arg g ( n i n 2 )> здесь

P GG ( nb n 2 )( g ( n i n 2 Й – плотность распределения вероятностей модуля градиента,

• PakrgG(nbn2)(argg(ni’n2)) PG(nbn2)(g(ni’n28     - плотность распределения вероятностей фазы градиента.

Параметрическая оценка плотности в виде (7) может быть получена различными способами. Наиболее удобным способом является использование ОМ-алгоритма (expectation-maximization, EM-algorithm) [32].

Замечание 2 . Главная проблема использования модели (7) с зависимыми отсчётами заключается в необходимости решения относительно трудоёмкой в вычисленном плане (оптимизационной) задачи расчёта следующих элементов дескриптора:

min PG(g) max PG(g ) min PG(g ) maX PG(g), g            g          argg         argg поскольку процесс их вычисления требуется проводить при каждом акте формирования дескриптора. В отличие от указанной четвёрки элементов, величины типа min min PG (g) могут g argg быть вычислены один раз для принятой модели (7), то есть заблаговременно.

Использование модельно-ориентированного дескриптора поля градиента для распознавания и поиска изображений

Положительным свойством предложенного дескриптора и его признаков является относительная простота использования их для решения задач анализа, распознавания и поиска изображений, а также обнаружения и распознавания объектов на изображении. В частности, очевидным способом построения решающего правила является использование классической дискриминантной функции байесовского классификатора [28]:

di(g ) = P(^ 1)PG (1)(g), где P(Q1), PG(1)(g) - соответственно, априорная вероятность l-го класса и соответствующее этому классу значение плотности вероятностей для анали- зируемого поля градиента g (первый компонент дескриптора). Несмотря на очевидность (и «наивность») такого решения, для некоторых задач (см. второй пример следующего раздела – обнаружение лица на изображении) его оказывается достаточно для получения требуемого качества обработки.

Более сложные решающие правила могут быть сконструированы на основе комбинаций решений отдельных «простых» классификаторов – экспертов, каждый из которых использует признаки дескриптора со своей подобласти. Таким образом, потенциальный классифицируемый фрагмент оказывается разбитым на подобласти (возможно, перекрывающиеся) - D i ( i = 0, I - i ) , и для каждой подобласти формируется её описание в виде дескриптора и/или его признаков 9 i ( i = 0, I - 1 ) . Выбрав алгоритм классификации для каждого эксперта и метод его настройки, разработчик системы распознава-ния/анализа/поиска может далее использовать различные существующие стратегии комбинации их решений: голосование большинства или взвешенное голосование, решающий список (см. первый пример следующего раздела и работу [33]), алгоритм вычисления оценок [34], алгебру над алгоритмами [35], алгоритмы бустинга [29-30] и другие.

Примеры практических задач, решённых с использованием дескриптора поля градиента

Предложенный модельно-ориентированный дескриптор поля градиента и признаки, рассчитываемые на его основе, были использованы при разработке двух систем анализа изображений. Ниже они представлены как примеры использования предложенного подхода.

Пример 1 . Целью первой системы было обнаружение легковых транспортных средств на цифровых изображениях оптического дистанционного зондирования Земли (ДЗЗ). Обрабатываемые изображения были получены путём аэрофотосъёмки, степень их пространственного разрешения соответствовала перспективным средствам космического ДЗЗ, допускающим съёмку с пространственным разрешением порядка 0,2 м (например, американский спутник GeoEye-2 допускает разрешение 0,25–0,3 м). При построении этой системы были использованы различные группы признаков (геометрические, текстурные, структурные). Но большинство признаков (более 80%) задавались как амплитудная величина фазового соответствия (см. пример 3) по специфическим областям объекта обнаружения (подход с комбинацией решений экспертов). В качестве решающего правила (для проверки гипотезы о наличии объекта), следуя предложению предыдущего раздела, выступал решающий список. Система обнаружения тестировалась на 30 изображениях городской застройки (разрешение снимков – 0,1 м), не входящих в состав обучающей выборки. Среднее число объектов, присутствующих на изображениях,

– 35 штук. Пример работы предложенного метода приведён на рисунке ниже.

Полученные в результате эксперимента показатели качества обнаружения:

– вероятность верного обнаружения – 95 %,

– среднее число ложно обнаруженных объектов (в кадре) – 2,8.

Более подробное изложение метода обнаружения, положенного в основу разработанной системы, представлено в работе [33].

Рис. 1. Пример работы системы обнаружения легковых транспортных средств

Пример 2 . Целью второй системы было обнаружение на цифровом изображении удостоверения личности лица его владельца. Задача усложнялась тем, что не вводилось ограничений на вид документа, на положение искомой фотографии, на тип «растрирования» при его печати; на фотографиях допускалось наличие бликов и засветки как следствий наложения на документ ламинирующего покрытия и неравномерности освещения; присутствовали элементы типографской печати на фотографии человека; допускалось радикальное различие в контрасте переднего (лица) и заднего плана и т.п.

В качестве основного элемента при построении решения был использован единственный признак 9 2 , полученный для модели поля градиента (изображения лица) в виде (7) с функциями плотности p G ( n n ) ( ) в виде (6). Вероятность верного обнаружения для разработанной системы (при допущении погрешности в определении местоположения лица и его линейных размерах в 20% и 30% соответственно) составила 98 %. Тестирование проводилось для 500 паспортов, только половина из которых российские.

Выводы и рекомендации

Предложен модельно-ориентированный дескриптор поля градиента, предназначенный для описания цифровых изображений, а также признаки дескриптора, позволяющие эффективным образом решать задачи анализа, распознавания и поиска изображений. На примерах решения реальных практических задач показана эффективность предложенного дескриптора и подхода к анализу изображений.

Дальнейшими направлениями работ являются: – сравнение эффективности предложенного модельно-ориентированного дескриптора поля градиента и его признаков с существующими решениями (HOG, SIFT и др.);

– разработка модификации дескриптора, инвариантной к преобразованиям подобия (сдвиг, поворот, масштаб) и/или аффинным преобразованиям;

– разработка моделей поля градиента, допускающих построение численно эффективных алгоритмов вычисления дескрипторов и классификации.

Работа выполнена при частичной финансовой поддержке:

  • -    грантов РФФИ, проекты 12-07-00021-а, 11-07-12060-офи-м-2011, 11-07-12062-офи-м-2011;

  • -    программы фундаментальных исследований Президиума РАН «Фундаментальные проблемы информатики и информационных технологий», проект 2.12.

Статья научная