Гибридный алгоритм распознавания образов и его свойства

Автор: Лапко Александр Васильевич, Лапко Василий Александрович, Саренков Александр Валерьевич

Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau

Рубрика: Математика, механика, информатика

Статья в выпуске: 2 (23), 2009 года.

Бесплатный доступ

Рассматривается методика синтеза и анализа гибридных алгоритмов распознавания образов, обеспечивающие эффективное использование априорных сведений о виде решающих функций и информации обучающих выборок. Исследуются их свойства аналитически и методом статистического моделирования.

Распознавание образов, непараметрическая статистика, гибридные алгоритмы, асимптотические свойства

Короткий адрес: https://sciup.org/148175913

IDR: 148175913

Текст научной статьи Гибридный алгоритм распознавания образов и его свойства

При решении задач распознавания образов различают два типа исходной информации: априорные сведения о виде уравнения разделяющей поверхности и обучающая выборка, составленная из значений признаков классифицируемых объектов и соответствующих им «указаний учителя». Известные подходы к синтезу решающего правила классификации ориентированы в основном на определенный тип исходных данных, что при условиях, отличающихся от априорных предположений, приводит к снижению их эффективности. Так, в параметрических алгоритмах за основу принимаются сведения о виде уравнения разделяющей поверхности (ее аналитический вид), то для непараметрических процедур достаточно знание лишь ее качественных характеристик и информации обучающей выборки.

Для решения проблемы эффективного использования априорной информации предлагаются гибридные системы распознавания образов, которые обеспечивают сочетание в обобщенном решающем правиле классифи-

из условия минимума эмпирической ошибки распознавания образов

n

Р(а) = n 4 S1 ( ° x), ° x ) ) , j =1

где индикаторная функция

А , jx", jA 1 если °( x ) * °( x X 1 ( о( x1 ), а( x1 ) ) = (                . _ .

[ 0, если °( x1 ) = °( x1 );

°( x1 ) - «решение» правила (1) о принадлежности ситуации x к тому или иному классу.

По результатам вычислительного эксперимента сформируем выборку расхождений V = ( x i , q ( x i ), i =1 , n ) между «решениями» °( x i ) правила (1) и «указаниями учителя» °( x i ) из обучающей выборки V . При этом значения функции расхождений

кации преимуществ параметрических и локальных методов аппроксимаций, основанных на оценках плотности вероятности типа Розенблатта-Парзена [1].

Синтез гибридного алгоритма распознавания образов. Пусть исходную информацию при решении двухальтернативной задачи распознавания образов составляют обучающая выборка V = ( x i , о( x i ), i = 1, n ) и априорные сведения F 2 ( x , а) о виде уравнения разделяющей поверхности f12 ( x ) между классами Q 1 , Q 2 в пространстве x e Rk . Знание F 2 ( x , а) предполагает наличие решающего правила классификации

' 0 V о( x i ) = °( x i ),

q ( x i ) = < ( F12( x i , а) + a ) V °( x i ) =- 1 и °( x i ) = 1,

- (F12( x i ,а) + A ) V °( x i ) = 1 и °( x i ) = - 1.

F ' x еЦ , если Fn( x , а) 0, mn : )                                         (1)

[ x e Q 2, если F12 ( x , а) 0,

по тем или иным причинам не удовлетворяющего исследователя. Информация обучающей выборки V формируется на основании данных о значениях признаков x классифицируемых объектов и соответствующих им «указаний учителя»

°(x ) =

- 1, если x eQ , 1, если x e Q 2 .

Для использования в полном объеме априорной информации ( F 2( x , а), V ) воспользуемся принципами гибридного моделирования, которые обеспечивают сочетание в обобщенном решающем правиле классификации преимущества параметрических и локальных методов аппроксимации.

Для этого определим параметры а уравнения разделяющей поверхности F 2( x , а) решающего правила (1)

При наличии ошибки, функция расхождения принимает значение обратное по знаку уравнения разделяющей поверхности F 2 ( x , а) и превышает его на величину A . Например, если ситуация x i принадлежит второму классу (°( x i ) = 1), а в соответствии с решающим правилом (1) классифицируемый объект с признаками x i e Q 1 , т. е. F 2( x i , а) 0, то значение функции расхождения в ситуации x соответствует q ( x i ) = F 2 ( x i , а) + A .

Восстановление функции q ( x ) по выборке V осуществляется на основе непараметрической регрессии [2]:

n

_   S q ( x W x )

q ( x ) = , S P i ( x ) i =1

т г ( X — X i ^

P i ( x ) = П ф|-1_^ I,            (4)

v =1     \ c V /

где Ф ( - ) - ядерная функция, удовлетворяющая условиям положительности, симметричности и нормированности [1].

Тогда гибридный алгоритм классификации запишется в виде

m 12 ( x ): <

x e Q1,

x e Q2,

если f 12 < x ) 0, если f 12( x ) 0,

где

f 12 ( x ) = F 2 ( x ,а) + q ( x )-

Оптимизация алгоритма (5) по параметрам размытости c v, v = 1, к ядерных функций Ф ( - ) и А осуществляется из условия минимума статистической оценки ошибки распознавания образов типа (3).

Меняя вид функции q ( x ) , обеспечивающей коррекцию F 12 ( x , а), можно получить семейство гибридных решающих правил [3].

Асимптотические свойства гибридных решающих функций. Рассмотрим асимптотические свойства гибридных уравнений разделяющих поверхностей / 1 2 ( x ) V x е R1 при известной совместной плотности вероятности p ( x ) распределения x в классах Q 1 , Q 2.

Предположим, что f12(x), F(x,а),p(x) ограничены и непрерывны со всем своими производными до второго порядка включительно. Эти условия, налагаемые на f12 (x), F(x, а), p(x), обозначим через G2.

Теорема. Пусть: 1) уравнение разделяющей поверхности f12 (x), ее аппроксимация F(x, а) и совместная плотность вероятности p(x) распределения x в классах удовлетворяют условиям G2; 2) ядерные функции Ф (u) > 0 в непараметрической статистике (4) являются симметричными и нормированными, причем значение JumФ(u) du при m > 2 ограниченно и равно 1 при m = 2; 3) последовательности c = c(n) ^ 0, А = А(n) ^ 0 при n ^ да , а nc ^ да.

Тогда гибридная модель f12 (x) (6) обладает свойства- ми асимптотической несмещенности

( q ( x ) p ( x ) ) (2) 2

M ( f 2( x ) - У 7( x ) ) ~              c + A

2 p ( x )

и сходимости в среднеквадратическом

M ( f 2 ( x ) - Л( x )) 2 ~ ( ncp ( x ) )- 1 q 2( x ) ||Ф ( u )| |2 +

+ с 4 ( ( q ( x ) p ( x ) ) (2) ) ( 4 p 2 ( u ) ) 1 +

+ ( q ( x ) p ( x )r c , A + A, p ( x )

Здесь ( q ( x ) p ( x ) ) (2) - вторая производная по x произведения функций в скобках; M - знак математического ожидания; ||ф( и )|| = J Ф 2 ( u ) du

Справедливость приведенных утверждений определяет состоятельность статистики f 1 2( x ).

Доказательство основано на методике, предложенной в работе [4] при исследовании гибридных моделей стохастических зависимостей.

Анализ результатов вычислительных экспериментов. Исследовалась двуальтернативная задача распознавания образов к -мерном пространстве признаков ( к = 2,10). Законы распределения признаков в области первого класса формировались в соответствии с датчиком случайных чисел

I i Л I 6       — x = m + о ^е -0,5p .— , v = 1, к,

IJ V3 p при p = 12; m = 3; s е[0;1] - случайная величина с равномерным законом распределения; о = 1.

Значения признаков второго класса генерировались с использованием датчиков случайных чисел xv = a + s (b - a), xv+1 =(xv)2 -6xv +10 + 0 |Ssi -0,5p I-1= где v е Iн - множество нечетных чисел меньших к , a = 1,5, b = 4,5.

Исходные сведения о виде решающей функции представлялись полиномом

F ( x , a ) = S Г xv +1 - ( ( xv ) 2 - 6 xv + 10,8 ) 1.

V е 1 н

Результаты вычислительных экспериментов представлены на рисунке. По горизонтальной оси отложено относительные (%) отклонения параметров решающей функции F ( x , а ) от оптимальных, по вертикальной оси -оценки вероятностей ошибок распознавания образов.

0,5

0,4

0,3

0,2

0,1

гггггптгггг

-60 -50 -40 -30 -20 -10 0 102030405060

б

Зависимость оценок вероятностей ошибок распознавания образов гибридного (столбец 1) и параметрического (столбец 2) алгоритмов отклонений параметров исходной решающей функции от оптимальных. Размерность пространства признаков: к = 2 ( а ); к = 4 ( б )

Из анализа данных на рисунке следует, что гибридный классификатор обладает значительной устойчивостью к отклонениям параметров исходной решающей функции от оптимальных. Например, для к = 2 при отклонении параметров решающей функции от оптимальных на ± 60% оценка вероятности ошибки распознавания образов параметрического алгоритма больше гибридного на 63 %.

Таким образом, гибридные алгоритмы распознавания образов позволяют использовать информацию обучающих выборок и частичные априорные сведения о виде решающих функций на основе сочетания преимуществ параметрических и локальных аппроксимаций, основанных на ядерных оценках плотности вероятности типа Розенблатта–Парзена. Структура гибридных уравнений разделяющих поверхностей между классами в подобных системах формируется на основе параметрической ее аппроксимации, восстанавливаемой с учетом априорных сведений, и корректирующей ее функции непараметрического типа. Вид корректирующей функции и особенности исходной информации порождают семейство изучаемого класса систем.

Гибридные решающие функции обладают свойствами асимптотической несмещенности и состоятельности, устойчивы к отклонениям параметров исходного уравнения разделяющей поверхности от оптимальных их значений.

Статья научная