Гибридный алгоритм распознавания образов и его свойства
Автор: Лапко Александр Васильевич, Лапко Василий Александрович, Саренков Александр Валерьевич
Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau
Рубрика: Математика, механика, информатика
Статья в выпуске: 2 (23), 2009 года.
Бесплатный доступ
Рассматривается методика синтеза и анализа гибридных алгоритмов распознавания образов, обеспечивающие эффективное использование априорных сведений о виде решающих функций и информации обучающих выборок. Исследуются их свойства аналитически и методом статистического моделирования.
Распознавание образов, непараметрическая статистика, гибридные алгоритмы, асимптотические свойства
Короткий адрес: https://sciup.org/148175913
IDR: 148175913
Текст научной статьи Гибридный алгоритм распознавания образов и его свойства
При решении задач распознавания образов различают два типа исходной информации: априорные сведения о виде уравнения разделяющей поверхности и обучающая выборка, составленная из значений признаков классифицируемых объектов и соответствующих им «указаний учителя». Известные подходы к синтезу решающего правила классификации ориентированы в основном на определенный тип исходных данных, что при условиях, отличающихся от априорных предположений, приводит к снижению их эффективности. Так, в параметрических алгоритмах за основу принимаются сведения о виде уравнения разделяющей поверхности (ее аналитический вид), то для непараметрических процедур достаточно знание лишь ее качественных характеристик и информации обучающей выборки.
Для решения проблемы эффективного использования априорной информации предлагаются гибридные системы распознавания образов, которые обеспечивают сочетание в обобщенном решающем правиле классифи-
из условия минимума эмпирической ошибки распознавания образов
n
Р(а) = n 4 S1 ( ° x), ° x ) ) , j =1
где индикаторная функция
А , jx", jA 1 если °( x ) * °( x X 1 ( о( x1 ), а( x1 ) ) = ( . _ .
[ 0, если °( x1 ) = °( x1 );
°( x1 ) - «решение» правила (1) о принадлежности ситуации x к тому или иному классу.
По результатам вычислительного эксперимента сформируем выборку расхождений V = ( x i , q ( x i ), i =1 , n ) между «решениями» °( x i ) правила (1) и «указаниями учителя» °( x i ) из обучающей выборки V . При этом значения функции расхождений
кации преимуществ параметрических и локальных методов аппроксимаций, основанных на оценках плотности вероятности типа Розенблатта-Парзена [1].
Синтез гибридного алгоритма распознавания образов. Пусть исходную информацию при решении двухальтернативной задачи распознавания образов составляют обучающая выборка V = ( x i , о( x i ), i = 1, n ) и априорные сведения F 2 ( x , а) о виде уравнения разделяющей поверхности f12 ( x ) между классами Q 1 , Q 2 в пространстве x e Rk . Знание F 2 ( x , а) предполагает наличие решающего правила классификации
' 0 V о( x i ) = °( x i ),
q ( x i ) = < ( F12( x i , а) + a ) V °( x i ) =- 1 и °( x i ) = 1,
- (F12( x i ,а) + A ) V °( x i ) = 1 и °( x i ) = - 1.
F ' x еЦ , если Fn( x , а) < 0, mn : ) (1)
[ x e Q 2, если F12 ( x , а) > 0,
по тем или иным причинам не удовлетворяющего исследователя. Информация обучающей выборки V формируется на основании данных о значениях признаков x классифицируемых объектов и соответствующих им «указаний учителя»
°(x ) =
- 1, если x eQ , 1, если x e Q 2 .
Для использования в полном объеме априорной информации ( F 2( x , а), V ) воспользуемся принципами гибридного моделирования, которые обеспечивают сочетание в обобщенном решающем правиле классификации преимущества параметрических и локальных методов аппроксимации.
Для этого определим параметры а уравнения разделяющей поверхности F 2( x , а) решающего правила (1)
При наличии ошибки, функция расхождения принимает значение обратное по знаку уравнения разделяющей поверхности F 2 ( x , а) и превышает его на величину A . Например, если ситуация x i принадлежит второму классу (°( x i ) = 1), а в соответствии с решающим правилом (1) классифицируемый объект с признаками x i e Q 1 , т. е. F 2( x i , а) < 0, то значение функции расхождения в ситуации x соответствует q ( x i ) = F 2 ( x i , а) + A .
Восстановление функции q ( x ) по выборке V осуществляется на основе непараметрической регрессии [2]:
n
_ S q ( x W x )
q ( x ) = , S P i ( x ) i =1
т — г ( X — X i ^
P i ( x ) = П ф|-1_^ I, (4)
v =1 \ c V /
где Ф ( - ) - ядерная функция, удовлетворяющая условиям положительности, симметричности и нормированности [1].
Тогда гибридный алгоритм классификации запишется в виде
m 12 ( x ): <
x e Q1,
x e Q2,
если f 12 < x ) < 0, если f 12( x ) > 0,
где
f 12 ( x ) = F 2 ( x ,а) + q ( x )-
Оптимизация алгоритма (5) по параметрам размытости c v, v = 1, к ядерных функций Ф ( - ) и А осуществляется из условия минимума статистической оценки ошибки распознавания образов типа (3).
Меняя вид функции q ( x ) , обеспечивающей коррекцию F 12 ( x , а), можно получить семейство гибридных решающих правил [3].
Асимптотические свойства гибридных решающих функций. Рассмотрим асимптотические свойства гибридных уравнений разделяющих поверхностей / 1 2 ( x ) V x е R1 при известной совместной плотности вероятности p ( x ) распределения x в классах Q 1 , Q 2.
Предположим, что f12(x), F(x,а),p(x) ограничены и непрерывны со всем своими производными до второго порядка включительно. Эти условия, налагаемые на f12 (x), F(x, а), p(x), обозначим через G2.
Теорема. Пусть: 1) уравнение разделяющей поверхности f12 (x), ее аппроксимация F(x, а) и совместная плотность вероятности p(x) распределения x в классах удовлетворяют условиям G2; 2) ядерные функции Ф (u) > 0 в непараметрической статистике (4) являются симметричными и нормированными, причем значение JumФ(u) du при m > 2 ограниченно и равно 1 при m = 2; 3) последовательности c = c(n) ^ 0, А = А(n) ^ 0 при n ^ да , а nc ^ да.
Тогда гибридная модель f12 (x) (6) обладает свойства- ми асимптотической несмещенности
( q ( x ) p ( x ) ) (2) 2
M ( f 2( x ) - У 7( x ) ) ~ c + A
2 p ( x )
и сходимости в среднеквадратическом
M ( f 2 ( x ) - Л( x )) 2 ~ ( ncp ( x ) )- 1 q 2( x ) ||Ф ( u )| |2 +
+ с 4 ( ( q ( x ) p ( x ) ) (2) ) ( 4 p 2 ( u ) ) 1 +
+ ( q ( x ) p ( x )r c , A + A, p ( x )
Здесь ( q ( x ) p ( x ) ) (2) - вторая производная по x произведения функций в скобках; M - знак математического ожидания; ||ф( и )|| = J Ф 2 ( u ) du •
Справедливость приведенных утверждений определяет состоятельность статистики f 1 2( x ).
Доказательство основано на методике, предложенной в работе [4] при исследовании гибридных моделей стохастических зависимостей.
Анализ результатов вычислительных экспериментов. Исследовалась двуальтернативная задача распознавания образов к -мерном пространстве признаков ( к = 2,10). Законы распределения признаков в области первого класса формировались в соответствии с датчиком случайных чисел
I i Л I 6 — x = m + о ^е -0,5p .— , v = 1, к,
IJ V3 p при p = 12; m = 3; s е[0;1] - случайная величина с равномерным законом распределения; о = 1.
Значения признаков второго класса генерировались с использованием датчиков случайных чисел xv = a + s (b - a), xv+1 =(xv)2 -6xv +10 + 0 |Ssi -0,5p I-1= где v е Iн - множество нечетных чисел меньших к , a = 1,5, b = 4,5.
Исходные сведения о виде решающей функции представлялись полиномом
F ( x , a ) = S Г xv +1 - ( ( xv ) 2 - 6 xv + 10,8 ) 1.
V е 1 н
Результаты вычислительных экспериментов представлены на рисунке. По горизонтальной оси отложено относительные (%) отклонения параметров решающей функции F ( x , а ) от оптимальных, по вертикальной оси -оценки вероятностей ошибок распознавания образов.
0,5
0,4
0,3
0,2
0,1

гггггптгггг

-60 -50 -40 -30 -20 -10 0 102030405060

б
Зависимость оценок вероятностей ошибок распознавания образов гибридного (столбец 1) и параметрического (столбец 2) алгоритмов отклонений параметров исходной решающей функции от оптимальных. Размерность пространства признаков: к = 2 ( а ); к = 4 ( б )
Из анализа данных на рисунке следует, что гибридный классификатор обладает значительной устойчивостью к отклонениям параметров исходной решающей функции от оптимальных. Например, для к = 2 при отклонении параметров решающей функции от оптимальных на ± 60% оценка вероятности ошибки распознавания образов параметрического алгоритма больше гибридного на 63 %.
Таким образом, гибридные алгоритмы распознавания образов позволяют использовать информацию обучающих выборок и частичные априорные сведения о виде решающих функций на основе сочетания преимуществ параметрических и локальных аппроксимаций, основанных на ядерных оценках плотности вероятности типа Розенблатта–Парзена. Структура гибридных уравнений разделяющих поверхностей между классами в подобных системах формируется на основе параметрической ее аппроксимации, восстанавливаемой с учетом априорных сведений, и корректирующей ее функции непараметрического типа. Вид корректирующей функции и особенности исходной информации порождают семейство изучаемого класса систем.
Гибридные решающие функции обладают свойствами асимптотической несмещенности и состоятельности, устойчивы к отклонениям параметров исходного уравнения разделяющей поверхности от оптимальных их значений.