Распознавание растровых изображений с помощью динамической нейронной сети, заданной в пространстве комплексных чисел
Автор: Юдашкин А.А.
Журнал: Известия Самарского научного центра Российской академии наук @izvestiya-ssc
Рубрика: Управление и моделирование
Статья в выпуске: 1 т.5, 2003 года.
Бесплатный доступ
Представлен новый метод распознавания растровых изображений, для каждой точки которых введены две характеристики. Изображение переводится в вектор с комплексными элементами, отвечающими характеристикам точек исходного образа. Распознавание производится с помощью модели динамической нейронной сети с конкуренцией, в которой каждый искусственный нейрон характеризуется комплексным уровнем активности. В процессе распознавания ненулевым по абсолютной величине остается только уровень активности нейрона, отвечающего запомненному образу, наиболее похожему на предъявленный.
Короткий адрес: https://sciup.org/148197723
IDR: 148197723
Текст научной статьи Распознавание растровых изображений с помощью динамической нейронной сети, заданной в пространстве комплексных чисел
В задачах распознавания образов часто приходится иметь дело с оцифрованными фотографиями, полученными в условиях, отличных от идеальных, например, при наличии глубоких теней или засвеченных участков на изображениях. Оцифрованные изображения представляют собой наборы данных, состоящие из оптических характеристик каждого пикселя. В частности, при обработке полутоновых картин набор данных состоит из значений яркости для каждого пикселя. В результате любые изменения освещения, качества съемки или характеристик объекта съемки принципиально сказываются на качестве распознавания вследствие нелинейности подобных искажений, что невозможно учесть простыми способами. Подобные случаи, в частности, характерны для распознавания фотографий человеческих лиц, где искажения освещения и естественные изменения внешности становятся равноценно нежелательными для любой системы распознавания. Для снижения влияния таких факторов, как тени и засвеченные участки применяются различные методы предварительной обработки с помощью фильтров, одним из которых является простейший расчет перепадов яркости для двух соседних точек (пикселей). При этом перепад яркости ∆ q jk точки на пересечении j -й строки и k -го столбца определяется следующим образом:
∆ q jkx = q jk - q ( j - 1) k (1) для расчета перепада вдоль горизонтальной оси X (вдоль строки матрицы, представляющей образ) или
∆q jky = q jk - q j(k-1) (2) для расчета перепада вдоль вертикальной оси Y (вдоль столбца матрицы). При этом существующие алгоритмы позволяют учесть либо только одну из этих двух характеристик, либо обе последовательно, либо проводить расчеты с одним параметром, полученным в результате аппроксимации по двум приведенным, например, посредством их взвешенного суммирования. В результате неизбежно возникает проблема выбора наиболее значимой из характеристик (1) и (2) и соответствующая потеря качества распознавания при изменении факторов, влияющих на дефекты изображений. Поэтому представляется интересным учесть обе характеристики одновременно таким образом, чтобы они дополняли друг друга в некоторой интегральной зависимости по всем точкам изображения. Например, в случае изменения расположения источника освещения значения яркостей различных точек меняются по-разному, однако изменение параметров по фильтрам (1) и (2) обладает сходным характером для всего изображения. Подобная ситуация аналогична вращению некоторой геометрической фигуры на плоскости, когда существует единое преоб- разование координат для всех элементов фигуры. Для решения задачи синтеза сложной фигуры с памятью, содержащей несколько желаемых конфигураций на плоскости, в работе [1] координаты точек фигуры были заданы в виде комплексных чисел, действительными и мнимыми частями которых служили соответственно x- и y-координаты. Кроме указанной постановки задачи большой интерес представляет распознавание изображений в общем случае многопараметрического описания точек образов. Это имеет место, например, при распознавании цветных изображений в палитре YСrCb, где компонент Y представляет собой интенсивность, а две другие составляющие определяют цветность. При этом каждая точка изображения характеризуется тремя числовыми параметрами. В ряде работ уже были показаны способы использования комплексных и гиперкомплексных чисел при построении систем распознавания образов для использования нескольких параметров для точек изображения. В частности, введение комплексных чисел в качестве характеристик изображений применялось в работе [2], где путем перехода в частотную область была достигнута инвариантность к сдвигам. В работе [3] показана возможность построения дискретной нейронной сети Хоп-филда на основе комплексных значений активностей нейронов. Похожая проблема решалась в работах [4] и [5] для выполнения анализа основных компонентов изображения и синтеза многослойного перцептрона, работающего с комплексными значениями весов и входов, соответственно. Дальнейшее обобщение проблемы и переход к работе с кватернионами произведено в работе [6]. Тем не менее, ни в одной работе не приведено достаточно надежного и устойчивого метода, позволяющего использовать числа, более общие, чем действительные для характеристики изображения и выполнения распознавания в области непрерывного изменения переменных при отсутствии ложных устойчивых состояний.
В представленной работе предлагается новый подход к распознаванию образов, представляющих собой полутоновые оциф- рованные плоские изображения, основанный, с одной стороны, на переходе к рассмотрению нескольких относительных характеристик точек изображения вместо одной абсолютной, и, с другой стороны, использующий модель самоорганизующейся динамической нейронной сети, представленной и исследованной в работах [7-9]. Указанная модель нейронной сети применялась ранее для распознавания обычных полутоновых изображений, где обрабатывались именно абсолютные значения яркости точек, причем был доказан факт отсутствия ложных устойчивых состояний.
Модель нейронной сети
Пусть рассматриваются полутоновые изображения, которым соответствуют векторы v (j' ) ( j = 1,2,.., M ). Каждый элемент вектора в общем случае представляет собой комплексное число v ^ =о j k + i ® jk ( к = 1,2,.., N ), где действительная и мнимая части являются двумя статистически независимыми характеристиками точки изображения. В данной работе принято, что характеристики о и to принадлежат множеству вещественных чисел, что не ограничивает общности. Пусть значениями о и to в каждой точке служат числа, получившиеся после применения фильтров (1) и (2) к исходным изображениям. После фильтрации все изображения, изначально представляющие собой прямоугольные матрицы яркостей пикселей, разворачиваются в векторы v ( j ). Для распознавания предъявляется искаженная или неизвестная картина q (0), которая также представлена вектором длины N с комплексными координатами. Необходимо синтезировать структуру нейронной сети, которая данному представленному вектору сопоставляет один наиболее близкий к нему запомненный образ v ( l ).
В работах [7-9] для распознавания образов, представленных векторами с действительными элементами, использовалась синергетическая модель нейронной сети, где производился переход от рассмотрения самих векторов с образами к конкуренции скалярных функций, соответствующих им. Тот же подход предлагается в данной работе, но для комплексных элементов вектора. Пусть используется форма потенциала в виде формы четвертой степени в качестве потенциальной функции, минимумами которой по вектору являются запомненные векторы:
w ( q ) = - 2 qJq + 4( qq )2 +
M
-
- 55 qv ( k ) u ( k ) qqv ( l ) u ( l ) q (3)
-
4 k = 1 i * k
где q обозначает вектор, сопряженный с q . Здесь векторы u ( k ) образуют набор, дополнительный к набору векторов v ( k ) , который вводится для обеспечения взаимной ортонорми-рованности по правилам
u ( k ) v j = § kj , U = V ( VV )-1, (4)
где 5 kj - символ Кронекера, столбцами матриц U и V являются векторы v ( k ) и u ( k ) , и вводится матрица, определяющая память (минимумы потенциала) сети:
M
J = 5 v ( k ) u ( k ) . (5)
k = 1
Минимизация потенциала (3) по q может происходить согласно методу наискорейшего спуска, когда элементы вектора q меняются во времени. Согласно подходу, изложенному в [7], принимается, что q ( t ) может быть представлен в виде следующей линейной комбинации:
M
q ( t ) = 5 di ( t ) v ( i) + ^ ( t )’ (6)
i = 1
где ^ ( t ) является затухающей во времени по модулю случайной добавкой, а d i ( t ) - скалярные функции времени. В новой постановке задачи векторы v ( k ) состоят из комплексных элементов и, соответственно, di ( t ) в общем случае также комплексные. Подстановка (6) в (3) дает с учетом (4) следующее выражение для потенциала, теперь зависящего от di ( t ):
W ( d ) = - ^ dGd + ^( dGd )2 +
M
1 55 dg dg % (7)
-
4 k = 1 l * k
Здесь
G = VV, а g(k) - k-й столбец матрицы G. После ввода новых переменных du = Gd и соответствующей процедуры построения уравнений движения для точки в поле потенциала (7) получаем уравнения, минимизирующие данный потенциал согласно методу наискорейшего спуска:
d = d - 2 dddu + Dd , (8)
где D = diag( dkduk ). В уравнениях (8) фактически присутствует матрица G , являющаяся, как нетрудно видеть, комплексной матрицей Грамма для векторов v ( k ) , и, следовательно, эрмитовой матрицей. Это дает возможность предположить, что свойства системы (8) будут близки к полученным в [8], и решение этой системы будет иметь требуемый качественный характер. А именно, необходимо, чтобы при движении из начального состояния
d (0) = G - 1 Vq (0) (9)
все переменные состояния di(t), кроме одной d1(t), релаксировали к нулю по абсолютной величине. Тогда оставшаяся переменная указывает на образ v(1), наиболее близкий к q(0). Здесь каждая переменная состояния di(t) характеризует уровень активности отдельного искусственного нейрона, а связь между отдельными нейронами определена матрицей G и уравнениями (8). Так производится распознавание в данной модели динамической нейронной сети с конкуренцией. Как нетрудно видеть, если q(0) совпадает с v(1), то в выражении (9) сразу получается вектор d(0), в котором di(0)=0 для i*l и dl(0)=1. В работах [8,9] показано, что для действительных векторов v(k) динамика системы в фазовом пространстве d определяется набором устойчивых узлов, заданных наборами координат описанного вида, а также расположением седел, разделяющих фазовое пространство на области притяжения каждого узла. По-види-мому, для векторов, состоящих из комплексных элементов, качественный характер соответствующей системы будет очень близким, но более сложным вследствие того, что теперь di(t) могут быть в общем случае комплексными. Интерпретация факта, когда в конце распознавания остается одна переменная, равная 1 по модулю, но имеющая и мнимую, и действительную части, является предметом будущих исследований. В данной работе далее рассматриваются результаты численного моделирования распознавания набора полутоновых образов, заданных с помощью применения фильтров (1) и (2), на основе модели (8) с начальными условиями (9) и определениями (4).
Численные эксперименты
С помощью пакета MATLAB был произведен ряд экспериментов по исследованию свойств предложенной модели для задач распознавания полутоновых фотографий человеческих лиц. Образец подобной фотографии приведен на рис.1.
Применение фильтров (1) и (2) к представленному изображению приводит к тому, что два результирующих массива в расширенной палитре 32 градации серого могут иметь вид изображений, показанных на рис.2.
Все изображения состояли из 192х192 пикселей в целочисленной палитре 16 градаций серого. Образы, участвовавшие в распоз- навании, были представлены векторами v(k), каждый элемент которого был получен с помощью построчного преобразования исходной матрицы портрета в вектор и имел вид vjk =O jk+ i® jk , причем о jk и ® jk соответствовали результатам фильтрации по горизонтали по формуле (1) и вертикали по формуле (2) для пикселя исходной матрицы, отображенного в j-й элемент вектора v(k). После данного преобразования все векторы были подвергнуты процедуре нормировки путем деления на свой модуль, что привело к уходу от целочисленных значений. В процедуре распознавания участвовало 16 образов. Численные эксперименты сводились к двум основным задачам:
-
1) исследовать влияние шума на качество распознавания в случае комплексных значений элементов векторов, представляющих образы;
-
2) исследовать качество алгоритма при
Рис.1. Полутоновой портрет в палитре
16 градаций серого
б)
Рис.2. Результат применения фильтров взятия первой разности между значениями яркостей соседних точек: а) по горизонтали; б) по вертикали

а)
изменении некоторых характеристик освещения.
Для изучения первого вопроса для некоторого запомненного образа генерировался шум η , заданный нормальным распределением. Шум накладывался на некоторый исходный портрет, после чего выполнялась фильтрация и последующее распознавание зашумленного образа во всей совокупности, как это было описано выше. Для отдельного прототипа проводилось распознавание с различным уровнем шума η . Уровень шума определялся как отношение дисперсии шума к дисперсии значений яркости точек исходного образа и менялся от 0 до 10. Процедура повторялась для каждого из прототипов. После этого было рассчитано качество распознавания Q η для всей совокупности прототипов как отношение числа успешных распознаваний к общему их числу для каждого значения уровня шума. Как видно из графика, представленного на рис.3а, качество распознавания практически не менялось с ростом уровня шума и не опускалось ниже 0,98 в конце интервала увеличения искажений. Это согласуется с данными, полученными ранее для стандартного метода распознавания по яркостям точек, и говорит о том, что увеличение числа параметров, характеризующих точки изображения, по меньшей мере, не ухудшает характеристик алгоритма.
Для определения характеристик метода по отношению к изменениям освещения для каждого из запомненных образов производилась процедура изменения средней яркости образа. Она моделировала ситуацию усиления или ослабления освещения от почти абсолютной темноты (средняя яркость 0,1 при минимуме 0) до самого яркого, практически ослепляющего (средняя яркость 14,9 при максимуме 15). Поскольку диапазон изменения градаций серого ограничен, то данная процедура эквивалентна нелинейным искажениям исходного образа. Кроме того, для фильтрации вида (1), (2) данное искажение является также существенно деструктивным, поскольку численно смещает уровни перепадов, сохраняя при этом их качественную структуру. Изменение яркости I производилось в полном диапазоне. Определялся показатель качества распознавания QI по тому же принципу, что и для случая аддитивного шума, но теперь по отношению к уровню яркости.
Снова предложенный метод показал высокую степень устойчивости к искажениям и качество QI не опускалось ниже 0,98, что видно из рис.3б. Срыв графика в ноль при значениях яркости 0 и 15 обусловлен тем, что при абсолютной темноте и абсолютно ярком освещении в данной модели изображение исчезает и превращается в сплошной черный или белый квадрат.
Примерная динамика изменения абсолютных величин переменных состояния для всей совокупности образов показана на ри-с.4а, где можно видеть, как из первоначаль-


а) б)
Рис.3. Диаграммы изменения качества распознавания в зависимости от: а) уровня шума; б) яркости освещения

Рис.4. Динамика процесса распознавания, показывающая победившую переменную состояния: а) во времени; б) на комплексной плоскости

б)
но очень близкого со стояния почти все переменные состояния затухают, в то время как одна постепенно приближается к значению 1 по абсолютной величине.
Этому же случаю соответствует диаграмма изменения действительных и мнимых частей переменных состояния на комплексной плоскости, приведенная на рис.4б.
Выводы
В статье рассмотрен новый подход к синтезу алгоритмов распознавания сложных полутоновых изображений, предполагающий работу с двумя независимыми параметрами, характеризующими каждый пиксель изображения. Для реализации алгоритма был произведен переход в комплексную область относительно значений параметров изображений, после чего в соответствии с ранее разработанным подходом была сформирована самоорганизующаяся нейронная сеть, в которой каждый нейрон во времени характеризовался переменной состояния, также являющейся комплексным числом, отвечающим отдельному запомненному прототипу. Использованная модель динамической нейронной сети не обладает ложными устойчивыми состояниями и работает по принципу “победитель забирает все”. Переход в комплексное пространство в данной статье осуществлялся посредством цифровой фильтрации в виде определения перепадов яркости соседних пикселей, причем перепад по оси X образовал действительную, а перепад по оси Y ‒ соответственно мнимую часть характеристики пикс еля. Метод показал до статочно сильную устойчивость к помехам как в случае с аддитивным шумом высокого уровня, так и для нелинейных искажений, вызванных изменением уровня освещенности изображения. Качество распознавания для искаженных образов оставалось выше 0,98 для всех искажений. Представленная модель может быть достаточно эффективно использована как для распознавания изображений, предварительно подвергнутых цифровой фильтрации более чем одного вида, так и для работы с цветными изображениями и многопараметрическими наборами данных.