Научные статьи \ Общие вопросы науки и культуры \ Стандартизация продукции, процессов, мер, весов и времени. Стандарты. Технические требования. Нормы и правила. Рекомендации

Методы двумерной проекции цифровых изображений в собственные подпространства: особенности реализации и применение

Автор: Кухарев Георгий Александрович, Щеголева Надежда Львовна

Журнал: Компьютерная оптика @computer-optics

Рубрика: Обработка изображений, распознавание образов

Статья в выпуске: 4 т.42, 2018 года.

Бесплатный доступ

Рассматриваются алгоритмы проекции цифровых изображений в собственные подпространства в рамках линейных методов PCA, LDA, PLS и CCА. Приводится история развития этих методов за последние 100 лет на фоне появления новых областей их применения и меняющихся в связи с этим требований к ним. Показано, что развитие было инициировано четырьмя основными требованиями, вытекающими из современных задач и практики цифровой обработки изображений и, в первую очередь, изображений лиц. Первым является требование использования методов PCA, LDA, PLS и CCА в условиях как малой, так и чрезвычайно большой выборки изображений лиц в исходных наборах. Второе требование связано с критерием, определяющим собственный базис, который должен обеспечить, например, минимум ошибки аппроксимации изображений лиц, улучшение кластеризации в собственном подпространстве или максимум корреляции (ковариации) между наборами данных в подпространстве. Третье - связано с возможностью приложения рассматриваемых методов к задачам обработки двух и более наборов изображений с различных сенсорных источников или нескольких наборов любых числовых матриц...

Еще

Наборы изображений лиц и числовых матриц, собственный базис и собственные подпространства, анализ главных компонент (pca), линейный дискриминантный анализ (lda), частичный метод наименьших квадратов (pls), канонический корреляционный анализ (cca), преобразование карунена-лоэва (klt)

Еще

Короткий адрес: https://sciup.org/140238474

IDR: 140238474 | DOI: 10.18287/2412-6159-2018-42-4-637-656

Текст научной статьи Методы двумерной проекции цифровых изображений в собственные подпространства: особенности реализации и применение

Истоки методов проекции в собственные подпространства. Основные идеи методов проекций в собственные подпространства как одного из инструментов математической обработки наблюдений и инструмента выявления и/или установления связей в наблюдениях были заложены в работах [1–4]. Так, в [1] было показано решение задачи аппроксимации экспериментальных данных, представленных на плоскости набором точек, с использованием оригинального критерия, при котором всегда достигается минимум ошибки аппроксимации. Опираясь на этот результат, в [2] был представлен метод поиска главных компонент в наборе переменных, где каждая переменная была представлена отдельным вектором эмпирических данных. И именно здесь введено понятие собственных векторов и собственных чисел (eigenvector, eigenvalue), алгоритм выбора главных компонент (Principal Component Analysis – PCA) и проекция исходных данных в собственное подпространство. В [3] обсуждается задача линейного дискриминантного анализа – нахождения функции, определяющей наилучшее разделение популяций данных в собственном подпространстве. Для решения этой задачи предлагается критерий, позволяющий минимизировать внутриклассовое и максимизировать межклассовое расстояние в подпространстве, что можно рассматривать как улучшение кластеризации в нем. Описан алгоритм построения собственного базиса, основанный на этом критерии, выбор главных компонент и процедура проекции в собственное подпространство. Решения [3] создали возможность более эффективного решения задач распознавания образов при упрощенной структуре классификаторов, поскольку разделение данных в подпространстве выполнено наилучшим образом из всех возможных. В [4] представлен критерий максимизации взаимной корреляции в собственном подпространстве для двух независимых (в общем случае) наборов данных и необходимый для этого алгоритм поиска собственного базиса, общего для двух наборов исходных данных. Решения [4] создали возможность детальной разработки канонического корреляционного анализа (Canonical Correlation Analysis – ССА) и частичных наименьших квадратов (Partial Least Squares – PLS), как методов проекции в общее собственное подпространство для двух и более наборов исходных данных.

Все упомянутые выше методы проекции в собственное подпространство реализуются в два последовательных этапа. Первый этап включает построение собственного базиса для исходных данных и выбор главных компонент. Наибольшие вычислительные затраты здесь связаны с решением задач на собственные значения. И если размерность исходного пространства признаков равна D , то сначала вычисляются необходимые матрицы ковариации и общие матрицы рассеяния (в соответствии с требуемым критерием), порядок которых равен D , а потом вычисляются D собственных чисел и D соответствующих им собственных векторов, а также определяются d главных компонент ( d << D ). В общем случае вычислительные затраты здесь составляют O 1 ≅ D ³ .

На втором этапе реализуется проекция исходных данных в собственное подпространство (как преобразование в собственном базисе или преобразование Карунена–Лоэва) и выполняется редукция размерности пространства признаков до значений d . При этом вычислительные затраты здесь составляют O ₂ ≤ D ² .

1. Проблемы реализации РСА для изображений

В задачах построения собственных базисов для наборов цифровых изображений учитываются пять базовых параметров: { M , N , K, L, Q }. Здесь: M и N – число строк и столбцов исходных изображений; K и L определяют число классов изображений в наборе исходных данных и число изображений в каждом классе; Q – число наборов изображений. В общем случае K > 1 , L ≥ 1 и Q ≥ 1. Если Q = 1, то все изображения размещены в одном наборе исходных данных. Варианты, когда Q ≥ 2, представлены в параграфе 5.

Параметры M и N задают размерность D исходного пространства признаков так, что D = MN и определяют вычислительную сложность реализуемых алгоритмов. При этом задаче реализации проекции изображений в собственные подпространства сопутствуют две проблемы. Первая из них – проблема малого числа изображений в наборе по сравнении с размерностью D , что определяется как проблема малой выборки , когда

D >> KL. Вторая – проблема чрезвычайно большой выборки , то есть когда KL > > D > > 1000 (например, KL может составлять от нескольких тысяч до миллиона изображений, что характерно для современных баз изображений лиц или мультимедийных баз данных).

Напомним, что в подходах [2–4] все эти операции выполнялись для наборов исходных данных, представленных в векторной форме. Поэтому первые попытки применения, например, методов PCA и LDA для цифровых изображений появились почти под конец XX века [5–7], а методов ССА и PLS уже только в XXI веке, что было связано как с невозможностью прямого переноса методов [2–4] на изображения (рассматриваемые как двумерные структуры данных), так и c возникающим при этом большим объемом вычислений.

С учетом этого, методология использования PCA в приложении к обработке изображений строилась, с одной стороны, с необходимостью использования базового метода PCA [2], изначально ориентированного на обработку векторных данных, а с другой стороны, с учетом условия

D < KL , (1) для обеспечения устойчивости решения задач на собственные значения. При этом каждое исходное изображение преобразовывалось путем конкатенации его столбцов (или строк) в общий вектор размером MN ×1, и тогда весь набор исходных данных уже содержал KL таких векторов. Далее к исходному набору данных применялись несколько подходов, «позволяющих лавировать» между отмеченными выше ограничениями и условием (1).

Если, например, возникает проблема малой выборки (то есть не выполняется условие (1)), а значение KL << 1000, то весь набор { X } исходных изображений представляется матрицей размера MN × KL . В этом случае вместо обычных матриц ковариации используются матрицы Грамма G порядка KL так, что G = X ^T X . При этом данные в матрице X должны быть центрированы относительно среднего. Далее для матрицы G решалась задача на собственные значения, что обеспечивало вычисление KL собственных значений и соответствующих им собственных векторов (каждый размером KL ×1), которые могли быть пересчитаны в весь состав собственных векторов [5]. При этом существенно сокращался объем вычислений. Вычислительные затраты на этапе решения задачи на собственные значения в этом случае составляют O ≅ ( KL ) ³ . Проекция в собственное подпространство реализуется как одномерное преобразование Каруне-на–Лоэва (1D KLT) векторизованных исходных данных путем их умножения на матрицу проекции с затратами O ≅ ( KL ) ² .

Если выполнялось условие (1), но при этом размерность D исходного пространства признаков была велика (например, D >>1000), то решение основывалось на уменьшении каждого исходного изображения до размера m < M и n < N, а далее выполнялось его преобразование в общий вектор размером mn×1. По набору таких векторов (центрированных относительно среднего вектора по набору) формировалась матрица ковариации порядка mn. Матрица проекции (также порядка mn) в подпространство определялась далее на основе решения задачи на собственные значения для матрицы ковариации. Строки матрицы проекции (размером mn×1) являются искомыми собственными векторами матрицы ковариации. При этом проекция в собственное подпространство реализуется как одномерное преобразование Карунена–Лоэва (1D KLT) векторов (представляющих центрированные исходные данные) путем их умножения на матрицу проекции.

Значения m и n необходимо выбирать из условия устойчивости решения задачи на собственные значения. Алгоритмически задача уменьшения исходного пространства признаков MN → mn для исходных изображений решается с использованием процедур уменьшения размера изображения или путем перехода из исходного пространства яркостных признаков в другое пространство – например, в гистограмму яркости, градиенты яркости [6], спектр дискретного преобразования Фурье [3] и т.д. Вычислительные затраты на задачи собственных значений в этих случаях составляют O ≅ ( mn ) ³ , а на одномерное преобразование Карунена–Лоэва составляют O ≅ ( mn ) ² .

При этом надо помнить, что уменьшение разрешения изображений, связанное с его физическим размером до значений m × n , может приводить к потере информации в них. Поэтому если возникает проблема чрезвычайно большой выборки, а предыдущее решение с уменьшением исходного пространства признаков недопустимо из-за потери важной информации в исходных изображениях, то практического решения задачи построения собственного базиса для цифровых изображений в рамках идей [2] не достичь! Наконец, следует отметить, что при «искусственной векторизации» изображений в векторах не сохраняются пространственные отношения соседних элементов. При этом утрачивается и возможность полного использования корреляции, имеющейся в исходных матрицах между соседними элементами.

Естественно, что эти проблемы – невозможность использования РСА для изображений при граничных значениях базовых параметров, потеря информации и утрата полного использования корреляции между исходными элементами – касается также методов LDA, PLS и ССА.

Однако решение этой проблемы неожиданно появилось в 1998 году при новом подходе к реализации преобразования Карунена–Лоэва в приложении к изображениям лиц. Подход был назван «Vector Based Approximation of KLT» – VKLT [8]. Основная его идея состоит в том, что в отличие от [2, 5, 6] в VKLT вычисляются две матрицы ковариации C0 и R0, которые определяются отдельно по столбцам и строкам всех исходных изображений без их конкатенации в вектор. Далее вычисляются две матрицы проекции Φ1 и Φ2, определяемые собственными векторами матриц ковариации C0 и R0. Проекция исходных изображений в новое пространство признаков реализуется как дву- мерное (по строкам и столбцам) преобразование Ка-рунена–Лоэва так, что

Y k = Ф₁^T X k Ф₂, для всех k = 1, 2, … K , (2) где X_k , Y_k – изображение и его проекция в собственном подпространстве, что и отличает подход [8] от [2, 5–6]. Заметим, что в (2) исходное изображение X k и его проекция Y k в подпространстве представлены матрицами размера M × N .

Описанные в [8] эксперименты по распознаванию изображений лиц были выполнены на изображениях лиц базы ORL [24]. При этом авторами была отмечена более высокая робастность метода VKLT (в сравнении с KLT) по отношению к качеству исходных изображений, в том числе их «зашумлению», циклическому сдвигу и изменениям яркости. Также отмечалось существенное снижение требуемого объема памяти и вычислительных затрат при реализации задач на собственные значения (то есть при вычислении матриц проекции Φ ₁ и Φ ₂ ).

Идеи работы [8] представлены в монографиях [9 – 11] в форме PCArc (PCA по строкам и столбцам изображений) и исследованы в приложении к распознаванию изображений лиц в условиях малой выборки (Small Sample Size – SSS), а также в условиях низкого разрешения и аддитивного шума тестовых изображений . В [9] впервые было показано, что при любом K ≥ 1 проблема SSS в рамках PCArc не возникает, а робастные свойства, отмеченные в [8], сохраняются. Также были рассмотрены примеры отображения изображений лиц на главные компоненты в 3D-подпространствах для PCArc и (PCArc+LDA). В [10] также был представлен пакет «Моделирование систем распознавания лиц» (Face Recognition System Modeler/FaRes-MOD), в рамках которого реализованы неитерационные алгоритмы двумерной проекции в собственные подпространства PCArc и LDArc. Пакет FaRes-MOD реализован на платформе Borland® C++Builder™, работает под управлением ОС Windows и переносим на все его современные версии. С 2003 года пакет используется в Политехническом университете города Щецин в Польше и Санкт-Петербургском государственном электротехническом университете (ЛЭТИ) в учебных целях по курсам «Основы биометрии» и «Распознавание изображений». В [11] представлены векторно-матричные процедуры, позволяющие непосредственно реализовать методы двумерной проекции и редукции размерности пространства признаков в алгоритмических языках, поддерживающих матричные операции. Здесь рассмотрены методы улучшения кластеризации в собственном подпространстве при использовании каскада методов проекции PCArc+LDA.

Дальнейшее развитие идей [8–11] было представлено в публикациях уже как методы 2DLDA/2DKLT и 2DPCA /2DKLT [12– 14]. В такой форме записи впервые в технической литературе подчеркивается два этапа выполнения этих методов: первый этап – анализ исходных данных (включающий формирование общих матриц рассеяния по заданному критерию, вычисление матриц проекции и определение главных компонент) и следующий за ним второй этап – двумерное преобразование Карунена–Лоэва. Кроме того, эта форма записи отличается от других методов 2DLDA и 2DPCA, реализованных по итерационным алгоритмам. В целом, в этих публикациях представлен сравнительный анализ методов 1D- и 2D-проекции в собственные подпространства и показаны примеры решения задач кластеризации, компрессии и распознавания изображений лиц на различных бенчмарковых базах. При этом в [13] впервые были представлены все характеристики метода 2DPCA/2DKLT. В [14] была представлена система распознавания изображений лиц, использующая метод 2DLDA/2DKLT при наличии только одного (!) изображения в каждом классе базы обучения. Представленное здесь решение на практике показывает возможность «обхода проблемы SSS», обычно сопутствующей задачам обработки изображений лиц. Далее нами были описаны неитерационные алгоритмы (двумерной проекции в собственные подпространства) в параллельной и каскадной формах их реализации.

2. Формальное описание метода 2D PCA/2D KLT

Пусть нам задан набор X , состоящий из K матриц, где каждая матрица представляет изображение размером M × N , причем MN >> K :

X = [ X ⁽¹⁾ X ( ²⁾... X ( K ) ], V к = 1,2,... K . (3)

Целью 2DPCA является определение двух матриц проекции W 1 и W 2 , трансформирующих исходные данные (3) в собственное подпространство признаков при выполнении условия минимальной ошибки аппроксимации, что можно записать следующим образом:

||x ( k) — X k )||^ min, v к , (4) где X ^ˆ ⁽ ^k ⁾ – результат аппроксимации k -го изображения по главным компонентам.

Версии параллельного и каскадного алгоритмов 2DPCA/2DKLT приведены в табл. 1.

Редукция размерности пространства признаков реализуется как «усеченное 2DKLT», при котором в дальнейших преобразованиях участвуют только те собственные векторы, которые соответствуют d главным компонентам. Для этого из матрицы W ₁ ^T выбираем d строк, а из матрицы W 2 выбираем d столбцов, соответствующих d наибольшим собственным числам, и на их основе формируем две матрицы редукции F 1 и F 2 . При этом d < min( M , N) или d 1 < M ; d ₂ < N, если d 1 ^ d ₂ .

Верхние границы параметра d определяются исходя, например, из критерия энергетической значимости собственных значений, а нижние границы выбираются с учетом желаемого качества аппроксимации исходных данных. В этом случае «усеченное двумерное преобразование Карунена–Лоэва» реализуется следующим образом:

Y^1k ) = F 1 X ⁽ ^k ) F 2 , V к . (5)

Матрицы F1 и F2 в (5) имеют размеры (d×M) и (N×d) соответственно или (d1×M) и (N×d2) в общем случае. Знак «^» определяет отличие результата ап- проксимации от результата реконструкции Y (k). При этом результат (5) – матрица размера d1×d2 представляет исходные изображения в собственном подпространстве признаков. Теперь можно представить условие (4) в новой форме:

||X ⁽ ^k ) - F 1 ^T Y^k ) F ₂^t|| ^ min, V к =1, 2^ K . (6)

Схематически основные этапы выполнения 2DPCA для центрированных (относительно среднего) исходных данных: вычисление двух матриц ковариации, решение двух задач на собственные значения, выбор двух границ для главных компонент и формирование левой F 1 и правой F 2 матриц проекции, реализация процедуры 2DKLT в параллельном алгоритме и организация вычислений в каскадном алгоритме 2DPCA/2DKLT показаны в [53].

Характеристики метода 2DPCA/2DKLT

Размерности пространства признаков при решении задач на собственные значения в методе 2DPCA/2DKLT определяются числом строк и столбцов изображений (то есть значениями M и N ). Поэтому наибольшая размерность исходного пространства признаков определяется как max ( M , N ).

При представлении K исходных изображений как совокупности строк и столбцов общее число получаемых при этом векторов составляет величину K ( M + N ). Поэтому при любых значениях { M , N , K } соотношение «размерность исходного пространства признаков/число векторов» всегда будет отвечать условию max ( M , N ) << K ( M + N) , «обходя» таким образом проблему SSS.

Порядок матриц ковариаций составляет M и N , что предопределяет практическую возможность решения задачи на собственные значения и стабильность этого решения даже для изображений относительно больших размеров. Для матриц ковариации, вычисляемых отдельно по строкам и столбцам одного исходного изображения, потребуется 2 MN ( M + N ) операций, а по всем K изображениям – 2 KMN ( M + N ) операций.

Объем вычислений на решение задач на собственные значения для базы изображений с параметрами { M , N , K, L } составит не более (( M ) ³ +( N ) ³ ) при нахождении всех собственных чисел и соответствующих им собственных векторов. Отметим, что операционная сложность для метода 1DPCA определяется значениями ( MN ) ³ или ( KL ) ³ . Если, например, положить, что MN = KL и M = N , то сокращение вычислений для метода 2DPCA в сравнении с методом 1DPCA определится отношением M ³ /2.

На реализацию одного полного 2D KLT потребуется MN ( M + N ) операций, а на реализацию процедуры редукции размерности пространства признаков (РРПП) в рамках «усеченного» 2D KLT потребуется Md ( d + N ) операций ( d – число главных компонент). При этом сокращение вычислений можно приблизительно оценить как величину ( M + N ) / d , поскольку:

NM ² + MN ² = MN ( M + N ) ^ M + N

Md 2 + MNd " M (d + N) d ~ d ’ при условии d << N.

Табл. 1. Параллельный и каскадный алгоритмы для 2DPCA/2DKLT

Параллельный алгоритм 2DPCA/2DKLT	Каскадный алгоритм 2DPCA/2DKLT
Вход : матрицы X ⁽ ^k ⁾ ∈ ℜ ^M ^× ^N , ∀ k = 1, 2,… K .	Вход : матрицы X ⁽ ^k ⁾ ∈ ℜ ^M ^× ^N , ∀ k = 1, 2,… K .
Выход : матрицы X , W 1 , W 2 , Λ 1 , Λ 2 , Y ⁽ ^k ⁾ .	Выход : матрицы X , W 1 , W 2 , Λ 1 , Λ 2 , Y ⁽ ^k ⁾ .
1. Вычислить средний образ из всех данных X = ¹ ^K X ⁽ ^k ⁾ . K ^∑ k = 1 2. Центрировать исходные данные: X ⁽ ^k ⁾ = X ⁽ ^k ⁾ - X , ∀ k . 3. Вычислить две матрицы ковариации относительно строк и столбцов матриц-результатов, полученных в п. 2: C ⁽ ^r ⁾ = ∑ ^K X ⁽ ^k ⁾ ( X ⁽ ^k ⁾ ) ^T , C ⁽ ^с ⁾ = ∑ ^K ( X ⁽ ^k ⁾ ) ^T X ⁽ ^k ⁾ . k = 1 k = 1 4. Решить две задачи на собственные значения: C ⁽ ^r ⁾ W 1 = Λ 1 W 1 и C ⁽ ^c ⁾ W 2 = Λ 2 W 2 , определив при этом диагональные матрицы собственных значений ( Λ ₁, Λ ₂) и матрицы W ₁ и W ₂ собственных векторов (или левую и правую матрицы проекций). 5. Упорядочить собственные значения по убыванию и переставить в соответствии с новым порядком столбцы матриц W ₁ и W ₂. 6. Выполнить проекцию исходных данных в собственное пространство, реализовав двумерное преобразование Ка-рунена–Лоэва: Y ⁽ ^k ⁾ = W ₁ ^T X ⁽ ^k ⁾ W ₂, ∀ k . 7. Для реконструкции исходных данных, по результату Y ⁽ ^k ⁾ , выполнить обратное двумерное преобразование Кару-нена–Лоэва: X ⁽ ^k ⁾ = W ₁ Y ⁽ ^k ⁾ W ₂ ^T , ∀ k . Конец Параметры всех вычисленных выше матриц X ∈ R ^M ^× ^N ; Y ⁽ ^k ⁾ ∈ R ^M ^× ^N ; C ( r ) _∈ R M × M ; C ( c ) _∈ R N × N ; { W ₁, Λ ₁} ∈ R ^M ^× ^M ; { W ₂, Λ ₂} ∈ R ^N ^× ^N . Матрицы Λ ₁, Λ ₂– диагональные. Матрицы W ₁, W ₂– ортогональные так, что: W ₁ ^T W ₁ = I ₁; W ₂ ^T W ₂ = I ₂, где I 1 , I 2 – единичные матрицы порядков M и N . P.S. Матрицы, вычисленные в каскадном алгоритме, также соответствуют этим параметрам.	1. Вычислить средний образ из всех данных X = ¹ ^K X ⁽ ^k ⁾ . K ^∑ k = 1 2. Центрировать исходные данные: X ⁽ ^k ⁾ = X ⁽ ^k ⁾ - X , ∀ k . 3. Вычислить ковариационную матрицу относительно строк матриц-результатов п. 2: K C (r) ₌ 1 X ( k ) ( X ( k ) ) T . MN ^∑ k = 1 4. Решить первую задачу на собственные значения: C ⁽ ^r ⁾ W 1 = Λ 1 W 1 , определив при этом диагональную матрицу собственных значений Λ ₁ и матрицу W ₁ собственных векторов (или левую матрицу проекций). 5. Упорядочить собственные значения по убыванию и переставить в соответствии с новым порядком столбцы матрицы W ₁. 6. Выполнить проекцию исходных данных в промежуточное собственное подпространство, реализовав преобразование Карунена–Лоэва: X 1⁽ ^k ⁾ = W 1^T X ⁽ ^k ⁾ , ∀ k . 7. Вычислить матрицу ковариации по столбцам матрицы результата (6): C ( c ) _{= ∑} ^K ( X ₁ ( k ) ) T X ₁ ( k ) . k = 1 8. Решить вторую задачу на собственные значения: C ⁽ ^с ⁾ W ₂ = Λ ₂ W ₂ и таким образом вычислить матрицу собственных значений Λ ₂ и матрицу собственных векторов – правую матрицу проекции W ₂. 9. Упорядочить собственные значения по убыванию и переставить в соответствии с новым порядком столбцы матрицы W ₂. 10. Выполнить проекцию исходных данных в собственное подпространство, реализовав KLT по одномерной или двумерной форме: Y ⁽ ^k ⁾ = X ₁ ⁽ ^k ⁾ W ₂ ≡ W ₁ ^T X ⁽ ^k ⁾ W ₂, ∀ k / Конец

Например, для M =112 и N =92 (база лиц ORL [24]) и d =10 сокращение вычислений составит примерно 20 раз (!) на каждое изображение. С учетом параметра K – числа изображений, ускорение вычислений составит величину, равную примерно K ( M + N ) / d на все исходные данные. Результат (РРПП) содержит ( d × d ) или ( d 1 × d 2 ) элементов, поэтому РРПП определяется соотношением MN /( dd ) или MN /( d 1 d 2 ), если d 1 ≠ d 2 . Например, для M =112, N =92 и d =10 пространство признаков сократится более чем 100 раз (!) на каждое изображение.

3. Алгоритм реализации 2DLDA/2DKLT

Отдельно рассмотрим алгоритм реализации 2DLDA/2DKLT для набора изображений, впервые представленный в мае 2005 года [12].

В этом случае исходные данные должны быть структурированы (разбиты на классы) и в каждом классе должно быть не менее двух изображений .

Пусть нам задан набор X , состоящий из KL матриц X ⁽ ^k ^, ^l ⁾ , где каждая матрица представляет изображение размером M × N , а k = 1,2, ... K и l = 1,2, ... L .

Целью 2DLDA является определение левой и правой матриц проекции W 1 и W 2 , трансформирующих исходные данные в собственное подпространство признаков так, что X ⁽ ^k ^, ^l ⁾→ Y ⁽ ^k ^, ^l ⁾ , ∀ k и ∀ l , при выполнении условия минимизации внутриклассового и максимизации межклассового расстояния в собственном подпространстве. Ниже, в табл. 2, приводится псевдокод для алгоритма 2DLDA/2DKLT.

Табл. 2. Псевдокод для алгоритма 2DLDA/2DKLT

Вход : матрицы X ( k , ^l ) е ЭТ M ^х N , V к = 1, 2, ... K ; V l = 1, 2, ... L .

Выход : матрицы X , W 1 , W ₂, Л 1 , Л ₂, Y ( ^к , ¹ ) .

Редукция размерности пространства признаков

Из матрицы W ₁ ^T выбираем d строк, а из матрицы W ₂ выбираем d столбцов, соответствующих d наибольшим собственным числам, и на их основе формируем две матрицы редукции F ₁ и F ₂. В этом случае «усеченное двумерное преобразование Карунена–Лоэва» реализуется следующим образом:

Y >( ^к , ^l ) = F 1 X'^к , ^l ) F 2 , V к ,

что аналогично преобразованиям в алгоритме 2DPCA/2DKLT.

Матрицы F ₁ и F ₂ имеют размеры ( d × M ) и ( N × d ) соответственно или ( d ₁× M ) и ( N × d ₂) в общем случае. Знак «^» отличает результат аппроксимации от результата реконструкции Y ( k,l ) .

В общем случае исходные данные могут представлять K наборов изображений, где каждый набор состоит из L_k изображений так, что L_k ≥ 2, а K ≥ 3. Эти два условия позволяют вычислить среднее изображение в классе, а также определить не менее двух признаков для отображения собственного подпространства на плоскости. В условиях обработки изображений достаточно иметь только два изображения на класс. Для K =4 и L =2 собственное подпространство показано в [53].

В этой работе максимальное расстояние в классах равно 0,02, минимальное расстояние между классами составило 0,21, поэтому параметр качества кластеризации составил 4,78. Каждая выделенная точка представляет отдельное изображение в трехмерном собственном подпространстве, а пара связанных точек представляет отдельный класс. И получить такое представление для 8 изображений, каждое из которых имеет размер 320×240 пикселей, можно только в рамках двумерных методов проекции.

1. Вычислить средний образ в каждом классе L

x ( ^к ) = 1 £ х ( k,¹ > , v к .

L 1 =1

2. Вычислить средний образ для всех данных: K

X = 1 X ⁽ ^k ⁾ .

K ^£

3. Вычислить «внутриклассовую ( W ithin-сlass) и межклассовую» ( B etween-class) матрицы ковариаций, определенные относительно строк:

W ( r ) = ££ ( X ( k , ^l ) - X ( k )₎₍ X ( k , ^l ) - X ( k ) ) T ; к = 1 l = 1

b ⁽ r ) = £ ( X ⁽ ^к ) - X )( X ⁽ ^к ) - X) ^T . к = 1

4. Вычислить «внутриклассовую ( W ithin-сlass) и межклассовую» ( B etween-class) матрицы ковариаций, определенные относительно столбцов:

w ( = ) = £ £ ( X ( ^к , ^l ) - X ( ^к ) ) T ( X ( ^к , ^l ) - X ( ^к ) ); к = 1 l = 1

b ⁽ c ) = £ ( X ⁽ ^к ) - X ) ^T ( X ⁽ ^к ) - X ).

к = 1

5. Выполнить регуляризацию матриц W ⁽ ^r ⁾ и W ⁽ ^c ⁾ перед их обращением и регуляризацию обеих матриц рассеяния:

5 ⁽ r ) = [ W ⁽ r ) ] ^- ¹ B ⁽ r ) и 5 ⁽ c ) = [ W ⁽ c ) ] ^- ¹ B ⁽ c ) .

6. Решить две задачи на собственные значения:

5 ⁽ r ) W = Л ⁽ r ) W ; 5 ⁽ c W = Л ⁽ c X .

Выполнить проекцию исходных данных в собственное пространство, реализовав д вумерное преобразование Карунена–Лоэва:

Y ( ^к , ^l ) = w ^T X ( ^к , ^l ) W 2 , V к .

Для реконструкции исходных данных по результату Y ⁽ ^k ⁾ выполнить обратное двумерное преобразование Карунена–Лоэва:

X'^к , ^l ) = W 1 Y ( ^к , ^l ) W 2^T , V к .

Конец

Параметры всех вычисленных выше матриц

{ X , X ⁽ ^к ) , Y ⁽ ^к , ^l ) } е ЭТ M ^х N ; {C ⁽ r ) , W , Л 1 } е ЭТ M ^х M ; {C ⁽ c ) , W , , Л ₂} е ЭТ N ^х N . Матрицы Л 1 , Л ₂ - диагональные; матрицы W 1 , W ₂ - близкие к ортогональным.

4. Развитие методов двумерной проекции ИЛ в собственные подпространства

Продолжая историю методов проекции в собственные подпространства, отметим, что некоторые «новые подходы к реализации 2DPCA» рассматривались в работе [15], вышедшей в свет после работ [8–11]. Однако в работе [15] допущены принципиальные ошибки в представлении базовой процедуры 2DPCA. Во-первых, в [15] анализ главных компонент выполнялся только по одному направлению – а именно по столбцам исходных изображений (!). Во-вторых, по другому направлению (по строкам) анализ главных компонент не выполнялся, но изменялся размер изображения. Естественно, что и KLT здесь реализуется также только по одному направлению, как и редукция размерности пространства признаков. В-третьих, для возможности практического применения подхода [15] для задач рас- познавания изображений лиц здесь применялось предварительное уменьшение размера исходных изображений (что не требуется в методах [8–14]). Именно поэтому подходы, представленные в [15], не относятся к методам двумерной проекции в собственные подпространства и не могут называться 2DPCA.

Развивая идеи работы [15], David Zhang опубликовал в декабре 2005 года статью [16], в которой представил mix из понятий « Two-Directional и Two-Dimension », что, однако, еще больше усложнило понимание идей двумерной проекции в собственные подпространства в приложении к обработке изображений.

Тем не менее, подходы [15] имели и других последователей, которые их развивали. Суть их сводилась к предварительной декомпозиции исходного изображения в набор подобластей. Именно это и позволяло «напрямую» реализовать метод [15] для таких подобластей. Число публикаций, описывающих формы таких подоб- ластей, способы их получения и использования, сегодня уже не охватить ссылками в рамках библиографии настоящей статьи. Все эти статьи доступны в интернете по ключевым словам, например, «Diagonal PCA», «Matrix PCA», «Extension PCA», «Mixture of Bilateral-Projection 2DPCA». Отметим также, что практически во всех этих работах одним из соавторов является David Zhang, идеи [15] которого мы исследовали выше. И перечисление всех работ Davidа Zhangа было бы здесь не совсем корректным по отношению к другим оригинальным идеям.

Начиная с 2005 года алгоритмы двумерной проекции в собственные подпространства (в рамках PCA) были представлены и другими группами авторов, но уже как «Generalized Low Rank Approximations of Ma-trices», «Generalized 2DPCA», и даже как «2DSVD» [17– 19]. В этих работах есть ссылка на статью [15], не представляющую идеи 2DPCA, но нет ссылок ни на работу [8], ни на работы [9– 14], что довольно странно для научных публикаций.

Что же касается «метода 2DSVD» из [19], то тут следует отметить два важных факта: если параметры базы изображений определены как L = 1 и K = 1 , то метод 2DPCA/2DKLT «вырождается» в метод SVD; если K > 1 и L ≥ 1 , метод 2DPCA /2DKLT не становится методом 2DSVD, поскольку в общем случае матрицы ковариации, вычисляемые в методах 2DPCA, имеют полный ранг и поэтому не являются сингулярными. И этот второй факт не позволяет назвать 2DPCA/2DKLT, как 2DSVD. Некорректность применения названия 2DSVD в [19] возникла по ассоциации с тем, что PCA можно реализовать через SVD. Очевидно также, что решение задач на собственные значения в 2DPCA может быть реализовано через два независимых SVD, но это совсем не одно и то же, поскольку в состав всего алгоритма 2DPCA/2DKLT входят не только задачи на собственные значения.

Интересно отметить, что «метод 2DSVD» используется в основном как инструмент обработки карт местности для их компрессии, кодирования видеоданных, обработки рукописных текстов для задач их классификации и числовых матриц для задач их низкоранговой аппроксимации [20–22]. Методы 2DPCA традиционно применяются как инструмент в задачах лицевой биометрии – для редукции исходного пространства признаков, распознавания изображений лиц и построения их моделей. Более подробно это будет представлено в следующем параграфе.

5. Методы двумерных проекций для двух наборов изображений лиц

Казалось бы, очень странно, что методы двумерных проекций в собственные подпространства получили наибольшее развитие и применение в задачах обработки изображений лиц. Однако этому факту есть объяснение, представленное ниже. Особенностью обработки изображений лиц (ИЛ) является то, что в рамках соответствующих систем могут использоваться различные сенсорные датчики ИЛ, различные методы предобработки ИЛ и различные формы их представления. В общем случае ИЛ могут быть представлены в форме

2D-изображений в видимом (VIS), тепловом (NIR) и инфракрасном свете (IR), в виде композиционных фотороботов, рисованных скетчей и популяций из них; в форме «range image», в форме контурных моделей области лица (Active Shape Model – ASM), моделей внешнего вида (Active Apperance Model – AAM), определяющих текстуру ИЛ, и, наконец, в форме 3D-моделей ИЛ.

При этом исходные данные на входе системы могут быть одновременно представлены несколькими наборами ИЛ, связанными «в пары», «тройки» или даже «группы наборов ИЛ более трех». Примером последнего варианта является шесть наборов ИЛ, представляющих лицо одного и того же человека, из которых первый набор содержит ИЛ(VIS), второй – ИЛ(NIR), а третий – ИЛ(IR), четвертый – ИЛ в форме скетчей, пятый набор содержит ИЛ в форме 3D и, наконец, шестой представлен набором «IR - Range Im-ages». В отечественной биометрии такие наборы относят к данным «мультисенсорной природы». В зарубежной литературе их относят к группе «гетерогенных данных». Наиболее часто встречающиеся в технической литературе связи в рамках взаимных трансформаций ИЛ показаны в [53].

С одной стороны, наличие разнообразных способов представления ИЛ существенно расширяет возможности и области применения систем поиска и распознавания людей по ИЛ. С другой стороны, это разнообразие значительно усложняет структуру соответствующих систем распознавания ИЛ, алгоритмы их функционирования и саму реализацию таких систем. Например, чтобы реализовать поиск ИЛ, оперировать подобными данными и интерпретировать их, необходимо связать их между собой (например, два изображения разной сенсорной или разной семантической природы). Далее, если предположить, что между этими данными есть взаимное соответствие, то при запросе на поиск данных, входящих в один из наборов, можно легко найти соответствующий ему результат из другого набора. Необходимое взаимное соответствие (подобное взаимному индексированию) достигается на этапах обучения по выборкам мульти-сенсорных (или гетерогенных) данных.

С учетом этого в последние годы в обработке ИЛ сформировались новые классы задач – «Heterogene-ous Face Recognition and Matching», «Cross-Modal Face Matching», «Face Image Indexing and Retrieval», а также и более общие подходы для поиска информации, например, «Cross-Modal Multimedia Retrieval». Главная особенность этих задач – работа с двумя или более наборами ИЛ (или другими формами данных).

Минусом же всех цитируемых выше методов проекции в собственные подпространства являлось то, что они изначально были ориентированы на обработку только одного набора исходных данных, хотя параметры K ≥ 1 и L ≥ 1 этих данных могли определять их сложную структурную организацию. Однако, несмотря на то, что эти методы не соответствуют современным классам задач обработки изображений, некоторые их решения удалось получить в рамках как одномерных, так и двумерных методов PCA и LDA. В этом случае каждый отдельный набор исходных данных проецировался в отдельное собственное подпространство, а далее использовалась взаимная трансформация изображений между этими подпространствами. Например, в [23] эксперименты выполнены на базе 1DPCA и двух наборах ИЛ – наборе фото и наборе соответствующих им скетчей [24]. При этом в [23] показана возможность построения моделей взаимной реконструкции для пар фото–скетч, а также решение задачи распознавания фото и скетчей с помощью таких моделей. Позднее на идеях, заложенных в [23], удалось решить и задачи суперразрешения между фото и скетчами (часто эти задачи в приложении к ИЛ называют задачами «галлюцинации») и задачи генерации популяций ИЛ. Так, в [25] эксперименты выполнены на основе 1DPCA и на основе 2DPCA/2DKLT для двух наборов, содержащих смешанные группы изображений. Эти группы включают: фото и скетчи, изображения VIS и NIR, фото и соответствующие им контурные изображения, а также изображения, семантически не связанные в соответствующих парах. Источники этих изображений приведены в [25]. Пример результата взаимной реконструкции изображений для таких наборов приведен в [53]: в рядах 1 и 2 представлены обучающие наборы данных; ряд 3 – результат реконструкции, полученный по изображениям ряда 2; ряд 4 – изображения ряда 2 в низком разрешении с добавлением шума; ряд 5 – результат реконструкции ИЛ из изображений ряда 4. В процессе обучения исходные данные трансформируются в собственные подпространства, а также формируются две матрицы взаимной трансформации изображений, которые далее используются для взаимного преобразования изображений в парах. Методы, представленные в [25], были использованы в работе [53] также для генерации популяций фото по заданным скетчам.

И все же решение отмеченных выше задач наиболее полно реализуется только на идеях CCA (заложенных еще в начале 20 века [4]) и идеях PLS-регрессии, впервые реализованных в эконометрии и развитых в хемометрии. В приложении к цифровой обработке многомерных сигналов (а по факту изображений) алгоритмы PLS, например, можно рассматривать как «расширение методов PCA/SVD на два и более набора исходных данных» [26].

Методы CCA и PLS позволяют отобразить два набора исходных данных (часто не коррелированных, или внешне подобных, но семантически не связанных между собой) в общее собственное подпространство признаков, в котором они сильно коррелируют. Это позволяет связать пары исходных данных в собственном подпространстве с помощью общей регрессионной модели, чтобы представлять и понимать одни наблюдения, действия (или явления) через другие, устраняя тем самым полностью или частично сенсорный или семантический разрыв между ними.

Первые применения CCA и PLS для обработки ИЛ появились в начале текущего столетия. А первыми задачами были: реконструкции одних ИЛ по другим (например, в [27] рассмотрена реконструкция вида VIS(rgb) ^ 3D и VIS(rgb) ^ NIR ) ; индексация, распознавание и реконструкция ИЛ в гетерогенных наборах ИЛ (например, в [28] использованы формы «Range Image» и текстура цветного ИЛ); согласование параметров моделей внешнего вида для ИЛ (Active Appearance Model [29]). При этом следует отметить: на начальных стадиях применения методов CCA и PLS задачи обработки гетерогенных (или мультисенсорных) данных решались на основе одномерных алгоритмов их реализации, что требовало предварительного представления ИЛ в форме векторов. И здесь снова появилась проблема SSS, сопутствующая задачам обработки ИЛ. Для ее пояснения рассмотрим основные идеи одномерных алгоритмов реализации ССА и PLS в соответствии с [26].

Пусть нам заданы два набора исходных данных, состоящие из K числовых матриц, а каждая матрица представляет ИЛ размером M × N , причем MN >> K , что является обычным для задач обработки ИЛ. Каждое ИЛ «развернем в вектор» путем конкатенации его строк (или столбцов) и центрируем относительно среднего значения в этом векторе. В этом случае мы получаем два набора исходных данных X и Y , состоящие из K векторов размером MN ×1 каждый так, что:

X = [ X (1) X (2) ... X ( K ) ];

Y = [ Y (1) y (2) ... y ⁽ K ) ], _v k=i, 2 ... к . (7)

Целью CCA является нахождение двух матриц проекции W x и W y , трансформирующих исходные данные X и Y в собственное подпространство – подпространство канонических переменных

U = w T x , V = W j Y

так, чтобы выполнялось условие: || U - V || ^ min.

Пары исходных данных X ⁽ ^k ⁾ и Y ⁽ ^k ⁾ при этом могут быть не связаны между собой корреляцией, в то время как канонические переменные U ⁽ ^k ⁾ и V ⁽ ^k ⁾ , определяемые как

и ⁽ k ) = w T x ⁽ k ) , x

V ⁽ ^k ) = w J y ⁽ ^k ) ,

связываются между собой устойчивой корреляцией, максимум которой достигается при решении двух совместных задач на собственные значения [26]:

( C - x ¹ C xy C - C yx )W x =Л x W x _ ( C yy C yx C - C xy )W y =Л y W y

где C xx , C yy , C xy , C yx – матрицы ковариации порядков MN , причем

C xx = XX^T ; C yy = YY^T ;

C xy = ^XY ^;C yx = C xy ^;

Л _x, Л y - диагональные матрицы собственных значений; W x и W y – матрицы собственных векторов (матрицы проекций).

Целью PLS также является нахождение двух матриц проекции W_x и W_y , трансформирующих исходные данные в собственное подпространство так, чтобы выполнялось условие максимизации ковариации между переменными в этом подпространстве. При этом пары исходных данных X ⁽ ^k ⁾ и Y ⁽ ^k ⁾ также могут быть не связаны между собой корреляцией, в то время как пары переменных U ^(k ⁾ и V ⁽ ^k ⁾ в собственном подпространстве связываются между собой устойчивой корреляцией, максимум которой достигается при решении двух следующих совместных задач на собственные значения:

f ( C xy C yx W x =л x W x ; [ ( C yx C xy )W y =л y W y ,

где матрицы взаимной ковариации определены аналогично (10).

Исходные данные, структуру вычислений в ССА и PLS, а также результаты U и V схематически представлены в [53].

Вычисления в CCA и PLS заканчиваются выбором значения параметра d – редукции размерности пространства признаков (причем d < MN ). Далее реализуется одномерное преобразование Карунена–Лоэва (ПКЛ), в результате чего получаем полное представление переменных U и V в собственном подпространстве или их представление только по главным компонентам. В последнем случае ПКЛ реализуется с использованием только тех собственных функций, которые соответствуют главным компонентам.

Обратим внимание на соотношение (10), в котором общие матрицы рассеяния получаются в результате перемножения четырех симметричных (по определению) матриц порядков MN . Две из них – матрицы автоковариации – требуют предварительного обращения, что для матриц, формируемых по ИЛ (и в условиях MN >> K ), не является тривиальным, поскольку ранг этих матриц может быть меньше их порядка. Общие матрицы рассеяния также имеют порядки MN , но не являются симметричными. Решение обобщенной задачи на собственные значения в этом случае будет либо неустойчивым, либо невозможным в принципе уже при значениях M > 100 и N > 100 (хотя, например, в стандартах биометрии используются ИЛ размером 320×240). Очевидно, что эти характеристики ограничивали широкое применение методов одномерного CCA в задачах обработки изображений. Два подхода для реализации CCA и PLS c использованием процедур SVD представлены в работах [30, 31].

В статье [30] рассмотрено решение задачи слежения за областью лица в процессе формирования модели 3D-формы ИЛ. Здесь область интересов на ИЛ представлена не всеми MN яркостными признаками, а небольшим (≤ 100) набором антропометрических координат на области лица. В этом случае можно реализовать ССА с использованием трех процедур SVD, что позволяет избежать вычисления исходных кова- риационных матриц из (10), требуемых здесь обращений матриц, а также обойтись без решения задач на собственные значения.

В статье [31] рассмотрено решение задач кросс-модального распознавания ИЛ различной сенсорной природы, включая скетчи, фотооригиналы, ИЛ с высоким и низким разрешением и различной позой и т.д. Однако в этом случаем ССА через SVD может быть применено только для небольшого числа пар ИЛ, причем на размеры изображений также накладываются ограничения. Последнее связано с тем, что порядки ортогональных матриц, формируемые в рамках SVD, определяются значениями MN и K из выражения (7). Кроме того, все решения в этом подходе могут быть реализованы только в вариантах выполнения проекций по одному направлению, что требует представления пар ИЛ в векторной форме (7).

«Революция» в решениях задач обработки двух наборов ИЛ началась в 2007 году с появлением первых статей, посвященных методам 2DCCA [32, 33].

В [32] представлен итерационно-каскадный алгоритм вычисления двух матриц проекции . Основной недостаток этих решений – сложность понимания и реализации итерационно-каскадного алгоритма 2DCCA в условиях априорного выбора числа итераций, параметра сходимости и последующего обеспечения сходимости. И, хотя авторы отмечают существенное снижение вычислительных затрат в рамках 2DCCA (в сравнении с 1DCCA), в выполненных ими экспериментах размер ИЛ не превышал размеров 50×50. А это также косвенно подчеркивает сложность реализации и применения итерационно-каскадного алгоритма 2DCCA.

В [33] представлена реализация метода «2DCCA», основанная на идеях работы [15]. И, естественно, что все особенности (а точнее недостатки) из работы [15] перешли на этот метод: «2DCCA» здесь реализуется по одному направлению, в то время как по другому направлению выполняется только уменьшение размера исходного изображения. Но даже и в этом подходе (при выполнении экспериментов) исходные ИЛ необходимо было предварительно уменьшать до 28×23, что также свидетельствует о несовершенстве этого метода.

Несмотря на отмеченное несовершенство подходов [32, 33], они определили две независимые ветви применения ССА в задачах обработки ИЛ. Хотя в публикациях, опирающихся на эти подходы, часто так и остаются неясными параметры реализации ССА (и/или размеры исходных и выходных данных) в приводимых экспериментах.

Фузия признаков, популяции признаков и каскады методов проекции в собственные подпространства

В параграфе 1 мы отмечали проблему SSS, которую можно условно связать с малой репрезентативностью исходных данных. В работах [34–36] предложены решения, позволяющие «обходить» эту проблему. Предлагаемые здесь решения основаны на создании популяций по исходным данным.

Так, в работе [34] на примере базы YALE-B исследуется решение задачи распознавания ИЛ в нестабильных условиях их освещения и малого числа эталонов. Уменьшение влияния изменения яркости изображений достигается в рамках предварительного их логарифмирования и использования четырех специальных процедур выделения признаков из результатов логарифмирования. Этим достигается создание четырех популяций признаков из каждого ИЛ. При этом блоками системы распознавания являются: четыре блока PCA и шесть блоков ССА. Четыре блока PCA (1–4) формируют вторичные признаки (по главным компонентам) от каждой популяции и далее образуют шесть возможных пар наборов признаков (1 и 2; 1 и 3; 1 и 4; 2 и 3; 2 и 4; 3 и 4). Эти пары наборов поступают на входы шести блоков ССА, а результат выбирается по методу ближайшего соседа с эталоном. Реализованные в [40] решения основаны на идеях работ [15] и [33] и сохраняют все их недостатки.

В работе [35] представлен алгоритм, названный 3DCCA, предназначенный для куба векторных данных. Предварительной фильтрацией исходных данных по каждому направлению (X, Y, Z) формируются по два набора вторичных признаков. Эти наборы поступают на вход трех блоков ССА, а результаты проекции в собственное подпространство объединяются (фузируются) в общий вектор. Отмечаются три достоинства предложенного решения: сокращение вычислительных затрат; логичность и обоснованность объединения признаков и высокая результативность распознавания. К минусам можно отнести то, что решения 3DCCA основаны на одномерных CCA итерационного типа.

В работе [36] на примерах данных «The Texas 3D Face Recognition Database» рассмотрена задача взаимного распознавания 2D-изображений лиц и их аналогов, представленных в форме «range images». Последние являются картами глубин для формирования 3D-форм лиц, но в их текстуре не различимы не только примитивы лица, но даже и границы их областей. В статье представлено несколько вариантов архитектуры соответствующих систем распознавания. Первая основана на фузии 2D-изображений лиц и «range im-ages», что обеспечивает улучшение качества исходных данных, используемых для обучения. Вторая использует предварительную процедуру PCA для уменьшения объема признакового пространства на входе блока ССА (в статье она названа как «архитектура ССА-РСА»). Третья и четвертая архитектура систем основана на вариантах каскадирования блоков ССА (архитектура «CCADouble»). Авторы отмечают высокую результативность взаимного распознавания 2D-изображений лиц и «range images». Однако во всех случаях исходные изображения представлялись в форме векторов, что снижает интерес к этой работе.

Подводя итог работам [34–36], можно отметить, что они являются «промежуточным мостиком» между идеями [15] и идеями двумерных методов проекции в собственные подпространства, не требующими уменьшения размеров исходных изображений и исключающих их векторизованное представление.

Первый неитерационный алгоритм 2DCCA/2DKLT, продолжающий идеи [8–11], представлен нами в статье [37]. В записи «2DCCA/2DKLT» подчеркивается два этапа выполнения – анализ исходных данных по двум направлениям (по столбцам и строкам ИЛ) с выбором главных компонент и двумерное преобразование Кару-нена–Лоэва.

6. Неитерационные алгоритмы реализации 2DСCA/2DKLT и 2DPLS/2DKLT

Пусть заданы два набора исходных данных X и Y , состоящие из K матриц р азмером M × N , причем MN >> K :

X = [ X (1) X⁽²⁾... X (K ) ] и

Y = [ Y (1) Y⁽²⁾... Y ( K ) ], V k = 1, 2,... K . (12)

Матрицы X ⁽ ^k ⁾ и Y ⁽ ^k ⁾ образуют связанные пары – например, ИЛ одного человека, но полученные от разных сенсорных источников.

Целью алгоритмов 2DСCA/2DKLT и

2DPLS/2DKLT является нахождение двух пар матриц { W x 1 , W y 1 } и { W x 2 , W y 2 }, используемых как левые и правые матрицы проекции в реализации двумерного преобразования Карунена–Лоэва исходных данных X ⁽ ^k ) и Y*^k ) , V k . Проекция исходных данных в общее собственное подпространство X ⁽ ^k ) ^ U ⁽ ^k ) и Y^(k ) ^ V^^k ) реализуется так, чтобы выполнялось условие:

11 и ⁽ ^k — v ⁽ ^k ) | H min, (13)

которое в [4] определено как критерий максимума корреляции между переменными в собственном подпространстве:

argmax = Cov( U , V ) . (14)

{W x 1, W x 2, W y 1, W y 2}

В общем случае исходные данные X ⁽ ^k ⁾ и Y ⁽ ^k ⁾ могут быть не связаны между собой корреляцией, в то время как канонические переменные U ⁽ ^k ⁾ и V ⁽ ^k ⁾ связываются между собой устойчивой корреляцией.

Именно это свойство ССА и PLS создает основу для решения задач «Heterogeneous Face Recognition and Matching», «Cross-Modal Face Matching», «Face Image Indexing and Retrieval», задач «Face Hallucination» и «Face Super-resolution» и даже задач «Cross-Modal Multimedia Retrieval».

Версии алгоритмов 2DСCA/2DKLT и

2DPLS/2DKLT, записанные в форме псевдокодов, представлены ниже, в табл. 3.

Редукция размерности исходного пространства признаков реализуется как «усеченное 2DKLT», при котором в дальнейших преобразованиях участвуют только те собственные векторы, которые соответствуют d главным компонентам. Для этого из левых матриц проекции { W^T , W^T }выбираем d строк, а из пра- x 1 y 1

вых матриц проекции { W_x^T , W_y^T } выбираем d столбцов, соответствующих d наибольшим собственным числам, и на их основе формируем четыре матрицы

редукции { Fx i , Fx ₂ } и { Fy i , Fy ₂ }. При этом d M , N) или d i < M ; d ₂ < N, если d 1 * d ₂ . Верхние границы параметра d определяются исходя, например,

Табл. 3. Псевдокоды для 2DC

из критерия энергетической значимости собственных значений, а нижние границы выбираются с учетом желаемого качества аппроксимации исходных данных.

CA /2DKLT и 2DPLS /2DKLT

Алгоритм 2DСCA/2DKLT

Алгоритм 2DPLS/2DKLT

Вход : { X ^к ) , У ^к ) } еЛ M ^х N , V к =1, 2,... K

Вход : { X ( ^к ) , У^{1 к} ) } еЛ M ^х N , V к = 1, 2,_ K

Выход { X , У } , { Л 1 , Л х 2 , Л y 1 , Л y 2 },

{ Wx 1 , Wx 2 , W y_b W y 2 , Uk ) , V ⁽ ^k ) }, V к .

Выход: { X , У } , { A x 1 , A x 2 , Л y 1 , Л y 2 },

{ Wx 1 , Wx 2 , Wy 1 , Wy 2 , U ^к ) , V ⁽ ^к ) }, V к .

1. Вычислить средние образы из данных:

X = 1 У х ( ^к ) ; У = 1 У У ( ^к ) .

K к = 1 K к = 1

2. Центрировать исходные данные V k:

X⁽ ^к ) = X ⁽ ^к ) - X ; У⁽ ^к ) = У ⁽ ^к ) - У .

3. Вычислить ковариационные матрицы относительно строк матриц из п. 2:

C ( r ) = у X ( к ) ( X ( к ) ) ^Т " C ^W = у У ( к ) ( У ( к ) ) ^Т - к = 1 к = 1

C xy ₂= у X ⁽ ^к ) ( У ⁽ ^к ) ) ^Т ; с уx ) = ( C xy ’) ^Т . к = 1

4. Вычислить ковариационные матрицы относительно столбцов матриц из п. 2:

C xy ) = у ( X ⁽ ^к ) ) ^Т У ⁽ ^к ) ; C cx> = ( C xy т к = 1

C ( x ) = у ( X ( к ) ) Т X ( к ) ; C ( c ) = у ( У ( к ) ) Т у ( к ) к = 1 к = 1

5. Вычислить общие матрицы рассеяния:

[ 5 ⁽ ^1, ^r ) =[ C x C xy ) [ C (у^ с yx ’;

[ 5 ⁽ ^2, ^x ) =[ с ’] с ’[ C <°] c xy ) ;

[ 5 ⁽ ^1, ^c ) =[ C xx ' ) ]^- ¹ C xy ) [ C £ )]^- ¹ C yc ) ;

[ 5 ⁽ ^2, ^c ) =[ C c ’] c yx ’[ C xx ') ] C xy ) .

6. Решить 4 задачи на собственные значения:

У 5 ⁽ ^1, ^x ) W = Л W ; ^f 5 ⁽ ^1, ^x ) W = Л W ; ^x 1 x 1 ^x 1 x 2 x 2 x 2

f 5 ⁽ ^2, ^x V =Л, W ; 5 ⁽ ^2, ^x ) W_y =Л_у W L ^y 1 ^x 1 ^x 1 1 ^y 2 ^y 2 ^y 2

и определить матрицы собственных значений ( Л * ₁ и Л . ₂) и матрицы собственных векторов, а по факту - левые ( Wx ₁, W_y ₁) и правые ( Wx ₂, W_y ₂) матрицы проекций.

7. Выполнить проекцию исходных данных в собственное пространство, реализовав двумерное преобразование Ка-рунена-Лоэва:

и ⁽ ^к ’ = w_x ^T X ⁽ ^к Х₂ , V к ,

v ⁽ ^к > = w ^Т У ⁽ ^к ) W , v к . ^y 1 ^y 2 ’

8. Для реконструкции исходных данных выполнить обратное двумерное преобразование Карунена-Лоэва:

X ⁽ ^к ’ = WU ⁽ ^к ) W Т , V к ; ^x 1 ^x 2 ’ ’

У ( ^к ) = WV ( ^к ) W ^Т , V к . y ^y 2

Конец алгоритма

Размеры всех вычисленных выше матриц

{ X ⁽ ^к ) У ⁽ ^к ) } е Л M ^х N ; C ⁽ ^x ) е R M ^х M ; C ^(c) е Л N ^х N ;

{ W ^, W ^, Л *1 } е Л M ^х M ; { W x 2 , W y 2 Л .2 } е Л N ^х N .

Матрицы: C - симметричные;

Л . ₁, Л . ₂ - диагональные;

W* ₁, W* ₂ - «почти ортогональные».

1. Вычислить средние образы из данных:

X = 1 y X ⁽ ^к ) ; У = 1У У ⁽ ^к ) . K к = 1 K к = 1

2. Центрировать исходные данные V k:

X⁽ ^к ) = X ⁽ ^к ) - X ; У⁽ ^к ) = У ⁽ ^к ) - У .

3. Вычислить ковариационные матрицы относительно строк матриц по п. 2:

с ⁽ r ) = у X ⁽ ^к ) ( У ⁽ ^к у;

к = 1

c yx ’ = ( c xx Т

4. Вычислить ковариационные матрицы относительно столбцов матриц из п. 2:

C xy ) = у ( X ⁽ ^к ) ) ^Т У ⁽ ^к ) ;

к = 1

Cc¹ = ( c xc ’) ^Т .

5. Вычислить общие матрицы рассеяния:

f 5 ^(L ^r ) = C xr ) C ( , У ; ^{y y}

[ 5 ⁽ ^2, ^r ⁾ = c yr ’ C xy ') ;

f 5 ⁽ ^1, ^c ) = C xy ) C yx ’;

[ 5 ⁽ ^2, ^x ) = C yx > C xy ) .

6. Решить 4 задачи на собственные значения:

^f 5 ⁽ ^1, ^r ) W, =Л, W, ; ^f 5 ⁽ ^1, ^r ) W, =Л, Wx ;

j ^x 1 x । ^x 1 ’ j x 2 x 2 ’

1 5 ⁽ ^2, ^r ) W_V =Л_у W_v ; 5 ⁽ ^2, ^r ) W_y =Л_у W_y L ^y 1 ^y 1 ^y 1 L ^y 2 ^y 2 ^y 2

и определить матрицы собственных значений ( Л . ₁ и Л . ₂) и матрицы собственных векторов, а по факту - левые ( Wx ₁, W_y ₁) и правые ( Wx ₂, W_y ₂) матрицы проекций.

7. Выполнить проекцию исходных данных в собственное пространство, реализовав двумерное преобразование Карунена-Лоэва:

и ⁽ ^к ’ = w^ X ⁽ ^к W , V к ,

v ⁽ ^к > = w Т У ⁽ ^к)w_y , v к . ^y 1 ^y 2 ’

8. Для реконструкции исходных данных выполнить обратное двумерное преобразование Карунена-Лоэва:

X ⁽ ^к ’ = W x U ⁽ ^к) Wj₂, V к ;

У ⁽ ^к ) = wv ⁽ ^к V „^Т, V к . y 1 ^y у-

Конец алгоритма

Размеры всех вычисленных выше матриц

{ X ⁽ ^к ) У ⁽ ^к ) } е Л M ^х N ;

C ( r ) е R м х м ; C (°) е R ^N х ^N ;

{W x₁ , W y₁ , Л .1 } е Л M ^х M ;

{ W x ₂ , W y 2 Л .у } е Л ^N ^х ^N .

Матрицы: C - симметричные;

Л . ₁, Л . ₂- диагональные;

W* ₁, W* ₂-ортогональные.

Усеченное двумерное преобразование Карунена– Лоэва реализуется следующим образом:

U (k ) = F xi X ( k ) F x 2 ; V (k ) = F y Y ( k ) F y 2 ; V k . (13)

Знак «^» определяет отличие результата аппроксимации от результата реконструкции U ⁽ ^k ⁾ и V ⁽ ^k ⁾ . Матрицы { Fx 1 , Fy 1 } и { Fx 2 , Fy 2 } имеют размеры ( d × M ) и ( N × d ) соответственно или ( d ₁ × M ) и ( N × d ₂ ) в общем случае. При этом результат (5) – матрица размера d × d (или d ₁ × d ₂ ) представляет исходные изображения в собственном подпространстве признаков.

7. Практическая реализация CCA и PLS

a) ИЛ, являясь данными, полученными с различных источников, могут содержать как пропуски данных (области, состоящие из нулевых по значениям строк и столбцов), так и области с повторяющимися (одинаковыми по значениям) данными. В этом случае ранг матриц ковариаций (пункт 4 приведенного выше псевдокода) при K < 10 может быть меньше их порядка. Для устранения этого эффекта достаточно будет на исходные изображения наложить шум с амплитудой ≤ 5 % от максимума по используемому диапазону яркости изображений. Иногда в алгоритме 2DCCA вместо центрирования исходных изображений X и Y необходимо выполнить их нормирование (например, X ⁽ ^k ) = x ⁽ ^k ) /| X |). в этом случае норма каждого изображения в наборах X и Y будет равна 1, а среднее значение близко к единице, что будет соответствовать их «выбеливанию».
b) Как показано в пункте 5 приведенного выше псевдокода, при вычислении общих матриц рассеяния в алгоритме 2DCCA используются операции обращения матриц автоковариаций, которые могут быть плохо обусловлены. Поэтому перед обращением этих матриц необходимо выполнить их регуляризацию.
с) Общие матрицы рассеяния S в алгоритме 2DСCA необходимо также подвергнуть регуляризации ввиду их несимметричности. Это во многом упростит решение задач на собственные значения (СЗ).
d) В теории алгоритмы 2DСCA и 2DPLS требуют решения четырех задач на СЗ (см. пункт 6 псевдокода). Однако, как в алгоритме 2DСCA/2DKLT, так и в алгоритме 2DPLS/2DKLT можно сократить число решаемых задач на СЗ до двух (!).

Покажем, как это сделать для алгоритма 2DСCA/2DKLT. Рассмотрим левую пару задач на СЗ (в пункте 6 псевдокода), которая определена относительно строк изображений наборов X и Y . Решаем первую задачу на СЗ и находим матрицу проекции W x ₁ . Вторую матрицу W y ₁ вычисляем без решения задачи на СЗ следующим образом [26]:

W y 1 = [ c yy ^}]^-1 C y? W x 1 . (14)

А далее вычисленные собственные векторы (то есть столбцы матрицы Wy1) необходимо нормировать к единице, поделив их на «собственную норму». Также следует поступить со второй (правой) парой задач на СЗ, то есть решить одну задачу на СЗ для получения матрицы проекции Wx2 и пересчитать из нее матрицу Wy2.

Для алгоритма 2DPLS/2DKLT поступаем аналогично, однако без использования матриц автоковариаций в произведении (14). Обоснование и выяснение этих решений можно найти, например, в работах [26, 37]. А теперь перечислим и оценим вычислительные затраты на оставшиеся операции, которые необходимо выполнить при реализации параллельного алгоритма 2DССА для наборов изображений X и Y с параметрами { M , N , K }, где MN >> K и когда 2DССА выполняется по всем яркостным признакам: 1) формирование шести матриц ковариаций:

O (3 K ( M ² N + N ² M ));

2) обращение 4 матриц автоковариации: O (2( M ³ + N ³ )); 3) вычисление матрицы проекции W x ₁ (решение за

дачи на СЗ): O ( M ³ );

4) формирование матрицы Wy₁по (14) вместе с её нормировкой: O (2M³+ M²);
5) вычисление матрицы проекции Wx₂(решение задачи на СЗ): O (N³);
6) формирование матрицы Wy₂по (14) вместе с её нормировкой: O (2N³+ N²).

Тогда общие затраты составят не более

O (3 K ( M ² N + N ² M ) +5( M ³ + N ³ )+ M ² + N ² ).

Если положить, что М = N и M ³ >> M ² , то можно записать:

3 K ( M ³ + M ³ ) +5( M ³ + M ³ ) =6 KM ³ + 10 M ³ . (15)

Теперь, если К >> 10, то основные вычислительные затраты приходятся на формирование шести матриц ковариаций. Их вычисление основано на перемножении матриц X(k) и Y(k) и суммировании результата Vk. Заметим, что и в итерационных алгоритмах 2DССА также формируются шесть матриц ковариаций по всему набору исходных данных и еще по параметру числа итераций. При этом каждая матрица ковариации здесь основана на перемножении 4 числовых матриц, из которых две представляют исходные данные, а две другие – формируемые в процессе итераций левые и правые матрицы проекции. Получаемые при этом вычислительные затраты итерационных алгоритмов будут еще больше того, что показано в (15). Поэтому если исходными данными будут не яркостные признаки исходных изображений, а результат какого-либо их преобразования (градиентного, спектрального, по главным компонентам (через PCA, например)) так, что M → m и N → n, и при этом m << M, а n << N, то затраты будут существенно снижены. Именно это (уменьшение размеров исходных изображений, переход к другому пространству признаков и т.д.) мы и видим при использовании итерационных алгоритмов 2DССА в приложении к ИЛ. Но надо помнить, что такое преобразование ИЛ не всегда возможно и не во всех сценариях допустимо. А неитерационные алгоритмы 2DPCA/2DKLT и 2DPLS/2DKLT ра- ботают как при холистическом представлении ИЛ, так и их предварительном преобразовании в промежуточное подпространство признаков. А простые вычисления, реализуемые в них, проще и программировать, и выполнять с аппаратной поддержкой!

В [53] показаны параллельная и каскадная форма реализации алгоритмов 2DCCA / 2DKLT и 2DPLS/2DKLT. Структура параллельного алгоритма соответствует описанию псевдокода, приведенному выше. Структура каскадного алгоритма состоит из двух каскадов, при этом первый каскад реализует алгоритм ССА (или PLS) относительно строк исходных данных X ( k ) и Y ( k ), а второй каскад – относительно столбцов результата, полученного в первом каскаде.

Наши собственные результаты применения 2DСCA/2DKLT и 2DPLS/2DKLT в задачах обработки ИЛ приведены в статьях [37–39]. В этих работах представлены следующие результаты: сравнительный анализ решения задач распознавания ИЛ (различной сенсорной и гендерной природы); взаимная индексация и распознавание изображений, не связанных семантически; особенности параллельной и каскадной схем реализации 2DСCA/2DKLT и 2DPLS/2DKLT с оценкой их характеристик; исследование систем распознавания ИЛ с различными вариантами фузии признаков в собственном признаковом подпространстве и различными типами классификаторов.

Представленные в этих работах эксперименты выполнены на широко известных в практике обработки цифровых изображений бенчмарковых базах: «FERET», «Equinox», «Люди и собаки», «Photo-Sketch CUHK» [24, 40, 41].

Если, например, пара ИЛ содержала гендерно не связанные между собой лица, а пары этих ИЛ подбирались случайным образом, корреляция между ними в исходном пространстве признаков была близка к нулю. В базе «Equinox» связанные в пары изображения включали лица, полученные в видимом свете и инфракрасном – тепловом излучении (VIS и Th). Между этими изображениями имелись существенные различия по текстуре и размеру компонентов лица, что также сводило корреляцию между ними до нуля. База «Люди и Собаки» (“People and Dogs” [40]) представляет случай, когда исходные изображения не относятся к одному глобальному классу. При этом изображения в классах имели некоторое внешнее сходство (между ИЛ – «хозяином» и его собакой), которое определяется следующими факторами: близким по форме выражением лица хозяина и «морды» собаки; одинаковым ракурсом двух портретов; близкой по форме прической хозяина и экстерьером собаки; цветовой гаммой – одинаковый цвет волос хозяина и окраски шерсти собак, а также текстуры.

В рамках этих исходных данных мы ставили следующие цели: проверить, насколько субъективная оценка подобия изображений в парах (и наборов в целом) сравнима с формальными оценками их подобия;

какие методы формальной оценки подобия можно считать достоверными; какова мера подобия этих изображений в пространстве канонических переменных.

Во всех экспериментах было показано, что в пространстве канонических переменных между переменными U и V возникает устойчивая корреляционная связь, которую можно описать линейной регрессией. При этом корреляция позволяет решать задачи взаимного распознавания, индексации и замещения переменных, а регрессия – задачи взаимной реконструкции переменных как в собственном подпространстве, так и в исходном пространстве на основе обратного преобразования KLT.

Из других решений и приложений 2DCCA и 2DPLS можно отметить работы [42–44].

В статье [42] представлен алгоритм решения задач суперразрешения ИЛ – реконструкции ИЛ с высоким разрешением (High-Resolution / HR) по ИЛ с низким разрешением (Low-Resolution/LR). При этом обучение реализовано в рамках 2DCCA на наборах изображений X с высоким (HR) и Y c низким разрешением (LR), а реконструкция LR→HR реализована в собственном подпространстве.

Однако 2DCCA здесь был реализован по итерационному алгоритму [32], что требовало ограничивать размеры исходных данных и дополнительно потребовало декомпозиции исходных изображений на три части. В итоге, итерационный алгоритм обучения в рамках 2DCCA, реконструкция LR→HR, сшивка результата HR и компенсация высокочастотных составляющих выполнялись здесь три раза по наборам декомпозированных частей изображений. Тем не менее, подход [42] для задач суперразрешения ИЛ представляет практический интерес, как методически проработанный и достаточно ясно представленный в статье, поэтому интересно было бы реализовать идеи [42] также и в рамках неитерационных алгоритмов 2DСCA\2DKLT, не требующих уменьшения размеров ИЛ и их декомпозиции на части.

В работе [43] представлена задача Face Hallucination , аналогичная по своей сути задаче суперразрешения в приложении к ИЛ. Основное отличие идей [43] состоит в том, что обучающая выборка в [43] представляет собой комбинацию ИЛ с низким и высоким разрешением. Это сокращает объем вычислений на этапе обучения и дает возможность использовать (на этапе обучения и реконструкции) вместо процедур 2DCCA процедуры 2DPCA.

В работе [43] представлено решение задач распознавания изображений отпечатков ладони (Palmprint) и ИЛ базы FERET. Авторы работы оценивают вычислительную сложность итерационного подхода к реализации 2DPLS в сравнении с неитерационным подходом к реализации 2DPLS (со ссылкой на свою же работу 2005 года). При этом показывается превосходство итерационного подхода в случаях предварительной трансформации исходных изображений в набор новых признаков, размерность которых меньше исходного пространства яркостных признаков изобра- жений. Экспериментально доказывается также превосходство (по точности и сложности вычислений) подхода 2DPLS в сравнении с 1DPLS.

Следует отметить, что алгоритмы 2DPLS развивались независимо от методов 2DCCA, часто опережая своими решениями идеи реализации 2DCCA. Одним из «примеров такого опережения» является независимая от [32, 33] ветвь реализации PLS и CCA на основе SVD (смотри, например, ранние работы Mag-nus'a Borga и David'a Weenink).

9. Применение методов проекции в подпространства в многомерной биологии и многомерной медицине

Одним из революционных достижений XXI века является появление многомерной биологии [45] (high dimensional biology). Ее направления для краткости называются OMICS (genomics, transcriptomics и т. д.). Современные высокопроизводительные технологии «омики» позволяют эффективно генерировать большие экспериментальные наборы данных для задач биологии и медицины. По факту эти данные представляются как многомерные данные (2D, 3D и большей размерности). Из этих многомерных исходных данных необходимо извлекать новые данные, содержащие основную изучаемую информацию, что достижимо, например, в рамках методов редукции исходного пространства данных. В работе [46] изучаются методы сокращения избыточности исходных данных, а также подходы к их интеграции и выявления и/или установления связей в этих данных. В этой связи в статье обсуждаются все рассмотренные нами методы проекции в подпространства (PCA, LDA, CCA и PLS), а также оцениваются их характеристики в приложении к многомерным данным, обрабатываемым в многомерной биологии и медицине.

На границе XX и XXI веков в машинном обучении и компьютерном зрении произошла методологическая (и технологическая) революция, начатая сверточными нейронными сетями (Convolutional Neural Network – CNN). В задачах обработки изображений (классификация, распознавание, кодирование и реконструкция, и т.д.) CNN работают с оригинальными (необработанными) данными, поэтому каждый пиксель исходного изображения должен быть связан с независимым входным каналом CNN. С ростом размеров исходных изображений и ростом числа обучающей выборки (доходящей до нескольких миллионов изображений) обработка такого объема данных требует большого числа слоев CNN. И это связано, с одной стороны, с избытком ненужной информации в исходных изображениях, а с другой стороны – с переизбытком подобной же информации в обучающих данных. При очень большом числе слоев такие сети называются глубокими нейронными сетями (Deep NN). Так, например, в 2016 году число слоев Deep NN перевалило за 150! При этом чем больше слоев со- держит Deep NN, тем дольше и труднее ее обучить. Также при большом числе слоев можно попасть и в переобучение (!), когда сеть теряет способность к обобщению и не распознает скрытые процессы и важную информацию в обучающей выборке или, наоборот, принимает шум в исходных данных за важную информацию.

Именно поэтому перед исследователями и пользователями Deep NN встала задача уменьшения объема исходных данных и объема обучающей выборки при условии сохранения важной информации в них. Этого можно достичь, например, сокращением размерности пространства признаков в исходных изображениях и/или предварительным очищением их от шума, представлением исходных изображений только по главным компонентам. Уменьшение объема обучающих данных можно достичь, например, индексированием их в обучающей выборке, предварительной ее классификацией и также представлением данных по главным компонентам. А эти задачи хорошо решаются в рамках методов проекций изображений в собственные подпространства (ПИСП), что было показано выше.

Далее будут представлены несколько публикаций последних лет [47–52], в которых показано использование методов ПИСП в Deep NN.

В одной из первых обзорных работ [47] рассмотрены различные варианты NN, построенные с включением в них линейных и нелинейных процедур обработки на основе одномерных и двумерных методов SVD, PCА, LDA и CCA. Представлены также алгоритмы их обучения для этих вариантов сетей. Авторы отмечают, что такие NN легко реализуемы и эффективно используются в решении задач адаптивной обработки изображений, слепого разделения данных (полезной информации от шума), распознавания образов и их сжатии. А введение процедур SVD, PCА, LDA и CCA в NN сокращает объем информации на их входе, оставляя только полезную информацию.

В статье [48] предложена очень простая процедура обучения Deep NN для классификации изображений, основанная на методе ПИСП/PCA и получившая название PCANet. При этом PCANet включает следующие базовые компоненты обработки: банк фильтров, реализованный на каскаде процедур PCA; процедуру бинарного хеширования; вычисление блочных гистограмм. Отмечается, что комбинирование методов ПИСП с методами бинарного хеширования, гистограммного представления изображений и пирамидального объединения промежуточного результата в слоях позволяет упростить и ускорить обучение Deep NN, а также уменьшить число слоев в них.

В статье [49] предлагается вариант Deep NN, названной авторами как «Multiple scales PCANet», предназначенной для распознавания ИЛ. Сеть использует глубокое обучение на нескольких шкалах (multiple scales) из наборов представлений ИЛ, реализованных с помощью РСА в первых двух слоях сверточной нейронной сети. Фактически на этом уровне формируется популяция новых представлений исходных данных, что повышает их репрезентативность и приводит к улучшению задачи распознавания. При построении и обучении сети авторы исходят из предположения, что чем выше уровень признакового пространства (чем больше популяция), тем более точно и полно он может представлять семантику исходных данных. Остальная часть NN строится аналогично рассмотренной в работе [48]. Статья сопровождается уникальными экспериментами моделирования работы «Multiple scales PCANet», выполненными на нескольких новых бенчмарковых базах ИЛ, и в том числе на базах ИЛ (2D и 3D), полученных в неконтролируемых условиях съемки и различных сценариях. Полученные результаты сравниваются с известными по этой теме. В заключении отмечается, что «Multiple scales PCANet» может быть применена и в других задачах компьютерного зрения – распознавания эмоций и трекинга и также покажет свою высокую эффективность.

В статье [50] предлагается комбинированная архитектура Deep NN, в которой архитектура PCANet [48] объединена с возможностями идей PLS-регрессии, что дает новую методику классификации изображений, которую авторы назвали «методом PLSNet». Здесь в первых слоях NN редукция размерности пространства признаков реализуется по архитектуре PCANet, а в следующих слоях – в рамках PLS-регрессии. Развивая эту идею дальше, авторы применяют новые фильтры для экстракции признаков в следующих слоях NN и получают новую архитектуру Deep NN, названную ими как « Improved PLSNet». При этом достигается более высокая точность классификации изображений, чем в PCANet. Эксперименты выполнены на наборах данных MNIST (цифры, написанные от руки) и CIFAR-10 (наборы изображений).

В предыдущих решениях основу Deep NN создают процедуры редукции пространства признаков, используемые на входе – в первых слоях Deep NN. В статьях [51, 52] рассматриваются новые архитектуры Deep NN, названные как «Deep Canonical Correlation Analysis» и «Deep generalized canonical correlation analysis». Здесь каждый набор исходных данных (два набора в архитектуре [51] и несколько наборов в архитектуре [52]) поступает на вход «собственной CNN», в которой реализуется нелинейное преобразование исходных данных без выполнения каких-либо операций умножения. При этом улучшается репрезентативность этих данных, что свойственно каждой CNN. Выходные слои «собственной CNN» подключаются к блоку ССА, где обрабатываются совместно, чем достигается высокая корреляция между ними. Блоки ССА имеют обратную связь со слоями каждой «собственной CNN», которая, очевидно, используется в процессе обучения.

Таким образом, можно констатировать, что идеи проекции цифровых изображений в собственные подпространства вышли на уровень архитектур CNN, включая Deep NN.

Заключение

В статье представлена история появления методов проекции в собственные подпространства (МПСП) как инструмента обработки экспериментальных данных и инструмента выявления и/или установления связей в этих данных. Детально описан метод PCA, основанный на идеях «eigenfaces», и через него представлены методы LDA, PLS и CCA. Показаны особенности и проблемы применения МПСП в приложении к обработке изображений лиц. В рамках анализа публикаций исследованы этапы развития новых подходов к МПСП, приведших к появлению идей и методов двумерной проекции, ориентированных на обработку изображений как двумерных объектов. В технической литературе эти методы представлены как вариации от сокращений 2DPCA, 2DLDA, 2DPLS и 2DCCA. Рассмотрены алгоритмы практической реализации двумерных МПСП, и выявлены четыре основные ветви их развития: две ветви итерационных алгоритмов – в двух независимых вариантах и две ветви неитерационных алгоритмов – на основе прямого решения задач на собственные значения (ЗСЗ) и решения ЗСЗ с использованием процедур SVD. Оценены их достоинства и недостатки, а также показаны примеры их использования в практике распознавания ИЛ. Отмечено также, что методы проекции в подпространства широко используются в «многомерной биологии и многомерной медицине», а для цифровых изображений МПСП вышли на уровень архитектур CNN, включая Deep NN. Показаны примеры соответствующих решений, и дан их краткий анализ.

Особое внимание в статье уделено группе методов, в которых двумерная проекция в собственные подпространства определена как двухэтапная процедура: 2DPCA/2DKLT, 2DLDA/2DKLT, 2DPLS/2DKLT и 2DCCA/2DKLT. На первом этапе реализуется анализ исходных данных, включающий: формирование общих матриц рассеяния в соответствии с заданным критерием; решение задач на собственные значения с вычислением матриц проекции; определение главных компонент. На втором этапе реализуется полное (или усеченное только по главным компонентам) двумерное преобразование Карунена–Лоэва. Такая запись более точно отражает все процессы, реализуемые в рамках двумерных проекционных методов, не смешивая их и не подменяя одни процессы и понятия другими (что часто можно встретить в технической литературе). И эта же запись выделяет ветвь методов двумерной проекции с прямым (неитерационным) решением задач на собственные значения от трех других ветвей. Наконец, такая запись позволяет легко представить (скомпоновать, реализовать) обобщенный алгоритм (generalized algorythm) для проблемы двумерных МПСП. В этом случае по исходным данным и в соответствии с выбранным критерием формируется каноническая ковариационная матрица, блоки которой используются для построения матриц рассеяния в отдельных методах, а в процедуре 2DKLT изменяются только матрицы проек- ции, поскольку ее реализация является общей для всех методов.

Дальнейшие исследования будут связаны с реализацией алгоритмов взаимной реконструкции изображений лиц на основе двумерных методов проекции в собственные подпространства.

Список литературы Методы двумерной проекции цифровых изображений в собственные подпространства: особенности реализации и применение

Pearson, K. On lines and planes of closest fit to systems of points in space/K. Pearson//The London, Edinburgh and Dublin Philosophical Magazine and Journal of Sciences. -1901. -Vol. 6, Issue 2. -P. 559-572. - DOI: 10.1080/14786440109462720
Hoteling, H. Analysis of complex variables into principal components/H. Hoteling//Journal of Educational Psychology. -1933. -Vol. 24, Issue 6. -P. 417-441. - DOI: 10.1037/h0071325
Fisher, R.A. The use of multiple measurements in taxonomic problems/R.A. Fisher//Annals of Eugenics. -1936. -Vol. 7, Issue 2. -P. 179-188. - DOI: 10.1111/j.1469-1809.1936.tb02137.x
Hoteling, H. Relations between two sets of variates/H. Hoteling//Biometryka. -1936. -Vol. 28, No. 3/4. -P. 321-377. - DOI: 10.2307/2333955
Sirovich, L. Low-dimensional procedure for the characterization of human faces/L. Sirovich, M. Kirby//Journal of the Optical Society of America A: Optics, Image Science and Vision. -1987. -Vol. 4, Issue 3. -P. 519-524. - DOI: 10.1364/JOSAA.4.000519
Turk, М. Eigenfaces for recognition/М. Turk, A. Pentland//Journal of Cognitive Neuroscience. -1991. -Vol. 3, Issue 1. -P. 71-86. - DOI: 10.1162/jocn.1991.3.1.71
Belhumeur, P.N. Eigenfaces vs. fisherfaces: Recognition using class specific linear projection/P.N. Belhumeur, J.P. Hespanha, D.J. Kriegman//IEEE Transactions on Pattern Analysis and Machine Intelligence. -1997. -Vol. 19, Issue 7. -P. 711-720. - DOI: 10.1109/34.598228
Tsapatsoulis, N. A vector based approximation of KLT and its application to face recognition/N. Tsapatsoulis, V. Alexopoulos, S. Kollias//Proceedings of the IX European Signal Processing Conference (EUSIPCO-98). -1998. -Vol. III. -P. 1581-1584. - DOI: 10.5281/zenodo.36612
Кухарев, Г.А. Биометрические системы: Методы и средства идентификации личности человека/Г.А. Кухарев. -СПб:. Политехника, 2001. -240 с. -ISBN: 5-7325-0623-3.
Kukharev, A. Techniki Biometryczne: Część 1. Metody Rozpoznawania Twarzy/G. Kukharev, A. Kuźmiński. -Szczecin: Pracownia Poligraficzna WI PS, 2003. -310 p.
Kukharev, G. Data dimensionality reduction for face recognition/G. Kukharev, P. Forczmański//Machine GRAPHICS & VISION. -2004. -Vol. 13, No. 1/2. -P. 99-121.
Kukharev, G. Face recognition by means of two-dimensional direct linear discriminant analysis/G. Kukharev, P. Forczmański//Proceedings of the 8th International Conference Pattern Recognition and Information Processing (PRIP’2005). -P. 280-283.
Кухарев, Г.А. Системы распознавания человека по изображению лица/Г.А. Кухарев, Н.Л. Щеголева. -СПб.: Изд-во СПбГЭТУ «ЛЭТИ», 2006. -156 с. -ISBN: 5-7629-0665-5.
Kukharev, G. System of face recognition using LDA with one training image per person/G. Kukharev, A. Tujaka, N. Binh//Metody Informatyki Stosowanej. -2008. -No. 3(16). -P. 167-185.
Yang, J. Two-dimensional PCA: A new approach to appearance-based face representation and recognition/J. Yang, D. Zhang, A.F. Frangi, J.-Y. Yang//IEEE Transactions on Pattern Analysis and Machine Intelligence. -2004. -Vol. 26, Issue 1. -P. 131-137. - DOI: 10.1109/TPAMI.2004.1261097
Zhang, D. (2D)2PCA: Two-directional two-dimensional PCA for efficient face representation and recognition/D. Zhang, Z.H. Zhou//Neurocomputing. -2005. -Vol. 69, Issues 1-3. -P. 224-231. - DOI: 10.1016/j.neucom.2005.06.004
Ye, J. Generalized low rank approximations of matrices/J. Ye//Machine Learning. -2005. -Vol. 61, Issues 1-3. -P. 167-191. - DOI: 10.1007/s10994-005-3561-6
Kong, H. Generalized 2D principal component analysis for face image representation and recognition/H. Kong, L. Wang, E.K. Teoh, X. Li, J.-G. Wang, R. Venkateswarlu//Neural Networks. -2005. -Vol. 18, Issues 5-6. -P. 585-594. - DOI: 10.1016/j.neunet.2005.06.041
Ding, Ch. Two-dimensional singular value decomposition (2DSVD) for 2D maps and images/Ch.H.Q. Ding, J. Ye//Proceedings of the 2005 SIAM International Conference on Data Mining. -2005. - DOI: 10.1137/1.9781611972757.4
Gu, Zh. Two-dimensional singular value decomposition (2D-SVD) based video coding/Zh. Gu, W. Lin, B.-S. Lee, Ch.T. Lau, M. Paul//2010 IEEE International Conference on Image Processing. -2010. -P. 181-184. - DOI: 10.1109/ICIP.2010.5650998
Gurumoorthy, K.S. A method for compact image representation using sparse matrix and tensor projections onto exemplar orthonormal bases/K.S. Gurumoorthy, A. Rajwade, A. Banerjee, A. Rangarajan//IEEE Transactions on Image Processing. -2010. -Vol. 19, Issue 2. -P. 322-334. - DOI: 10.1109/TIP.2009.2034991
Inoue, K. Equivalence of non-iterative algorithms for simultaneous low rank approximations of matrices/K. Inoue, K. Urahama//2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06). -2006. - DOI: 10.1109/CVPR.2006.112
Tang, X. Face sketch recognition/X. Tang, X. Wang//IEEE Transactions on Circuits and Systems for Video Technology. -2004. -Vol. 14, Issue 1. -P. 50-57. - DOI: 10.1109/TCSVT.2003.818353
CUHK Face Sketch Database (CUFS) . -URL: http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html (access date: 02.07.2018).
Kukharev, G. Face photo-sketch transformation and population generation/G. Kukharev, A. Oleinik. -In: International conference on computer vision and graphics. ICCVG 2016: Computer vision and graphics//ed. by L. Chmielewski, A. Datta, R. Kozera, K. Wojciechowski. -2016. -P. 329-340. - DOI: 10.1007/978-3-319-46418-3_29
Borga, M. Learning multidimensional signal processing. -Linköping, Sweden: Linköpings Universitet, 1998. -193 p. -ISBN: 91-7219-202-X.
Reiter, M. 3D and infrared face reconstruction from rgb data using canonical correlation analysis/M. Reiter, R. Donner, G. Langs, H. Bischof//Proceedings of the 18th International Conference on Pattern Recognition (ICPR 2006). -2006. -Vol. 1. -P. 425-428. - DOI: 10.1109/ICPR.2006.24
Reiter, M. Estimation of face depth maps from color textures using canonical correlation analysis/M. Reiter, R. Donner. -In: Proceedings of the Computer Vision Winter Workshop 2006 (CWW' 06)/ed. by O. Chum, V. Franc. -Telč: Czech Society for Cybernetics and Informatics, 2006. -ISBN: 80-239-6530-1.
Donner, R. Fast active appearance model search using canonical correlation analysis/R. Donner, M. Reiter, G. Langs, P. Peloschek, H. Bischof//IEEE Transactions on Pattern Analysis and Machine Intelligence. -2006. -Vol. 28, Issue 10. -P. 1960-1964. - DOI: 10.1109/TPAMI.2006.206
Alonso, J. Face tracking using canonical correlation analysis/J. Alonso Y. Zepeda, F. Davoine, M. Charbit//Proceedings of the 2nd International Conference on Computer Vision Theory and Applications (VISAPP 2007). -2007. -Vol. 2. -P. 396-402.
Sharma, A. Bypassing synthesis: PLS for face recognition with pose, low-resolution and sketch/A. Sharma, D.W. Jacobs//IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). -2011. -P. 593-600. - DOI: 10.1109/CVPR.2011.5995350
Lee, S.H. Two-dimensional canonical correlation analysis/S.H. Lee, S. Choi//IEEE Signal Processing Letters. -2007. -Vol. 14, Issue 10. -P. 735-738. - DOI: 10.1109/LSP.2007.896438
Zou, C.-R. 2DCCA: A novel method for small sample size face recognition/C.-R. Zou, N. Sun, Zh.-H. Ji, Zh. Li//IEEE Workshop on Application of Computer Vision (WACV’07). -2007. - DOI: 10.1109/WACV.2007.1
Shao, M. Joint features for face recognition under variable illuminations/M. Shao, Y. Wang//Fifth International Conference on Image and Graphics. -2009. -P. 922-927. - DOI: 10.1109/ICIG.2009.128
Gong, X. Application to three-dimensional canonical correlation analysis for feature fusion in image recognition/X. Gong//Journal of Computers. -2011. -Vol. 6, Issue 11. -P. 2427-2433.
Kamencay, P. 2D-3D face recognition method based on a modified CCA-PCA algorithm/P. Kamencay, R. Hudec, M. Benco, M. Zachariasova//International Journal of Advanced Robotic Systems. -2014. -Vol. 11, Issue 3. -9 p. - DOI: 10.5772/58251
Kukharev, G. Two-dimensional canonical correlation analysis for face image processing and recognition/G. Kukharev, E. Kamenskaya//Metody Informatyki Stosowanej. -2009. -No. 3(20). -P. 103-112.
Kukharev, G. Face recognition using two-dimensional CCA and PLS/G. Kukharev, A. Tujaka, P. Forczmański//International Journal of Biometrics. -2011. -Vol. 3, Issue 4. -P. 300-321. - DOI: 10.1504/IJBM.2011.042814
Кухарев, Г. Методы обработки и распознавания изображений лиц в задачах биометрии/Г. Кухарев, Е. Каменская, Ю. Матвеев, Н. Щеголева; под ред. М.В. Хитрова. -СПб: Политехника, 2013. -388 с. -ISBN: 978-5-73251-028-7.
Почему собаки похожи на хозяев . -URL: http://www.house-dog.ru/about_391.html (дата обращения 02.07.2018).
Gupta, S. Texas 3D face recognition database /S. Gupta, M.K. Markey, K.R. Castleman, A.C. Bovik. -URL: http://live.ece.utexas.edu/research/texas3dfr/index.htm (access date: 23.04.2017).
Tu, Ch.-T. A new approach for face hallucination based on a two-dimensional direct combined model/Ch.-T. Tu, M.-Ch. Ho, M.-Y. Lin//Pattern Recognition. -2017. -Vol. 62. -P. 1-20. - DOI: 10.1016/j.patcog.2016.07.020
An, L. Face image super-resolution using 2D CCA/L. An, B. Bhanu//Signal Processing. -2014. -Vol. 103. -P. 184-194. - DOI: 10.1016/j.sigpro.2013.10.004
Hou, Sh. A two-dimensional partial least squares with application to biological image recognition/Sh. Hou, Q. Sun, D. Xia//2010 Sixth International Conference on Natural Computation (ICNC 2010). -2010. -P. 57-61. - DOI: 10.1109/ICNC.2010.5583135
Вельков, В.В. Многомерная биология и многомерная медицина/В.В. Вельков//Химия и Жизнь. -2007. -№ 3. -C. 10-15.
Meng, C. Dimension reduction techniques for the integrative analysis of multi-omics data/C. Meng, O.A. Zeleznik, G.G. Thallinger, B. Kuster, A.M. Gholami, A.C. Culhane//Briefings in Bioinformatics. -2016. -Vol. 17, Issue 4. -P. 628-641. - DOI: 10.1093/bib/bbv108
Qiu, J. Neural network implementations for PCA and its extensions/J. Qiu, H. Wang, J. Lu, B. Zhang, K.-L. Du//ISRN Artificial Intelligence. -2012. -Vol. 2012. -847305. - DOI: 10.5402/2012/847305
Chan, T.-H. PCANet: A simple deep learning baseline for image classification?/T.-H. Chan, K. Jia, Sh. Gao, J. Lu, Z. Zeng, Y. Ma//IEEE Transactions on Image Processing. -2015. -Vol. 24, Issue 12. -P. 5017-5032. - DOI: 10.1109/TIP.2015.2475625
Tian, L. Multiple scales combined principle component analysis deep learning network for face recognition/L. Tian, Ch. Fan, Y. Ming//Journal of Electronic Imaging. -2016. -Vol. 25, Issue 2. -023025. - DOI: 10.1115/1.JEI.25.2.023025
Hasegawa, R. PLSNet: A simple network using Partial Least Squares regression for image classification/R. Hasegawa, K. Hotta//Proceedings of the 23rd International Conference on Pattern Recognition (ICPR). -2016. -P. 1601-1606. - DOI: 10.1109/ICPR.2016.7899865
Andrew, G. Deep canonical correlation analysis/G. Andrew, R. Arora, J. Bilmes, K. Livescu//Proceedings of the 30th International Conference on Machine Learning: Proceedings of Machine Learning Research. -2013. -Vol. 28(3). -P. 1247-1255.
Benton, A. Deep generalized canonical correlation analysis /A. Benton, H. Khayrallah, B. Gujral, D. Reisinger, Sh. Zhang, R. Arora. -URL: arXiv:1502.02519v2 (request date: 02.07.2018).
Kukharev, G.A. Algorithms of two-dimensional projection of digital images in eigensubspace: History of development, implementation and application/G.A. Kukharev, N.L. Shchegoleva//Pattern Recognition and Image Analysis. -2018. -Vol. 28, Issue 2. -P. 185-206. - DOI: 10.1134/S1054661818020116

Еще