Тригонометрическая система функций в проекционных оценках плотности вероятности нейросетевых признаков изображений

Автор: Савченко Андрей Владимирович

Журнал: Компьютерная оптика @computer-optics

Рубрика: Численные методы и анализ данных

Статья в выпуске: 1 т.42, 2018 года.

Бесплатный доступ

Исследована задача распознавания изображений, которые описываются векторами признаков высокой размерности, выделенными с помощью глубокой свёрточной нейронной сети и анализа главных компонент. Рассмотрена проблема высокой вычислительной сложности статистического подхода с непараметрическими оценками плотности вероятности векторов признаков, реализованного в вероятностной нейронной сети. Предложен новый метод статистической классификации на основе проекционных оценок плотности распределения с тригонометрической системой ортогональных функций. Показано, что такой подход позволяет преодолеть недостатки вероятностной нейронной сети, связанные с необходимостью обработки всех признаков всех эталонных изображений. В рамках экспериментального исследования для наборов изображений Caltech-101 и CASIA WebFaces показано, что предлагаемый подход позволяет на 1-5 % снизить вероятность ошибки распознавания и в 1,5 - 6 раз повысить вычислительную эффективность по сравнению с исходной вероятностной нейронной сетью для малых выборок эталонных изображений.

Еще

Статистическое распознавание образов, обработка изображений, глубокие свёрточные нейронные сети, вероятностная нейронная сеть, проекционные оценки, распознавание лиц

Короткий адрес: https://sciup.org/140228775

IDR: 140228775   |   DOI: 10.18287/2412-6179-2018-42-1-149-158

Текст научной статьи Тригонометрическая система функций в проекционных оценках плотности вероятности нейросетевых признаков изображений

Большинство исследований в области распознавания изображений [1] сосредоточены на повышении точности, надёжности и вычислительной эффективности существующих решений за счёт применения новых архитектур глубоких свёрточных нейронных сетей (СНС) [2, 3, 4], новых классификаторов и их ансамблей [5, 6, 7], методов извлечения характерных признаков [8], алгоритмов приближённого поиска ближайшего соседа [9, 10] и пр. Несмотря на наличие большого числа хорошо зарекомендовавших себя подходов, основанных на технологиях глубокого обучения [1], интенсивность исследований в этом направлении не снижается. И связано это с тем, что современные методы распознавания характеризуются недостаточной точностью в вытекающих из потребностей прикладных исследований задачах, например, при наличии в базе данных малых выборок наблюдений (десятки эталонов для каждого класса) [11, 12], которые невозможно использовать для успешного обучения сложных нейросетевых структур [3, 4]. В таком случае наиболее часто используется перенос знаний или адаптация предметной области [7, 13], в котором глубокие СНС применяются не как метод классификации, а как способ извлечения признаков [8, 10]. Такая СНС предварительно обучается с помощью большого набора изображений, например, ImageNET [14].

В результате встаёт задача выбора наиболее подходящего метода классификации [15]. Достаточно перспективным здесь выглядит универсальный статистический подход [16, 17], в котором предполагается, что

Поэтому актуальной становится задача синтеза непараметрических статистических классификаторов, не требующих хранения и сопоставления всех признаков. Для её решения в настоящей работе показано, что если воспользоваться предположением о независимости главных компонент, выделенных из вектора признаков изображений [15], а для оценки плотности вероятности каждой компоненты вместо ядра Розенблатта – Парзена использовать проекционные оценки [21, 22, 23] на основе тригонометрических функций [24, 25], то возможно преодолеть отмеченные недостатки ВНС без потерь в скорости обучения. При этом получившаяся модификация ВНС будет также сходиться к оптимальному байесовскому решению. В ходе экспериментального исследования в задаче классификации категорий изображений и распознавания лиц для популярных баз данных Caltech-101 [26] и CASIA WebFaces [27] продемонстрировано повышение точности и вычислительной эффективности распознавания по сравнению с традиционными подходами в случае наличия ограниченного количества эталонов для каждого класса.

1. Задача распознавания изображений в условиях малого числа наблюдений на основе вероятностной нейронной сети

Задача распознавания состоит в том, чтобы поступающему на вход изображению одного объекта поставить в соответствие один из C > 1 классов [1, 12]. При этом для каждого c -го класса доступен набор из R ( c ) ≥ 1 эталонных изображений. Рассмотрим далее случай малых выборок [6, 12, 21]: R ≈ 1, который характерен для многих систем обработки изображений. Для каждого доступного изображения осуществляется извлечение характерных признаков. В наиболее часто используемых сейчас методах переноса знаний [2, 13] для настройки классификатора может использоваться не доступное обучающее множество, а внешняя база данных изображений, с помощью которой происходит обучение глубокой СНС [3, 4]. Далее для распознавания произвольных изображений они приводятся к одному размеру (высота U и ширина V ) и подаются на вход СНС [8, 10]. Выходы из D >>1 значений одного предпоследнего слоя нейронной сети нормируются (в метрике L 2) и формируют вектор признаков x этого изображения с размерностью D . Аналогичная процедура применяется для извлечения D -мерного вектора признаков x r ( c ) из каждого r -го эталонного изображения с -го класса [12].

В итоге на этапе распознавания обучается классификатор выделенных признаков. В традиционном переносе знаний применяется логистическая регрессия – последний полносвязный слой исходной СНС заменяется на новый слой с C выходами (по одному на каждый класс исходной задачи), и происходит дообучение ( fine-tuning ) полученной нейросети для доступного обучающегося множества из R эталонов [2, 13].

В случаях малого числа наблюдений такая процедура оказывается недостаточно эффективной [11, 12], поэтому зачастую классификатор упрощается, например, с помощью снижения размерности векторов признаков [28] на основе анализа главных компонент [15], при котором векторы x и x r ( c ) линейно преобразовываются в векторы M <<  D главных компонент t = [ t 1, ..., tM ] и t r ( c ) = [ tr ,1( c ), ..., tr , M ( c )] соответственно. Далее могут применяться известные методы построения небольшого числа опорных подпространств [29] или отбора наиболее информативных эталонов [19, 30].

Проблема состоит в том [1, 17], что каждому конкретному образу обычно присуща известная вариативность, т.е. изменчивость его признаков от одного образца наблюдения к другому, которая носит случайный характер. Обычно преодоление данной проблемы связывают со статистическим подходом [15, 16], когда в роли образа выступает соответствующий закон распределения Pc векторов признаков объектов одного класса. В таком случае задача сводится к проверке C гипотез Wc о законе распределения P признаков входного изображения:

W c : P = P c , c = 1, C .                                (1)

Её оптимальное решение дает байесовский критерий минимума среднего риска [16] – делается вывод о принадлежности входного объекта к классу с максимальной апостериорной вероятностью

c * = argmax f ( t| W c ) P ( W c ) .                      (2)

c e { 1,..._ C }

Здесь P ( W c ) – априорная вероятность появления c -го класса, f ( t | W c ) – условная плотность вероятности (оценка распределения P c ) главных компонент векторов признаков класса c . Для оценки априорной вероятности зачастую [18] используется соотношение числа эталонов в обучающих выборках P ( W c ) = R ( c )/ R , где R = Ъ C = 1 R ( c ) — общее число эталонов. Восстановление неизвестных законов распределения P c происходит в процессе предварительного обучения по выборкам { t r ( c )} конечных объёмов R ( c ). В предположении о нормальном распределении P c могут применяться модификации линейного дискриминантного анализа [11]. С точки зрения современной прикладной статистики на практике обычно нет оснований полагать справедливость предположения о нормальном законе распределения для произвольных объектов [31, 32]. Поэтому большей популярностью в настоящее время пользуются непараметрические методы оценивания распределений [33], например [18]:

R ( c )

f (tlWc ) =      Ъ K (t, tr (c))

R ( c ) r = 1

на основе гауссовского ядра Розенблатта–Парзена

K ( t , t r ( c ) ) =

  • 1           f 1                      )

= ;-----TT M 72 exp I -      Ъ ( t m - t r ; m ( c ) ) I -

(2ПС2 )        I 2° m=1

Здесь о - фиксированный параметр сглаживания. С учётом оценки (3) итоговое решение (2) может быть записано в виде

  • 1    R ( c )

c * = argmax — Ъ K ( t , t r ( c ) ) -                    (5)

c e { 1,..., C } R r = 1

Критерий (5) и представляет собой реализацию ВНС [18]. Здесь для каждого класса происходит сопоставление входного объекта со всеми признаками tr (c) каждого эталона. В таком случае алгоритмическая сложность реализации критерия (5) оценивается как O(RM). Сложность по затратам памяти O(RM) оказывается высокой из-за необходимости хранения всех эталонных объектов. В результате применение ВНС может быть неприемлемо для многих прикладных систем, функционирующих на малопроизводительном оборудовании [9].

Так как известного повышения вычислительной эффективности ВНС за счёт использования подходящих структур данных [34] оказывается обычно недостаточно, преодоление указанной проблемы связывают с выделением в обучающем множестве информативных эталонов [19, 30], которые и участвуют в дальнейшем распознавании. Наиболее популярный подход [19] сводится к предварительной кластеризации обучающего множества (чаще всего, на основе метода k-means [15]) и применении центроидов выделенных кластеров для обучения ВНС (3). К сожалению, такое решение приводит к потере основных достоинств ВНС. Действительно, процедура обучения становится достаточно сложной, а само решение перестаёт быть оптимальным в байесовском смысле, особенно для существенно различающихся по объёму кластеров [35].

и выполнить отсечение первых J членов тригонометрического ряда, то оценка плотности вероятности в (6) примет следующий вид [43]:

R ( c ) J 2

f c ( t m ) = — E EE Vk ) ( t m ' U ) ( t rm ( c )) .      (8)

R ( c ) t! j =0 и

К сожалению, реализация такого подхода оказывается в 2 J раз медленнее по сравнению с традиционной ВНС (5). Однако если выполнить несложные тригонометрические преобразования выражения (8), то можно получить эквивалентную оценку плотности вероятности с помощью ядра Дирихле [22, 40]:

VS f c ( t m ) =

1 2 R ( с )

R ( c )

E r=1

sin II J + 2 ) ( t m - t r ; m ( c ))

2sin( t m - t r ; m ( c ))

2. Проекционные оценки плотности вероятности в вероятностной нейронной сети

В настоящем праграфе оценки плотности вероятности [36, 37] с помощью гауссовских ядерных функций Розенблатта –Парзена [18] заменяются на известные проекционные оценки [38, 39], в которых плотность вероятности записывается как сумма ортогональных разложений [40, 41]. Ситуация резко осложняется для многомерного случая, в котором образуется многомерная ортонормированная система из всевозможных произведений одномерных базисных функций. В результате с ростом размерности M вектора признаков экспоненциально возрастает сложность вычисления ортонормированных функций [36] и, как следствие, требование к минимальному числу эталонов каждого класса, достаточных для оценки многомерного распределения. Поэтому использование такого подхода для классификации векторов значений признаков большой размерности на практике в общем случае не представляется возможным. В то же время стоит отметить, что для рассматриваемого случая – признаков главных компонент, выделенных из выходов глубокой СНС, – можно использовать предположение о независимости отдельных компонент векторов t и t r ( c ) [35]. Тогда плотность вероятности каждого класса запишется как

M f (t| Wc ) = П fe (tm ),                             (6)

m = 1

В результате асимптотическая сложность классификации (2), (6), (9) будет совпадать со сложностью ВНС. Именно в таком виде (с учетом различий в применяемой ядерной функции) традиционно записывается ВНС на основе проекционных оценок [36, 37], которая, хоть и приводит в ряде случаев к повышению точности, очевидно, не влияет на вычислительную эффективность классификации.

3. Предложенный подход на основе проекционных оценок плотности

Стоит отметить, что для тригонометрической системы функций не гарантируется неотрицательное значение выражения (9) [22, 43]. В связи с этим на практике обычно используются другие ортогональные функции, такие как многочлены Лагерра или Лежандра [22]. В нашей работе реализован альтернативный подход, в котором для оценки плотности вероятности fc ( tm ) вычисляется среднее арифметическое первых J частичных сумм тригонометрического ряда [43]. Эта оценка представима в виде (3), где вместо ядра Розенблатта – Парзена применяется ядро Фейера [40, 41]

1         1

f ( t ) =-- X

Jc ( m ) R ( с )2( J + 1)

R ( c ) x E r = 1

( sin

J + 1

( tm

tr ; m ( c ))

sin

V

где одномерную плотность вероятности i -го признака fc ( tm ) можно оценить аналогично (3). Если вместо ядра Розенблатта – Парзена (4) воспользоваться проекционными оценками на основе ортогональной системы тригонометрических функций [24, 42]

^V T ( t ) = cos( n jt ), V(2) ( t ) = sin( n jt )

Такой подход, хоть и приводит к неотрицательным значениям оценки плотности вероятности (6), не позволяет повысить вычислительную эффективность распознавания [20, 43]. Поэтому в настоящей работе предлагается воспользоваться другим, эквивалентным (10) выражением [35, 43]:

J 2

f c ( t m ) = 0,5 + EE a mj c ) 'V j ) ( t m ).            (11)

j = 1 k = 1

Здесь коэффициенты ряда предложено оценить по имеющейся обучающей выборке как среднее арифме-

тическое (J+1) обычных коэффициентов тригономет рического ряда (7), где m = 1, M, j = 0, J, k = 1,2:

( k ) m ; j

J - j + 1 R ( c ) ( J + 1 )

R ( c )

E V j )( tr ; m ( C)).

r = 1

Тогда итоговое выражение для распознавания изображений (2), (6) при переходе к более удобному логарифму правдоподобия запишется в виде

M

J 2

Л max ce{1,..., C}

log R ( c ) + E log l 0,5 + EE a m^j (c ) V j ) ( t m ) I . (13)

m = 1

V

j = 1 k = 1

Таким образом, предлагаемый метод состоит в следующем. На этапе обучения для каждого класса вычисляются M (2J + 1) коэффициентов с помощью процедуры (12), имеющей линейную сложность. Далее в процессе распознавания изображение подаётся на вход СНС, выход предпоследнего слоя нормируется и преобразуется в последовательность из M главных компонент. После этого для каждой компоненты вычисляются J значений базисных функций (7). Для ускорения этой процедуры можно воспользоваться известными рекурсивными выражениями для тригонометрических функций суммы переменных:

  • (1)             (1)            (1)            (2)           (2)

V j ( t ) = V j - i ( t ) ^V i ( t ) -V j - 1( t ) ^V i ( t ),

  • (2)             (1)            (2)            (2)           (1)

V j ( t ) = V j - 1 ( t ) ^V 1 ( t ) + V j - 1 ( t ) ^V 1 ( t )

с инициализацией v(1)(t) = cos(n t), v12)(t) = sin(n t). В итоге количество сложных операций вычисления тригонометрических функций сокращается в J раз (по сравнению с (7)).

Далее для каждого класса и каждой компоненты вектора t оценивается логарифм правдоподобия (13). Итоговое решение принимается в пользу максимально правдоподобного класса.

Остановимся подробнее на преимуществах предложенного подхода. Во-первых, сохраняются все основные преимущества традиционной ВНС: сходимость к байесовскому решению и чрезвычайно быстрая процедура обучения. Стоит отметить, что в предложенном подходе можно эффективно выполнить дообучение при появлении новых эталонных изображений. Действительно, при появлении нового эталона tR(c)+1(c) коэффициенты (12) могут быть скорректированы за константное время следующим образом amk j (c) =

R ( c ) a mkj ( c ) + V jk ) ( tR ( c ) + 1; m ( c ))

R ( c ) + 1

Наконец, основным преимуществом предлагаемо- го подхода является низкая алгоритмическая сложность его реализации O(СMJ). Как известно [22, 38, 44], сходимость ряда (11) обеспечивается в том слу- чае, если параметр J определяется как o (VR(c)). В

результате вычислительная сложность предлагаемого алгоритма может быть оценена как

C

O\M E V R ( c ) I .

V     c = 1          7

В худшем случае, когда для каждого класса доступен только R ( c ) = 1 эталон, асимптотическая сложность реализации разработанной модификации и исходной ВНС одинаковы: O ( MR ). На практике в таком случае предложенный подход может оказаться в несколько раз медленнее за счёт суммирования в (13) 2 J +1 слагаемых. Наибольший выигрыш в скорости распознавания достигается для сбалансированных классов ( R ( c ) = R / C ). Тогда распознавание одного изображения в среднем оказывается приблизительно в R ( c )/ (2 3 J" R ( c )" | + 1) = ( R / C )2/3/2 раз быстрее по сравнению с ВНС (3)–(5). Таким образом, предложенный алгоритм стоит применять вместо ВНС в случае R ( c ) / (2 3 " R ( c )" | + 1) 1, то есть при наличии в обучающем множестве в среднем не менее R ( c ) =5 эталонных изображений. Кроме того, стоит отметить, что сложность по затратам памяти также снижается: O ( CD ( RIC ) 1/3)= O ( D R 1/3 C 2/3) за счёт отказа от обработки всех элементов всех обучающих выборок ( memory-based approach ) и необходимости сохранения только коэффициентов (12).

Таким образом, разработанная модификация (12)– (15) позволяет преодолеть существующие недостатки (низкая вычислительная эффективность, отсутствие обобщения) оригинальной ВНС (4)–(5), сохранив при этом высокую скорость обучения и сходимость к оптимальному байесовскому решению. В следующем параграфе экспериментально продемонстрировано, что и для реальных задач распознавания изображений предложенный подход является не менее эффективным, чем традиционные классификаторы.

  • 4. Результаты экспериментальных исследований

Эксперименты проводились на ноутбуке MacBook Pro 2015 (16 Гб ОЗУ, 4-ядерный процессор Intel Core i7 2,2 ГГц). В первом эксперименте рассмотрено применение предложенной модификации ВНС в задаче распознавания C = 101 категорий из набора Caltech-101, содержащего 8677 изображений [26]. Для извлечения признаков использовалась библиотека Caffe [46] и две глубоких СНС – Inception v1 (GoogLeNet) [3] и VGGNet с 19 слоями [4]. Нейросетевые модели, предварительно обученные для распознавания 1000 классов изображений ImageNet, были загружены с официального репозитория Caffe Model Zoo. На вход СНС подавались матрицы цветных (RGB) изображений из набора Caltech-101, приведённых к одной размерности U = V =224 пикселя. Выходы слоев «pool5/7×7-s1» (Inception v1) и «fc6» (VGGNet-19) нормировались в метрике L2, после чего извлекались все главные компоненты для получения окончательных векторов признаков размерности M = 1024 и M = 4096 для Inception и VGGNet-19 соответственно.

В течение 10 раз повторялся следующий эксперимент. В обучающее множество из каждого класса наугад выбиралось фиксированное число изображений R ( c ), а тестирование проводилось на всех остальных изображениях. Для проверки значимости различий в точности и времени распознавания применялся критерий Мак-Немара с уровнем значимости 0,05. Оценки точности классификации α (%) и среднего времени распознавания одного изображения t (мс) для 10 и 25 эталонных изображений в каждом классе R ( c ) представлены в табл. 1 и табл. 2 для признаков, извлечённых с помощью Inception и VGGNet-19 соответственно.

Табл. 1. Результаты распознавания изображений для набора фотографий Caltech-101, Inception v1

Здесь извлечение признаков с помощью VGGNet-19 привело к меньшей точности распознавания по сравнению с GoogLeNet для малого числа эталонных изображений каждого класса (R(c) = 10), но при повышении числа эталонов для ряда методов классификации признаки VGGNet оказались более точными. Подтвердился известный факт о недостаточной эффективности сложных классификаторов (SVM, random forest, искусственная нейронная сеть) при небольших объемах обучающих выборок.

Табл. 2. Результаты распознавания изображений для набора фотографий Caltech-101, VGGNet-19

В следующем эксперименте рассмотрена задача идентификации лиц [1, 12]. Использовались 66000 фотографий первых C = 1000 людей из базы данных фотографий лиц CASIA WebFaces [27]. Для извлечения признаков применялась наиболее точная из свободно доступных нейросетевых моделей – Light СНС (версия C) [47], обученная её авторами с помощью сверхбольшого набора фотографий лиц MS-Celeb-1M. Эта СНС извлекает D = 256 вещественных признаков из полутонового изображения лица с высотой

U = 128 и шириной V = 128 пикселей. Результаты эксперимента приведены в табл. 3.

Табл. 3. Результаты распознавания лиц для набора фотографий CASIA WebFaces, Light СНС

В то же время предложенная модификация (12)– (15) во всех случаях является более предпочтительной как по вычислительной эффективности (в 2,7– 6 раз), так и по точности (на 2–4%), чем оригинальная ВНС (4)–(5). При этом с точки зрения критерия Мак-Немара повышение эффективности по сравнению с ВНС оказывается статистически значимым. Стоит отметить, что в связи с большим числом классов разработанный подход даже для R ( c ) =30 эталонов оказывается более точным по сравнению с остальными методами классификации.

Заключение

Таким образом, в настоящей работе предложена модификация ВНС (12)–(15), основанная на проекционных оценках плотности вероятности, которые используют систему тригонометрических функций и предположение о независимости признаков классифицируемого объекта. Показано, что разработанная модификация сохраняет основные преимущества оригинальной ВНС: сходимость к байесовскому решению, линейное время обучения и константная сложность дообучения. При этом предложенный подход является намного более эффективным с точки зрения вычислительной сложности и затрат памяти (выигрыш до ( R / C )2/3/2 раз) за счёт отказа от хранения признаков всех эталонов и обучения модели с помощью вычисления коэффициентов (12) усреднённого тригонометрического ряда (11). Результаты экспериментального исследования для признаков, извлечённых с помощью современных СНС Incep-tion,VGGNet и Light СНС, показали, что разработанная модификация не только во всех случаях оказывается предпочтительнее исходной ВНС, но и является наиболее точным классификатором для малого числа эталонных изображений.

Основным недостатком предложенного подхода по сравнению с классической ВНС является отсутствие в нём аналога выражения (4), в котором вычисляется расстояние между векторами признаков входного и эталонного изображения. В результате для нашей модификации оказывается недоступным повышение точности ВНС за счёт применения в (4) мер близости более сложных, чем метрика Евклида [5]. Кроме того, стоит отметить, что реализация предложенного подхода оказалась медленнее оригинальной ВНС при наличии очень малого (менее 5) числа эталонов для каждого класса в связи с оценкой отдельной плотности вероятности для каждого признака при вычислении выражения (6).

В то же время следует отметить необходимость проведения ряда дополнительных исследований. Прежде всего, следует оценить точность распознавания изображений для оценки плотности вероятности с помощью других известных ортогональных систем (например, многочленов Лагерра или Лежандра) [22, 23]. Также стоит проанализировать возможность адаптации разработанного метода к обработке больших данных, например, на основе последовательного анализа [48, 49] иерархического представления изображений [2] с применением предложенного подхода для предварительной отбраковки большинства классов и выбора окончательного решения с помощью одного из традиционны классификаторов. Наконец, представляет интерес исследование применимости предложенного подхода для признаков, выделенных СНС с небольшим числом параметров, таких как Mo-bileNet, SqueezeNet, в расчёте на их реализацию на мобильных устройствах.

Исследование выполнено при поддержке гранта президента РФ для молодых ученых – докторов наук № МД-306.2017 и Лаборатории алгоритмов и технологий анализа сетевых структур (ЛАТАС) Национального исследовательского университета Высшая школа экономики. Работа параграфов 3 и 4 выполнена за счёт гранта Российского научного фонда (проект № 14-41-00039).

Список литературы Тригонометрическая система функций в проекционных оценках плотности вероятности нейросетевых признаков изображений

  • Prince, S.J.D. Computer vision: Models, learning, and inference/S.J.D. Prince. -Cambridge: Cambridge University Press, 2012. -598 p. -ISBN: 978-1-107-01179-1.
  • Goodfellow, I. Deep learning/I. Goodfellow, Y. Bengio, A. Courville. -Cambridge, London: The MIT Press, 2016. -800 p. -ISBN: 9780262035613.
  • Szegedy, C. Going deeper with convolutions/C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, A. Rabinovich//Proceedings of the 2015 IEEE International Conference on Computer Vision and Pattern Recognition (CVPR). -2015. -P. 1-9. - DOI: 10.1109/CVPR.2015.7298594
  • Simonyan, K. Very deep convolutional networks for large-scale image recognition/K. Simonyan, A. Zisserman//arXiv preprint arXiv:1409.1556, 2014.
  • Savchenko, A.V. Probabilistic neural network with homogeneity testing in recognition of discrete patterns set/A.V. Savchenko//Neural Networks. -2013. -Vol. 46. -P. 227-241. - DOI: 10.1016/j.neunet.2013.06.003
  • Krizhevsky, A. ImageNet classification with deep convolutional neural networks/A. Krizhevsky, I. Sutskever, G.E. Hinton//Proceedings of the 25th International Conference on Neural Information Processing Systems (NIPS'12). -2012. -Vol. 1. -P. 1097-1105.
  • Rassadin, A.G. Group-level emotion recognition using transfer learning from face identification/A.G. Rassadin, A.S. Gruzdev, A.V. Savchenko//Proceedings of the 19th ACM International Conference on Multimodal Interaction (ICMI). -2017. -P. 544-548. - DOI: 10.1145/3136755.3143007
  • Sharif Razavian, A. CNN features off-the-shelf: an astounding baseline for recognition/A. Sharif Razavian, H. Azizpour, J. Sullivan, S. Carlsson//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW '14). -2014. -P. 806-813. - DOI: 10.1109/CVPRW.2014.131
  • Savchenko, A.V. Maximum-likelihood approximate nearest neighbor method in real-time image recognition/A.V. Savchenko//Pattern Recognition. -2017. -Vol. 61. -P. 459-469. - DOI: 10.1016/j.patcog.2016.08.015
  • Savchenko, A.V. Deep neural networks and maximum likelihood search for approximate nearest neighbor in video-based image recognition/A.V. Savchenko//Optical Memory and Neural Networks (Information Optics). -2017. -Vol. 26, Issue 2. -P. 129-136. - DOI: 10.3103/S1060992X17020102
  • Raudys, S.J. Small sample size effects in statistical pattern recognition: Recommendations for practitioners/S.J. Raudys, A.K. Jain//IEEE Transactions on Pattern Analysis and Machine Intelligence. -1991. -Vol. 13, Issue 3. -P. 252-264. - DOI: 10.1109/34.75512
  • Савченко, А.В. Метод максимально правдоподобных рассогласований в задаче распознавания изображений на основе глубоких нейронных сетей/А.В. Савченко//Компьютерная оптика. -2017. -Т. 41, № 3. -С. 422-430. - DOI: 10.18287/2412-6179-2017-41-3-422-430
  • Pan, S.J. A survey on transfer learning/S.J. Pan, Q. Yang//IEEE Transactions on Knowledge and Data Engineering. -2010. -Vol. 22, Issue 10. -P. 1345-1359. - DOI: 10.1109/TKDE.2009.191
  • Russakovsky, O. ImageNet large scale visual recognition challenge/O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A.C. Berg, F.-F. Li//International Journal of Computer Vision. -2015. -Vol. 115, Issue 3. -P. 211-252. - DOI: 10.1007/s11263-015-0816-y
  • Theodoridis, S. Pattern recognition/S. Theodoridis, C. Koutroumbas. -4th ed. -Burlington, San Diego, London: Elsevier Inc., 2009. -840 p. -ISBN: 978-1-59749-272-0.
  • Webb, A.R. Statistical pattern recognition/A.R. Webb. -2nd ed. -Chichester, England: John Wiley & Sons, Ltd., 2002. -ISBN: 978-0-470-84513-4.
  • Савченко, А.В. Распознавание изображений на основе вероятностной нейронной сети с проверкой однородности/А.В. Савченко//Компьютерная оптика. -2013. -Т. 37, № 2. -С. 254-262. -ISSN 0134-2452.
  • Specht, D.F. Probabilistic Neural Networks/D.F. Specht//Neural Networks. -1990. -Vol. 3, Issue 1. -P. 109-118. - DOI: 10.1016/0893-6080(90)90049-Q
  • Kusy, M. Probabilistic neural network structure reduction for medical data classification/M. Kusy, J. Kluska//Proceedings of International Conference on Artificial Intelligence and Soft Computing (ICAISC). -2013. -P. 118-129. - DOI: 10.1007/978-3-642-38658-9_11
  • Savchenko, A.V. Pattern classification with the probabilistic neural networks based on orthogonal series kernel/A.V. Savchenko//Proceedings of International Symposium on Neural Networks (ISNN 2016). -2016. -P. 505-512. - DOI: 10.1007/978-3-319-40663-3_58
  • Čencov, N.N. Statistical decision rules and optimal inference/N.N. Čencov. -Providence, RI: American Mathematical Society, 2000. -ISBN: 978-0-8218-1347-8.
  • Деврой, Л. Непараметрическое оценивание плотности. L1-подход/Л. Деврой, Л. Дьёрфи. -М.: Мир, 1988. -408 с. -ISBN: 5-03-000475-0.
  • Efromovich, S. Nonparametric curve estimation: Methods, theory, and applications/S. Efromovich. -New York: Springer, 1999. -ISBN: 978-0-387-98740-8.
  • Greblicki, W. Classification using the Fourier series estimate of multivariate density functions/W. Greblicki, M. Pawlak//IEEE Transactions on Systems, Man, and Cybernetics. -1981. -Vol. 11, Issue 10. -P. 726-730. - DOI: 10.1109/TSMC.1981.4308594
  • Rutkowski, L. Sequential pattern recognition procedures derived from multiple Fourier series/L. Rutkowski//Pattern Recognition Letters. -1988. -Vol. 8, Issue 4. -P. 213-216. - DOI: 10.1016/0167-8655(88)90027-X
  • Fei-Fei, L. One-shot learning of object categories/L. Fei-Fei, R. Fergus, P. Perona//IEEE Transactions on Pattern Analysis and Machine Intelligence. -2006. -Vol. 28, Issue 4. -P. 594-611. - DOI: 10.1109/TPAMI.2006.79
  • Yi, D. Learning face representation from scratch/D. Yi, Z. Lei, S. Liao, S.Z. Li//arXiv preprint arXiv:1411.7923. -2014.
  • Wasikowski, M. Combating the small sample class imbalance problem using feature selection/M. Wasikowski, X. Chen//IEEE Transactions on Knowledge and Data Engineering. -2010. -Vol. 22, Issue 10. -P. 1388-1400. - DOI: 10.1109/TKDE.2009.187
  • Жердев, Д.А. Распознавание объектов по диаграммам рассеяния электромагнитного излучения на основе метода опорных подпространств/Д.А. Жердев, Н.Л. Казанский, В.А. Фурсов//Компьютерная оптика. -2014. -Т. 38, № 3. -С. 503-510.
  • Савченко, В.В. Принцип минимума информационного рассогласования в задаче спектрального анализа случайных временных рядов в условиях малых выборок наблюдений/В.В. Савченко//Известия высших учебных заведений. Радиофизика. -2015. -Т. 58, № 5. -С. 415-422.
  • Орлов, А.И. Развитие математических методов исследования (2006-2015 гг.)/А.И. Орлов//Заводская лаборатория. Диагностика материалов. -2017. -Т. 83, № 1-I. -С. 78-86.
  • Shatskikh, S.Ya. Normality assumption in statistical data analysis/S.Ya. Shatskikh, L.E. Melkumova//CEUR Workshop Proceedings. -2016. -Vol. 1638. -P. 763-768. - DOI: 10.18287/1613-0073-2016-1638-763-768
  • Лапко, А.В. Непараметрические модели распознавания образов в условиях малых выборок/А.В. Лапко, С.В. Ченцов, В.А. Лапко//Автометрия. -1999. -№ 6. -С. 105-113.
  • Franti, P. Fast and memory efficient implementation of the exact PNN/P. Franti, T. Kaukoranta, D.-F. Shen, K.-S. Chang//IEEE Transactions on Image Processing. -2000. -Vol. 9, Issue 5. -P. 773-777. - DOI: 10.1109/83.841516
  • Савченко, А.В. Об одном способе повышения вычислительной эффективности вероятностной нейронной сети в задаче распознавания образов на основе проекционных оценок/А.В. Савченко//Информационные системы и технологии. -2015. -№ 4(90). -С. 28-38.
  • Rutkowski, L. Adaptive probabilistic neural networks for pattern classification in time-varying environment/L. Rutkowski//IEEE Transactions on Neural Networks. -2004. -Vol. 15, Issue 4. -P. 811-827. - DOI: 10.1109/TNN.2004.828757
  • Duda, P. On the Cesaro orthogonal series-type kernel probabilistic neural networks handling non-stationary noise/P. Duda, J.M. Zurada//Proceedings of the 9th International Conference on Parallel Processing and Applied Mathematics (LNCS). -2012. -Vol. 7203, Pt. I. -P. 435-442. - DOI: 10.1007/978-3-642-31464-3_44
  • Schwartz, S.C. Estimation of probability density by an orthogonal series/S.C. Schwartz//The Annals of Mathematical Statistics. -1967. -Vol. 38, Issue 4. -P. 1261-1265.
  • Efromovich, S. Orthogonal series density estimation/S. Efromovich//Wiley Interdisciplinary Reviews: Computational Statistics. -2010. -Vol. 2, Issue 4. -P. 467-476. - DOI: 10.1002/wics.97
  • Фихтенгольц, Г.М. Курс дифференциального и интегрального исчисления/Г.М. Фихтенгольц. -Т. 3. -М.: Физматлит, 2001. -662 с.
  • Зорич, В.А. Математический анализ/В.А. Зорич. -Ч. 2. -М.: Наука, 1984. -640 с.
  • Hall, P. On trigonometric series estimates of densities/P. Hall//Annals of Statistics. -1981. -Vol. 9, Issue 3. -P. 683-685.
  • Новосёлов, А.А. Параметризация моделей управляемых систем/А.А. Новосёлов//Вестник Сибирского государственного аэрокосмического университета. -2010. -№ 5. -С. 52-56.
  • Hart, J.D. On the choice of a truncation point in Fourier series density estimation/J.D. Hart//Journal of Statistical Computation and Simulation. -1985. -Vol. 21, Issue 2. -P. 95-116. - DOI: 10.1080/00949658508810808
  • Система распознавания изображений . -URL: https://github.com/HSE-asavchenko/HSE_FaceRec/tree/master/src/recognition_testing (дата обращения 01.12.2017).
  • Jia, Y. Caffe: Convolutional architecture for fast feature embedding/Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, T. Darrell//Proceedings of the 22nd ACM International Conference on Multimedia. -2014. -P. 675-678. - DOI: 10.1145/2647868.2654889
  • Wu, X. A light CNN for deep face representation with noisy labels/X. Wu, R. He, Z. Sun, T. Tan//arXiv preprint arXiv:1511.02683. -2017.
  • Savchenko, A.V. Fast multi-class recognition of piecewise regular objects based on sequential three-way decisions and granular computing/A.V. Savchenko//Knowledge-Based Systems. -2016. -Vol. 91. -P. 250-260. - DOI: 10.1016/j.knosys.2015.09.021
  • Savchenko, A.V. Sequential three-way decisions in efficient classification of piecewise stationary speech signals/A.V. Savchenko//Proceedings of International Joint Conference on Rough Sets (IJCRS 2017). -2017. -Part II. -P. 264-277. - DOI: 10.1007/978-3-319-60840-2_19
Еще
Статья научная