Модели и методы поиска людей на фотографиях из исторического альбома

Автор: Тальонен Андрей Николаевич, Рогов Александр Александрович

Журнал: Ученые записки Петрозаводского государственного университета @uchzap-petrsu

Рубрика: Физико-математические науки

Статья в выпуске: 6 (127), 2012 года.

Бесплатный доступ

Описываются методы детектирования и распознавания лиц, основанные на локальных бинарных шаблонах. Предложенные методы ориентированы на изображения невысокого качества, характерные для коллекций исторических фотографий.

Детектирование лиц, распознавание лиц, алгоритм виолы - джонса, локальные бинарные шаблоны

Короткий адрес: https://sciup.org/14750199

IDR: 14750199

Текст научной статьи Модели и методы поиска людей на фотографиях из исторического альбома

На данный момент существует множество работ по распознаванию лиц и разнообразное готовое программное обеспечение, позволяющее обнаруживать лица и сравнивать их между собой. Как правило, детектирование и распознавание лиц выполняется разными алгоритмами. В обоих случаях качество работы алгоритма, выраженное количественными характеристиками точности и полноты [1], зависит от качества исходных данных. В большинстве публикаций описываются результаты работы алгоритмов на качественных изображениях [2], [3], [4]. Отсутствуют работы по исследованию качества работы алгоритмов на изображениях низкого качества. Однако существуют коллекции с фотографиями низкого качества, на которых тоже требуется осуществлять поиск. К ним относятся цифровые исторические альбомы.

Исходными данными для проведенных исследований является электронная коллекция черно-белых изображений строительства Беломорско-Балтийского канала (ББК) в формате JPEG, созданных около 80 лет назад. Коллекция насчитывает более 6 тыс. изображений. Преобладание диапазона лиц размером 20–40 пикселей является следствием низкого качества как оригинальных фотографий, так и оцифрованных изображений.

Для алгоритмов детектирования характерны ложные срабатывания, когда определенный участок изображения, не являющийся лицом, но содержащий некоторые локальные признаки, признается классификатором как лицо. Вследствие этого снижается точность результатов. При этом наличие большого количества деталей и шумов повышает вероятность ложного сраба-

тывания. Изменяя параметры алгоритма, можно оказывать влияние на вероятность обнаружения лица или ложного срабатывания. Но при этом в рамках одного алгоритма можно повысить точность за счет полноты и наоборот. Таким образом, можно наблюдать некоторую обратную зависимость, не позволяющую повысить оба показателя. Для решения этой проблемы можно использовать дополнительную классификацию: сортировку результатов детектирования с наибольшей полнотой.

ОСОБЕННОСТИ ЗАДАЧИ

В данной работе для обнаружения лиц используется алгоритм Виолы – Джонса [10]. Данный алгоритм был выбран потому, что он обладает высокими показателями по сравнению с другими бесплатными / широкодоступными алгоритмами [5], [11]. В процессе исследования с помощью этого алгоритма были получены коллекции с наибольшей полнотой («полная» коллекция) и с наибольшей точностью («точная» коллекция). Одной из задач данной работы является построение классификатора, позволяющего повысить точность «полной» коллекции, обеспечив показатели отсортированной коллекции выше показателей «точной».

Для распознавания лиц широко используется алгоритм локальных бинарных шаблонов (ЛБШ). В некоторых исследованиях алгоритм ЛБШ работал с более высокой точностью, чем другие алгоритмы [2].

РАСПОЗНАВАНИЕ ОБЪЕКТОВ С ПОМОЩЬЮ LBP

LBP, впервые описанный в [8], представляет собой простой и мощный инструмент для распознавания различных элементов изображения.

В качестве пространства признаков используются гистограммы так называемых кодов LBP. Благодаря высокой скорости расчета некоторых типов кодов LBP стал широко применяться для распознавания образов.

LBP представляет собой фильтр, обозначаемый как LBPP R(x, y), который для каждой точки изображения р, ассчитывает код на основе значений точек в некоторой окрестности этой точки. В данном случае P – число точек, R – радиус окрестности. Точкиокрестности обозначим как gi, где i = 0, P – 1. При этом координаты точки рассчи тываются как (R cos( );R sin( )). Обозначим 22

изображение как f(x, y) или как f(g) , если g – точка.

1, f ( g ) f ( g )

Пусть si ( x , y )         i c , где g – точка с ко-

0, иначе            c P 1

ординатами ( x, y ). Тогда LBPP,R ( x , y )     2 i si ( x , y ) .

i 0

Таким образом, последовательность si(x, y), где i = 0, P – 1, представляет собой двоичную последовательность кода LBP. Следовательно, LBPpRx, y) g [0,2P - 1].

Для сравнения двух изображений в качестве векторов признаков используются гистограммы кодов LBP. В общем случае для каждого изображения строится ги стогра мма H ( l ) для значений LBPPR( x , y ), где l = 0, P – 1. Существует несколько м,етодов расчета расстояния между гистограммами. Например, расстояние Хи-квадрат:

  • 2( H , H ) ( H 1 ( i ) H 2( i )) , где B – число кодов.

  • 1,    2 i 0 H 1 ( i ) H 2 ( i )

Существуют также модификации фильтра, описанные в работах [6], [7], [8], [9]:

  • 1.    Некоторые коды несут в себе больше информации, чем другие. Коды, в двоичной циклической записи которых число переходов между последовательностями «1» и «0» не превышает двух, обозначаются как «uniform», что соответствует слову «равномерный» [3]. Для заданного P существует всего P ( P -1) + 2 равномерных значений. Модифицированный фильтр LBPPu2R в этом случае возвращает коды равномерных , значений, добавляя только один код для неравномерных значений.

  • 2.    Так как окрестность представляет собой круг, можно найти группы кодов, инвариантных к повороту. Для каждого кода LBP существует P кодов, инвариантных к повороту, получаемых путем циклического сдвига P -битового числа. Для каждой такой группы в фильтр попадает минимальное значение кодов данной группы. Задача определения количества кодов, инвари-

  • антных к повороту, является нетривиальной. Фильтр обозначается как LBPPri,R.
  • 3.    С учетом предыдущих двух свойств определяется также равномерный фильтр, инвариантный к повороту. Кодов LBP, обладающих одновременно двумя свойствами, всего P + 2, которые отличаются друг от друга числом бит, равных 1. В этом случае фильтр LBPPri,uR2 задается следующим образом:

индекс кода, если он равномерны й

LBPu2 ( x , y )                                           .

P,R

,                   P ( P 1) 2, иначе

число единиц, если код равномерный

P 1, иначе               .

LBP P ri , u R 2 ( x , y )

В работе [8] был предложен метод сравнения вычисления гистограмм лиц. Изображение лица разбивается на k x k участков, для каждого из которых рассчитывается гистограмма. Итоговая гистограмма изображения лица определяется как конкатенация гистограмм участков изобра- жения.

В работе [4] был предложен расширенный метод сравнения гистограмм лиц, основанный на взвешенной матрице. Задается матрица весов k x k, каждый элемент которой соответствует участку изображения. Обозначим г истогр амму j-го участка изображения как Hj, j = 0, k2 – 1. Для каждого j-го участка задается вес wj. Тогда можно определить модифицированное (взвешенное) расстояние Хи-квадрат следующим образом:

( H 1 j ( i )   H 2 j ( i ))2

H 1 j ( i ) H 2 j ( i )

k 2 1        B 1

w2(H1,H2) wj j0         i0

где B – число паттернов.

В частности, в [4] предлагается использовать следующую матрицу для распознавания лиц (рис. 1).

Рис. 1. Матрица весов для распознавания лиц

ПОВЫШЕНИЕ ПОЛНОТЫ И ТОЧНОСТИ ДЕТЕКТИРОВАНИЯ ЛИЦ

Недостатком «полной» коллекции является большое число ложных объектов. Путем отсеивания найденных объектов с помощью обучающего множества можно повысить точность результатов.

Задача классификации сводится к выбору метода сравнения двух объектов и формированию множеств лиц и ложных объектов, которые будут являться обучающей выборкой.

Пусть F* – множество лиц, а E* – множество ложных объектов из обучающей выборки. Пусть ρf ( fi , fj ) – расстояние между объектами. Суть алгоритма классификации заключается в сравнении расстояния между проверяемым объектом и множеством F* и расстояния от объекта до E*. Если проверяемый объект ближе к множеству F*, то объект считается лицом, иначе – ложным объектом.

Поскольку любая классификация предполагает ненулевую вероятность ошибок 1-го и 2-го рода, алгоритм вычисления расстояния и обучающие множества подбираются для уменьшения количества ошибок обоих типов.

Применение данного алгоритма классификации над множеством с «наибольшей полнотой» («полная» коллекция, множество является результатом работы алгоритма детектирования лиц с наибольшей полнотой) позволяет за счет определенного количества ошибок 1-го рода (лица, признанные ложными объектами) повысить точность для данного множества.

ЭКСПЕРИМЕНТЫ

В процессе исследования коллекции было обнаружено около 4 тыс. лиц. Для оценки качества найденных объектов по их размерам было составлено общее распределение (рис. 2).

^ ^* •'S* ^ «^ ^ $ ^ ^ ^^^^^^^^^

Рис. 2. Распределение размеров «полной» коллекции

Для оценки полноты и точности необходимо произвести экспертную оценку тестовой выборки (экспертная коллекция). В экспериментах использовалась выборка примерно в 1070 изображений. Процесс оценивания был упрощен: вместо выделения всех лиц на изображениях автоматически выделялись объекты полной коллекции, отсортированной вручную, после чего эксперту достаточно было отметить на изображении недостающие лица. Ручная сортировка также осуществлялась быстрым методом, позволяющим сортировать 100 объектов за 1 минуту.

Кроме очевидных лиц и ложных объектов, найденных в «полной» коллекции, были определены дополнительные правила оценивания. К ложным объектам относились слабо различимые лица (не видно глаз или рта) и лица людей, повернувшихся к камере на угол больше 90 градусов. К лицам относились различные изображения лиц: портреты, рисунки, бюсты.

В процессе классификации объекты преобразовывались к размеру 64 х 64. Эксперименты проводились и с использованием нескольких фильтров с различными параметрами расчета гистограммы и с различными обучающими множествами. Для вычисления векторов признаков использовались фильтры LBP 1 r 6 iu ,3 2 и LBP 2 ri 4 u2 3 . В одних случаях применялась матрица весов (рис. 1), в других случаях вектор признаков сжимался до размера 200. В качестве множества лиц использовался набор из 18 изображений лиц. Кроме того, были заданы 2 множества ложных объектов (8 и 26 изображений, E1 и E2 соответственно).

Результатом каждого эксперимента являлась отдельная коллекция объектов. Полученные коллекции оценивались полнотой и точностью, для расчета которых объекты коллекций сопоставлялись с объектами экспертной коллекции. Результаты экспериментов, позволяющие сравнить качество полученных коллекций с соответствующими параметрами «полной» и «точной» коллекций, представлены в табл. 1 и на рис. 3. Описание каждого эксперимента содержит параметры фильтра LBP, использованные методы расчета гистограмм, а также множество ложных объектов.

Рис. 3. Диаграмма сравнения полноты и точности обнаружения лиц

Проведенные эксперименты показали, что гистограммы, полученные с помощью фильтров LBP 1 r 6 iu ,3 2 и LBP 2 ri 4 u2 3 , матрицы весов и расширенной обучающей выборки, обладают наилучшей селективной способностью с точки зрения F-меры [1]. Кроме того, в большинстве случаев расширение обучающей выборки позволило сократить количество ошибок и, следовательно, точность и F-меру отсортированной коллекции.

РАСПОЗНАВАНИЕ ЛИЦ С ПОМОЩЬЮ LBP

Современные исследования демонстрируют высокие показатели точности распознавания лиц размерами выше 100. В данном случае требуется отдельный подход. Для экспериментов использовалась следующая коллекция изображений (табл. 2), обозначим данный набор как T .

Таблица 1

Результаты экспериментов по повышению точности и полноты

Название

Описание

Лица

Ошибки

Полнота

Точность

F-мера

ЭК

Экспертная коллекция

793

0

1,000

1,000

1,000

ПК

Полная коллекция

540

973

0,681

0,357

0,468

ТК

Точная коллекция

439

289

0,554

0,603

0,577

LBP_24_1

LBP2r4iu,23 , E1

529

484

0,667

0,522

0,586

LBP_24_2

LBP2ri4u,23 , E2

492

294

0,620

0,626

0,623

LBP_24_W_Q_1

LBP 2r4iu,23 , веса, сжатие, E1

522

364

0,658

0,589

0,622

LBP_24_W_Q_2

riu2

LBP 24,3 , веса, сжатие E 2

499

319

0,629

0,610

0,619

LBP_24_W_1

LBP 2 r 4 iu , 2 3 , веса, E1

506

292

0,638

0,634

0,636

LBP_24_W_2

LBP 2 r 4 iu , 2 3 , веса E2

483

226

0,609

0,681

0,643

LBP_16_1

LBP1r6iu,32 , E1

532

492

0,671

0,520

0,586

LBP_16_2

LBP1r6iu,32 , E2

512

332

0,646

0,607

0,626

LBP_16_W_Q_1

LBP 1 r 6 iu ,3 2 , веса, сжатие, E1

520

370

0,656

0,584

0,618

LBP_16_W_Q_2

LBP 1 r 6 iu ,3 2 , веса, сжатие, E2

499

306

0,629

0,620

0,625

LBP_16_W_1

LBP 1 r 6 iu ,3 2 , веса, E1

510

305

0,643

0,626

0,634

LBP_16_W_2

LBP 1 r 6 iu ,3 2 , веса, E2

488

230

0,615

0,680

0,646

Таблица 2

Тестовое множество изображений для распознавания лиц

14}, {4, 13} и {7, 9}. Обозначим данное множество как T +. Кроме того, очевидна пара ложных объектов, которые должны быть близки друг к другу: {1, 15} ( T ). Дополним множества T + и T зеркально отраженными элементами данных множеств.

Для исследования работы различных фильтров LBP используется следующий алгоритм:

  • 1.    Для каждого объекта ti T находится ближайший к нему объект ti * G T . То есть

  • 2.    Полученное таким образом множество пар T P {< ti , ti * | ti E T } сопоставляется с известными парами лиц и ложных объектов.

ti * arg min{ Pf ( ti , tj )| tj G T / ti }.

t j

, t , t >G T или t , t >G T

3. Обозначим h(t ,t ) i j            i j i j                0, иначе

4. Будем рассчитывать точность следующим об-

z h ( ti , ti *)

ti T разом: Re i          .

| T | + | T | .

Были обнаружены следующие пары лиц, соответствующие одному и тому же человеку: {3,

В процессе исследования были рассмотрены различные варианты фильтров LBP. В табл. 3 приведено сравнение точности использованных фильтров относительно заданного множества T.

Таблица 3

Результаты экспериментов по распознованию лиц

Обозначение

Точность Re

Описание

LBP8,1

3/8

P = 8, R = 1

LBP16,1

2/8

P = 16, R = 1

LBP8,2

4/8

P = 8, R = 2

LBP16,2

4/8

P = 16, R = 2

LBP8,3

4/8

P = 16, R = 3

LBP16,3

6/8

P = 16, R = 3

Взвешенный LBP 1 r 6 i ,3

4/8

P = 16, R = 3, инвариантный

Взвешенный LBP 1 r 6 iu ,3

3/8

P = 16, R = 3, равномерный, инвариантный

Взвешенный LBP 1 u 6,3

5/8

P = 16, R = 3, равномерный

Взвешенный LBP

16,3

8/8

P = 16, R = 3

Таким образом, наибольшая точность достигается для взвешенного фильтра LBP ,.

АННОТИРОВАНИЕ ЛИЦ

Аннотирование изображений предполагает присвоение каждому изображению набора текстовых меток, соответствующих данному изображению. При аннотировании за счет лиц необходима база данных лиц. Имена людей из базы данных будут являться текстовыми метками. При наличии такой базы данных предлагается использовать взвешенный фильтр LBP16 3 для поиска похожих лиц.                    ,

В случае если база данных отсутствует, исходя из результатов экспериментов предлагается следующая схема аннотирования изображений с помощью эксперта:

  • 1.    Для каждого найденного лица выполняется поиск нескольких ближайших лиц, вычисленные расстояния между объектами сохраняются в базе данных. Количество ближайших объектов при этом задается.

  • 2.    При оценивании каждого лица эксперту предлагается сравнить его с ближайшим.

  • 3.    Если эксперт принимает предложенный объект, система запоминает новую связь.

  • 4.    Если эксперт отклоняет предложенный объект, система предлагает ему следующий ближайший объект по списку.

ЗАКЛЮЧЕНИЕ

Были предложены методы повышения полноты и точности алгоритма Виолы – Джонса с помощью локальных бинарных шаблонов. Для распознавания лиц низкого качества была найдена модификация LBP, позволяющая сравнивать лица с максимальной точностью.

Для случая отсутствия базы данных лиц был предложен метод аннотирования изображений с помощью эксперта на основе локальных бинарных шаблонов.

* Работа выполнена при финансовой поддержке Программы стратегического развития ПетрГУ в рамках реализации комплекса мероприятий по развитию научно-исследовательской деятельности.

Список литературы Модели и методы поиска людей на фотографиях из исторического альбома

  • Агеев М. Кураленок И. Официальные метрики РОМИП’2004 [Электронный ресурс]. Режим доступа: http://romip. ru/docs/romip_metrics.pdf
  • Маслий Р В. Использование локальных бинарных шаблонов для распознавания лиц на полутоновых изображениях [Электронный ресурс]. Режим доступа: http://www.nbuv.gov.ua/e-journals/vntu/2008-4/2008-4_ru.files/ru/08rvmgsi_ru.pdf
  • Петру к В. И., Самородов А. В. Спиридонов И. Н. Применение локальных бинарных шаблонов к решению задачи распознавания лиц//Вестник МГТУ им. Н. Э. Баумана. Сер. «Приборостроение». 2011. Спец. вып. Биометрические технологии. С. 58-63.
  • Ahonen T., Hadid A., Pietikäinen M. Face Recognition with Local Binary Patterns [Electronic resource]. Access mode: http://masters.donntu.edu.ua/2011/frt/dyrul/library/article8.pdf
  • Degtyarev N., Seredin O. Comparative Testing of Face Detection Algorithms [Electronic resource]. Access mode: http://lda.tsu.tula.ru/papers/degtyarev-2010-icisp-ctfd.pdf
  • Guo Z. Zhang L. Zhang D. Rotation invariant texture classification using LBP variance (LBPV) with global matching [Electronic resource]. Access mode: http://www4.comp.polyu.edu.hk/~cslzhang/paper/PR_10_Mar_LBPV.pdf
  • Mäenpää T. The local binary pattern approach to texture analysis -extensions and applications [Electronic resource]. Access mode: http://herkules.oulu.fi/isbn9514270762/isbn9514270762.pdf
  • Ojala T., Pietikäinen M., Harwood D. A Comparative Study of Texture Measures with Classification Based on Feature Distributions//Pattern Recognition. 1996. Vol. 29. № 1. С. 51-59.
  • Ojala T., Pietikäinen M., Mäenpää T. A Generalized Local Binary Pattern Operator for Multiresolution Gray Scale and Rotation Invariant Texture Classification [Electronic resource]. Access mode: http://www.mediateam.oulu.fi/publications/pdf/43.pdf
  • Viola P., Jones M. Robust Real-time Object Detection [Electronic resource]. Access mode: http://research.microsoft.com/en-us/um/people/viola/Pubs/Detect/violaJones_IJCV.pdf
  • Wechsler H. Reliable face recognition methods: system design. implementation and evaluation [Electronic resource]. Access mode: http://books.google.ru/books?id=refsB92dvEC&printsec=frontcover&hl=ru&source=gbs_atb#v=onepage&q&f=false
Еще
Статья научная