Метод генерации обучающих данных для компьютерной системы обнаружения защитных масок на лицах людей
Автор: Рюмина Елена Витальевна, Рюмин Дмитрий Александрович, Маркитантов Максим Викторович, Карпов Алексей Анатольевич
Журнал: Компьютерная оптика @computer-optics
Рубрика: Обработка изображений, распознавание образов
Статья в выпуске: 4 т.46, 2022 года.
Бесплатный доступ
Мониторинг и оценка уровня безопасности отдельных граждан и общества в целом является одной из важнейших проблем современного мира, который вынужден меняться в связи с возникновением коронавируса COVID-19. Для повышения уровня безопасности общества необходимы новые информационные технологии, способные остановить распространение пандемии за счет минимизации угроз новых вспышек и мониторинга соблюдения людьми защитных мер. К таким технологиям относятся, в частности, компьютерные системы для автоматизированного отслеживания наличия защитных масок на лицах людей. Для таких систем предлагается метод генерации обучающих данных, который объединяет такие способы аугментации данных, как Mixup и Insert. Предложенный метод апробируется на двух корпусах - MAsked FAce и Real-World Masked Face Recognition Dataset, для которых достигаются значения невзвешенной средней полноты при обнаружении масок в 98,51 % и 98,50 %. Кроме того, эффективность предложенного метода апробируется на изображениях с имитацией защитных масок на лицах людей и предлагается автоматизированный способ для уменьшения ошибок I и II рода. С помощью предложенного автоматизированного способа удается сократить количество ошибок II рода с 174 до 32 для корпуса Real-World Masked Face Recognition Dataset и с 40 до 14 для изображений с нарисованными защитными масками на реальных лицах людей.
Обнаружение защитных масок, covid-19, имитация защитных масок, генерация данных, визуальные характеристики, тепловая карта
Короткий адрес: https://sciup.org/140295020
IDR: 140295020 | DOI: 10.18287/2412-6179-CO-1039
Текст научной статьи Метод генерации обучающих данных для компьютерной системы обнаружения защитных масок на лицах людей
В последние годы люди стран всего мира вынуждены соблюдать социальную дистанцию и носить средства индивидуальной защиты (СИЗ). Причиной этому является выявление новых штаммов коронавируса COVID-19 и рост количества зараженных людей, что приводит к ужесточению мер по борьбе с распространением пандемии. На сегодняшний день проведены многочисленные научные исследования, показывающие несомненную пользу ношения СИЗ. Так, исследование в работе [1] показало, что ношение маски на лице в общественных местах позволяет уменьшить распространение коронавирусной инфекции за счет снижения количества выбросов инфицированной слюны и респираторных капель от людей с проявлениями COVID-19. Авторы [2] также доказали, что использование многослойной маски и респиратора служит эффективным барьером от передачи инфекционных заболеваний в больнице и в других многолюдных общественных местах. Несмотря на то, что неоднократно была доказана эффективность ношения СИЗ, некоторые люди пренебрегают рекомендация- ми. В работе [3] анализируется взаимосвязь между возрастом человека, самовосприятием и ношением маски на лице. Опрос показал, что возраст не имеет взаимосвязи с самовосприятием маски на лице. Однако несмотря на то, что пожилые люди больше подвержены тяжелому течению болезни, они соблюдают рекомендации по ношению маски на лице реже молодых [3].
Мониторинг и оценка уровня безопасности общества является одной из важнейших проблем современного мира. Проблема несоблюдения рекомендаций является актуальной, и для борьбы с COVID-19 необходимы новые информационные технологии, способные остановить распространение заражения за счет минимизации угроз новых вспышек и мониторинга соблюдений защитных мер. К таким технологиям относятся цифровые методы автоматизации превентивных мер по борьбе с распространением коронавирусной инфекции путем интеллектуального отслеживания наличия защитных масок на лицах людей (далее обнаружение защитных масок). В настоящее время ведущие зарубежные научные институты и мировые промышленные корпорации проводят ис- следования и разработки интеллектуальных технологий для решения данной задачи. Технологии, основанные на методах искусственного интеллекта, включая глубокое машинное обучение, позволяют обнаруживать защитные маски по акустическим [4, 5] или визуальным характеристикам людей [6, 7]. Также данные характеристики активно применяются для решения задач, связанных с обнаружением респираторных заболеваний [8, 9].
Обнаружение защитных масок по визуальным характеристикам людей на сегодняшний день является наиболее актуальной задачей. Однако исследователи в своих работах не оценивают эффективность предложенных методов на изображениях с имитацией защитных масок (ИЗМ) на лицах людей, что способно значительно понизить их работоспособность.
1. Современные методы обнаружения защитных масок
Методы обнаружения защитных масок по визуальным характеристикам различаются по двум задачам: 1) реализация детектора обнаружения объектов, объектами являются, например, «лицо в маске» и «лицо без маски», т.е. на вход детектора подаются изображения, его цель – самостоятельно найти на изображениях области с необходимыми объектами; 2) реализация алгоритма машинной классификации по двум классам («лицо в маске» и «лицо без маски»), т.е. на вход алгоритма подаются изображения (содержащие только одно лицо без фоновой составляющей), требуется определить, к каким классам они принадлежат.
В работе [10] представлен метод обнаружения защитных масок для решения первой задачи. Авторы предлагают усовершенствование детектора обнаружения объектов YOLOv3, добавляя в него механизм внимания с блоком Squeeze and Excitation. Для генерации данных используются аффинные преобразования (горизонтальное отображение, случайная обрезка), регулировка контрастности изображений и метод Mixup [11]. Кроме того, исследовались и другие детекторы обнаружения объектов, результаты экспериментов показали, что предложенный метод обнаружения защитных масок значительно превосходит другие методы по показателю многокатегориального обнаружения объектов (mean Average Precision, mAP), но уступает по скорости. Так, при размере входного изображения 512×512 пикселей значение mAP составило 73,50%.
В работе [12] авторы используют два детектора обнаружения объектов – YOLOv3 и Faster R-CNN. Как известно [13], одноэтапные детекторы обнаружения объектов с одной нейросетью (например, YOLOv3) превосходят двухэтапные с двумя нейросетями (Faster R-CNN) по скорости, однако уступают по показателю mAP. Поэтому авторы предлагают улучшения для детекторов. Так, для YOLOv3 добавляются
53 слоя к имеющимся 53 слоям, что позволяет извлекать более важную информацию. В то время как при работе с детектором Faster R-CNN авторы упрощают нейросеть определения областей интереса (Regional Proposal Network), рассматривая только 256 областей из более чем 16 тыс. возможных, максимально исключая их перекрытие между собой. Результаты исследований показали, что YOLOv3 уступает Faster R-CNN по показателю mAP на 7% (55,00 % и 62,00 % соответственно), но значительно превосходит по скорости на 15,55 кадров в секунду (22,22 и 6,67 соответственно).
Методов обнаружения защитных масок для решения первой задачи на сегодняшний день мало. Это связано с недостатком обучающих данных, пригодных для исследований (т.е. изображений с наличием фоновой составляющей) и сложностью предварительной подготовки аннотированных данных, которые необходимо подстраивать под каждый детектор обнаружения объектов индивидуально. К тому же необходимо найти компромисс между двумя показателями (скорость и mAP). В случае применения разработанных методов, например, в контрольнопропускных пунктах, скорость обработки данных является второстепенной. Однако в многолюдных общественных местах скорость зачастую критически важна. В связи с описанными сложностями, большая часть исследований направлена на решение задачи по разработке надежных алгоритмов машинной классификации (вторая задача).
В работе [6] предлагается комбинация визуальных текстурных признаков, извлекаемых с помощью архитектуры нейросети ResNet-50, и подсчет распределения интенсивности пикселей на изображениях (далее метод RNHist). Данные признаки объединяются и нормализуются до подачи на полносвязную нейросеть для последующей классификации. RNHist продемонстрировал свою эффективность в результате кросс-корпусного анализа на двух тестовых корпусах MAsked FAces (MAFA) [14] и Real-World Masked Face Recognition Dataset (RMFRD) [15], аннотированных на два класса («лицо в маске» и «лицо без маски»). Достигнут прирост для значений средней невзвешенной полноты (Unweighted Average Recall, UAR) на 1 % и составил 98,12 % и 97,68 % соответственно. Однако система плохо справляется с изображениями лиц при ИЗМ (UAR = 45,48 %), когда лицо перекрывается другим объектом (смартфоном, книгой и т.д.).
Еще один комбинированный метод представлен в работе [7], который сочетает методы традиционного и глубокого машинного обучения. Так, ResNet-50 выступает в качестве извлечения текстурных признаков, а метод опорных векторов (Support Vector Machine, SVM) – в качестве классификатора. На проверочных выборках из корпусов RMFRD и Simulated Masked Face Dataset (SMFD) [16] авторы получили точность распознавания (Accuracy) 99,64% и 99,49% соответственно. На тестовом корпусе Labeled Faces in the Wild Simulated Masked Face Dataset (LFW-SMFD) [17] получена точность 100%, такой результат достигается из-за неестественно (синтетически) наложенных защитных масок на изображения лиц. В своей работе авторы не рассматривают, справляется ли метод с перекрытием лица другими объектами.
Система обнаружения защитных масок SSDMNV2 представлена в работе [18] и включает детектор обнаружения лиц Single Shot Multibox Detector (SSD) и архитектуру нейросети MobileNetv2 для извлечения признаков и классификации. Для исследования авторы собрали свой корпус, в котором аннотированы объекты двух классов – «лицо в маске» и «лицо без маски», и дополнительно применяют аффинные преобразования для генерации новых данных. Так, на проверочной выборке удалось достичь UAR=92,64%. С другими работами в этой области можно ознакомиться в обзоре [19].
При анализе методов, разработанных для решения двух задач, можно заметить, что основным показателем является точность (mAP или UAR). Так, при решении второй задачи реализуются более надежные методы обнаружения защитных масок, которые достигают значения UAR выше 90%, тогда как при решении первой задачи mAP не превышает 75 %. Это связано с тем, что показатель mAP учитывает верные случаи, если область лица найдена правильно и верно классифицирована, при ложной классификации или ложном нахождении лица значение показателя mAP падает.
Таким образом, на сегодняшний день активно разрабатываются методы обнаружения защитных масок. Однако только в одной работе [6] с помощью RNHist выполняется проверка эффективности метода на изображениях лиц при ИЗМ. Поэтому цель текущего исследования заключается в усовершенствовании метода RNHist за счет улучшения процесса генерации обучающих данных, а также в детальном рассмотрении проблемы ИЗМ и предложении метода для уменьшения ошибочно предсказанных классов.
2. Исследовательские данные
При реализации RNHist для обучения и проверки использовался корпус Medical Mask Extended Dataset (MMED). В текущей работе MMED увеличивается за счет изображений из других корпусов: MAFA (обучающая выборка) и Labeled Faces in the Wild (LFW) [20]. Далее объединенный корпус назовем MMED2.
При работе с корпусами MAFA и LFW потребовалось выполнить обнаружение всех областей лиц на изображениях с помощью детектора RetinaFace [21] и ручное аннотирование согласно правилам, предложенным в [6]. Результат нашего ручного аннотирования для корпуса MAFA можно найти в [22]. В табл. 1 представлено распределение изображений по классам в исследуемых корпусах. Где класс 0 – «лицо в маске», класс 1 – «лицо без маски», класс 2 – «некорректно надетая маска», класс 3 – «перекрытие другим объектом». В рамках текущей работы принято решение объединить в MMED2 классы «перекрытие другим объектом» и «лицо без маски». Как показали исследования [6, 10], это объединение необходимо сделать для того, чтобы алгоритм машинной классификации научился не допускать ложные пропуски (уменьшение ошибки II рода) при перекрытии лица иным предметом, отличным от защитной маски. Изображения, принадлежащие к классу «некорректно надетая маска», не использовались в текущей работе.
Табл. 1. Распределение изображений по классам
Корпус |
Класс 0 |
Класс 1 |
Класс 2 |
Класс 3 |
Обучающие корпусы |
||||
MMED |
6769 |
6769 |
– |
– |
MAFA |
1644 |
23889 |
715 |
3204 |
LFW |
15054 |
– |
– |
– |
MMED2 |
26660 |
30647 |
– |
– |
Тестовые корпусы |
||||
RMFRD |
90468 |
2203 |
– |
– |
MAFA |
447 |
3707 |
128 |
653 |
Как можно заметить из табл. 1, распределение изображений в классах не сбалансировано, эта проблема оказывает негативное влияние на эффективность алгоритмов машинной классификации [23]. В рамках текущего исследования для решения этой проблемы используется обратно-пропорциональное взвешивание классов по их частоте. Веса для классов устанавливаются согласно формуле (1):
w i
N nix 2 ’
где N – количество изображений в корпусе, n i – количество изображений, принадлежащих классу i , i – порядковый номер класса от 0 до 2– 1, 2 – количество классов («лицо в маске», «лицо без маски»).
Для оценивания алгоритма машинной классификации выбраны корпусы MAFA (тестовая выборка) и RMFRD, это необходимо для сравнения значений показателя UAR со значениями, полученными с помощью RNHist. В табл. 1 представлено распределение изображений по классам в тестовых корпусах.
3. Предлагаемый метод обнаружения защитных масок
В нашем методе (RNMask) обнаружения защитных масок используется предварительно обученная ResNet-50, которая продемонстрировала свою эффективность в предыдущем исследовании [6]. Настройка нейросети и классифицирующие слои также соответствуют настройкам, представленным в [6]. Однако, как сказано ранее, в текущем исследовании значительно расширяется объем MMED2, а также уменьшается количество обучающих эпох до 15. Затем к
MMED2 применяются два способа генерации данных: 1) Mixup [11] (далее метод RNMaskMixup); 2) Insert – случайная вставка другого изображения (далее метод RNMaskInsert), а также их комбинация (далее метод RNMaskMixup+Insert). На рис. 1 представлена схема предложенного метода обнаружения защитных масок (RNMaskMixup+Insert).

Рис. 1. Метод обнаружения защитных масок (RNMaskMixup+Insert)
Из рис. 1 можно заметить, что отдельным блоком выделена генерация обучающих данных, которая поделена на два этапа. Этап нормализации изображений и аффинных преобразований применяется во всех предложенных методах. Этап создания новых изображений используется в методах RNMaskMixup, RNMaskInsert, RNMaskMixup+Insert и отличается в зависимости от способа генерации данных (Mixup и /или Insert). Таким образом, в текущем исследовании предлагается включить дополнительный блок генерации обучающих данных в процессе обучения нейросетевой модели машинной классификации.
4. Экспериментальные исследования
Для проведения экспериментальных исследований MMED2 разделен на 5 равномерных частей с учетом непересекаемости изображений для выполнения перекрестной проверки (Cross-Validation, CV). CV дает более надежную оценку эффективности предлагаемых методов, так как тестирование производится на 5 неидентичных проверочных выборках. Также обязательным этапом в предлагаемых методах обнаружения защитных масок является генерация обучающих данных, которая подробно описана далее.
-
4.1. Генерация обучающих данных
Как можно заметить из рис. 1, процесс генерации обучающих данных состоит из двух этапов: 1) нормализация изображений и аффинные преобразования; 2) создание новых изображений.
Для нормализации изображений выполняются следующие действия: 1) канальная нормализация, соответствующая ResNet-50; 2) приведение изображений к единому разрешению 224 ×224 пикселей. Данная нормализация выполняется для изображений из обучающих, проверочных и тестовых выборок исследовательских корпусов. Также в процессе обучения нейросети применяются случайные аффинные преобразования.
Этап создания новых изображений с помощью способов генерации данных Mixup и/или Insert отсутствует в методе RNMask, кроме того, размер партии равен 64 изображениям. Для методов RNMaskMixup, RNMaskInsert размер партии составляет 32 изображения, при этом партия делится на две равные части и выполняется попарное слияния изображений из двух частей. Степень слияния изображений регулируется весовым коэффициентом. Сначала создается новое изображение с большим /меньшим весом изображения из первой части, затем с тем же весом изображения из второй части и так далее. На выходе получается 32 изображения, к которым применены только нормализация и аффинные преобразования, и столько же новых скрещенных изображений после генерации данных Mixup или Insert. Метод RNMaskMixup+Insert схож с методами RNMaskMixup и RNMaskInsert, однако сначала создается новое изображение с помощью способа генерации данных Mixup, затем с помощью Insert. Помимо самих изображений, также изменяются бинарные вектора (One-Hot Vectors) в соответствии с [11]. На рис. 2 представлен пример создания новых изображений, где W 1 – вес первого изображения (в %), W 2 – вес второго (в %).

Рис. 2. Пример создания изображений предложенным методом RNMaskMixup+Insert
Как можно заметить из рис. 2, на каждую пару изображений создаются два новых изображения. Кроме того, на каждой эпохе в одну партию попадают разные изображения, к которым применяются случайные аффинные преобразования, поэтому новые сгенерированные изображения отличны от предыдущих, что позволяет значительно увеличить вариативность изображений.
Для способов генерации данных (Mixup и Insert) устанавливаются следующие ограничения. В Mixup устанавливается случайный весовой коэффициент в интервале [0,3; 0,7]. Так, при коэффициенте 0,3 вес первого изображения составит 30%, второго – 70%, подробнее о способе можно ознакомиться в [11]. В
Insert подбираются четыре параметра: ширина, высота, смещение по ширине и высоте вставляемого изображения. Первые два параметра подбираются в интервале значений [80; 150] с шагом 10 пикселей, вторые два – в интервале [0; 140] с тем же шагом. Замена пикселей в первом изображении выполняется с места смещения второго (встраиваемого) изображения. Доля площади вставляемого изображения от размера нормализованного изображения является весовым коэффициентом для изменения бинарного вектора, изменения аналогичны Mixup [11]. Такие параметры позволяют выполнять существенные преобразования в исходных изображениях.
4.2. Результаты экспериментов
5. Проблема имитации защитных масок
В табл. 2 представлены результаты экспериментов, полученные нейросетевой моделью. Для оценки эффективности методов используется показатель UAR. Для тестовой выборки корпуса MAFA значения UAR представлены отдельно для классов 2 и 3 и совокупно для классов 0 и 1. При подсчете значений показателя UAR изображения для классов 2 и 3 учитываются как класс «лицо без маски», т.е. класс 0. Для 5 проверочных выборок при CV представляются усредненные значения показателя UAR и стандартные отклонения (STD). Для проверки эффективности предложенных методов на тестовых корпусах производилось обучение нейросетевой модели на всем обучающем наборе (т.е. без разделения на обучающую и проверочную выборки). Кроме того, в табл. 2 представлены значения разности (∆) между результатами, достигнутыми с помощью RNHist, и результатами других методов, предложенных в текущем исследовании.
Из табл. 2 видно, что увеличение изображений в MMED2 за счет объединения нескольких корпусов (метод RNMask) дает прирост показателя UAR для корпуса RMFRD на 0,37% и MAFA (класс 3) на 29,41 %. Это связано с тем, что в MMED2 добавлены сложные изображения лиц при ИЗМ. В свою очередь, RNMaskMixup+Insert достигает лучшее значение показателя UAR при CV и имеет меньшее значение STD, что говорит о том, что предложенный метод показывает более стабильное значение показателя UAR вне зависимости от тестовых данных. Также можно заметить, что данный метод показывает лучшие значения UAR на других исследовательских корпусах (RMFRD, MAFA для классов 0, 1) в сравнении с
RNHist. А также для корпуса MAFA (класс 3), т.е. при ИМЗ достигается прирост значения UAR на 40,43 %, что также свидетельствует об эффективности предлагаемого метода RNMaskMixup+Insert. Стоит отметить, что при включении этапа создания новых изображений в процесс обучения нейросети время обучения одной эпохи в среднем увеличилось на 27%, такое увеличение можно считать незначительным с учетом того, что генерация обучающих данных выполняется «на лету».
Как упоминалось ранее, в предыдущем исследовании [6], предложен метод на основе комбинации визуальных текстурных признаков. В текущей работе этот метод также применен. В табл. 2 (см. MMED2 + RNHist) представлены полученные результаты. Можно заметить, что также достигается прирост значений UAR в сравнении с RNHist. Однако при попытке дополнить методы из табл. 2 (RNMaskMixup, RNMaskInsert и RNMaskMixup+Insert) подсчетом распределения интенсивности пикселей на изображениях нам не удалось улучшить значения UAR. Это связано с тем, что после канальной нормализации изображений и способов генерации данных Mixup и /или Insert распределение интенсивности пикселей на изображении значительно искажается, что не позволяет извлечь надежные информативные признаки.
Надежность методов обнаружения защитных масок на лицах людей значительно ухудшается при перекрытии лица другими предметами, отличными от защитной маски. Поэтому в данном параграфе анализируется работоспособность предложенных методов на случайных изображениях из тестовой выборки корпуса MAFA. Для анализа используются тепловые карты [24]. Построение тепловых карт дает возможность визуализировать то, что оценивает нейросеть, когда делает предсказание в сторону определенного класса. Визуализация позволяет увидеть, какие области лица (области интереса) на изображении нейросеть считает важными для конкретного класса. На рис. 3 представлен результат наложения тепловых карт на изображения, где горячий красный цвет показывает наиболее важные области интереса на изображении, а холодный синий – менее информативные области. В том числе отображены вероятностные прогнозы (в %), где P 0 , P 1 – вероятностные прогнозы для классов 0 и 1.
Табл. 2. Результаты экспериментов с различными методами генерации обучающих данных (UAR, %)
Метод |
CV (STD) |
RMFRD (∆) |
MAFA (классы 0 и 1) (∆) |
MAFA (класс 2) (∆) |
MAFA (класс 3) (∆) |
RNHist |
– |
97,68 |
98,12 |
37,50 |
45,48 |
RNMask |
98,23 (±0,09) |
98,05 (+ 0,37) |
98,00 (– 0,12) |
33,59(–3,91) |
74,89(+29,41) |
RNMaskMixup |
98,35 ( ± 0,18) |
98,07 (+ 0,39) |
97,35 (– 0,77) |
47,66 (– 10,16) |
82,08(+36,60) |
RNMaskInsert |
98,41 ( ± 0,13) |
98,29 (+ 0,61) |
97,70 (– 0,42) |
20,31 (– 17,31) |
75,96(+30,48) |
RNMaskMixup+Insert |
98,42 ( ± 0,10) |
98,51 (+ 0,83) |
98,50 (+ 0,38) |
42,31 (+4,81) |
85,91 (+40,43) |
MMED2 + RNHist |
– |
98,12 (+ 0,44) |
98,16 (+ 0,04) |
43,75(+6,25) |
70,90(+25,42) |

Рис. 3. Результат наложения тепловых карт на изображения и вероятностные прогнозы
Из рис. 3 можно заметить, что в первых двух рядах все предложенные методы из табл. 2 верно распознали классы, представленные на изображениях. Так, все методы акцентируют внимание на область носа, если на изображении представлено «лицо без маски». Когда на лице присутствует маска, то методы RNMask и RNMaskMixup делают акцент на границе между областью без маски и с маской, в то время как два других метода (RNMaskInsert и RNMaskMixup+Insert) на область глаз. В случае с изображениями, принадлежащими к классам 2 и 3, предполагалось, что методы отнесут изображения к классу «лицо без маски». Однако можно заметить, что метод RNMask показывает низкую вероятность принадлежности к классу «лицо без маски», а также областями интереса являются скуловая и подглазная области. Тогда как по другим методам можно заметить, что они извлекают больше полезной информации, учитывая также нижнюю часть лица и даже волосы. Причина акцента на волосах скрывается в том, что в MMED2 имеются изображения, где лицо перекрыто волосами. Так, нейросеть обучилась на том, что обилие волос на изображении в области лица свидетельствует о ИЗМ. Следовательно, при сложных изображениях можно утверждать, что при открытой нижней области лица и присутствии волос на лице использование методов RNMaskInsert и RNMaskMixup+Insert с большой долей вероятности позволит верно отнести изображения к классу «лицо без маски».
Также стоит упомянуть, что в 2021 году зафиксирован случай ИЗМ, при котором на лице человека была нарисована защитная маска. Поэтому для исследований этой проблемы нами собраны из Интернета 53 изображения с нарисованными защитными масками на лицах людей (назовем собранный корпус Painted Face Masks Dataset (PFMD). На рис. 4 продемонстрированы примеры из PFMD.
Далее на изображениях из корпуса PFMD протестированы 4 предложенных метода (из табл. 2). Так, с учетом того, что исследуемые изображения относятся к классу «лицо без маски», максимальное значение UAR = 24,53 % достигается с помощью метода RNMaskMixup+Insert, что является достаточно низким результатом в сравнении с полученным значением 85,91 % для корпуса MAFA (класс 3). Поэтому для повышения эффективности предложенных методов в текущей работе предлагается установить пороговое значение для вероятностных прогнозов. Прогнозная метка класса устанавливается согласно:
y j =
yj, если argmax(Pj),
1 - TV < Pj0 < TV;
иначе ,
где y ˆ j – прогнозная метка класса для j изображения, j – порядковый номер изображения от 0 до N – 1, N – количество изображений в корпусе, y j – верная метка класса (0/1) для j изображения, TV – пороговое значение, P j 0 – вероятностный прогноз для класса 0 изображения j , argmax() – функция, возвращающая ин-декс/метку класса (0/1) с максимальным вероятностным прогнозом, P j – вектор вероятностных прогнозов для j изображения.

Рис. 4. Примеры изображений из корпуса PFMD
Очевидно, что при бинарной классификации пороговое значение TV должно быть установлено в интервале 0,5< TV < 1. Для рассмотрения всех «неуверенных решений» нейросети с использованием только вероятности класса 0, необходимо установить нижнюю границу для выполнения первого условия (2) в виде 1 – TV . В случае применения предложенных методов (из табл. 2), например, в контрольнопропускных пунктах, изображения, относящиеся к «неуверенным решениям», необходимо просмотреть вручную проверяющему персоналу (например, оператору). Таким образом, предлагается автоматизированный способ для повышения эффективности предложенных методов за счет анализа изображений, относящихся к «неуверенным решениям» нейросети.
Для исследования использованы корпусы RMFRD, PFMD и изображения из тестовой выборки корпуса MAFA (класс 3). В табл. 3 представлены результаты экспериментов, TV – пороговое значение, НР – количество «неуверенных решений» нейросети (шт.), ДО – количество допущенных ошибок (шт.), N – количество изображений в корпусе, О I / О II – количество ошибок I/II рода (шт.), где О I – ошибочное отнесение изображений к классу «лицо без маски» (ложные срабатывания), О II – ошибочное отнесение изображений к классу «лицо в маске» (ложные пропуски).
Табл. 3. Подбор пороговых значений для предсказаний по изображениям из корпусов RMFRD, PFMD и MAFA (класс 3)
TV |
Метод |
НР |
ДО |
О I |
О II |
НР \ |
О II |
НР |
О II |
Корпус |
RMFRD ( N =92671) |
MAFA (класс 3) ( N = 653) |
PFMD ( N =53) |
||||||
- |
RNMask |
- |
238 |
82 |
156 |
- |
164 |
- |
44 |
0,9 |
626 |
99 |
51 |
48 |
253 |
68 |
14 |
34 |
|
0,8 |
354 |
131 |
60 |
71 |
175 |
94 |
5 |
42 |
|
- |
RNMaskMixup |
- |
279 |
80 |
199 |
- |
117 |
- |
46 |
0,9 |
2469 |
82 |
41 |
41 |
236 |
35 |
29 |
20 |
|
0,8 |
837 |
119 |
49 |
70 |
166 |
53 |
17 |
31 |
|
- |
RNMaskInsert |
- |
245 |
71 |
174 |
- |
157 |
- |
52 |
0,9 |
1103 |
70 |
38 |
32 |
390 |
39 |
18 |
35 |
|
0,8 |
595 |
100 |
43 |
57 |
278 |
70 |
10 |
43 |
|
RNMaskMixup+Insert |
- |
648 |
51 |
597 |
- |
92 |
- |
40 |
|
0,9 |
8325 |
129 |
27 |
102 |
237 |
19 |
36 |
14 |
|
0,8 |
3437 |
241 |
34 |
207 |
149 |
36 |
27 |
22 |
Из рис. 3 можно заметить, что при установке TV больше 0,98 (98%) в НР попадут случаи, которые можно отнести к погрешности нейросети. Поэтому для сравнения эффективности предложенных методов TV устанавливается на 0,9 и 0,8, такие значения TV вносят существенные различия в ДО.
Результаты из табл. 3 демонстрируют, что чем выше TV, тем меньше допускается ошибок, однако необходимо просмотреть больше спорных изображений, на что может потребоваться время, поэтому высокое значение TV может быть установлено, например, в системах контрольно-пропускных пунктов. Также можно сказать, что показатель ошибок II рода более значим, чем I рода, поскольку чем меньше «лиц без маски» пропускает система, тем она надежней. Так, для корпуса RMFRD метод RNMaskInsert оказался более надежным, а О 2 уменьшилось с 174 до 32 ошибок. Для корпусов MAFA (класс 3) и PFMD меньшие значения О 2 достигаются с помощью метода RNMaskMixup+Insert. Следовательно, можно утверждать, что данный метод лучше остальных справляется с проблемой ИЗМ. Таким образом, в данном параграфе предложен способ для уменьшения ошибок I и II рода как для простых изображений лиц с явным наличием/отсутствием защитных масок, так и с ИЗМ.
Заключение
В работе рассмотрены и исследованы современные методы обнаружения защитных масок на лицах людей. Предложены методы генерации обучающих данных, в основе которых лежат способы Mixup и /или Insert. Результаты экспериментов показали, что с помощью одного из предложенных методов генерации данных RNMaskMixup+Insert получены значения UAR 98,51 % и 98,50 %, для тестовых корпусов RMFRD и MAFA (классы 0 и 1), что показывает абсолютный прирост 0,83 % и 0,38 % в сравнении с ранее предложенным нами методом RNHist. Однако исследование изображений лиц с имитацией защитных масок (корпусы MAFA (классы 3) и PFMD) показало значения UAR 85,91 % и 24,53 % соответственно, что значительно меньше по сравнению с изображениями лиц с явным наличием /отсутствием защитных масок (корпусы MAFA (классы 0 и 1) и RMFRD). В связи с этим предлагается автоматизированный способ для уменьшения количества ошибок I и II рода. Так, для корпусов MAFA (классы 3) и PFMD количество ошибок II рода уменьшилось с 92 до 19 и с 40 до 14 соответственно, что говорит об эффективности предложенного автоматизированного способа.
Так как в текущей работе предложены методы генерации обучающих данных для задачи обнаружения защитных масок на лицах людей при заранее локализованных областях лиц, то в последующих исследованиях планируется разработать метод обнаружения защитных масок на лицах людей, который будет решать сразу две задачи, а именно: обнаруживать область лица на изображении с предоставлением ограничительных рамок; классифицировать обнаруженную область лица как «лицо без маски» либо «лицо в маске». В качестве обучающих данных планируется использование корпусов MMED, MAFA, LFW и Biometric Russian Audio-Visual Extended MASKS (BRAVE-MASKS) [25], а тестовых – MAFA и BRAVE-MASKS.
Работа выполнена при поддержке проекта фонда РФФИ № 20-04-60529-вирусы, а также частично в рамках бюджетной темы № 0073-2019-0005.
Список литературы Метод генерации обучающих данных для компьютерной системы обнаружения защитных масок на лицах людей
- Cheng VC, Wong SC, Chuang VW, So SY, Chen JH, Sri-dhar S, To KK, Chan JF, Hung IF, Ho PL, Yuen KY. The role of community-wide wearing of face mask for control of coronavirus disease 2019 (COVID-19) epidemic due to SARS-CoV-2. J Infect 2020; 81(1): 107-114. DOI: 10.1016/j.jinf.2020.04.024.
- Wang J, Pan L, Tang S, Ji JS, Shi X. Mask use during COVID-19: A risk adjusted strategy. Environ Pollut 2020; 266(1): 115099. DOI: 10.1016/j.envpol.2020.115099.
- Howard MC. The relations between age, face mask perceptions and face mask wearing. J Public Health (Oxf) 2021: fdab018. DOI: 10.1093/pubmed/fdab018.
- Markitantov M, Dresvyanskiy D, Mamontov D, Kaya H, Minker W, Karpov A. Ensembling end-to-end deep models for computational paralinguistics tasks: ComParE 2020 mask and breathing sub-challenges. Proc Interspeech 2020: 2072-2076. DOI: 10.21437/Interspeech.2020-2666.
- Montacie C, Caraty M. Phonetic, frame clustering and intelligibility analyses for the INTERSPEECH 2020 ComParE challeng. Proc Interspeech 2020: 2062-2066. DOI: 10.21437/Interspeech.2020-2243.
- Ryumina E, Ryumin D, Ivanko D, Karpov A. A novel method for protective face mask detection using convolu-tional neural networks and image histograms. Int Archives of the Photogrammetry Remote Sensing and Spatial Information Sciences 2021; XLIV-2/W1-2021: 177-182. DOI: 10.5194/isprs-archives-XLIV-2-W1-2021-177-2021.
- Loey M, Manogaran G, Taha MHN, Khalifa NEM. A hybrid deep transfer learning model with machine learning methods for face mask detection in the era of the COVID-19 pandemic. Measurement 2021; 167: 108288. DOI: 10.1016/j.measurement.2020.108288.
- Deshpande G, Schuller BW. Audio, speech, language, & signal processing for COVID-19: A comprehensive overview. arXiv Preprint 2020. Source: https://arxiv. org/abs/2011.14445.
- Efremtsev VG, Efremtsev NG, Teterin EP, Teterin PE, Ba-zavluk ES. Chest X-ray image classification for viral pneumonia and Covid-19 using neural networks. Computer Optics 2021; 45(1): 149-153. DOI: 10.18287/2412-6179-CO-765.
- Jiang X, Gao T, Zhu Z, Zhao Y. Real-time face mask detection method based on YOLOv3. Electronics 2021; 10(7): 837. DOI: 10.3390/electronics10070837.
- Zhang H, Cisse M, Dauphin Y, Lopez-Paz D. Mixup: Beyond empirical risk minimization. Proc. International Conference on Learning Representations (ICLR) 2018; 1-13.
- Singh S, Ahuja U, Kumar M, Kumar K, Sachdeva M. Face mask detection using YOLOv3 and faster R-CNN models: COVID-19 environment. Multimed Tools Appl 2021; 80(13): 19753-19768. DOI: 10.1007/s11042-021-10711-8.
- Vizilter YV, Gorbatsevich VS, Moiseenko AS. Single-shot face and landmarks detector. Computer Optics 2020; 44(4): 589-595. DOI: 10.18287/2412-6179-CO-674.
- Ge S, Li J, Ye Q, Luo Z. Detecting masked faces in the wild with LLE-CNNs. Proc IEEE Conf on Computer Vision and Pattern Recognition 2017: 2682-2690. DOI: 10.1109/CVPR.2017.53.
- Wang Z, Wang G, Huang B, Xiong Z, Hong Q, Wu H, Yi P, Jiang K, Wang N, Pei Y, Chen H, Miao Y, Huang Z, Liang J. Masked face recognition dataset and application. arXiv Preprint 2020. Source: https://arxiv.org/abs/2003.09093).
- The simulated masked face dataset. Source: https://github.com/prajnasb/observations/).
- The labeled faces in the wild simulated masked face dataset. Source: https://www.kaggle.com/muhammeddalkran/lfw-simulated-masked-face-dataset/).
- Nagrath P, Jain R, Madan A, Arora R, Kataria P, Hemanth J. SSDMNV2: A real time DNN-based face mask detection system using single shot multibox detector and Mo-bileNetV2. Sustain Cities Soc 2021; 66: 102692. DOI: 10.1016/j.scs.2020.102692.
- Dvoynikova AA, Markitantov MV, Ryumina EV, Ryumin DA, Karpov AA. Analytical review of audiovisual systems for determining personal protective equipment on a person's face [In Russian]. Informatics and Automation 2021; 20(5): 1116-1152. DOI: 10.15622/ia.2021.20.5.
- Learned-Miller E, Huang GB, RoyChowdhury A, Li H, Hua G. Labeled faces in the wild: A survey. In Book: Kawulok M, Celebi E, Smolka B, eds. Advances in face detection and facial image analysis. New York: Springer; 2016: 189-248. DOI: 10.1007/978-3-319-25958-1_8.
- Deng J, Guo J, Ververas E, Kotsia I, Zafeiriou S. Ret-inaFace: Single-shot multi-level face localisation in the wild. Proc IEEE Conf on Computer Vision and Pattern Recognition (CVPR) 2020: 5203-5212. DOI: 10.1109/CVPR42600.2020.00525.
- The annotation for MAsked FAce. Source: https://github.com/ElenaRyumina/AnnotationMAFA/).
- Ryumina EV, Karpov AA. Comparative analysis of methods for imbalance elimination of emotion classes in video data of facial expressions [In Russian]. Scientific and Technical Journal of Information Technologies, Mechanics and Optics 2020; 20(5:129): 683-691. DOI: 10.17586/2226-1494-2020-20-5-683-691.
- Selvaraju RR, Cogswell M, Das A, Vedantam R, Parikh D, Batra D. Grad-CAM: Visual explanations from deep networks via gradient-based localization. IEEE Int Conf on Computer Vision 2017: 618-626. DOI: 10.1109/ICCV.2017.74.
- Markitantov MV, Ryumin DA, Ryumina EV, Karpov AA. Corpus of audiovisual Russian-language data of people in protective masks (BRAVE-MASKS - Biometric Russian Audio-Visual Extended MASKS corpus) [In Russian]. Database state registration certificate N2021621094 of May 26, 2021.