Исследование бинарной классификации в задаче поиска штриховых кодов с использованием слабо-размеченных данных

Бесплатный доступ

Поиск штриховых кодов на основе построения карты активации классов использует несколько нейросетевых моделей бинарной классификации. Кроме классической архитектуры нейросети с одним нейроном и сигмоидной функцией активации можно использовать два нейрона и функцию активации Softmax. В данной работе исследуется влияние этого фактора на качество поиска штрихкодов с использованием слаборазмеченных данных. Наилучшее качество поиска получается при использовании двух нейронов в полносвязном слое модели бинарной классификации: 0,725 precision, 0,674 recall, 0,698 F1, качество при использовании одного нейрона: 0,574 precision, 0,573 recall, 0,573 F1.

Еще

Сверточная нейронная сеть, штриховой код, штрих-код, бар-код, слабо-размеченные данные, глубокое обучение, детектирование, поиск объектов

Короткий адрес: https://sciup.org/142237746

IDR: 142237746

Текст научной статьи Исследование бинарной классификации в задаче поиска штриховых кодов с использованием слабо-размеченных данных

Методы поиска, штриховых кодов с использованием слабо-рамеченных данных недостаточно изучены. Последние исследования показали, что метод, основанный на. нескольких нейросетевых моделях, обладает достаточно высоким качеством. Каждая нейросетевая модель представляет собой бинарный классификатор. В классическом случае в полносвязном слое используется один нейрон и сигмоидная функция активации (Sigmoid) для получения вероятности:

.

—ж

У = J (ж) = , 1 + е

«Московский физико-технический институт (национальный исследовательский университет)», 2023

В нашем случае это вероятность того, что на изображении пристутствует штриховой код заданного класса.

Если обратить внимание на другие исследования, то везде используется классификация на несколько категорий объектов. Поэтому везде используется функция активации Softmax, для моделирования сетью вероятностного распределения, где N - количество классов, г - номер нейрона, ж - выход последнего слоя:

еЖі

Уі = / (ж)і = ----.

V ежз

3=1

В случае двух классов обычно используется функция Sigmoid, так как это частный случай функции Softmax с двумя классами. То есть достаточно обнулить веса, соответствующие второму классу. В результате модель будет содержать один выход, как при использовании функции Sigmoid. Для задачи классификации рекомендуется использовать функцию Sigmoid, так как весов в модели меньше и обработка изображения происходит быстрее.

Для задачи поиска с использованием слабо-размеченных данных количество нейронов в полносвязном слое влияет на построение карты активации классов. Поэтому в данной работе проводится исследование влияния функции активации на качество поиска штриховых кодов со слабо-размеченными данными.

2.    Методы поиска объектов с использованием слабо-размеченных данных

Bolei Zhou и Aditya Khosla в работе [1] представили подход для поиска объектов с использованием Globa lAverage Pooling слоя. Подход состоит в том, чтобы поместить этот слой (либо Global Max Pooling слой) непосредственно перед полносвязным слоем, выполняющим классификацию. Нейросеть обучается как классификатор на метках изображений.

Авторы рассматривают задачу с большим числом классов - это общий случай. По изображению нужно построить карту активации. Для определенного класса карта получается линейной комбинацией карт признаков с соответствующими классу весами в полносвязном слое. На этой карте будут подсвечены наиболее отличительные части объекта. Отдельно случай двух классов в работе не рассматривается.

Другое множество работ [2], [3], [4] основывается на работе [1]. В исследованиях метод поиска изменен, но по-прежнему используется карта активации классов. Авторы рассматривают нейросетевую модель классификаций на несколько категорий. Можно заметить, что в работах обычно используется множественная классификация и эксперименты с несколькими моделями бинарной классификации не проводились.

Если рассматривать задачу поиска штрихкодов, то в работе [5] представлен метод поиска с использованием слабо-размеченных данных. Подход основан на методе построения карты активации классов с помощью нейросетевой модели многоклассовой классификации либо с помощью нескольких нейросетевых моделей двухклассовой классификации. В последнем случае каждая модель содержала два нейрона в полносвязном слое и функцию активации Softmax, но не было проведено исследований с одним нейроном и функцией активации Sigmoid.

3.    Поиск штриховых кодов

В текущем исследовании будет рассмотрен подход из работы [5], и будут проведены исследования с полученными бинарными классификаторами. В полносвязном слое два нейрона с функцией активации Softmax будут заменены на один нейрон с функцией Sigmoid. При расчете карты активации определенного класса будет использоваться единственный набор параметров, соответствующий единственному нейрону. Веев остальной процесс от создания карты активации до получения регионов объектов остается прежним.

Таким образом при замене двух нейронов на один в полносвязном слое мы получаем метод поиска штриховых кодов с использованием нескольких нейросетевых моделей бинарной классификации.

4.    Эксперименты4.1.    Схема обучения

Эксперименты проводились на наборе данных ZVZ [6]. Данные разделены на две части: искусственные изображения - 30 000 примеров и реальные изображения - 971 пример. В этом наборе данных присутствуют следующие типы штрихкодов: ID (EAN8, Codel28, EAN13, Code39, Interleaved25, UPCA, UCC-128, 2-digit supplement, IATA25), Postcodes (AustralianPost, IntelligentMail, JapanPost, RoyalMail, Kix, Postnet), Aztec, DataMatrix, MaxiCode, PDF417, QRCode.

Процесс обучения (и его параметры) совпадает с процессом, описанным в работе [5].

При обучении на реальных изображениях из данных ZVZ использовалась модель, пре-добученная на синтетических изображениях ZVZ, так как реальных данных небольшое количество и качество поиска без предобучения получается низким. При этом настройка предобученной модели на реальных данных осуществлялась с низким темпом обучения 0,0001 на протяжении 50 эпох. Множество для тестирования состоит из 102 примеров, множество для обучения состоит из 869 примеров.

Обозначим подход, использующий модели с двумя нейронами и функцией активации Softmax в полносвязном слое, как WSBD2, и обозначим подход, использующий модель с одним нейроном и функцией активации Sigmoid, как WSBD1.

4.2. Результаты

Результаты поиска штрихкодов на искусственной части данных ZVZ приведены в табл. 1.

Таблица!

Результаты на искусственной части данных ZVZ

Подход

Precision

Recall

Fl

WSBD1

0.574

0.573

0.573

WSBD2

0.725

0.674

0.698

Результаты поиска штрихкодов на реальной части данных ZVZ приведены в табл. 2.

Т а б л и ц а 2

Результаты на реальной части данных ZVZ

Подход

Precision

Recall

Fl

WSBD1

0.468

0.326

0.384

WSBD2

0.451

0.378

0.411

Использование двух нейронов в полносвязном слое увеличивает качество поиска штриховых кодов. При этом время прямого прохода нейросети практически не отличается, а количество параметров от использования двух нейронов увеличивается незначительно.

5.    Заключение

В работе представлены результаты исследования влияния количества нейронов в полносвязном слое сети классификации на качество поиска штриховых кодов. Для задачи поиска объектов со слабо-размеченными данными используется подход, который основывается на нескольких нейросетевых моделях бинарной классификации. Модели с двумя нейронами и функцией активации Softmax в полносвязном слое повышают качество поиска штриховых кодов, при этом время обработки и количество параметров увеличиваются незначительно.

В данной работе не проводилась дополнительная настройка гиперпараметров подхода, которые участвуют в дополнительной обработке результата. Поэтому полученные результаты могут быть улучшены. Также стоит изучить влияние количества нейронов полносвязного слоя в нейросети классификации на качество поиска каждого типа штрихкода. Возможно, наилучший результат будет достигаться при использовании разного количества нейронов для разных типов объектов.

Список литературы Исследование бинарной классификации в задаче поиска штриховых кодов с использованием слабо-размеченных данных

  • Zhou B., Khosla A., Lapedriza A., Oliva A., Torralba A. Learning deep features for discriminative localization // Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. P. 2921-2929.
  • Yao Q., Gong X. Saliency guided self-attention network for weakly and semi-supervised semantic segmentation // IEEE Access. 2020. V. 8. P. 14413-14423.
  • Zhang X. Self-produced guidance for weakly-supervised object localization // Proceedings of the European conference on computer vision (ECCV). 2018. P. 597-613.
  • Choe J, Shim H. Attention-based dropout layer for weakly supervised object localization // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019. P. 2219-2228.
  • Звонарев Д.А. Поиск штриховых кодов на изображениях с использованием слабо размеченных данных // Труды МФТИ. 2022. Т. 14, № 3. С. 46-56.
  • Zharkov A., Vavilin A., Zagaynov I. New Benchmarks for Barcode Detection Using Both Synthetic and Real Data // International Workshop on Document Analysis Systems. 2020. P. 481-493.
Статья научная