Детектирование книг на книжных полках при помощи глубоких нейронных сетей
Автор: Калинина Мария Олеговна, Николаев Павел Леонидович
Журнал: Компьютерная оптика @computer-optics
Рубрика: Численные методы и анализ данных
Статья в выпуске: 6 т.44, 2020 года.
Бесплатный доступ
Глубокие нейронные сети в настоящее время получили широкое распространение в различных сферах деятельности человека, в том числе тех, где требуется работа с большим объемом данных, а также операции по получению и обработке информации из окружающего мира. В данной статье рассмотрено создание сверточной нейронной сети на основе архитектуры YOLO по детектированию книг в режиме реального времени. Описаны процесс создания собственного набора данных и обучение на нем глубокой нейронной сети. Приведена структура полученной нейронной сети, и рассмотрены наиболее часто используемые метрики для оценки качества ее работы. Также сделан краткий обзор существующих видов архитектур нейронных сетей. Выбранная в качестве основы для нейросети архитектура обладает рядом преимуществ, позволяющих ей в значительной мере конкурировать с другими моделями нейросетей и делающих ее наиболее подходящим вариантом для создания сети, нацеленной на детектирование объектов, так как при ее разработке были значительно снивелированы некоторые часто встречающиеся недостатки подобных сетей (проблемы с распознаванием схожих по оформлению, имеющих одинаковый цвет обложек или расположенных под наклоном книг). Результаты, полученные в ходе обучения глубокой нейронной сети, позволяют использовать ее в качестве основы для дальнейшей разработки приложения, целью которого будет являться детектирование книг по книжным корешкам.
Распознавание изображений, детектирование объектов, компьютерное зрение, машинное обучение, искусственные нейронные сети, глубокое обучение, сверточные нейронные сети
Короткий адрес: https://sciup.org/140250073
IDR: 140250073 | DOI: 10.18287/2412-6179-CO-731
Список литературы Детектирование книг на книжных полках при помощи глубоких нейронных сетей
- Quoc, N. A framework for recognition books on bookshelves / N. Quoc, W. Choi // Proceedings of the ICIC 2009: Emerging Intelligent Computing Technology and Applications. - 2009. - P. 386-395. - DOI: 10.1007/978-3-642-04070-2_44
- Tsai, S.S. Combining image and text features: A hybrid approach to mobile book spine recognition / S.S. Tsai, D. Chen, H. Chen, C. Hsu, K. Kim, J.P. Singh, B. Girod // Proceedings of the 2011 ACM international conference on Multimedia. - 2011. - P. 1029-1032. - DOI: 10.1145/2072298.2071930
- Chen, D. Low-cost asset tracking using location-aware camera phones / D. Chena, S. Tsaia, K. Kimb, C. Hsub, J.P. Singhb, B. Giroda // Proceedings of SPIE. - 2010. - Vol. 7798. - 77980R. - DOI: 10.1117/12.862426
- Chen, D. Mobile augmented reality for books on a shelf / D. Chen, S. Tsai, C. Hsu, J.P. Singh, B. Girod // Proceedings of the 2011 IEEE International Conference on Multimedia and Expo. - 2011. - P. 1-6. - DOI: 10.1109/ICME.2011.6012171
- Lee, D.J. Matching book-spine images for library shelf-reading process automation / D.J. Lee, Y. Chang, J.K. Archibald, C. Pitzak // Proceedings of the 2008 IEEE International Conference on Automation Science and Engineering. - 2008. - P. 738-743. - DOI: 10.1109/COASE.2008.4626503
- Nevetha, M.P. Automatic book spine extraction and recognition for library inventory / M.P. Nevetha, A. Baskar // Management WCI '15: Proceedings of the Third International Symposium on Women in Computing and Informatics. - 2015. - P. 44-48. -
- DOI: 10.1145/2791405.2791506
- Jubair, M.I. A technique to detect books from library bookshelf image / M.I. Jubair, P. Banik // Proceedings of the 2013 IEEE 9th International Conference on Computational Cybernetics (ICCC). - 2013. - P. 359-363. -
- DOI: 10.1109/ICCCyb.2013.6617619
- Talker, L. Viewpoint-independent book spine segmentation / L. Talker, Y. Moses // Proceedings of the IEEE Winter Conference on Applications of Computer Vision. - 2014. - P. 453-460. -
- DOI: 10.1109/WACV.2014.6836066
- Yang, X. Smart library: Identifying books on library shelves using supervised deep learning for scene text reading / X. Yang, D. He, W. Huang, A. Ororbia, Z. Zhou, D. Kifer, C.L. Giles // Proceedings of the 2017 ACM/IEEE Joint Conference on Digital Libraries (JCDL). - 2017. - P. 1-4. -
- DOI: 10.1109/JCDL.2017.7991581
- Anegawa, R. Text detection on books using cnn trained with another domain data / R. Anegawa, M. Aritsugi // Proceedings of the 2019 IEEE International Conference on Dependable, Autonomic and Secure Computing 2019: - P. 170-176. -
- DOI: 10.1109/DASC/PiCom/CBDCom/CyberSciTech.2019.00041
- Gandhi, R. R-CNN, Fast R-CNN, Faster R-CNN, YOLO - object detection algorithms [Electronical Resource] / R. Gandhi // - 2018. - URL: https://towardsdatascience.com/r-cnn-fast-r-cnn-faster-r-cnn-yolo-object-detection-algorithms-36d53571365e (request date 11.02.2020).
- Karatzas, D. ICDAR 2015 competition on robust reading / D. Karatzas, L. Gomez-Bigorda, A. Nicolaou, S. Ghosh, A. Bagdanov, M. Iwamura, J. Matas, L. Neumann, V.R. Chandrasekhar, S. Lu, F. Shafait, S. Uchida, E. Valveny // Proceedings of the 2015 13th International Conference on Document Analysis and Recognition (ICDAR). - 2015. - P. 1156-1160.
- Redmon, J. You only look once: Unified, real-time object detection / J. Redmon, S. Divvala, R. Girshick, A. Farhadi // Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. - 2016. - P. 779-788. -
- DOI: 10.1109/CVPR.2016.91
- Redmon, J. Yolo9000: Better, faster, stronger / J. Redmon, A. Farhady // Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. - 2017. - P. 6517-6525.
- Redmon, J. YOLOv3: An incremental improvement [Electronical Resource] / J. Redmon, A. Farhady. - 2018. - URL: https://arxiv.org/pdf/1804.02767.pdf (request date 09.02.2020).
- Liu, W. SSD: Single shot multibox detector / W. Liu, D. Anuelov, D. Erhan, C. Szegedy, S. Reed, C. Fu, A. Berg. - In: Computer Vision - ECCV 2016 / ed. by B. Leibe, J. Matas, N. Sebe, M. Welling. - Cham: Springer, 2016. -
- DOI: 10.1007/978-3-319-46448-0_2
- Lin, T.Y. Focal loss for dense object detection [Electronical Resource] / T.Y. Lin, P. Goyal, R. Girshick, K. He, P. Dollár. - 2018. - URL: https://arxiv.org/pdf/1708.02002.pdf (request date 12.02.2020).
- DetectNet: Deep Neural Network для Object Detection в DIGITS [Электронный ресурс]. - URL: https://habr.com/ru/post/310332/ (дата обращения 05.02.2020).
- Ren, S. Faster R-CNN: Towards real-time object detection with region proposal networks [Electronical Resource] / S. Ren, K. He, R. Girshick, J. Sun // arXiv Preprint. - 2016. - URL: https://arxiv.org/pdf/1506.01497.pdf (request date 10.02.2020).
- He, K. Mask R-CNN [Electronical Resource] / K. He, G. Gkioxari, P. Dollár, R. Girshick // arXiv Preprint. - 2018. - URL: https://arxiv.org/pdf/1703.06870.pdf (request date 09.02.2020).
- Mask R-CNN: архитектура современной нейронной сети для сегментации объектов на изображениях [Электронный ресурс]. - 2018. - URL: https://habr.com/en/post/421299/ (дата обращения 11.02.2020).
- Liu, W. SSD: Single shot multibox detector [Electronical Resource] / W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, A.C. Berg. - ArXiv Preprint. - 2016. - URL: https://arxiv.org/pdf/1512.02325.pdf (request date 10.02.2020).
- Tsang, S. Review: SSD - single shot detector (object detection) [Electronical Resource] / S. Tsang. - 2018. - URL: https://towardsdatascience.com/review-ssd-single-shot-detector-object-detection-851a94607d11 (request date 14.02.2020).
- YOLO: Real-time object detection [Electronical Resource]. - URL: https://pjreddie.com/darknet/yolo/ (request date 09.02.2020).
- Sambasivarao, K. Non-maximum suppression (NMS) [Electronical Resource] / K. Sambasivarao. - 2019. - URL: https://towardsdatascience.com/non-maximum-suppression-nms-93ce178e177c (request date 12.02.2020).
- Bindal, A. Normalization techniques in deep neural networks [Electronical Resource] // A. Bindal. - 2019. - URL: https://medium.com/techspace-usict/normalization-techniques-in-deep-neural-networks-9121bf100d8 (request date 09.02.2020).
- Sharma, H. Activation functions: Sigmoid, ReLU, Leaky ReLU and Softmax basics for neural networks and deep learning [Electronical Resource] // H. Sharma. - 2019. - URL: https://medium.com/@himanshuxd/activation-functions-sigmoid-relu-leaky-relu-and-softmax-basics-for-neural-networks-and-deep-8d9c70eed91e (request date 08.02.2020).
- The PASCAL Visual Object Classes homepage [Electronical Resource]. - URL: http://host.robots.ox.ac.uk/pascal/VOC/ (request date 11.02.2020).
- Arlen, T.C. Understanding the mAP evaluation metric for object detection [Electronical Resource] / T.C. Arlen. - URL: https://medium.com/@timothycarlen/understanding-the-map-evaluation-metric-for-object-detection-a07fe6962cf3 (request date 14.02.2020).
- Saxen, S. Precision vs Recall [Electronical Resource] / S. Saxen. - 2018. - URL: https://towardsdatascience.com/precision-vs-recall-386cf9f89488 (request date 08.02.2020).
- Sandeep, A. Object detection - IOU - Intersection Over Union [Electronical Resource] / A. Sandeep. - 2019. - URL: https://medium.com/@nagsan16/object-detection-iou-intersection-over-union-73070cb11f6e (request date 09.02.2020).
- Bodla, N. Improving object detection with one line of code [Electronical Resource] / N. Bodla, B. Singh, R. Chellappa, L.S. Davis. - ArXiv Preprint. - 2017. - URL: https://arxiv.org/pdf/1704.04503.pdf (request date 08.02.2020).