Распознавание цифровых последовательностей с использованием свёрточных нейронных сетей
Автор: Винокуров И.В.
Журнал: Программные системы: теория и приложения @programmnye-sistemy
Рубрика: Искусственный интеллект и машинное обучение
Статья в выпуске: 3 (58) т.14, 2023 года.
Бесплатный доступ
В статье показана актуальность задачи преобразования в текстовой формат элементов изображений, содержащих последовательности машинописных цифр. На примере распознавания табличной информации из отсканированных документов ППК «Роскадастр» предложено возможное решение этой задачи с использованием свёрточных нейронных сетей (CNN). Описаны принципы формирования наборов данных и моделей CNN для распознавания последовательностей из двух, трёх и четырёх цифр. Приведены результаты экспериментального исследования этих моделей и показана их эффективность. Описана интеграция моделей CNN в разрабатываемую в настоящее время информационную систему (ИС), предназначенную для автоматизированного перевода отсканированных документов в их текстовые аналоги.
Распознавание цифр, свёрточные нейронные сети, cnn, keras, python
Короткий адрес: https://sciup.org/143180582
IDR: 143180582 | УДК: 004.932.75'1+004.89 | DOI: 10.25209/2079-3316-2023-14-3-3-36
Recognition of digital sequences using convolutional neural networks
The relevance of identifying tabular information and recognizing its contents for processing scanned documents is shown. The formation of a data set for training, validation and testing of a deep learning neural network (DNN) YOLOv5s for the detection of simple tables is described. The effectiveness of using this DNN when working with scanned documents is shown. Using the Keras Functional API, a convolutional neural network (CNN) was formed to recognize the main elements of tabular information - numbers, basic punctuation marks and Cyrillic letters. The results of a study of the work of this CNN are given. The implementation of the identification and recognition of tabular information on scanned documents in the developed IS updating information in databases for the Unified State Register of Real Estate system is described.
Список литературы Распознавание цифровых последовательностей с использованием свёрточных нейронных сетей
- Винокуров И. В. Распознавание табличной информации с использованием свёрточных нейронных сетей // Программные системы: теория и приложения.– 2023.– Т. 14.– №1(56).– С. 3–30. https://doi.org/10.2520[9Р/И20Н7Ц9-]3316-2023-14-1hU-tR3t-pL3s0://psta.psiras.ru/read/psta2023_1_3-30.pdf
- Винокуров И. В. Использование свёрточной нейронной сети для распознавания элементов текста на отсканированных изображениях плохого качества // Программные системы: теория и приложения.– 2022.– Т. 13.– №3(54).– С. 29–43. https://doi.org/110.252[0Р9И/2Н0Ц79]-3316-2022-13hU-3tRt-2pL9:/-4/3psta.psiras.ru/read/psta2022_3_29-43.pdf
- Мюллер А., Гвидо С. Введение в машинное обучение с помощью Python. Руководство для специалистов по обработке данных.– СПб.: Изд-во «ООО Альфа-книга».– 2017.– ISBN 978-5-907515-03-1.– 480 с.
- M. Diem, S. Fiel, F. Kleber, R. Sablatnig, J. M. Saavedra, D. Contreras, J. M. Barrios, L. S. Oliveira ICFHR 2014 competition on handwritten digit string recognition in challenging datasets (HDSRC 2014) // 2014 14th International Conference on Frontiers in Handwriting Recognition (Hersonissos, Greece, 01–04 September 2014).– Pp. 779–784. https://doi.org/10.1109/ICFHR.2014.136
- N. Otsu A threshold selection method from gray-level histograms // IEEE Trans. Syst. Man Cybern.– vol. 9.– 1979.– Pp. 62–66. https://doi.org/10.1109/TSMC.1979.4310076
- J. C. B. Rabelo, C. Zanchettin, C. A. B. Mello and B. L. D. Bezerra A multi-layer perceptron approach to threshold documents with complex background, 2011 IEEE International Conference on Systems, Man, and Cybernetics (Anchorage, AK, USA, 09–12 October 2011).– Pp. 2523–2530. https://doi.org/10.1109/ICSMC.2011.6084056
- J. Sauvola, M. Pietik¨ainen Adaptive document image binarization // Pattern Recognition.– 2000.– Vol. 33.– No. 2.– Pp. 225–236. https://doi.org/10.1016/S0031-3203(99)00055-2
- C. Cortes, V. Vapnik Support-vector networks // Mach. Learn.– 1995.– Vol. 20.– No. 3.– Pp. 273–297. https://doi.org/10.1007/BF00994018
- T. Kohonen Self-organized formation of topologically correct feature maps // Biol. Cybern.– 1982.– Vol. 43.– No. 1.– Pp. 59–69. https://doi.org/10.1007/BF00337288
- N. Dalal, B. Triggs Histograms of oriented gradients for human detection // 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, CVPR’05 (San Diego, CA, USA, 20–25 June 2005).– ISBN 0-7695-2372-2.– Pp. 886–893. https://doi.org/10.1109/CVPR.2005.177
- J. J. Hopfield Neural networks and physical systems with emergent collective computational abilities // Proc. Nat. Acad. Sci. USA.– 1982.– Vol. 79.– No. 8.– Pp. 2554–2558. https://doi.org/10.1073/pnas.79.8.2554
- A. Graves Offline handwriting recognition with multidimensional recurrent neural networks // Guide to OCR for Arabic Scripts, eds. M¨argner V., El Abed H., London: Springer.– ISBN 978-1-4471-4072-6.– Pp. 297–313. https://doi.org/10.1007/978-1-4471-4072-6_12
- B. L. D. Bezerra, C. Zanchettin, V. B. de Andrade A MDRNN-SVM hybrid model for cursive offline handwriting recognition, Artificial Neural Networks and Machine Learning— ICANN 2012, Lecture Notes in Computer Science.– vol. 7553, Berlin: Springer.– 2012.– ISBN 978-3-642-33265-4.– Pp. 246–254. https://doi.org/10.1007/978-3-642-33266-1_31
- A. Gattal, Y. Chibani Segmentation strategy of handwritten connected digits (SSHCD), Image Analysis and Processing (ICIAP), Lecture Notes in Computer Science.– vol. 6979, Berlin–Heidelberg: Springer.– 2011.– ISBN 978-3-642-24087-4.– Pp. 248–254. https://doi.org/10.1007/978-3-642-24088-1_26
- M. Hejazi, G. Shevlyakov and Y.-S. Ho Modified discrete radon transforms and their application to rotation-invariant image analysis, 2006 IEEE Workshop on Multimedia Signal Processing, Lecture Notes in Computer Science.– vol. 6979, Berlin–Heidelberg: Springer.– 2006.– ISBN 978-3-642-24088-1.– Pp. 429–434. https://doi.org/10.1109/MMSP.2006.285345
- R. Saabni Recognizing handwritten single digits and digit strings using deep architecture of neural networks // 2016 Third International Conference on Artificial Intelligence and Pattern Recognition, AIPR (Lodz, Poland, 19–21 September 2016).– 2016.– Pp. 1–6. https://doi.org/10.1109/ICAIPR.2016.7585206
- K. He, X. Zhang, S. Ren, J. Sun Deep residual learning for image recognition // 2016 IEEE Conference on Computer Vision and Pattern Recognition, CVPR (Las Vegas, NV, USA, 27–30 June 2016).– Pp. 770–778. https://doi.org/10.1109/CVPR.2016.90
- H. Zhan, Q.Wang, Y. Lu Handwritten digit string recognition by combination of residual network and RNN-CTC, ICONIP 2017: Neural Information Processing, Lecture Notes in Computer Science.– vol. 10639, Cham: Springer.– 2017.– ISBN 978-3-319-70136-3.– Pp. 583–591. https://doi.org/10.1007/978-3-319-70136-3_62
- Q. Wang, Y. Lu A sequence labeling convolutional network and its application to handwritten string recognition // Twenty-Sixth International Joint Conference on Artificial Intelligence (Melbourne, Australia, 19–25 August 2017).– IJCAI.– 2017.– ISBN 978-0-9992411-0-3.– Pp. 2950–2956. https://doi.org/10.24963/ijcai.2017/411
- H. Zhan, S. Lyu, X. Tu, Y. Lu Residual CRNN and its application to handwritten digit string recognition, ICONIP 2019: Neural Information Processing, Communications in Computer and Information Science.– vol. 1143, Cham: Springer.– 2019.– ISBN 978-3-030-36802-9.– Pp. 49–56. https://doi.org/10.1007/978-3-030-36802-9_6
- Y. Ma, J. Guo, W. Wei An exceedingly fast model for low resolution handwritten digit string recognition // 2019 IEEE 7th International Conference on Computer Science and Network Technology, ICCSNT (Dalian, China, 9–20 October 2019).– Pp. 282–288. https://doi.org/10.1109/ICCSNT47585.2019.8962475
- A. G. Hochuli, A. S. Britto, J. P. Barddal, R. Sabourin, L. E. S. Oliveira An End-to-End approach for recognition of modern and historical handwritten numeral strings // 2020 International Joint Conference on Neural Networks, IJCNN (Glasgow, UK, 19–24 July 2020).– 2020.– Pp. 1–8. https://doi.org/10.1109/IJCNN48605.2020.9207468
- J. Redmon, S. Divvala, R. Girshick, A. Farhadi You only look once: Unified real-time object detection // 2016 IEEE Conference on Computer Vision and Pattern Recognition, CVPR (Las Vegas, NV, USA, 27–30 June 2016).– Pp. 779–788. https://doi.org/10.1109/CVPR.2016.91
- A. G. Hochuli, L. S. Oliveira, A. S. Britto, R. Sabourin Handwritten digit segmentation: Is it still necessary?Pattern Recognition.– 2018.– Vol. 78.– Pp. 1–11. https://doi.org/10.1016/j.patcog.2018.01.004
- J. Guo, Y. Xu Low resolution handwritten digit string recognition based on object detection network // 2020 International Joint Conference on Neural Networks, IJCNN (Glasgow, UK, 19–24 July 2020).– Pp. 1–7. https://doi.org/10.1109/IJCNN48605.2020.9206949
- J. Moolayil Learn Keras for Deep Neural Networks. A Fast-Track Approach to Modern Deep Learning with Python.– Berkeley: Apress.– 2019.– ISBN 978-1-4842-4240-7.– xv+182 pp. https://doi.org/10.1007/978-1-4842-4240-7
- S. Datta Learning OpenCV 3 Application Development.– Packt Publiching.– 2016.– ISBN 9781784391454.– 294 pp.