Применение методов глубокого обучения в задачах сегментации текстовых изображений
Автор: Бурикова А.Г., Ершов Н.М.
Журнал: Сетевое научное издание «Системный анализ в науке и образовании» @journal-sanse
Рубрика: Моделирование и анализ данных
Статья в выпуске: 2, 2024 года.
Бесплатный доступ
Работа посвящена решению задачи сегментации текстовых изображений, целью которой является выделение на изображении документа текстовых блоков, соответствующих колонкам, заголовкам, колонтитулам и т.д. Проводится обзор существующих методов сегментации изображений, в том числе предназначенных и для поиска и выделения на изображениях текстовых блоков. Анализируются как классические методы, так и методы, основанные на использовании искусственных нейронных сетей. Для решения поставленной задачи предлагается подход на основе свёрточных нейронных сетей и модели U-Net. Описывается метод автоматической генерации обучающих примеров для обучения нейронной сети. Рассматривается процессы настройки модели, её обучения и тестирования. Приводятся результаты численного исследования обученных моделей на реальных данных.
Сегментация изображений, распознавание образов, глубокое обучение, свёрточные нейронные сети, модель u-net
Короткий адрес: https://sciup.org/14131164
IDR: 14131164 | УДК: 004.9,
Application of deep learning methods in the problems of text image segmentation
The paper is devoted to solving the problem of text image segmentation, the purpose of which is to select text blocks in the document image that correspond to columns, headers, footers etc. A review of existing image segmentation methods is carried out, including those intended for searching and selecting text blocks in images. Both classical methods and methods based on the use of artificial neural networks are analyzed. To solve given problem, an approach based on convolutional neural networks and the U-Net model is proposed. A method for automatically generating training examples for training a neural network is described. The processes of setting up a model, training and testing it are considered. The results of a numerical study of trained models on real data are presented.
Список литературы Применение методов глубокого обучения в задачах сегментации текстовых изображений
- Shapiro L. G. Computer Vision / L. G. Shapiro, G. C. Stockman. Prentice Hall, 2001.
- Ronneberger O., Fischer P., Brox T. U-Net: Convolutional Networks for Biomedical Image Segmenta-tion // Medical Image Computing and Computer-Assisted Intervention, MICCAI 2015. Vol. 935. P. 234–241. DOI: 10.1007/978-3-319-24574-4_28.
- Sezgin M., Sankur B. Survey over image thresholding techniques and quantitative performance evalua-tion // Journal of Electronic Imaging. 2004. Vol. 13 (1). P. 146-168. DOI: 10.1117/1.1631315.
- Comaniciu D., Meer P. Mean Shift: A Robust Approach Toward Feature Space Analysis // IEEE Trans-actions on Pattern Analysis and Machine Intelligence. 2002. Vol. 24, No. 5. P. 603–619. DOI: 10.1109/34.1000236.
- Shi Jianbo, Malik J. Normalized Cuts and Image Segmentation // IEEE Transactions on Pattern Analy-sis and Machine Intelligence. 2000. Vol. 22, No. 8. P. 888–905. DOI: 10.1109/34.868688
- Barghout L. Visual Taxometric approach Image Segmentation using Fuzzy-Spatial Taxon Cut Yields Contextually Relevant Regions // Communications in Computer and Information Science (CCIS). Springer-Verlag. 2014.
- Badrinarayanan V., Kendall A., Cipolla R. SegNet: A Deep Convolutional Encoder-Decoder Architec-ture for Image Segmentation // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2017. Vol. 39, No. 12. P. 2481-2495. DOI: 10.1109/TPAMI.2016.2644615.
- Vision AI: Image & Visual AI Tools | Google Cloud. URL: https://cloud.google.com/vision (дата обращения: 10.06.2024).
- docWizz | CCS. CCS Content Conversion Specialists Gmb, [2024]. URL: https://content-conversion.com/software/docwizz/ (дата обращения: 10.06.2024).
- Book Scan Processing Print Press Edition | АЛАНИС Софтвер. URL: https://alanissoftware.wordpress.com/bsp-ppe-book-scan-processing-print-press-edition/ (дата обраще-ния: 10.06.2024).
- The Newspaper Navigator Dataset: Extracting And Analyzing Visual Content from 16 Million Historic Newspaper Pages in Chronicling America / B. Lee, J. Mears, E. Jakeway [et al.] // arXive.org e-Print ar-chive. DOI: 10.48550/arXiv.2005.01583.
- U-NET for brain MRI | PyTorch. The Linux Foundation, [2024]. URL: https://pytorch.org/hub/mateuszbuda_brain-segmentation-pytorch_unet/ (дата обращения: 10.06.2024).
- GitHub - AnnaBurikova / TextBlocksDetection. GitHub, Inc., 2024. URL: https://github.com/AnnaBurikova/TextBlocksDetection (дата обращения: 10.06.2024).