Сравнительный анализ качества распознавания текста в структурированных финансовых документах с использованием TesseractOCR и PaddleOCR
Автор: Н. И. Шаталина, Р. В. Тимошенко, В. В. Денисенко
Журнал: Современные инновации, системы и технологии.
Рубрика: Управление, вычислительная техника и информатика
Статья в выпуске: 5 (4), 2025 года.
Бесплатный доступ
В эпоху цифровой трансформации задача автоматического извлечения информации из сканированных документов остается критически важной. В данном исследовании проводится сравнительный анализ двух ведущих open-source OCR-решений – TesseractOCR и PaddleOCR – для распознавания текста на двух типах структурированных финансовых документов: договорах купли-продажи и справках по форме 2-НДФЛ. Целью данной работы является определение наиболее эффективного инструмента извлечения текста для каждого типа документа на основе объективных метрик качества распознавания: коэффициент ошибок в словах и частота ошибок символов. Данные для исследования подготавливались синтетически, максимально приближенные к реальным условиям. Рассматривались различные углы сканирования, артефакты сжатия и неидеальное качество печати. По результатам исследования можно сказать, что PaddleOCR, основанный на современных нейросетевых архитектурах, показывает статистически значимое превосходство в обработке сложных макетов и табличных данных справки 2-НДФЛ, в то время как TesseractOCR остается надежным выбором для сплошных текстов договоров при условии высокого качества изображения. Полученные данные позволяют сформулировать рекомендации по выбору OCR-движка в зависимости от специфики решаемой задачи автоматизации документооборота.
OCR, оптическое распознавание символов, Tesseract, PaddlePaddle, PaddleOCR, качество распознавания, документооборот, 2-НДФЛ, договор купли-продажи, компьютерное зрение, машинное обучение.
Короткий адрес: https://sciup.org/14135225
IDR: 14135225 | DOI: 10.47813/2782-2818-2025-5-4-2001-2008