Сравнительный анализ качества распознавания текста в структурированных финансовых документах с использованием TesseractOCR и PaddleOCR

Автор: Н. И. Шаталина, Р. В. Тимошенко, В. В. Денисенко

Журнал: Современные инновации, системы и технологии.

Рубрика: Управление, вычислительная техника и информатика

Статья в выпуске: 5 (4), 2025 года.

Бесплатный доступ

В эпоху цифровой трансформации задача автоматического извлечения информации из сканированных документов остается критически важной. В данном исследовании проводится сравнительный анализ двух ведущих open-source OCR-решений – TesseractOCR и PaddleOCR – для распознавания текста на двух типах структурированных финансовых документов: договорах купли-продажи и справках по форме 2-НДФЛ. Целью данной работы является определение наиболее эффективного инструмента извлечения текста для каждого типа документа на основе объективных метрик качества распознавания: коэффициент ошибок в словах и частота ошибок символов. Данные для исследования подготавливались синтетически, максимально приближенные к реальным условиям. Рассматривались различные углы сканирования, артефакты сжатия и неидеальное качество печати. По результатам исследования можно сказать, что PaddleOCR, основанный на современных нейросетевых архитектурах, показывает статистически значимое превосходство в обработке сложных макетов и табличных данных справки 2-НДФЛ, в то время как TesseractOCR остается надежным выбором для сплошных текстов договоров при условии высокого качества изображения. Полученные данные позволяют сформулировать рекомендации по выбору OCR-движка в зависимости от специфики решаемой задачи автоматизации документооборота.

Еще

OCR, оптическое распознавание символов, Tesseract, PaddlePaddle, PaddleOCR, качество распознавания, документооборот, 2-НДФЛ, договор купли-продажи, компьютерное зрение, машинное обучение.

Короткий адрес: https://sciup.org/14135225

IDR: 14135225   |   DOI: 10.47813/2782-2818-2025-5-4-2001-2008