Метод анализа структуры зашумленных образов деловых документов

Бесплатный доступ

Рассматривается задача извлечения из образа делового документа элементов заполнения (полей) с помощью описаний опорных элементов. Деловые документы содержат статические и переменные элементы (заполнение). Статичными объектами модели являются линии разграфки и слова текста. Описываются наборы объектов, объединенные свойствами и отношениями. Текстовый дескриптор может содержать атрибуты, позволяющие отличать его от сходных дескрипторов. Мы предлагаем применять комбинированные дескрипторы, состоящие из отрезков линий и слов. Экспериментально показано, что извлечение наборов объектов повышает точность распознавания полей документа на 17%, а точность извлечения информации из образа документа - на 16%. В качестве оптического распознавания символов в эксперименте использовалась система SDK Smart Document Engine.

Еще

Зашумленный образ, распознавание документа, текстовая особая точка, дескриптор

Короткий адрес: https://sciup.org/147240332

IDR: 147240332   |   DOI: 10.14529/mmp220407

Статья научная