Метод анализа структуры зашумленных образов деловых документов
Автор: Славин Олег Анатольевич, Плискин Евгений Львович
Рубрика: Программирование
Статья в выпуске: 4 т.15, 2022 года.
Бесплатный доступ
Рассматривается задача извлечения из образа делового документа элементов заполнения (полей) с помощью описаний опорных элементов. Деловые документы содержат статические и переменные элементы (заполнение). Статичными объектами модели являются линии разграфки и слова текста. Описываются наборы объектов, объединенные свойствами и отношениями. Текстовый дескриптор может содержать атрибуты, позволяющие отличать его от сходных дескрипторов. Мы предлагаем применять комбинированные дескрипторы, состоящие из отрезков линий и слов. Экспериментально показано, что извлечение наборов объектов повышает точность распознавания полей документа на 17%, а точность извлечения информации из образа документа - на 16%. В качестве оптического распознавания символов в эксперименте использовалась система SDK Smart Document Engine.
Зашумленный образ, распознавание документа, текстовая особая точка, дескриптор
Короткий адрес: https://sciup.org/147240332
IDR: 147240332 | DOI: 10.14529/mmp220407