Система искусственного интеллекта для классификации документов сложной структуры
Автор: Бутенко Екатерина Александровна, Задорожный Александр Михайлович, Любовинкина Наталья Яковлевна, Потемкина Снежана Владиславовна
Журнал: Сетевое научное издание «Системный анализ в науке и образовании» @journal-sanse
Статья в выпуске: 1, 2023 года.
Бесплатный доступ
В работе представлен метод восстановления логической связности текстов, полученных в после применения методов оптического распознавания текстов (OCR) для классификации отсканированных копий деловой документации. Метод включает два этапа. Вначале проводят предварительную сегментацию интересующих областей средствами сверточной нейронной сети (CNN) глубокого обучения с архитектурой yolo. Полученная в результате информация позволяет восстановить логическую связность текста документа. Затем тот же подход применяется для сопоставления названия атрибута и его значения для одного из распространенных видов их представления в виде 2-х колонок: колонки имен и колонки значений. Метод успешно решает задачи классификации документов и извлечения ключевых атрибутов в контексте системы электронного документооборота.
Система искусственного интеллекта, сегментация документа, сверточная нейронная сеть глубокого обучения, электронный документооборот
Короткий адрес: https://sciup.org/14127898
IDR: 14127898
Список литературы Система искусственного интеллекта для классификации документов сложной структуры
- Visual document understanding // John Snow Labs | NLP & AI in Heathcare / John Snow Labs Inc. - [Lewes], 2023. - URL: https://nlp.johnsnowlabs.com/docs/en/ocr_visual_document_understanding (дата обращения 02.02.2023).
- Yu M. YOLOv4 transfer learning for scanned document structure recognition// Medium: [сайт ]. - Дата публикации: 27.07.2020. - URL: https://mingzhi2.medium.com/yolov4-transfer-learning-for-scanned-document-structure-recognition-dc3fc8bfe426/.
- Segmentation of Scanned Documents Using Deep-Learning Approach / P. Forczmański, A. Smoliński, A. Nowosielski, K. Małecki // Advances in Intelligent Systems and Computing. - 2020. - Vol. 977. - Pp. 141-152. -.
- Deep learning for table detection and structure recognition: A survey / M. Kasem, A. Abdallah, A. Berendeyev, E. Elkady, [et al.]. // arXiv.org: [open archive]. - 2022. - arXiv:2211.08469 [cs.CV]. - URL: https:// href='contents.asp?titleid=21814' title='Physical Review B: Condensed Matter and Materials Physics'>arXiv.org/abs/2211.08469. - Submitted on 15 Nov 2022.
- Automated hierarchical classification of scanned documents using convolutional neural network and regular expression / R. Arief, A. B. Mutiara, T. M. Kusuma, H. Hustinawati // International Journal of Electrical and Computer Engineering. - 2022. - Vol. 12(1). - Pp. 1018-1029. -.
- yolov5: [project] / Ultralytics // GitHub: [web platform]. - GitHub, Inc., 2023. - URL: https://github.com/ultralytics/yolov5?ysclid=lg9f94vy90429921472 (дата обращения: 27.02.2022).