Система искусственного интеллекта для классификации документов сложной структуры

Автор: Бутенко Екатерина Александровна, Задорожный Александр Михайлович, Любовинкина Наталья Яковлевна, Потемкина Снежана Владиславовна

Журнал: Сетевое научное издание «Системный анализ в науке и образовании» @journal-sanse

Статья в выпуске: 1, 2023 года.

Бесплатный доступ

В работе представлен метод восстановления логической связности текстов, полученных в после применения методов оптического распознавания текстов (OCR) для классификации отсканированных копий деловой документации. Метод включает два этапа. Вначале проводят предварительную сегментацию интересующих областей средствами сверточной нейронной сети (CNN) глубокого обучения с архитектурой yolo. Полученная в результате информация позволяет восстановить логическую связность текста документа. Затем тот же подход применяется для сопоставления названия атрибута и его значения для одного из распространенных видов их представления в виде 2-х колонок: колонки имен и колонки значений. Метод успешно решает задачи классификации документов и извлечения ключевых атрибутов в контексте системы электронного документооборота.

Еще

Система искусственного интеллекта, сегментация документа, сверточная нейронная сеть глубокого обучения, электронный документооборот

Короткий адрес: https://sciup.org/14127898

IDR: 14127898

Список литературы Система искусственного интеллекта для классификации документов сложной структуры

  • Visual document understanding // John Snow Labs | NLP & AI in Heathcare / John Snow Labs Inc. - [Lewes], 2023. - URL: https://nlp.johnsnowlabs.com/docs/en/ocr_visual_document_understanding (дата обращения 02.02.2023).
  • Yu M. YOLOv4 transfer learning for scanned document structure recognition// Medium: [сайт ]. - Дата публикации: 27.07.2020. - URL: https://mingzhi2.medium.com/yolov4-transfer-learning-for-scanned-document-structure-recognition-dc3fc8bfe426/.
  • Segmentation of Scanned Documents Using Deep-Learning Approach / P. Forczmański, A. Smoliński, A. Nowosielski, K. Małecki // Advances in Intelligent Systems and Computing. - 2020. - Vol. 977. - Pp. 141-152. -.
  • Deep learning for table detection and structure recognition: A survey / M. Kasem, A. Abdallah, A. Berendeyev, E. Elkady, [et al.]. // arXiv.org: [open archive]. - 2022. - arXiv:2211.08469 [cs.CV]. - URL: https:// href='contents.asp?titleid=21814' title='Physical Review B: Condensed Matter and Materials Physics'>arXiv.org/abs/2211.08469. - Submitted on 15 Nov 2022.
  • Automated hierarchical classification of scanned documents using convolutional neural network and regular expression / R. Arief, A. B. Mutiara, T. M. Kusuma, H. Hustinawati // International Journal of Electrical and Computer Engineering. - 2022. - Vol. 12(1). - Pp. 1018-1029. -.
  • yolov5: [project] / Ultralytics // GitHub: [web platform]. - GitHub, Inc., 2023. - URL: https://github.com/ultralytics/yolov5?ysclid=lg9f94vy90429921472 (дата обращения: 27.02.2022).
Еще
Статья научная