Применение методов машинного обучения в задачах распознавания печатных текстов 19 века

Автор: Алейников Марк Владимирович, Ершов Николай Михайлович

Журнал: Сетевое научное издание «Системный анализ в науке и образовании» @journal-sanse

Статья в выпуске: 1, 2021 года.

Бесплатный доступ

Работа посвящена изучению возможностей использования методов машинного обучения в задаче распознавания русских печатных документов 19 века. Приводятся результаты анализа существующих методов и средств для распознавания печатных текстов, в том числе проприетарных, на примере анализа некоторых русских документов 19 века. В работе предлагается подход к распознаванию текстов с использованием программного комплекса Tesseract, на основе которого разработаны две версии программной системы, работающей с оцифрованными изображениями текстовых документов. Приводятся результаты тестирования разработанной программной системы, показывающие перспективность предложенного подхода. Работа выполнена при финансовой поддержке РФФИ (грант № 20-07-01053 А).

Еще

Оптическое распознавание текста, рекуррентные нейронные сети

Короткий адрес: https://sciup.org/14122726

IDR: 14122726

Список литературы Применение методов машинного обучения в задачах распознавания печатных текстов 19 века

  • Tesseract // GitHub. URL: https:// href='contents.asp?titleid=2662' title='Journal of Applied Ecology'>GitHub.com/tesseract-ocr/tesseract.
  • Tensorflow // GitHub. URL: https:// href='contents.asp?titleid=2662' title='Journal of Applied Ecology'>GitHub.com/tensorflow/tensorflow.
  • Olah C. Understanding LSTM Networks // colah's blog. 2015. URL: http://colah.github.io/posts/2015-08-Understanding-LSTMs/.
  • Журнал Министерства народного просвещения / Тип. Императорской Академии Наук. СПб., 1834-1917. // Runivers.ru - Россия в подлиннике. URL: https://www.runivers.ru/lib/book7643/.
  • ABBYY FineReader Online / ABBYY. URL: https://finereaderonline.com/ru-ru/Tasks/Create.
  • Google Vision API. UR L: https://cloud.google.com/vision/.
  • Free Online OCR Service. URL: https://www.onlineocr.net/ru/.
  • OCR.space / a9t9 software GmbH. URL: https://ocr.space/.
  • Tesseract User Manual. URL: https://tesseract-ocr.github.io/tessdoc/Home.html.
  • Tesseract.js: Pure Javascript OCR for 100 Languages! URL: https://tesseract.projectnaptha.com.
Статья научная