Применение методов машинного обучения в задачах распознавания печатных текстов 19 века
Автор: Алейников Марк Владимирович, Ершов Николай Михайлович
Журнал: Сетевое научное издание «Системный анализ в науке и образовании» @journal-sanse
Статья в выпуске: 1, 2021 года.
Бесплатный доступ
Работа посвящена изучению возможностей использования методов машинного обучения в задаче распознавания русских печатных документов 19 века. Приводятся результаты анализа существующих методов и средств для распознавания печатных текстов, в том числе проприетарных, на примере анализа некоторых русских документов 19 века. В работе предлагается подход к распознаванию текстов с использованием программного комплекса Tesseract, на основе которого разработаны две версии программной системы, работающей с оцифрованными изображениями текстовых документов. Приводятся результаты тестирования разработанной программной системы, показывающие перспективность предложенного подхода. Работа выполнена при финансовой поддержке РФФИ (грант № 20-07-01053 А).
Оптическое распознавание текста, рекуррентные нейронные сети
Короткий адрес: https://sciup.org/14122726
IDR: 14122726
Список литературы Применение методов машинного обучения в задачах распознавания печатных текстов 19 века
- Tesseract // GitHub. URL: https:// href='contents.asp?titleid=2662' title='Journal of Applied Ecology'>GitHub.com/tesseract-ocr/tesseract.
- Tensorflow // GitHub. URL: https:// href='contents.asp?titleid=2662' title='Journal of Applied Ecology'>GitHub.com/tensorflow/tensorflow.
- Olah C. Understanding LSTM Networks // colah's blog. 2015. URL: http://colah.github.io/posts/2015-08-Understanding-LSTMs/.
- Журнал Министерства народного просвещения / Тип. Императорской Академии Наук. СПб., 1834-1917. // Runivers.ru - Россия в подлиннике. URL: https://www.runivers.ru/lib/book7643/.
- ABBYY FineReader Online / ABBYY. URL: https://finereaderonline.com/ru-ru/Tasks/Create.
- Google Vision API. UR L: https://cloud.google.com/vision/.
- Free Online OCR Service. URL: https://www.onlineocr.net/ru/.
- OCR.space / a9t9 software GmbH. URL: https://ocr.space/.
- Tesseract User Manual. URL: https://tesseract-ocr.github.io/tessdoc/Home.html.
- Tesseract.js: Pure Javascript OCR for 100 Languages! URL: https://tesseract.projectnaptha.com.