Автоматизация структурной разметки исторических рукописей: интеграция методов машинного обучения и интерактивного редактирования

Бесплатный доступ

В работе представлена информационная система для автоматизации структурной разметки архивных рукописей. Решена проблема утраты визуального контекста документа путем привязки текстовой расшифровки к координатам на изображении. Реализована клиент-серверная веб-архитектура с возможностью локального развертывания. Интеграция нейросетевых моделей YOLOv9 и TrOCR позволила автоматизировать сегментацию строк и распознавание текста. Разработан алгоритм сохранения разметки при геометрических преобразованиях сканов. Система обеспечивает формирование качественных обучающих выборок и ускоряет работу архивистов.

Архивные документы, структурная разметка, машинное обучение, распознавание рукописного текста, цифровизация

Короткий адрес: https://sciup.org/14135740

IDR: 14135740   |   УДК: 004.932.2, 004.85, 004.4

Automation of structural markup of historical manuscripts: integration of machine learning methods and interactive editing

The paper presents an information system for automating the structural markup of archival manuscripts. The problem of the loss of a document's visual context is solved by linking the text transcription to image coordinates. A client-server web architecture with the capability for local deployment has been implemented. The integration of YOLOv9 and TrOCR neural network models enabled the automation of line segmentation and text recognition. An algorithm for preserving markup during geometric transformations of scans was developed. The system ensures the creation of high-quality training datasets and accelerates the work of archivists.