Разработка OCR-модели для распознавания текста на мансийском языке

Автор: А.В. Мельников, И.С. Веретенников, В.Ю. Полищук, М.А. Русанов, С.Н. Шергин

Журнал: Вестник Южно-Уральского государственного университета. Серия: Математическое моделирование и программирование @vestnik-susu-mmp

Рубрика: Программирование

Статья в выпуске: 2 т.19, 2026 года.

Бесплатный доступ

В статье рассматривается проблема разработки системы оптического распознавания символов (OCR) для мансийского языка - малоресурсного финно-угорского языка с уникальным набором диакритических знаков. Основная задача исследования заключается в адаптации существующих OCR-технологий к специфике мансийской письменности, характеризующейся ограниченным объемом оцифрованных текстов и наличием специфических графических символов. Для решения этой задачи был разработан комплексный подход, включающий генерацию обширного синтетического набора данных с учетом вариативности шрифтов и нормализации Unicode, дообучение модели Tesseract 5 методом трансферного обучения на базе предобученной русскоязычной модели, а также оценку качества распознавания с использованием метрик CER и WER. В результате была получена специализированная модель, демонстрирующая значение метрики CER на уровне 0,85%, что в двадцать раз превосходит результаты базовой модели (18,5%). Разработанная модель реализована в виде публичного веб-сервиса и размещена в открытом доступе, что обеспечивает возможность автоматизированной оцифровки печатных источников на мансийском языке и способствует сохранению культурного наследия коренных народов Севера.

Еще

Языковые модели, нейронные сети, оптическое распознавание символов, мансийский язык, набор данных

Короткий адрес: https://sciup.org/147254153

IDR: 147254153   |   УДК: 004.932.75’1+811.511.143   |   DOI: 10.14529/mmp260206

Developing an OCR Model for Recognizing Text in the Mansi Language

This article examines the development of an optical character recognition (OCR) system for the Mansi language, a resource-poor Finno-Ugric language with a unique set of diacritics. The primary objective of the study is to adapt existing OCR technologies to the specifics of the Mansi script, which is characterized by a limited volume of digitized texts and the presence of specific graphic symbols. To address this challenge, a comprehensive approach was developed, including generating an extensive synthetic dataset taking into account font variability and Unicode normalization, further training the Tesseract 5 model using transfer learning based on a pre-trained Russian-language model, and evaluating recognition quality using the CER and WER metrics. The resulting specialized model demonstrated a CER value of 0,85, which is twenty times higher than the baseline model (18,5%). The developed model is implemented as a public web service and is openly accessible, enabling the automated digitization of printed sources in the Mansi language and facilitating the preservation of the cultural heritage of the indigenous peoples of the North.

Еще