Инструмент нормализации данных нормативно-справочной информации с использованием большой языковой модели
Автор: Розанова А.В., Предеин Н.С., Ивлиев Т.А., Толстов А.Т., Саиф М.А.Х.
Статья в выпуске: 1 (70) т.22, 2026 года.
Бесплатный доступ
Целью исследования является реализация инструмента автоматического обнаружения и дальнейшей нормализации дублирующейся нормативно-справочной информации в учётных системах. Для решения задачи применяется двухуровневая архитектура, которая включает алгоритм «HNSW» для поиска k ближайших соседей, выполняющий первичный отбор кандидатов, и открытую большую языковую модель «Qwen3» для семантического анализа и выработки рекомендаций по нормализации. Разработанная концепция позволит значительно увеличить качество данных, хранимых в ERP/CRM-системах, автоматизировав при этом до 80% ручных операций и сократив операционные расходы. Проведённое исследование вносит существенный вклад в область интеллектуальной обработки данных, предлагая точечное решение одной из наиболее острых проблем цифровой трансформации.
Цифровая трансформация производственных процессов, интеллектуальный подход к автоматизации, нормативно-справочная информация, нормализация информации, семантический анализ, машинное обучение, большие языковые модели, HNSW
Короткий адрес: https://sciup.org/14135055
IDR: 14135055 | УДК: 004.67
A tool for normalizing regulatory information data using a large language model
The purpose of the study is to implement a tool for automatic detection and further normalization of duplicate regulatory and reference information in accounting systems. To solve the problem, a two-level architecture is used, which includes the “HNSW” algorithm for searching for k nearest neighbors, which performs the initial selection of candidates, and the open large language model “Qwen3″ for semantic analysis and development of recommendations for normalization. The developed concept will significantly increase the quality of data stored in ERP/CRM systems, while automating up to 80% of manual operations and reducing operating costs. The research conducted makes a significant contribution to the field of intelligent data processing, offering a targeted solution to one of the most pressing problems of digital transformation.