Комплексная модель обеспечения качества данных для обучения нейросетей в условиях нестабильных источников
Автор: Синица С. А.
Журнал: Международный журнал гуманитарных и естественных наук @intjournal
Рубрика: Технические науки
Статья в выпуске: 7-2 (106), 2025 года.
Бесплатный доступ
Статья посвящена разработке комплексной модели обеспечения качества данных, используемых для обучения нейросетевых моделей в условиях нестабильных источников. Актуальность обусловлена высоким уровнем дефектов в данных, поступающих из изменчивых, непостоянных и разнородных источников, что приводит к снижению точности и надёжности моделей. В работе обоснована необходимость системного контроля качества, предложена V-модель, адаптированная под этапы жизненного цикла данных в проектах машинного обучения. Исследование охватило типичные дефекты - шумы, пропуски, дрейф и несогласованность данных; особое внимание уделено разработке архитектуры контроля, подразумевающей фильтрацию, восстановление, валидацию и мониторинг качества на этапе эксплуатации; с целью верификации предложенной модели проведён эксперимент на симулированных данных, в котором продемонстрировано улучшение предсказательной точности после очистки и корректировки входных потоков; основная задача исследования состоит в выработке стандартизируемого подхода к обеспечению качества данных в ИИ-системах. Использованы источники по промышленной QA-практике, методам предобработки, онтологическому выравниванию и мониторингу дрейфа. В заключении описаны возможности применения модели в критически чувствительных отраслях и даны рекомендации для её внедрения. Статья будет полезна специалистам по машинному обучению, разработчикам ИИ-систем, инженерам данных и руководителям ИТ-проектов, связанных с интеграцией нестабильных потоков в обучающие контуры нейросетей.
Качество данных, нейросети, нестабильные источники, дрейф данных, предобработка, валидация, фильтрация выбросов, v-модель, мониторинг, машинное обучение
Короткий адрес: https://sciup.org/170210811
IDR: 170210811 | DOI: 10.24412/2500-1000-2025-7-2-262-266