The Impact of Dataset Size on the Reliability of Model Testing and Ranking
Author: A.V. Chuiko, V.V. Arlazarov, S.A. Usilin
Section: Программирование
Article in issue: 2 т.18, 2025.
Free access
Machine learning is widely applied across diverse domains, with research teams continually developing new recognition models that compete on open datasets. In some tasks, accuracy surpasses 99% These minimal differences, combined with the varying size of the benchmark datasets, raise questions about the reliability of model evaluation and ranking. This paper introduces a method for determining the necessary dataset size to ensure robust hypothesis testing for model performance. It also examines the statistical significance of accuracy rankings in recent studies on MNIST, CIFAR-10, and CIFAR-100 datasets.
Dataset size, object recognition, statistical significance, model evaluation, recognition quality assessment
Short address: https://sciup.org/147250688
IDR: 147250688 | UDC: 519.248 | DOI: 10.14529/mmp250209
Оценка релевантности тестирования и ранжирования моделей в зависимости от объема датасета
Методы машинного обучения все чаще используются в различных областях жизнедеятельности. Ежегодно множество научных коллективов разрабатывают новые распознающие модели, соревнуясь при этом в показателях качества на открытых датасетах. В некоторых задачах показатели точности давно превысили 99%, при этом лучшие в таблице ранжирования модели зачастую отличаются между собой на сотые доли процентов. Принимая в расчет объемы датасетов, резонным становится вопрос о релевантности оценки качества и достоверности ранжирования различных распознающих моделей. В работе описан метод расчета необходимого объема датасета для возможности корректной проверки гипотезы о точности модели, а также представлен анализ статистической значимости ранжирования по точности некоторых современных работ на датасетах MNIST, CIFAR-10 и CIFAR-100.