The Impact of Dataset Size on the Reliability of Model Testing and Ranking

A.V. Chuiko, V.V. Arlazarov, S.A. Usilin; А.В. Чуйко, В.В. Арлазаров, С.А. Усилин

doi:10.14529/mmp250209

Научные статьи \ Математика. Естественные науки \ Математика \ Теория вероятностей и математическая статистика

The Impact of Dataset Size on the Reliability of Model Testing and Ranking

Автор: A.V. Chuiko, V.V. Arlazarov, S.A. Usilin

Журнал: Вестник Южно-Уральского государственного университета. Серия: Математическое моделирование и программирование @vestnik-susu-mmp

Рубрика: Программирование

Статья в выпуске: 2 т.18, 2025 года.

Бесплатный доступ

Machine learning is widely applied across diverse domains, with research teams continually developing new recognition models that compete on open datasets. In some tasks, accuracy surpasses 99% These minimal differences, combined with the varying size of the benchmark datasets, raise questions about the reliability of model evaluation and ranking. This paper introduces a method for determining the necessary dataset size to ensure robust hypothesis testing for model performance. It also examines the statistical significance of accuracy rankings in recent studies on MNIST, CIFAR-10, and CIFAR-100 datasets.

Dataset size, object recognition, statistical significance, model evaluation, recognition quality assessment

Короткий адрес: https://sciup.org/147250688

IDR: 147250688 | УДК: 519.248 | DOI: 10.14529/mmp250209

Оценка релевантности тестирования и ранжирования моделей в зависимости от объема датасета

Методы машинного обучения все чаще используются в различных областях жизнедеятельности. Ежегодно множество научных коллективов разрабатывают новые распознающие модели, соревнуясь при этом в показателях качества на открытых датасетах. В некоторых задачах показатели точности давно превысили 99%, при этом лучшие в таблице ранжирования модели зачастую отличаются между собой на сотые доли процентов. Принимая в расчет объемы датасетов, резонным становится вопрос о релевантности оценки качества и достоверности ранжирования различных распознающих моделей. В работе описан метод расчета необходимого объема датасета для возможности корректной проверки гипотезы о точности модели, а также представлен анализ статистической значимости ранжирования по точности некоторых современных работ на датасетах MNIST, CIFAR-10 и CIFAR-100.