Научные статьи \ Математика. Естественные науки \ Математика \ Теория вероятностей и математическая статистика

Оценка релевантности тестирования и ранжирования моделей в зависимости от объема датасета

Автор: А.В. Чуйко, В.В. Арлазаров, С.А. Усилин

Журнал: Вестник Южно-Уральского государственного университета. Серия: Математическое моделирование и программирование @vestnik-susu-mmp

Рубрика: Программирование

Статья в выпуске: 2 т.18, 2025 года.

Бесплатный доступ

Методы машинного обучения все чаще используются в различных областях жизнедеятельности. Ежегодно множество научных коллективов разрабатывают новые распознающие модели, соревнуясь при этом в показателях качества на открытых датасетах. В некоторых задачах показатели точности давно превысили 99%, при этом лучшие в таблице ранжирования модели зачастую отличаются между собой на сотые доли процентов. Принимая в расчет объемы датасетов, резонным становится вопрос о релевантности оценки качества и достоверности ранжирования различных распознающих моделей. В работе описан метод расчета необходимого объема датасета для возможности корректной проверки гипотезы о точности модели, а также представлен анализ статистической значимости ранжирования по точности некоторых современных работ на датасетах MNIST, CIFAR-10 и CIFAR-100.

Еще

Объем датасета, распознавание объектов, статистическая значимость, оценка качества модели, оценка качества распознавания

Короткий адрес: https://sciup.org/147250688

IDR: 147250688 | УДК: 519.248 | DOI: 10.14529/mmp250209