Оптимизация стохастического градиентного бустинга с помощью out-of-sample оценок качества
Автор: Ибрагимов Б.Л., Гусев Г.Г.
Журнал: Труды Московского физико-технического института @trudy-mipt
Рубрика: Математика
Статья в выпуске: 3 (63) т.16, 2024 года.
Бесплатный доступ
Стохастический градиентный бустинг (SGB) - это мощный метод ансамблевого обучения, широко используемый в различных приложениях машинного обучения. Он использует регуляризацию, отбрасывая подмножество данных на каждой итерации, что помогает предотвратить переобучение. Однако эти данные вне выборки (OOS), которые обычно остаются неиспользованными во время обучения модели, представляют собой нераскрытую возможность для повышения стабильности процесса обучения. В данной работе мы предлагаем новый подход, который использует OOS данные не только для оценки качества построенных деревьев решений, но и для целенаправленной оптимизации гиперпараметров. Оценивая корреляцию между фактическими и предсказанными значениями градиентов на OOS данных, мы выводим метрики, которые эффективно приближают производительность деревьев на невидимых тестовых данных. Наши эмпирические исследования, проведенные на коллекции реальных наборов данных размером до 100,000 примеров, демонстрируют эффективность этого метода. Результаты показывают последовательное снижение уровня ошибок с улучшениями до 2% по logloss по сравнению со стандартными реализациями SGB. Эти выводы подчеркивают потенциал настройки гиперпараметров на основе OOS данных не только для повышения точности модели, но и для предоставления вычислительно-эффективного пути к регуляризации в рамках градиентного бустинга.
Стохастический градиентный бустинг, регуляризация, подвыборки, ансамбль, машинное обучение
Короткий адрес: https://sciup.org/142242984
IDR: 142242984
Список литературы Оптимизация стохастического градиентного бустинга с помощью out-of-sample оценок качества
- Friedman J.H. Greedy function approximation: a gradient boosting machine // Annals of statistics. 2001. P. 1189 1232.
- Roe B.P. [et al.}. Boosted decision trees as an alternative to artificial neural networks for particle identification // Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment. 2005. V. 543. N 2-3. P. 577-584. EDN: HGFLZF
- Caruana R., Niculescu-Mizil A. An empirical comparison of supervised learning algorithms // Proceedings of the 23rd international conference on Machine learning. 2006. P. 161-168.
- Mease D., Wyner A. Evidence Contrary to the Statistical View of Boosting // Journal of Machine Learning Research. 2008. V. 9. N 2.
- Friedman J.H. Stochastic gradient boosting // Computational statistics & data analysis. 2002. V. 38. N 4. P. 367-378.
- Ke G. [et al.}. Lightgbm: A highly efficient gradient boosting decision tree // Advances in neural information processing systems. 2017. V. 30.
- Breiman L. Out-of-bag estimation. 1996.
- Heckman J. J. Sample selection bias as a specification error // Econometrica: Journal of the econometric society. 1979. P. 153-161.
- Iosipoi L., Vakhrushev A. Sketchboost: Fast gradient boosted decision tree for multioutput problems // Advances in Neural Information Processing Systems. 2022. V. 35. P. 2542225435.
- Prokhorenkova L. [et al.}. CatBoost: unbiased boosting with categorical features // Advances in neural information processing systems. 2018. V. 31.