Оптимизационные задачи отбора информативных регрессоров в линейной регрессии с контролем её значимости по критерию Фишера
Автор: Базилевский М.П.
Журнал: Известия Самарского научного центра Российской академии наук @izvestiya-ssc
Рубрика: Информатика, вычислительная техника и управление
Статья в выпуске: 6 т.26, 2024 года.
Бесплатный доступ
Статья посвящена проблеме отбора информативных регрессоров в моделях множественной линейной регрессии. При реализации такого отбора с помощью коэффициента детерминации, полученная в результате модель может быть незначимой по критерию Фишера. Для решения этой проблемы предложено две задачи частично-булевого линейного программирования, алгоритмы решения которых улучшены в десятки раз за последние 20 лет. Решение первой из них дает оптимальную модель с назначенным числом регрессоров, при решении второй оптимальное число регрессоров определяется автоматически. Проведены вычислительные эксперименты. Для второй задачи на примере показано, что с ужесточением требований на значимость модели по критерию Фишера число регрессоров при отборе снижается. Предложенный в статье приём, связанный с вводом дополнительных бинарных переменных, может быть использован в дальнейшем для контроля в моделях мультиколлинеарности и значимости оценок по t-критерию Стьюдента.
Регрессионный анализ, линейная регрессия, метод наименьших квадратов, отбор информативных регрессоров, задача частично-булевого линейного программирования, коэффициент детерминации, критерий фишера
Короткий адрес: https://sciup.org/148330409
IDR: 148330409 | DOI: 10.37313/1990-5378-2024-26-6-200-207
Список литературы Оптимизационные задачи отбора информативных регрессоров в линейной регрессии с контролем её значимости по критерию Фишера
- Montgomery, D.C. Introduction to linear regression analysis / D.C. Montgomery, E.A. Peck, G.G. Vining. – John Wiley & Sons, 2021.
- Chatterjee, S. Regression analysis by example / S. Chatterjee, A.S. Hadi. – John Wiley & Sons, 2015.
- Mahesh, B. Machine learning algorithms-a review / B. Mahesh // International Journal of Science and Research. – 2020. – Vol. 9. – No. 1. – P. 381–386.
- Abid, N. A blessing or a burden? Assessing the impact of climate change mitigation efforts in Europe using quantile regression models / N. Abid, F. Ahmad, J. Aftab, A. Razzaq // Energy Policy. – 2023. – Vol. 178. – P.113589.
- Pina-Sánchez, J. The impact of measurement error in regression models using police recorded crime rates / J. Pina-Sánchez, D. Buil-Gil, I. Brunton-Smith, A. Cernat // Journal of Quantitative Criminology. – 2023. – Vol. 39. – No. 4. – P. 975–1002.
- Wang, S. Diabetes Risk Analysis Based on Machine Learning LASSO Regression Model / S. Wang, Y. Chen, Z. Cui, L. Lin, Y. Zong // Journal of Theory and Practice of Engineering Science. – 2024. – Vol. 4. – No. 1. – P. 58–64.
- Miller, A. Subset selection in regression / A. Miller. – Chapman and hall/CRC, 2002.
- Das, A. Algorithms for subset selection in linear regression / A. Das, D. Kempe // In Proceedings of the fortieth annual ACM symposium on Theory of computing. – 2008. – P. 45–54.
- Стрижов, В.В. Методы выбора регрессионных моделей // В.В. Стрижов, Е.А. Крымова. – М.: ВЦ РАН, 2010. – 60 с.
- Koch, T. Progress in mathematical programming solvers from 2001 to 2020 / T. Koch, T. Berthold, J. Pedersen, C. Vanaret // EURO Journal on Computational Optimization. – 2022.– Vol. 10. – P. 100031.
- Thompson, R. Robust subset selection / R. Thompson // Computational Statistics & Data Analysis. – 2022. – Vol. 169. – P. 107415.
- Turner, M. Adaptive cut selection in mixed-integer linear programming / M. Turner, T. Koch, F. Serrano, M. Winkler // arXiv preprint arXiv:2202.10962. – 2022.
- Носков, С.И. Технология моделирования объектов с нестабильным функционированием и неопределенностью в данных / С.И. Носков. – Иркутск: РИЦ ГП «Облинформпечать», 1996. – 321 с.
- Konno, H. Choosing the best set of variables in regression analysis using integer programming / H. Konno, R. Yamamoto // Journal of Global Optimization. – 2009. – Vol. 44. – P. 273–282.
- Bertsimas, D. Best subset selection via a modern optimization lens / D. Bertsimas, A. King, R. Mazumder // The Annals of Statistics. – 2016. – Vol. 44. – No. 2. – P. 813–852.
- Park, Y.W. Subset selection for multiple linear regression via optimization / Y.W. Park, D. Klabjan // Journal of Global Optimization. – 2020. – Vol. 77. – No. 3. – P. 543–574.
- Chung, S. A mathematical programming approach for integrated multiple linear regression subset selection and validation / S. Chung, Y.W. Park, T. Cheong // Pattern Recognition. – 2020.– Vol. 108. – P. 107565.
- Базилевский, М.П. Сведение задачи отбора информативных регрессоров при оценивании линейной регрессионной модели по методу наименьших квадратов к задаче частично-булевого линейного программирования / М.П. Базилевский // Моделирование, оптимизация и информационные технологии. – 2018. – Т. 6. – № 1 (20). – С. 108–117.
- Chicco, D. The coeffi cient of determination R-squared is more informative than SMAPE, MAE, MAPE, MSE and RMSE in regression analysis evaluation / D. Chicco, M.J. Warrens, G. Jurman // Peerj computer science. – 2021. –Vol. 7. – P. e623.
- Piepho, H.P. An adjusted coeffi cient of determination (R2) for generalized linear mixed models in one go / H.P. Piepho // Biometrical Journal. – 2023. – Vol. 65. – No. 7. – P. 2200290.
- Базилевский, М.П. Отбор информативных регрессоров с учетом мультиколлинеарности между ними в регрессионных моделях как задача частично-булевого линейного программирования / М.П. Базилевский // Моделирование, оптимизация и информационные технологии. – 2018. – Т. 6. – № 2 (21). – С. 104–118.
- Базилевский, М.П. Отбор значимых по критерию Стьюдента информативных регрессоров в оцениваемых с помощью МНК регрессионных моделях как задача частично-булевого линейного программирования / М.П. Базилевский // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. – 2021. – № 3. – С. 5–16.
- Базилевский, М.П. Контроль автокорреляции остатков с помощью коэффициента Фехнера в задаче математического программирования для отбора информативных регрессоров в линейной регрессии / М.П. Базилевский // System Analysis and Mathematical Modeling. – 2024. – Т. 6. – № 2. – С. 146–158.
- Базилевский, М.П. Отбор оптимального числа информативных регрессоров по скорректированному коэффициенту детерминации в регрессионных моделях как задача частично целочисленного линейного программирования / М.П. Базилевский // Прикладная математика и вопросы управления. – 2020. – № 2. – С. 41–54.
- Garcia-Queiruga, J. A cross-sectional study of nonmodifi able and modifi able risk factors of dry eye disease states / J. Garcia-Queiruga, H. Pena-Verdeal, B. Sabucedo-Villamarin, M.J. Giraldez, C. Garcia-Resua, E. Yebra-Pimentel // Contact Lens and Anterior Eye. – 2023. – Vol. 46. – No. 3. – P. 101800.