Оптимизационные задачи отбора информативных регрессоров в линейной регрессии с контролем её значимости по критерию Фишера

Бесплатный доступ

Статья посвящена проблеме отбора информативных регрессоров в моделях множественной линейной регрессии. При реализации такого отбора с помощью коэффициента детерминации, полученная в результате модель может быть незначимой по критерию Фишера. Для решения этой проблемы предложено две задачи частично-булевого линейного программирования, алгоритмы решения которых улучшены в десятки раз за последние 20 лет. Решение первой из них дает оптимальную модель с назначенным числом регрессоров, при решении второй оптимальное число регрессоров определяется автоматически. Проведены вычислительные эксперименты. Для второй задачи на примере показано, что с ужесточением требований на значимость модели по критерию Фишера число регрессоров при отборе снижается. Предложенный в статье приём, связанный с вводом дополнительных бинарных переменных, может быть использован в дальнейшем для контроля в моделях мультиколлинеарности и значимости оценок по t-критерию Стьюдента.

Еще

Регрессионный анализ, линейная регрессия, метод наименьших квадратов, отбор информативных регрессоров, задача частично-булевого линейного программирования, коэффициент детерминации, критерий фишера

Короткий адрес: https://sciup.org/148330409

IDR: 148330409   |   УДК: 519.862.6   |   DOI: 10.37313/1990-5378-2024-26-6-200-207

Optimization problems of subset selection in linear regression with control of its significance using F-test

This article is devoted to the problem of subset selection in multiple linear regression models. When implementing such a selection using the determination coefficient, the resulting model may be insignificant according to the F-test. To solve this problem, two problems of mixed 0-1 integer linear programming are proposed, the solution algorithms for which have been improved dozens of times over the past 20 years. The solution to the first of them gives an optimal model with an assigned number of factors, while the optimal number of factors is determined automatically when solving the second one. Computational experiments were carried out. For the second problem, an example shows that with tightening the requirements for the significance of the model according to the F-test, the number of factors in the selection decreases. The technique proposed in the article, associated with the introduction of additional binary variables, can be used in the future to control multicollinearity in models and the significance of estimates according to the Student’s t-test.

Еще

Список литературы Оптимизационные задачи отбора информативных регрессоров в линейной регрессии с контролем её значимости по критерию Фишера

  • Montgomery, D.C. Introduction to linear regression analysis / D.C. Montgomery, E.A. Peck, G.G. Vining. – John Wiley & Sons, 2021.
  • Chatterjee, S. Regression analysis by example / S. Chatterjee, A.S. Hadi. – John Wiley & Sons, 2015.
  • Mahesh, B. Machine learning algorithms-a review / B. Mahesh // International Journal of Science and Research. – 2020. – Vol. 9. – No. 1. – P. 381–386.
  • Abid, N. A blessing or a burden? Assessing the impact of climate change mitigation efforts in Europe using quantile regression models / N. Abid, F. Ahmad, J. Aftab, A. Razzaq // Energy Policy. – 2023. – Vol. 178. – P.113589.
  • Pina-Sánchez, J. The impact of measurement error in regression models using police recorded crime rates / J. Pina-Sánchez, D. Buil-Gil, I. Brunton-Smith, A. Cernat // Journal of Quantitative Criminology. – 2023. – Vol. 39. – No. 4. – P. 975–1002.
  • Wang, S. Diabetes Risk Analysis Based on Machine Learning LASSO Regression Model / S. Wang, Y. Chen, Z. Cui, L. Lin, Y. Zong // Journal of Theory and Practice of Engineering Science. – 2024. – Vol. 4. – No. 1. – P. 58–64.
  • Miller, A. Subset selection in regression / A. Miller. – Chapman and hall/CRC, 2002.
  • Das, A. Algorithms for subset selection in linear regression / A. Das, D. Kempe // In􀁢 Proceedings of the fortieth annual ACM symposium on Theory of computing. – 2008. – P. 45–54.
  • Стрижов, В.В. Методы выбора регрессионных моделей // В.В. Стрижов, Е.А. Крымова. – М.: ВЦ РАН, 2010. – 60 с.
  • Koch, T. Progress in mathematical programming solvers from 2001 to 2020 / T. Koch, T. Berthold, J. Pedersen, C. Vanaret // 􀁢 EURO Journal on Computational Optimization. – 2022.􀁢– Vol. 10. – P. 100031.
  • Thompson, R. Robust subset selection / R. Thompson // Computational Statistics & Data Analysis. – 2022. – Vol. 169. – P. 107415.
  • Turner, M. Adaptive cut selection in mixed-integer linear programming / M. Turner, T. Koch, F. Serrano, M. Winkler // arXiv preprint arXiv:2202.10962. – 2022.
  • Носков, С.И. Технология моделирования объектов с нестабильным функционированием и неопределенностью в данных / С.И. Носков. – Иркутск: РИЦ ГП «Облинформпечать», 1996. – 321 с.
  • Konno, H. Choosing the best set of variables in regression analysis using integer programming / H. Konno, R. Yamamoto // Journal of Global Optimization. – 2009. – Vol. 44. – P. 273–282.
  • Bertsimas, D. Best subset selection via a modern optimization lens / D. Bertsimas, A. King, R. Mazumder // The Annals of Statistics. – 2016. – Vol. 44. – No. 2. – P. 813–852.
  • Park, Y.W. Subset selection for multiple linear regression via optimization / Y.W. Park, D. Klabjan // Journal of Global Optimization. – 2020. – Vol. 77. – No. 3. – P. 543–574.
  • Chung, S. A mathematical programming approach for integrated multiple linear regression subset selection and validation / S. Chung, Y.W. Park, T. Cheong // Pattern Recognition. – 2020.􀁢– Vol. 108. – P. 107565.
  • Базилевский, М.П. Сведение задачи отбора информативных регрессоров при оценивании линейной регрессионной модели по методу наименьших квадратов к задаче частично-булевого линейного программирования / М.П. Базилевский // Моделирование, оптимизация и информационные технологии. – 2018. – Т. 6. – № 1 (20). – С. 108–117.
  • Chicco, D. The coeffi cient of determination R-squared is more informative than SMAPE, MAE, MAPE, MSE and RMSE in regression analysis evaluation / D. Chicco, M.J. Warrens, G. Jurman // Peerj computer science. – 2021. –􀁢Vol. 7. – P. e623.
  • Piepho, H.P. An adjusted coeffi cient of determination (R2) for generalized linear mixed models in one go / H.P. Piepho // Biometrical Journal. – 2023. – Vol. 65. – No. 7. – P. 2200290.
  • Базилевский, М.П. Отбор информативных регрессоров с учетом мультиколлинеарности между ними в регрессионных моделях как задача частично-булевого линейного программирования / М.П. Базилевский // Моделирование, оптимизация и информационные технологии. – 2018. – Т. 6. – № 2 (21). – С. 104–118.
  • Базилевский, М.П. Отбор значимых по критерию Стьюдента информативных регрессоров в оцениваемых с помощью МНК регрессионных моделях как задача частично-булевого линейного программирования / М.П. Базилевский // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. – 2021. – № 3. – С. 5–16.
  • Базилевский, М.П. Контроль автокорреляции остатков с помощью коэффициента Фехнера в задаче математического программирования для отбора информативных регрессоров в линейной регрессии / М.П. Базилевский // System Analysis and Mathematical Modeling. – 2024. – Т. 6. – № 2. – С. 146–158.
  • Базилевский, М.П. Отбор оптимального числа информативных регрессоров по скорректированному коэффициенту детерминации в регрессионных моделях как задача частично целочисленного линейного программирования / М.П. Базилевский // Прикладная математика и вопросы управления. – 2020. – № 2. – С. 41–54.
  • Garcia-Queiruga, J. A cross-sectional study of nonmodifi able and modifi able risk factors of dry eye disease states / J. Garcia-Queiruga, H. Pena-Verdeal, B. Sabucedo-Villamarin, M.J. Giraldez, C. Garcia-Resua, E. Yebra-Pimentel // Contact Lens and Anterior Eye. – 2023. – Vol. 46. – No. 3. – P. 101800.
Еще