Оптимизационные задачи отбора информативных регрессоров в линейной регрессии с контролем её значимости по критерию Фишера

Бесплатный доступ

Статья посвящена проблеме отбора информативных регрессоров в моделях множественной линейной регрессии. При реализации такого отбора с помощью коэффициента детерминации, полученная в результате модель может быть незначимой по критерию Фишера. Для решения этой проблемы предложено две задачи частично-булевого линейного программирования, алгоритмы решения которых улучшены в десятки раз за последние 20 лет. Решение первой из них дает оптимальную модель с назначенным числом регрессоров, при решении второй оптимальное число регрессоров определяется автоматически. Проведены вычислительные эксперименты. Для второй задачи на примере показано, что с ужесточением требований на значимость модели по критерию Фишера число регрессоров при отборе снижается. Предложенный в статье приём, связанный с вводом дополнительных бинарных переменных, может быть использован в дальнейшем для контроля в моделях мультиколлинеарности и значимости оценок по t-критерию Стьюдента.

Еще

Регрессионный анализ, линейная регрессия, метод наименьших квадратов, отбор информативных регрессоров, задача частично-булевого линейного программирования, коэффициент детерминации, критерий фишера

Короткий адрес: https://sciup.org/148330409

IDR: 148330409   |   DOI: 10.37313/1990-5378-2024-26-6-200-207

Список литературы Оптимизационные задачи отбора информативных регрессоров в линейной регрессии с контролем её значимости по критерию Фишера

  • Montgomery, D.C. Introduction to linear regression analysis / D.C. Montgomery, E.A. Peck, G.G. Vining. – John Wiley & Sons, 2021.
  • Chatterjee, S. Regression analysis by example / S. Chatterjee, A.S. Hadi. – John Wiley & Sons, 2015.
  • Mahesh, B. Machine learning algorithms-a review / B. Mahesh // International Journal of Science and Research. – 2020. – Vol. 9. – No. 1. – P. 381–386.
  • Abid, N. A blessing or a burden? Assessing the impact of climate change mitigation efforts in Europe using quantile regression models / N. Abid, F. Ahmad, J. Aftab, A. Razzaq // Energy Policy. – 2023. – Vol. 178. – P.113589.
  • Pina-Sánchez, J. The impact of measurement error in regression models using police recorded crime rates / J. Pina-Sánchez, D. Buil-Gil, I. Brunton-Smith, A. Cernat // Journal of Quantitative Criminology. – 2023. – Vol. 39. – No. 4. – P. 975–1002.
  • Wang, S. Diabetes Risk Analysis Based on Machine Learning LASSO Regression Model / S. Wang, Y. Chen, Z. Cui, L. Lin, Y. Zong // Journal of Theory and Practice of Engineering Science. – 2024. – Vol. 4. – No. 1. – P. 58–64.
  • Miller, A. Subset selection in regression / A. Miller. – Chapman and hall/CRC, 2002.
  • Das, A. Algorithms for subset selection in linear regression / A. Das, D. Kempe // In􀁢 Proceedings of the fortieth annual ACM symposium on Theory of computing. – 2008. – P. 45–54.
  • Стрижов, В.В. Методы выбора регрессионных моделей // В.В. Стрижов, Е.А. Крымова. – М.: ВЦ РАН, 2010. – 60 с.
  • Koch, T. Progress in mathematical programming solvers from 2001 to 2020 / T. Koch, T. Berthold, J. Pedersen, C. Vanaret // 􀁢 EURO Journal on Computational Optimization. – 2022.􀁢– Vol. 10. – P. 100031.
  • Thompson, R. Robust subset selection / R. Thompson // Computational Statistics & Data Analysis. – 2022. – Vol. 169. – P. 107415.
  • Turner, M. Adaptive cut selection in mixed-integer linear programming / M. Turner, T. Koch, F. Serrano, M. Winkler // arXiv preprint arXiv:2202.10962. – 2022.
  • Носков, С.И. Технология моделирования объектов с нестабильным функционированием и неопределенностью в данных / С.И. Носков. – Иркутск: РИЦ ГП «Облинформпечать», 1996. – 321 с.
  • Konno, H. Choosing the best set of variables in regression analysis using integer programming / H. Konno, R. Yamamoto // Journal of Global Optimization. – 2009. – Vol. 44. – P. 273–282.
  • Bertsimas, D. Best subset selection via a modern optimization lens / D. Bertsimas, A. King, R. Mazumder // The Annals of Statistics. – 2016. – Vol. 44. – No. 2. – P. 813–852.
  • Park, Y.W. Subset selection for multiple linear regression via optimization / Y.W. Park, D. Klabjan // Journal of Global Optimization. – 2020. – Vol. 77. – No. 3. – P. 543–574.
  • Chung, S. A mathematical programming approach for integrated multiple linear regression subset selection and validation / S. Chung, Y.W. Park, T. Cheong // Pattern Recognition. – 2020.􀁢– Vol. 108. – P. 107565.
  • Базилевский, М.П. Сведение задачи отбора информативных регрессоров при оценивании линейной регрессионной модели по методу наименьших квадратов к задаче частично-булевого линейного программирования / М.П. Базилевский // Моделирование, оптимизация и информационные технологии. – 2018. – Т. 6. – № 1 (20). – С. 108–117.
  • Chicco, D. The coeffi cient of determination R-squared is more informative than SMAPE, MAE, MAPE, MSE and RMSE in regression analysis evaluation / D. Chicco, M.J. Warrens, G. Jurman // Peerj computer science. – 2021. –􀁢Vol. 7. – P. e623.
  • Piepho, H.P. An adjusted coeffi cient of determination (R2) for generalized linear mixed models in one go / H.P. Piepho // Biometrical Journal. – 2023. – Vol. 65. – No. 7. – P. 2200290.
  • Базилевский, М.П. Отбор информативных регрессоров с учетом мультиколлинеарности между ними в регрессионных моделях как задача частично-булевого линейного программирования / М.П. Базилевский // Моделирование, оптимизация и информационные технологии. – 2018. – Т. 6. – № 2 (21). – С. 104–118.
  • Базилевский, М.П. Отбор значимых по критерию Стьюдента информативных регрессоров в оцениваемых с помощью МНК регрессионных моделях как задача частично-булевого линейного программирования / М.П. Базилевский // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. – 2021. – № 3. – С. 5–16.
  • Базилевский, М.П. Контроль автокорреляции остатков с помощью коэффициента Фехнера в задаче математического программирования для отбора информативных регрессоров в линейной регрессии / М.П. Базилевский // System Analysis and Mathematical Modeling. – 2024. – Т. 6. – № 2. – С. 146–158.
  • Базилевский, М.П. Отбор оптимального числа информативных регрессоров по скорректированному коэффициенту детерминации в регрессионных моделях как задача частично целочисленного линейного программирования / М.П. Базилевский // Прикладная математика и вопросы управления. – 2020. – № 2. – С. 41–54.
  • Garcia-Queiruga, J. A cross-sectional study of nonmodifi able and modifi able risk factors of dry eye disease states / J. Garcia-Queiruga, H. Pena-Verdeal, B. Sabucedo-Villamarin, M.J. Giraldez, C. Garcia-Resua, E. Yebra-Pimentel // Contact Lens and Anterior Eye. – 2023. – Vol. 46. – No. 3. – P. 101800.
Еще
Статья научная