Исследование возможности использования линейной регрессии для предсказания расхода памяти в высоконагруженной информационной системе

Бесплатный доступ

Рассматривается актуальная на данный момент проблема планирования задач в высоконагруженных информационных системах. Целью данной работы является проверка гипотезы о том, что загруженность высокопроизводительных информационных систем зависит от внешних параметров среды, в которой они функционируют. Для проверки была собрана и запущена система, на которой находятся корпоративный сайт компании, система мониторинга и приложение для социальной сети vk.com. В качестве внешних параметров были выбраны как природные явления, так и статистические данные посещения популярных сайтов, а также курсы валют и акций. На наш взгляд, эти параметры в той или иной степени могут оказывать влияние на загруженность информационной системы. Данные собирались на протяжении месяца работы системы каждые десять минут. При каждом сборе информации для каждого работающего процесса в системе запоминалось количество расходуемой им памяти. Для идентификации модели был выбран метод линейной регрессии как наиболее простой и часто используемый вариант проверки неявных зависимостей между данными. Все собранные параметры были отфильтрованы - проверены на наличие кросскорреляции и нормализованы. Используя построенную модель, мы предсказали значение расходуемой памяти процессами. Для каждого предсказанного значения было посчитано среднеквадратичное отклонение. Анализ результатов показал, что построенная модель имеет ряд проблем. В качестве рекомендаций по улучшению результатов указано использование другого метода построения модели, а также улучшение качества и количество собираемых данных. Дальнейшие планы включают в себя исследование возможности предсказания процессорного времени высоконагруженной информационной системы, используя внешние параметры.

Еще

Машинное обучение, линейная регрессия, процессы операционной системы, оперативная память

Короткий адрес: https://sciup.org/147232202

IDR: 147232202   |   DOI: 10.14529/ctcr180301

Список литературы Исследование возможности использования линейной регрессии для предсказания расхода памяти в высоконагруженной информационной системе

  • Окороков В.А. Операционные системы: курс лекций. Челябинск: Изд-во Челябинского гос. ун-та, 2011. 288 c.
  • Peter S., Jialin Li, Zhang I., Dan R. K. Ports, Woos D., Krishnamurthy A., Anderson T., Roscoe T. Arrakis: The Operating System Is the Control Plane // ACM Transactions on Computer Systems, 2015, vol. 33, no. 4, article 11.
  • Yang R., Ouyang X., Chen Y., Townend P., Xu J. Intelligent Resource Scheduling at Scale: a Machine Learning Perspective // IEEE International Symposium on Service Oriented System Engineering, 2018, pp. 132-141. DOI: 10.1109/SOSE.2018.00025
  • Zheng H., Yuan J., Chen L. Short-Term Load Forecasting Using EMD-LSTM Neural Networks with a Xgboost Algorithm for Feature Importance Evaluation // Energies, 2017, vol 10, no. 8. Available at: http://www.mdpi.com/1996-1073/10/8/1168/htm (accessed 1 August 2017). DOI: 10.3390/en10081168
  • Divina F., Gilson A., Goméz-Vela F., García Torres M., & Torres J.F. Stacking Ensemble Learning for Short-Term Electricity Consumption Forecasting // Energies, 2018, vol. 11, no. 4. Available at: http://www.mdpi.com/1996-1073/11/4/949/htm (accessed 9 April 2018). DOI: 10.3390/en11040949
  • Dahua Gan, Yi Wang, Ning Zhang, Wenjun Zhu. Enhancing Short-Term Probabilistic Residen-tial Load Forecasting with Quantile Long-Short-Term Memory // The Journal of Engineering, 2017, vol. 2017, iss. 14, pp. 2622-2627.
  • DOI: 10.1049/joe.2017.0833
  • Назаров С.В., Широков А.И. Современные операционные системы. М., 2012. 367 c
  • Fair scheduler (2018). Available at: http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/FairScheduler.html (accessed 16 April 2018).
  • Capacity scheduler(2018). Available at: http://hadoop.apache.org/docs/current/hadoop-yarn/ hadoop-yarn-site/CapacityScheduler.html (accessed 16 April 2018).
  • Wang F., Gao X., Chen G. Lowering the Volatility: a Practical Cache Allocation Prediction and Stability-Oriented Co-Runner Scheduling Algorithms // The Journal of Supercomputing, 2017, vol. 72, no 3, pp. 1126-1151.
  • DOI: 10.1007/s11227-016-1645-7
  • Evans R., Gao J. DeepMind AI Reduces Google Data Centre Cooling Bill by 40% // DeepMind Blog (2016), vol. 20. Available at: https://deepmind.com/blog/deepmind-ai-reduces-google-data-centre-cooling-bill-40/ (accessed 20 July 2016).
  • Bećirović E., Ćosović M. Machine Learning Techniques for Short-term load Forecasting // Environment Friendly Energies and Applications (EFEA), 4th International Symposium, 2016, pp. 1-4.
  • Kim T., Lee D., Choi J., Spurlock A., Sim A., Todd A., Wu K. Extracting Baseline Electricity Usage with Gradient Tree Boosting // Smart City/SocialCom/SustainCom (SmartCity), IEEE International Conference, 2015, pp. 734-741.
  • DOI: 10.1109/SmartCity.2015.156
  • Freedman D.A. Statistical Models: Theory and Practice. Cambridge University Press, 2009. 456 p.
  • DOI: 10.1017/CBO9780511815867
  • Neter J., Kutner M.H., Nachtsheim C.J., & Wasserman W. // Applied Linear Statistical Models. Chicago: Irwin, 1996, vol. 4. 318 p.
  • Rao C.R., Toutenburg H. Linear Models // Linear Models: Least Squares and Alternatives. Springer, 1995, pp. 3-18. , _2
  • DOI: 10.1007/978-1-4899-0024-1
Еще
Статья научная