Исследование возможности использования линейной регрессии для предсказания расхода памяти в высоконагруженной информационной системе
Автор: Тузов Артем Викторович
Рубрика: Информатика и вычислительная техника
Статья в выпуске: 3 т.18, 2018 года.
Бесплатный доступ
Рассматривается актуальная на данный момент проблема планирования задач в высоконагруженных информационных системах. Целью данной работы является проверка гипотезы о том, что загруженность высокопроизводительных информационных систем зависит от внешних параметров среды, в которой они функционируют. Для проверки была собрана и запущена система, на которой находятся корпоративный сайт компании, система мониторинга и приложение для социальной сети vk.com. В качестве внешних параметров были выбраны как природные явления, так и статистические данные посещения популярных сайтов, а также курсы валют и акций. На наш взгляд, эти параметры в той или иной степени могут оказывать влияние на загруженность информационной системы. Данные собирались на протяжении месяца работы системы каждые десять минут. При каждом сборе информации для каждого работающего процесса в системе запоминалось количество расходуемой им памяти. Для идентификации модели был выбран метод линейной регрессии как наиболее простой и часто используемый вариант проверки неявных зависимостей между данными. Все собранные параметры были отфильтрованы - проверены на наличие кросскорреляции и нормализованы. Используя построенную модель, мы предсказали значение расходуемой памяти процессами. Для каждого предсказанного значения было посчитано среднеквадратичное отклонение. Анализ результатов показал, что построенная модель имеет ряд проблем. В качестве рекомендаций по улучшению результатов указано использование другого метода построения модели, а также улучшение качества и количество собираемых данных. Дальнейшие планы включают в себя исследование возможности предсказания процессорного времени высоконагруженной информационной системы, используя внешние параметры.
Машинное обучение, линейная регрессия, процессы операционной системы, оперативная память
Короткий адрес: https://sciup.org/147232202
IDR: 147232202 | DOI: 10.14529/ctcr180301
Список литературы Исследование возможности использования линейной регрессии для предсказания расхода памяти в высоконагруженной информационной системе
- Окороков В.А. Операционные системы: курс лекций. Челябинск: Изд-во Челябинского гос. ун-та, 2011. 288 c.
- Peter S., Jialin Li, Zhang I., Dan R. K. Ports, Woos D., Krishnamurthy A., Anderson T., Roscoe T. Arrakis: The Operating System Is the Control Plane // ACM Transactions on Computer Systems, 2015, vol. 33, no. 4, article 11.
- Yang R., Ouyang X., Chen Y., Townend P., Xu J. Intelligent Resource Scheduling at Scale: a Machine Learning Perspective // IEEE International Symposium on Service Oriented System Engineering, 2018, pp. 132-141. DOI: 10.1109/SOSE.2018.00025
- Zheng H., Yuan J., Chen L. Short-Term Load Forecasting Using EMD-LSTM Neural Networks with a Xgboost Algorithm for Feature Importance Evaluation // Energies, 2017, vol 10, no. 8. Available at: http://www.mdpi.com/1996-1073/10/8/1168/htm (accessed 1 August 2017). DOI: 10.3390/en10081168
- Divina F., Gilson A., Goméz-Vela F., García Torres M., & Torres J.F. Stacking Ensemble Learning for Short-Term Electricity Consumption Forecasting // Energies, 2018, vol. 11, no. 4. Available at: http://www.mdpi.com/1996-1073/11/4/949/htm (accessed 9 April 2018). DOI: 10.3390/en11040949
- Dahua Gan, Yi Wang, Ning Zhang, Wenjun Zhu. Enhancing Short-Term Probabilistic Residen-tial Load Forecasting with Quantile Long-Short-Term Memory // The Journal of Engineering, 2017, vol. 2017, iss. 14, pp. 2622-2627.
- DOI: 10.1049/joe.2017.0833
- Назаров С.В., Широков А.И. Современные операционные системы. М., 2012. 367 c
- Fair scheduler (2018). Available at: http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/FairScheduler.html (accessed 16 April 2018).
- Capacity scheduler(2018). Available at: http://hadoop.apache.org/docs/current/hadoop-yarn/ hadoop-yarn-site/CapacityScheduler.html (accessed 16 April 2018).
- Wang F., Gao X., Chen G. Lowering the Volatility: a Practical Cache Allocation Prediction and Stability-Oriented Co-Runner Scheduling Algorithms // The Journal of Supercomputing, 2017, vol. 72, no 3, pp. 1126-1151.
- DOI: 10.1007/s11227-016-1645-7
- Evans R., Gao J. DeepMind AI Reduces Google Data Centre Cooling Bill by 40% // DeepMind Blog (2016), vol. 20. Available at: https://deepmind.com/blog/deepmind-ai-reduces-google-data-centre-cooling-bill-40/ (accessed 20 July 2016).
- Bećirović E., Ćosović M. Machine Learning Techniques for Short-term load Forecasting // Environment Friendly Energies and Applications (EFEA), 4th International Symposium, 2016, pp. 1-4.
- Kim T., Lee D., Choi J., Spurlock A., Sim A., Todd A., Wu K. Extracting Baseline Electricity Usage with Gradient Tree Boosting // Smart City/SocialCom/SustainCom (SmartCity), IEEE International Conference, 2015, pp. 734-741.
- DOI: 10.1109/SmartCity.2015.156
- Freedman D.A. Statistical Models: Theory and Practice. Cambridge University Press, 2009. 456 p.
- DOI: 10.1017/CBO9780511815867
- Neter J., Kutner M.H., Nachtsheim C.J., & Wasserman W. // Applied Linear Statistical Models. Chicago: Irwin, 1996, vol. 4. 318 p.
- Rao C.R., Toutenburg H. Linear Models // Linear Models: Least Squares and Alternatives. Springer, 1995, pp. 3-18. , _2
- DOI: 10.1007/978-1-4899-0024-1