Мониторинг приложений на кластере ZHORES в Сколтехе
Автор: И. Е. Захаров, О. А. Панарин, С. Г. Рыкованов, Р. Р. Загидуллин, А. К. Малютин, Ю. Н. Шкандыбин, А. Е. Ермекова
Журнал: Программные системы: теория и приложения @programmnye-sistemy
Рубрика: Программное и аппаратное обеспечение распределенных и суперкомпьютерных систем
Статья в выпуске: 2 (49) т.12, 2021 года.
Бесплатный доступ
Стандартные инструменты мониторинга для кластерных вычислительных систем позволяют оценить работу системы в целом, но не позволяют анализировать работу приложений по отдельности. Система мониторинга для измерения ресурсов, затребованных каждым приложением в отдельности разработана в Сколтехе для высокопроизводительного кластера ZHORES. Система мониторинга собирает как обычные метрики загрузки процессоров и графических ускорителей, так и счетчики событий ЦПУ/ГПУ, которые позволяют более детально анализировать тип ресурса, затребованный приложением. Сервисные программы, развернутые на каждом узле кластера, посылают результаты измерений в единую базу данных временных рядов с шагом в одну секунду. Эти данные затем анализируются статистическими методами в режиме оффлайн для выделения характеристик, связанных с использованием вычислительных ресурсов каждым приложением. Мониторинг позволяет выявлять неэффективное программное обеспечение, производить тонкую настройку работы кластера, а также улучшать работу высокопроизводительной системы в целом.
Кластер, высокопроизводительные вычисления, мониторинг приложений, счетчики событий ЦПУ/ГПУ, база данных временных рядов
Короткий адрес: https://sciup.org/143173916
IDR: 143173916 | DOI: 10.25209/2079-3316-2021-12-2-73-103
Список литературы Мониторинг приложений на кластере ZHORES в Сколтехе
- F. Ciorba. “The importance and need for system monitoring and analysis in HPC operations and research”, Proceedings of the 3rd bwHPC-Symposium (Heidelberg, 2016), heiBOOKS, Heidelberg, 2017, ISBN 978-3-946531-70-8, pp. 7–16.
- I. Zacharov, R. Arslanov, M. Gunin, D. Stefonishin, A. Bykov, S. Pavlov, O. Panarin, A. Maliutin, S. Rykovanov, M. Fedorov. ““Zhores” — Petaflops supercomputer for data-driven modeling, machine learning and artificial intelligence installed in Skolkovo Institute of Science and Technology”, Open Engineering, 9:1 (2019), pp. 512–520.
- A. Yoo, M. Jette, M. Grondona. “SLURM: Simple Linux Utility for Resource Management”, JSSPP 2003: Job Scheduling Strategies for Parallel Processing (June 24, 2003, Seattle, WA, USA), Lecture Notes in Computer Science, vol. 2862, Springer, Berlin–Heidelberg, 2003, ISBN 978-3-540-20405-3, pp. 44–60.
- F. D. Sacerdoti, M. J. Katz, M. L. Massie, D. E. Culler. “Wide area cluster monitoring with Ganglia”, Proc. IEEE International Conference on Cluster Computing (1–4 Dec. 2003, Hong Kong, China), 2003, ISBN 0-7695-2066-9, pp. 289–298.
- E. Birngruber, P. Forai, A. Zauner. “Total recall: holistic metrics for broad systems performance and user experience visibility in a data-intensive computing environment”, HUST ’15: Proceedings of the Second International Workshop on HPC User Support Tools (November, 2015, Austin, Texas, USA), Association for Computing Machinery, New York, 2015, ISBN 978-1-4503-4000-7, 12 pp.
- R. Mooney, K.P. Schmidt, R. S. Studham. “NWPerf: a system wide performance monitoring tool for large Linux clusters”, 2004 IEEE Int. Conf. on Cluster Computing (20–23 Sept. 2004, San Diego, CA, USA), 2004, ISBN 0-7803-8694-9.
- J. C. Browne, R. L. DeLeon, Charng-Da Lu, M. D. Jones, S. M. Gallo, A. Ghadersohi, A. K. Patra, W.L. Barth, J. Hammond, Th. R. Furlani, R. T. McLay. “Enabling comprehensive data-driven system management for large computational facilities”, SC ’13: Proceedings of the International Conference on High Performance Computing, Networking, Storage and Analysis (17–22 Nov. 2013, Denver, CO, USA), 2013, ISBN 978-1-4503-2378-9, 11 pp.
- T. Evans, W. L. Barth, J. C. Browne, R. L. DeLeon, T. R. Furlani, S. M. Gallo, M. D. Jones, A. K. Patra. “Comprehensive Resource Use Monitoring for HPC Systems with TACC Stats”, 2014 First International Workshop on HPC User Support Tools (21-21 Nov. 2014, New Orleans, LA, USA), 2014, pp. 13-21.
- K. Stefanov, Vl. Voevodin, S. Zhumatiy, V. Voevodin. “Dynamically reconfigurable distributed modular monitoring system for supercomputers (DiMMon)”, YSC 2015. 4th International Young Scientists Conference on Computational Science, Procedia Computer Science, 66 (2015), pp. 625–634.
- Н. С. Живчикова, Ю.В. Шевчук. «Подсистема архивации данных системы мониторинга Botikmon3», Научный сервис в сети Интернет, Труды XX Всероссийской научной конференции (17–22 сентября 2018 г., г. Новороссийск), ИПМ им. М.В.Келдыша, М., 2018, с. 223–229.
- R. Bridges, N. Imam, T. Mintz. “Understanding GPU power: A survey of profiling, modeling, and simulation methods”, ACM Computing Surveys, 49:3 (2016), 41.
- О. Панарин, И. Захаров. «Особенности мониторинга мобильных систем обработки информации», Электронные библиотеки, 23:4, Тематический выпуск «Научный сервис в сети Интернет». Часть 2 (2020), с. 835–847.
- J. Treibig, G. Hager, G. Wellein. “LIKWID: A lightweight performanceoriented tool suite for x86 multicore environments”, 2010 39th International Conference on Parallel Processing Workshops (13–16 Sept. 2010, San Diego, CA, USA), 2010, 10 pp.
- Nvidia DCGM (20/10/2020); NVIDIA Management Library (NVML) (20/10/2020).
- G. Zellweger, D. Lin, T. Roscoe. “So many performance events, so little time”, APSys ’16: Proceedings of the 7th ACM SIGOPS Asia-Pacific Workshop on Systems (August, 2016, Hong Kong), Association for Computing Machinery, New York, ISBN 978-1-4503-4265-0, 9 pp.
- D. Eklov, N. Nikoleris, E. Hagersten. A profiling method for analyzing scalability bottlenecks on multicores, Technical Report 2012-030, Department of Information Technology, Uppsala University, 2012, 12 pp.
- A. Yasin. “A Top-Down method for performance analysis and counters architecture”, 2014 IEEE International Symposium on Performance Analysis of Systems and Software (ISPASS) (23–25 March 2014, Monterey, CA, USA), 2014, pp. 35–44.