Мониторинг приложений на кластере ZHORES в Сколтехе

Автор: И. Е. Захаров, О. А. Панарин, С. Г. Рыкованов, Р. Р. Загидуллин, А. К. Малютин, Ю. Н. Шкандыбин, А. Е. Ермекова

Журнал: Программные системы: теория и приложения @programmnye-sistemy

Рубрика: Программное и аппаратное обеспечение распределенных и суперкомпьютерных систем

Статья в выпуске: 2 (49) т.12, 2021 года.

Бесплатный доступ

Стандартные инструменты мониторинга для кластерных вычислительных систем позволяют оценить работу системы в целом, но не позволяют анализировать работу приложений по отдельности. Система мониторинга для измерения ресурсов, затребованных каждым приложением в отдельности разработана в Сколтехе для высокопроизводительного кластера ZHORES. Система мониторинга собирает как обычные метрики загрузки процессоров и графических ускорителей, так и счетчики событий ЦПУ/ГПУ, которые позволяют более детально анализировать тип ресурса, затребованный приложением. Сервисные программы, развернутые на каждом узле кластера, посылают результаты измерений в единую базу данных временных рядов с шагом в одну секунду. Эти данные затем анализируются статистическими методами в режиме оффлайн для выделения характеристик, связанных с использованием вычислительных ресурсов каждым приложением. Мониторинг позволяет выявлять неэффективное программное обеспечение, производить тонкую настройку работы кластера, а также улучшать работу высокопроизводительной системы в целом.

Еще

Кластер, высокопроизводительные вычисления, мониторинг приложений, счетчики событий ЦПУ/ГПУ, база данных временных рядов

Короткий адрес: https://sciup.org/143173916

IDR: 143173916   |   DOI: 10.25209/2079-3316-2021-12-2-73-103

Список литературы Мониторинг приложений на кластере ZHORES в Сколтехе

  • F. Ciorba. “The importance and need for system monitoring and analysis in HPC operations and research”, Proceedings of the 3rd bwHPC-Symposium (Heidelberg, 2016), heiBOOKS, Heidelberg, 2017, ISBN 978-3-946531-70-8, pp. 7–16.
  • I. Zacharov, R. Arslanov, M. Gunin, D. Stefonishin, A. Bykov, S. Pavlov, O. Panarin, A. Maliutin, S. Rykovanov, M. Fedorov. ““Zhores” — Petaflops supercomputer for data-driven modeling, machine learning and artificial intelligence installed in Skolkovo Institute of Science and Technology”, Open Engineering, 9:1 (2019), pp. 512–520.
  • A. Yoo, M. Jette, M. Grondona. “SLURM: Simple Linux Utility for Resource Management”, JSSPP 2003: Job Scheduling Strategies for Parallel Processing (June 24, 2003, Seattle, WA, USA), Lecture Notes in Computer Science, vol. 2862, Springer, Berlin–Heidelberg, 2003, ISBN 978-3-540-20405-3, pp. 44–60.
  • F. D. Sacerdoti, M. J. Katz, M. L. Massie, D. E. Culler. “Wide area cluster monitoring with Ganglia”, Proc. IEEE International Conference on Cluster Computing (1–4 Dec. 2003, Hong Kong, China), 2003, ISBN 0-7695-2066-9, pp. 289–298.
  • E. Birngruber, P. Forai, A. Zauner. “Total recall: holistic metrics for broad systems performance and user experience visibility in a data-intensive computing environment”, HUST ’15: Proceedings of the Second International Workshop on HPC User Support Tools (November, 2015, Austin, Texas, USA), Association for Computing Machinery, New York, 2015, ISBN 978-1-4503-4000-7, 12 pp.
  • R. Mooney, K.P. Schmidt, R. S. Studham. “NWPerf: a system wide performance monitoring tool for large Linux clusters”, 2004 IEEE Int. Conf. on Cluster Computing (20–23 Sept. 2004, San Diego, CA, USA), 2004, ISBN 0-7803-8694-9.
  • J. C. Browne, R. L. DeLeon, Charng-Da Lu, M. D. Jones, S. M. Gallo, A. Ghadersohi, A. K. Patra, W.L. Barth, J. Hammond, Th. R. Furlani, R. T. McLay. “Enabling comprehensive data-driven system management for large computational facilities”, SC ’13: Proceedings of the International Conference on High Performance Computing, Networking, Storage and Analysis (17–22 Nov. 2013, Denver, CO, USA), 2013, ISBN 978-1-4503-2378-9, 11 pp.
  • T. Evans, W. L. Barth, J. C. Browne, R. L. DeLeon, T. R. Furlani, S. M. Gallo, M. D. Jones, A. K. Patra. “Comprehensive Resource Use Monitoring for HPC Systems with TACC Stats”, 2014 First International Workshop on HPC User Support Tools (21-21 Nov. 2014, New Orleans, LA, USA), 2014, pp. 13-21.
  • K. Stefanov, Vl. Voevodin, S. Zhumatiy, V. Voevodin. “Dynamically reconfigurable distributed modular monitoring system for supercomputers (DiMMon)”, YSC 2015. 4th International Young Scientists Conference on Computational Science, Procedia Computer Science, 66 (2015), pp. 625–634.
  • Н. С. Живчикова, Ю.В. Шевчук. «Подсистема архивации данных системы мониторинга Botikmon3», Научный сервис в сети Интернет, Труды XX Всероссийской научной конференции (17–22 сентября 2018 г., г. Новороссийск), ИПМ им. М.В.Келдыша, М., 2018, с. 223–229.
  • R. Bridges, N. Imam, T. Mintz. “Understanding GPU power: A survey of profiling, modeling, and simulation methods”, ACM Computing Surveys, 49:3 (2016), 41.
  • О. Панарин, И. Захаров. «Особенности мониторинга мобильных систем обработки информации», Электронные библиотеки, 23:4, Тематический выпуск «Научный сервис в сети Интернет». Часть 2 (2020), с. 835–847.
  • J. Treibig, G. Hager, G. Wellein. “LIKWID: A lightweight performanceoriented tool suite for x86 multicore environments”, 2010 39th International Conference on Parallel Processing Workshops (13–16 Sept. 2010, San Diego, CA, USA), 2010, 10 pp.
  • Nvidia DCGM (20/10/2020); NVIDIA Management Library (NVML) (20/10/2020).
  • G. Zellweger, D. Lin, T. Roscoe. “So many performance events, so little time”, APSys ’16: Proceedings of the 7th ACM SIGOPS Asia-Pacific Workshop on Systems (August, 2016, Hong Kong), Association for Computing Machinery, New York, ISBN 978-1-4503-4265-0, 9 pp.
  • D. Eklov, N. Nikoleris, E. Hagersten. A profiling method for analyzing scalability bottlenecks on multicores, Technical Report 2012-030, Department of Information Technology, Uppsala University, 2012, 12 pp.
  • A. Yasin. “A Top-Down method for performance analysis and counters architecture”, 2014 IEEE International Symposium on Performance Analysis of Systems and Software (ISPASS) (23–25 March 2014, Monterey, CA, USA), 2014, pp. 35–44.
Еще
Статья научная