Оптимизация утилизации при выделении ресурсов для высокопроизводительных вычислительных систем с сетью Ангара
Автор: Мукосей Анатолий Викторович, Семенов Александр Сергеевич, Симонов Алексей Сергеевич
Статья в выпуске: 1 т.8, 2019 года.
Бесплатный доступ
В данной работе рассматривается высокоскоростная вычислительная сеть Ангара с топологией «многомер-ный тор». Работа посвящена оптимизации фрагментации, возникающей в результате последовательного выделения вычислительных узлов в многоузловой системе при заданном требовании о том, что сетевой трафик разных пользовательских заданий не должен пересекаться. Данная работа является продолжение работы по оптимизации фрагментации ресурсов исследуемой вычислительной системы. В данной работе к учету фрагментации при выборе узлов добавлен метод запуска пользовательских заданий, основанный на политике выбора первого подходящего задания (First-Fit) в некотором рассматриваемом окне заданий. Исследование разработанного метода проводилось с помощью симулятора работы вычислительной системы. Рассмотрен набор различных вычислительных систем с трехмерными и четырехмерными топологиями, размер минимальной системы - 32 вычислительных узла, максимальной - 144 узла. Для каждой системы задана синтетическая очередь заданий, параметры которой приближены к реально возможной и основаны на данных, полученных с вычислительного кластера Desmos на базе сети Ангара. В качестве критерия качества метода выбора узлов рассматривается средняя утилизация ресурсов вычислительной системы и среднее время ожидания заданий в очереди. Исследованы различные размеры окон заданий. Исследование показало, что увеличение утилизации ресурсов для предложенного метода выбора узлов составило в среднем 7 % и на 36, 6 % сокращает значение времени ожидания задания в очереди по сравнению с базовым методом.
Коммуникационная сеть ангара, многомерный тор, планирование ресурсов, фрагментация, выбор узлов
Короткий адрес: https://sciup.org/147233190
IDR: 147233190 | УДК: 519.687.1 | DOI: 10.14529/cmse190101
Allocation optimization for reducing resource utilization in Angara high-speed interconnect
This paper considers a high-speed interconnect with a multidimensional topology. The paper is devoted to the optimization of fragmentation resulting from sequential allocation of computing nodes in a supercomputer provided that network traffic from different user’s tasks should not overlap. This paper is the continuation of resources fragmentation optimization work. In this work, the method for scheduling tasks based on the policy of choosing the first suitable task (First-Fit) in a certain task window has been added to the accounting for fragmentation when choosing nodes. A set of different computer systems with three-dimensional and four-dimensional topologies was considered. The minimum system size is 32 computing nodes, and the maximum is 144. A synthetic queue of tasks is set for each system. The parameters of the synthetic queues are close to real ones and are based on data received from the Desmos cluster equipped with Angara interconnect. The average utilization of the resources of the computer system and the average waiting time for the tasks in the queue is chosen as a method quality criterion. Various sizes of task windows have been evalauated. The study showed that the increase of the resources utilization for the proposed method averaged 7 % compared to the base method, and the average time spent in queue was reduced by 36.6 %.
Список литературы Оптимизация утилизации при выделении ресурсов для высокопроизводительных вычислительных систем с сетью Ангара
- Агарков А.А., Исмагилов Т.Ф., Макагон Д.В., Семенов А.С., Симонов А.С. Результаты оценочного тестирования отечественной высокоскоростной коммуникационной сети Ангара // Суперкомпьютерные дни в России: Труды международной конференции (Москва, 26-27 сентября 2016 г.). М.: Изд-во МГУ, 2016. С. 626-639.
- Симонов А.С., Макагон Д.В., Жабин И.А., Щербак А.Н., Сыромятников Е.Л., Поляков Д.А. Первое поколение высокоскоростной коммуникационной сети «Ангара» // Наукоемкие технологии. 2014. Т. 15. № 1. С. 21-28.
- Puente V., Beivide R., Gregorio J.A., Prellezo J.M., Duato J., Izu C. Adaptive Bubble Router: a Design to Improve Performance in Torus Networks // Proceedings of the International Conference Parallel Processing (ICPP). 1999. P. 58-67. DOI: 10.1109/ICPP.1999.797388
- Adiga N.R., Blumrich M., Chen D. Blue Gene/L Torus Interconnection Network // IBM Journal of Research and Development. 2005. Vol. 49. No. 2. P. 265-276. DOI: 10.1147/rd.492.0265
- Scott S.L. The Cray T3E Network: Adaptive Routing in a High Performance 3D Torus. 1996.
- Пожилов И.А., Семенов А.С., Макагон Д.В. Алгоритм определения связности сети с топологией «многомерный тор» с отказами для детерминированной маршрутизации // Программная инженерия. 2015. № 3. С. 13-19.
- Lan Z., Tang W., Wang J., Yang X., Zhou Z., Zheng X. Balancing Job Performance with System Performance via Locality-aware Scheduling on Torus-connected Systems // 2014 IEEE International Conference on Cluster Computing (CLUSTER). 2014. P. 140-148.
- DOI: 10.1109/CLUSTER.2014.6968751
- IBM Redbooks Publication: IBM System Blue Gene Solution: Blue Gene/Q System Administration. 2013. 282 p.
- Tang W., Lan Z., Desai N., Buettner D., Yu Y. Reducing Fragmentation on Torus-Connected Supercomputers // Proceedings of the 2011 IEEE International Parallel Distributed Processing Symposium (IPDPS'11). IEEE Computer Society, Washington, DC, USA. 2011. P. 828-839
- DOI: 10.1109/IPDPS.2011.82
- Cray Document: Managing System Software for Cray XE and Cray XT Systems. 2010.
- Schwiegelshohn U., Yahyapour R. Analysis of First-Come-First-Serve Parallel Job Scheduling // SODA. 1998. Vol. 98. P. 629-638.
- Полежаев П.Н. Исследование алгоритмов планирования параллельных задач для кластерных вычислительных систем с помощью симулятора // Параллельные вычислительные технологии (ПаВТ'2010): Труды международной конференции (Уфа, 29 марта-2 апреля 2010 г.). Челябинск: Издательский центр ЮУрГУ, 2010. С. 287-298.
- Mu'alem A.W., Feitelson D.G. Utilization, Predictability, Workloads, and User Runtime Estimates in Scheduling the IBM SP2 with Backfilling // IEEE Transactions on Parallel and Distributed Systems. 2001. Vol. 12. No. 6. P. 529-543.
- DOI: 10.1109/71.932708
- Henderson R.L. Job Scheduling Under the Portable Batch System // Workshop on Job Scheduling Strategies for Parallel Processing. Springer, Berlin, Heidelberg, 1995. P. 279-294.
- Staples G. TORQUE Resource Manager // Proceedings of the 2006 ACM/IEEE Conf. on Supercomputing. ACM, 2006. P. 8.
- Jackson D., Snell Q., Clement M. Core Algorithms of the Maui Scheduler // Workshop on Job Scheduling Strategies for Parallel Processing. Springer, Berlin, Heidelberg, 2001. P. 87-102.
- Gentzsch W. Sun Grid Engine: Towards Creating a Compute Power Grid // Cluster Computing and the Grid, 2001. Proceedings. First IEEE/ACM International Symposium on. IEEE, 2001. P. 35-36.
- Баранов А.В., Смирнов С.В., Храмцов М.Ю., Шарф С.В. Модернизация СУПЗ МВС-1000 // Материалы Всероссийской научной конференции «Научный сервис в сети Интернет». Новороссийск, 2008.
- SchedMD L. L. C. SLURM Workload Manager. 2018. https://slurm.schedmd.com/ overview.html (дата обращения: 20.09.2018)
- Мукосей А.В., Семенов A.С. Оптимизация фрагментации при выделении ресурсов для высокопроизводительных вычислительных систем с сетью Ангара // Параллельные вычислительные технологии (ПаВТ'2018): Труды международной научной конференции (Ростов-на-Дону, 2-6 апреля 2018 г.). Челябинск: Издательский центр ЮУрГУ, 2018. С. 310-318.
- Woo S.H. Task Scheduling in Distributed Computing Systems with a Genetic Algorithm // High Performance Computing on the Information Superhighway. 1997. HPC Asia'97. IEEE. 1997. P. 301-305.
- Вечер В.С., Кондратюк Н.Д., Смирнов Г.С., Стегайлов В.В. Гибридный суперкомпьютер на базе сети Ангара для задач вычислительного материаловедения // Суперкомпьютерные дни в России: Труды международной конференции (Москва, 25-26 сентября 2017 г.). М.: Изд-во МГУ, 2017. С. 557-571.
- Мукосей А.В., Семенов А.С., Приближенный алгоритм выбора оптимального подмножества узлов в коммуникационной сети Ангара с отказами // Вычислительные методы и программирование. 2017. Т. 18. C. 53-64.
- Баранов А.В., Киселёв Е.А., Ляховец Д.С. Квазипланировщик для использования простаивающих вычислительных модулей многопроцессорной вычислительной системы под управлением СУППЗ // Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. 2014. Т. 3. № 4. С. 75-84.
- DOI: 10.14529/cmse140405
- Gon¸calves J.F., Resende M.G.C. A Parallel Multi-population Biased Random-key Genetic Algorithm for a Container Loading Problem // Computers & Operations Research. February 2012. Vol. 39. No. 2. P. 179-190.
- DOI: 10.1016/j.cor.2011.03.009