Координированное сохранение с журналированием передаваемых данных и асинхронное восстановление в случае отказа

Автор: Бондаренко Алексей Алексеевич, Ляхов Павел Александрович, Якобовский Михаил Владимирович

Журнал: Вестник Южно-Уральского государственного университета. Серия: Вычислительная математика и информатика @vestnik-susu-cmi

Статья в выпуске: 2 т.8, 2019 года.

Бесплатный доступ

Увеличивающийся рост числа компонент суперкомпьютеров приводит специалистов в области HPC к неблагоприятным оценкам для будущих суперкомпьютеров: диапазон среднего времени между отказами будет составлять от 1 часа до 9 часов. Данная оценка ставит под вопрос возможность проведения длительных расчетов на суперкомпьютерах. В работе предлагается метод восстановления после отказов, не требующий возврата большинства процессов к последней контрольной точке, что может позволить сократить накладные расходы для некоторых вычислительных алгоритмов. Стандартный метод обеспечения отказоустойчивости заключается в координированном сохранении, а в случае отказа осуществляется возврат всех процессов к последней контрольной точке. Предлагаемая стратегия заключается в координированном сохранении и журналировании передаваемых данных, а в случае отказа происходит асинхронное восстановление. При асинхронном восстановлении несколько запасных процессов проводят пересчет данных потерянных после отказа, а остальные процессы находятся в ожидании окончания процедуры восстановления потерянных данных. Разработаны параллельные программы решающие задачу о распространении тепла в тонкой пластине. В данных программах отказы происходят после вызова функции raise(SIGKILL), а координированное или асинхронное восстановление осуществляется с помощью функционала ULFM. Для получения теоретических оценок накладных расходов предложен имитационный метод, моделирующий исполнение программы с отказами. В данном методе отказ может произойти во время расчетов, а также во время сохранения контрольных точек или в ходе восстановления. Проведено сравнение методов восстановления при разных значениях частоты отказов для задачи распространения тепла в тонкой пластине, в которой объем данных для журналирования незначителен. Сравнение показало, что применение асинхронного восстановления приводит к сокращению накладных расходов от 22 % до 40 % при теоретической оценке и от 13 % до 53 % в вычислительном эксперименте.

Еще

Расширение ulfm, контрольные точки, координированное сохранение, асинхронное восстановление, отказоустойчивость

Короткий адрес: https://sciup.org/147233197

IDR: 147233197   |   DOI: 10.14529/cmse190205

Список литературы Координированное сохранение с журналированием передаваемых данных и асинхронное восстановление в случае отказа

  • Schroeder B., Gibson G.A. Understanding Failures in Petascale Computers // Journal of Physics: Conference Series. 2007. Vol. 78, No. 1 P. 12-22. 10.1088/1742- 6596/78/1/012022 DOI: 10.1088/1742-6596/78/1/012022
  • Hsu C.-H., Feng W.-C. A Power-aware Run-time System for High-performance Computing // Proceedings of the 2005 ACM/IEEE Conference on Supercomputing (Seattle, WA, USA, November 12 - 18, 2005). IEEE, 2005. P. 1-9. DOI: 10.1109/sc.2005.3
  • Martino C.D., Kalbarczyk Z., Iyer R.K., Baccanico F., Fullop J., Kramer W. Lessons Learned from the Analysis of System Failures at Petascale: The Case of Blue Waters // 44th Annual IEEE/IFIP International Conference on Dependable Systems and Networks (Atlanta, Georgia, USA, June 23 - 26, 2014). IEEE, 2014. P. 610-621. DOI: 10.1109/dsn.2014.62
  • Dongarra J., Herault T., Robert Y. Fault-tolerance Techniques for High-performance Computing. Springer, Cham, 2015. 320 p. DOI: 10.1007/978-3-319-20943-2
  • Berkeley Lab Checkpoint/Restart (BLCR) for LINUX URL: http://crd.lbl.gov/departments/computer-science/CLaSS/research/BLCR/ (дата обращения: 03.11.2018)
  • Cappello F., Geist A., Gropp W., Kale S., Kramer B., Snir M., Toward Exascale Resilience: 2014 Update // Supercomputing Frontiers and Innovations. 2014. Vol. 1, No. 1. P. 5-28.
  • DOI: 10.14529/jsfi140101
  • Elnozahy E.N. M., Alvisi L., Wang Y.-M., Johnson D. B. A Survey of Rollback-recovery Protocols in Message-passing Systems // ACM Comput. Surv. 2002. Vol. 34, No. 3. P. 375-408.
  • DOI: 10.1145/568522.568525
  • Bouteiller A., Herault T., Bosilca G., Du P., Dongarra J. Algorithm-based Fault Tolerance for Dense Matrix Factorizations, Multiple Failures and Accuracy // ACM Transactions on Parallel Computing. 2015. Vol. 1, No. 2. P. 1-28.
  • DOI: 10.1145/2686892
  • Engelmann C., Vallee G.R., Naughton T., Scott S.L. Proactive Fault Tolerance Using Preemptive Migration // 17th Euromicro International Conference on Parallel, Distributed and Network-based Processing (Weimar, Germany, February 18 - 20, 2009). IEEE, 2009. P. 252-257.
  • DOI: 10.1109/PDP.2009.31
  • Бондаренко А.А., Якобовский М.В. Обеспечение отказоустойчивости высокопроизводительных вычислений с помощью локальных контрольных точек // Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. 2014. Т. 3, № 3. C. 20- 36
  • DOI: 10.14529/cmse140302
  • Di S., Bouguerra M.S., Bautista-Gomez L., Cappello F. Optimization of Multi-level Checkpoint Model for Large Scale HPC Applications // 28th International Parallel and Distributed Processing Symposium (Phoenix, Arizona, USA, May 19 - 23, 2014). IEEE, 2014. P. 1181-1190.
  • DOI: 10.1109/IPDPS.2014.122
  • Benoit A., Cavelan A., Le Fèvre V., Robert Y., Sun H. Towards Optimal Multi-level Checkpointing // IEEE Transactions on Computers. 2016. Vol. 66, No. 7. P. 1212-1226.
  • DOI: 10.1109/TC.2016.2643660
  • Di S., Robert Y., Vivien F., Cappello F. Toward an Optimal Online Checkpoint Solution under a Two-level HPC Checkpoint Model // IEEE Transactions on Parallel and Distributed Systems. 2016. Vol. 28, No. 1. P. 244-259.
  • DOI: 10.1109/TPDS.2016.2546248
  • Fault Tolerance Research Hub URL: http://fault-tolerance.org/ (дата обращения: 03.11.2018)
  • Бондаренко А.А., Ляхов П.А., Якобовский М.В. Накладные расходы, связанные с обеспечением отказоустойчивых вычислений при многоуровневом координированном сохранении контрольных точек // Параллельные вычислительные технологии (ПаВТ'2017): Труды международной научной конференции (Казань, 3 - 7 апреля 2017 г.). Челябинск: Издательский центр ЮУрГУ, 2017. С. 262-270.
Еще
Статья научная