Координированное сохранение с журналированием передаваемых данных и асинхронное восстановление в случае отказа
Автор: Бондаренко Алексей Алексеевич, Ляхов Павел Александрович, Якобовский Михаил Владимирович
Статья в выпуске: 2 т.8, 2019 года.
Бесплатный доступ
Увеличивающийся рост числа компонент суперкомпьютеров приводит специалистов в области HPC к неблагоприятным оценкам для будущих суперкомпьютеров: диапазон среднего времени между отказами будет составлять от 1 часа до 9 часов. Данная оценка ставит под вопрос возможность проведения длительных расчетов на суперкомпьютерах. В работе предлагается метод восстановления после отказов, не требующий возврата большинства процессов к последней контрольной точке, что может позволить сократить накладные расходы для некоторых вычислительных алгоритмов. Стандартный метод обеспечения отказоустойчивости заключается в координированном сохранении, а в случае отказа осуществляется возврат всех процессов к последней контрольной точке. Предлагаемая стратегия заключается в координированном сохранении и журналировании передаваемых данных, а в случае отказа происходит асинхронное восстановление. При асинхронном восстановлении несколько запасных процессов проводят пересчет данных потерянных после отказа, а остальные процессы находятся в ожидании окончания процедуры восстановления потерянных данных. Разработаны параллельные программы решающие задачу о распространении тепла в тонкой пластине. В данных программах отказы происходят после вызова функции raise(SIGKILL), а координированное или асинхронное восстановление осуществляется с помощью функционала ULFM. Для получения теоретических оценок накладных расходов предложен имитационный метод, моделирующий исполнение программы с отказами. В данном методе отказ может произойти во время расчетов, а также во время сохранения контрольных точек или в ходе восстановления. Проведено сравнение методов восстановления при разных значениях частоты отказов для задачи распространения тепла в тонкой пластине, в которой объем данных для журналирования незначителен. Сравнение показало, что применение асинхронного восстановления приводит к сокращению накладных расходов от 22 % до 40 % при теоретической оценке и от 13 % до 53 % в вычислительном эксперименте.
Расширение ulfm, контрольные точки, координированное сохранение, асинхронное восстановление, отказоустойчивость
Короткий адрес: https://sciup.org/147233197
IDR: 147233197 | УДК: 004.052.3 | DOI: 10.14529/cmse190205
Coordinated checkpointing with sender-based logging and asynchronous recovery from failure
The increasing growth in the number of components of supercomputers leads HPC specialists to unfavorable estimates for future supercomputers: “the range of the mean time between failures will be from 1 hour to 9 hours.” This estimate leads to the problem of long calculations on supercomputers. In this paper, we propose a recovery method from failure which does not require rollback for all processes. This method can reduce overhead costs for some computational algorithms. The standard fault tolerance method consists of two phases: coordinated checkpointing and rollback of all processes to the last checkpoint in the case of a failure. The proposed method includes coordinated checkpointing with sender-based logging and asynchronous recovery when most processes wait and several processes recalculate the lost data. We developed parallel programs to solve the problem of heat transfer in the thin plate which computation algorithm has a small amount of data for logging. In these programs, failures occur by calling the function raise(SIGKILL), coordinated or asynchronous recovery is performed by ULFM functions. In order to obtain theoretical estimates of overhead costs, we propose a simulation model of program execution with failures. This model assumes that failures strike during the computations, checkpointing and recovery. We made a comparison of recovery methods with different failure rates. The comparison showed that the use of asynchronous recovery results in a reduction of overhead costs by theoretical estimates from 22% to 40%, and by computational experiments from 13% to 53%.
Список литературы Координированное сохранение с журналированием передаваемых данных и асинхронное восстановление в случае отказа
- Schroeder B., Gibson G.A. Understanding Failures in Petascale Computers // Journal of Physics: Conference Series. 2007. Vol. 78, No. 1 P. 12-22. 10.1088/1742- 6596/78/1/012022 DOI: 10.1088/1742-6596/78/1/012022
- Hsu C.-H., Feng W.-C. A Power-aware Run-time System for High-performance Computing // Proceedings of the 2005 ACM/IEEE Conference on Supercomputing (Seattle, WA, USA, November 12 - 18, 2005). IEEE, 2005. P. 1-9. DOI: 10.1109/sc.2005.3
- Martino C.D., Kalbarczyk Z., Iyer R.K., Baccanico F., Fullop J., Kramer W. Lessons Learned from the Analysis of System Failures at Petascale: The Case of Blue Waters // 44th Annual IEEE/IFIP International Conference on Dependable Systems and Networks (Atlanta, Georgia, USA, June 23 - 26, 2014). IEEE, 2014. P. 610-621. DOI: 10.1109/dsn.2014.62
- Dongarra J., Herault T., Robert Y. Fault-tolerance Techniques for High-performance Computing. Springer, Cham, 2015. 320 p. DOI: 10.1007/978-3-319-20943-2
- Berkeley Lab Checkpoint/Restart (BLCR) for LINUX URL: http://crd.lbl.gov/departments/computer-science/CLaSS/research/BLCR/ (дата обращения: 03.11.2018)
- Cappello F., Geist A., Gropp W., Kale S., Kramer B., Snir M., Toward Exascale Resilience: 2014 Update // Supercomputing Frontiers and Innovations. 2014. Vol. 1, No. 1. P. 5-28.
- DOI: 10.14529/jsfi140101
- Elnozahy E.N. M., Alvisi L., Wang Y.-M., Johnson D. B. A Survey of Rollback-recovery Protocols in Message-passing Systems // ACM Comput. Surv. 2002. Vol. 34, No. 3. P. 375-408.
- DOI: 10.1145/568522.568525
- Bouteiller A., Herault T., Bosilca G., Du P., Dongarra J. Algorithm-based Fault Tolerance for Dense Matrix Factorizations, Multiple Failures and Accuracy // ACM Transactions on Parallel Computing. 2015. Vol. 1, No. 2. P. 1-28.
- DOI: 10.1145/2686892
- Engelmann C., Vallee G.R., Naughton T., Scott S.L. Proactive Fault Tolerance Using Preemptive Migration // 17th Euromicro International Conference on Parallel, Distributed and Network-based Processing (Weimar, Germany, February 18 - 20, 2009). IEEE, 2009. P. 252-257.
- DOI: 10.1109/PDP.2009.31
- Бондаренко А.А., Якобовский М.В. Обеспечение отказоустойчивости высокопроизводительных вычислений с помощью локальных контрольных точек // Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. 2014. Т. 3, № 3. C. 20- 36
- DOI: 10.14529/cmse140302
- Di S., Bouguerra M.S., Bautista-Gomez L., Cappello F. Optimization of Multi-level Checkpoint Model for Large Scale HPC Applications // 28th International Parallel and Distributed Processing Symposium (Phoenix, Arizona, USA, May 19 - 23, 2014). IEEE, 2014. P. 1181-1190.
- DOI: 10.1109/IPDPS.2014.122
- Benoit A., Cavelan A., Le Fèvre V., Robert Y., Sun H. Towards Optimal Multi-level Checkpointing // IEEE Transactions on Computers. 2016. Vol. 66, No. 7. P. 1212-1226.
- DOI: 10.1109/TC.2016.2643660
- Di S., Robert Y., Vivien F., Cappello F. Toward an Optimal Online Checkpoint Solution under a Two-level HPC Checkpoint Model // IEEE Transactions on Parallel and Distributed Systems. 2016. Vol. 28, No. 1. P. 244-259.
- DOI: 10.1109/TPDS.2016.2546248
- Fault Tolerance Research Hub URL: http://fault-tolerance.org/ (дата обращения: 03.11.2018)
- Бондаренко А.А., Ляхов П.А., Якобовский М.В. Накладные расходы, связанные с обеспечением отказоустойчивых вычислений при многоуровневом координированном сохранении контрольных точек // Параллельные вычислительные технологии (ПаВТ'2017): Труды международной научной конференции (Казань, 3 - 7 апреля 2017 г.). Челябинск: Издательский центр ЮУрГУ, 2017. С. 262-270.