О восстановлении программ из контрольных точек

Бесплатный доступ

В работе описаны два подхода к проблеме восстановления распределенных программ из контрольных точек. Предложен алгоритм восстановления взаимосвязей типа «родитель-потомок» и алгоритм принадлежности к группам и сеансам для набора процессов в рамках элементарной машины распределенной вычислительной системы. Предложен алгоритм координированного восстановления набора связанных процессов, перезапускаемых раздельно (на различных элементарных машинах или терминалах). Описанные подходы реализованы в системе создания контрольных точек DMTCP (Distributed MultiThreaded Checkpointing).

Распределенные вычислительные системы, контрольные точки восстановления, отказоустойчивость, нрс

Короткий адрес: https://sciup.org/147159079

IDR: 147159079

Список литературы О восстановлении программ из контрольных точек

  • Хорошевский В.Г. Архитектура вычислительных систем/В.Г. Хорошевский. -М.: МГТУ им. Н.Э. Баумана, 2008. -520 с.
  • ТОР500 supercomputer site [Электронный ресурс].-Режим доступа: http://www.top500.org/. -Загл. с экрана. -яз. англ.
  • A survey of rollback-recovery protocols in message-passing systems/E.N. Elnozahy, L. Alvisi, Y.M. Wang, D.B. Johnson//ACM Computing Surveys. -2002. -V. 34, № 3. -P. 375 -408.
  • Ansel J. DMTCP: Transparent Checkpointing for Cluster Computations and the Desktop/J. Ansel, K. Arya, G. Cooperman//Proc. of IEEE International Parallel and Distributed Processing Symposium (IPDPS'09). -Rome, 2009. -P. 1 -12. -ISBN: 978-1-4244-3751-1.
  • Hargrove P.H. Berkeley Lab Checkpoint/Restart (BLCR) for Linux Clusters/P.H. Hargrove, J.C. Duell//In Proceedings of SCIENTIFIC DISCOVERY THROUGH ADVANCED COMPUTING (SciDAC 2006). -Denver, 2006. -V. 46. -P. 494 -499. -ISSN 1742-6588.
  • Checkpoint and migration of UNIX processes in the Condor distributed processing system/M. Litzkow, T. Tannenbaum, J. Basney, M. Livny//Technical report 1346, University of Wisconsin, Madison. -Wisconsin, 1997. -P. 8.
  • Libckpt: Transparent checkpointing under Unix/J.S. Plank, M. Beck, G. Kingsley, K. Li//In Proc. of the USENIX Winter 1995 Technical Conference. -New Orleans, 1995. -P. 213 -323.
  • The design and implementation of checkpoint/restart process fault tolerance for Open MPI/J. Hursey, J. M. Squyres, T. I. Mattox, A. Lumsdaine//In Proceedings of the 21st IEEE International Parallel and Distributed Processing Symposium (IPDPS). IEEE Computer Society. -Long Beach, 2007. -P. 1 -8. -ISBN: 1-4244-0910-1.
  • Application-transparent checkpoint/restart for MPI programs over InfiniBand/Q. Gao, W. Yu, W. Huang, D. K. Panda//Proceedings of the 2006 International Conference on Parallel Processing/IEEE Computer Society. -Washington, 2006. -P. 471 -478.
  • FT-MPI, Fault-Tolerant Metacomputing and Generic Name Services: A Case Study/D. Dewolfs, J. Broeckhove, V. Sunderam, G. Fagg//Lecture Notes in Computer Science, Springer Berlin. -Heidelberg, 2006. -P. 133 -140.
  • Temporal Debugging using URDB/A.M. Visan, A. Polyakov, P.S. Solanki, K. Arya, T. Denniston, G. Cooperman//2009. -Режим доступа: http://arxiv.org/abs/0910.5046vl.
Еще
Статья научная