Методы обеспечения отказоустойчивости в библиотеке шаблонных классов C++ для распараллеливания T-Sim
Автор: Тютляева Екатерина Олеговна, Московский Александр Александрович
Журнал: Программные системы: теория и приложения @programmnye-sistemy
Статья в выпуске: 3 (7) т.2, 2011 года.
Бесплатный доступ
В работе рассматриваются проблемы отказоустойчивости параллельных приложений при работе на распределенных вычислительных установках. Увеличение масштабов современных вычислительных систем приводит к увеличению вероятности отказа отдельных элементов системы. В ряде случаев вычислительные алгоритмы, такие как генетические алгоритмы, алгоритмы, использующие метод Монте–Карло и т.п., допускают возможность отказа одного или нескольких элементов. В статье предлагаются методы для реализации таких алгоритмов и обеспечения их работоспособности при условии программных и аппаратных сбоев на вычислительных узлах. В рамках библиотеки С++ T-Sim разработан пример редукционного (монотонного) объекта, а также нескольких альтернативных механизмов перезапуска заданий. Проведены пробные отказоустойчивые реализации алгоритма.
Отказоустойчивость, локальная синхронизация, монотонный объект, распределенные системы, шаблонные классы с++
Короткий адрес: https://sciup.org/14335909
IDR: 14335909 | УДК: 004.052.3
T-Sim fault tolerance
This paper addresses fault-tolerance challenges in distributed computing environment. Increasing scalability of modern computational clusters leads to an increasing probability of an interrupt occuring. In a number of cases computational algorithms, such as genetic algorithms, Monte Carlo based algorithms, have the mathematical properties that they get the correct answer despite the occurrence of faults in the system. This paper proposes methods for implementation such class of algorithms despite software and hardware faults. Some example of monotonous reducing object is implemented using C++ template class library T-Sim. Moreover, some test realizations are implemented.
Список литературы Методы обеспечения отказоустойчивости в библиотеке шаблонных классов C++ для распараллеливания T-Sim
- Рейтинг ТОП-500, Ноябрь, 2010, http://www.top500.org/lists/2010/11.
- Baxter D. Developing Fault-tolerant Software. A shift in design paradigms is needed to accommodate hardware failure//Scientific Computing, 2010.
- Plank J. S., Li K. Faster checkpointing with n+1 parity//FTCS, 1994, p. 288-297.
- Plank J. S., Li K., Puening M. A. Diskless checkpointing//IEEE Trans. Parallel Distrib. Syst., 1998. 9, no. 10, p. 972-986.
- Cappello F., Geist A., Gropp B., Laxmikant V. K., Kramer B., Snir M. Toward Exascale Resilience//International Journal of High Performance Computing Applications, November, 2009. 23, p. 374-388.
- Geist A., Engelmann C. Development of Naturally Fault Tolerant Algorithms for Computing on 100,000 Processors//Parallel Computing, 2002, http://www.csm.ornl.gov/~geist/Lyon2002-geist.pdf.
- Search for ExtraTerrestrial Intelligence at home. University of California, 2011, http://setiathome.berkeley.edu/.
- Folding@home. Vijay Pande and Stanford University, 2010, http://folding.stanford.edu/.
- Sterling T. Enabling Exascale Computing through the ParalleX execution model//ECMWF Workshop, 2010.
- Sterling T. An Overview of Exascale Architecture Challenges//SC08 Workshop, 2008.
- Московский А. А. T-Sim -библиотека для параллельных вычислений на основе подхода Т-системы//Международная конференция «Программные системы: теория и приложения»: Наука-Физматлит, октябрь 2006, c. 183-193.