Методы обеспечения отказоустойчивости в библиотеке шаблонных классов C++ для распараллеливания T-Sim
Автор: Тютляева Екатерина Олеговна, Московский Александр Александрович
Журнал: Программные системы: теория и приложения @programmnye-sistemy
Статья в выпуске: 3 (7) т.2, 2011 года.
Бесплатный доступ
В работе рассматриваются проблемы отказоустойчивости параллельных приложений при работе на распределенных вычислительных установках. Увеличение масштабов современных вычислительных систем приводит к увеличению вероятности отказа отдельных элементов системы. В ряде случаев вычислительные алгоритмы, такие как генетические алгоритмы, алгоритмы, использующие метод Монте–Карло и т.п., допускают возможность отказа одного или нескольких элементов. В статье предлагаются методы для реализации таких алгоритмов и обеспечения их работоспособности при условии программных и аппаратных сбоев на вычислительных узлах. В рамках библиотеки С++ T-Sim разработан пример редукционного (монотонного) объекта, а также нескольких альтернативных механизмов перезапуска заданий. Проведены пробные отказоустойчивые реализации алгоритма.
Отказоустойчивость, локальная синхронизация, монотонный объект, распределенные системы, шаблонные классы с++
Короткий адрес: https://sciup.org/14335909
IDR: 14335909
Список литературы Методы обеспечения отказоустойчивости в библиотеке шаблонных классов C++ для распараллеливания T-Sim
- Рейтинг ТОП-500, Ноябрь, 2010, http://www.top500.org/lists/2010/11.
- Baxter D. Developing Fault-tolerant Software. A shift in design paradigms is needed to accommodate hardware failure//Scientific Computing, 2010.
- Plank J. S., Li K. Faster checkpointing with n+1 parity//FTCS, 1994, p. 288-297.
- Plank J. S., Li K., Puening M. A. Diskless checkpointing//IEEE Trans. Parallel Distrib. Syst., 1998. 9, no. 10, p. 972-986.
- Cappello F., Geist A., Gropp B., Laxmikant V. K., Kramer B., Snir M. Toward Exascale Resilience//International Journal of High Performance Computing Applications, November, 2009. 23, p. 374-388.
- Geist A., Engelmann C. Development of Naturally Fault Tolerant Algorithms for Computing on 100,000 Processors//Parallel Computing, 2002, http://www.csm.ornl.gov/~geist/Lyon2002-geist.pdf.
- Search for ExtraTerrestrial Intelligence at home. University of California, 2011, http://setiathome.berkeley.edu/.
- Folding@home. Vijay Pande and Stanford University, 2010, http://folding.stanford.edu/.
- Sterling T. Enabling Exascale Computing through the ParalleX execution model//ECMWF Workshop, 2010.
- Sterling T. An Overview of Exascale Architecture Challenges//SC08 Workshop, 2008.
- Московский А. А. T-Sim -библиотека для параллельных вычислений на основе подхода Т-системы//Международная конференция «Программные системы: теория и приложения»: Наука-Физматлит, октябрь 2006, c. 183-193.