Моделирование отказов в высокопроизводительных вычислительных системах в рамках стандарта MPI и его расширения ULFM
Автор: Бондаренко Алексей Алексеевич, Якобовский Михаил Владимирович
Рубрика: Информатика, вычислительная техника и управление
Статья в выпуске: 3 т.4, 2015 года.
Бесплатный доступ
Рассматривается проблема выполнения длительных расчетов на высокопроизводительных вычислительных системах, компоненты которых подвержены отказам. Для программ, запускаемых на подобных системах, существенным является возможность обработки отказов путем автоматического продолжения расчета на оставшихся работоспособных узлах системы. Возможность обработки отказов предусматривается в разрабатываемом стандарте MPI 3.1. В работе кратко описывается библиотека моделирования отказов для тестирования отказоустойчивых алгоритмов, использующих функционал разрабатываемого стандарта MPI 3.1. Описана техника отказоустойчивости на примере тестовой задачи. Проведено сравение записи контрольных точек в оперативную память и в распределенную файловую систему.
Параллельные вычисления, отказоустойчивость, контрольные точки, моделирование отказов
Короткий адрес: https://sciup.org/147160570
IDR: 147160570 | DOI: 10.14529/cmse150301
Список литературы Моделирование отказов в высокопроизводительных вычислительных системах в рамках стандарта MPI и его расширения ULFM
- Cappello, F. Toward Exascale Resilience: 2014 update/F. Cappello, A. Geist, W. Gropp, S. Kale, B. Kramer, M. Snir//Supercomputing frontiers and innovations. -2014. -Vol. 1, No. 1. -P. 1-28. DOI: DOI: 10.14529/jsfi140101
- Bland, W. Post-failure recovery of MPI communication capability: Design and rationale/W. Bland, A. Bouteiller, T. Hérault, G. Bosilca, J. Dongarra//International Journal of High Performance Computing Applications. -2013. -Vol. 27, No. 3. -P. 244-254. DOI: DOI: 10.1177/1094342013488238
- ICL Fault Tolerance URL: http://fault-tolerance.org/ulfm/ulfm-specification (дата обращения: 01.03.2015).
- Бондаренко, А.А. Обеспечение отказоустойчивости высокопроизводительных вычислений с помощью локальных контрольных точек/А.А. Бондаренко, М.В. Якобовский//Вестник Южно-Уральского государственного университета. Серия «Вычислительная математика и информатика». -2014. -Том. 3, No. 3. -С. 20-36. DOI: DOI: 10.14529/cmse140302
- Scientific Cluster of Keldysh Institute of Applied Mathematics RAS. URL: http://imm6.keldysh.ru/~informer/(дата обращения: 01.03.2015).