Моделирование отказов в высокопроизводительных вычислительных системах в рамках стандарта MPI и его расширения ULFM

Бесплатный доступ

Рассматривается проблема выполнения длительных расчетов на высокопроизводительных вычислительных системах, компоненты которых подвержены отказам. Для программ, запускаемых на подобных системах, существенным является возможность обработки отказов путем автоматического продолжения расчета на оставшихся работоспособных узлах системы. Возможность обработки отказов предусматривается в разрабатываемом стандарте MPI 3.1. В работе кратко описывается библиотека моделирования отказов для тестирования отказоустойчивых алгоритмов, использующих функционал разрабатываемого стандарта MPI 3.1. Описана техника отказоустойчивости на примере тестовой задачи. Проведено сравение записи контрольных точек в оперативную память и в распределенную файловую систему.

Еще

Параллельные вычисления, отказоустойчивость, контрольные точки, моделирование отказов

Короткий адрес: https://sciup.org/147160570

IDR: 147160570   |   DOI: 10.14529/cmse150301

Список литературы Моделирование отказов в высокопроизводительных вычислительных системах в рамках стандарта MPI и его расширения ULFM

  • Cappello, F. Toward Exascale Resilience: 2014 update/F. Cappello, A. Geist, W. Gropp, S. Kale, B. Kramer, M. Snir//Supercomputing frontiers and innovations. -2014. -Vol. 1, No. 1. -P. 1-28. DOI: DOI: 10.14529/jsfi140101
  • Bland, W. Post-failure recovery of MPI communication capability: Design and rationale/W. Bland, A. Bouteiller, T. Hérault, G. Bosilca, J. Dongarra//International Journal of High Performance Computing Applications. -2013. -Vol. 27, No. 3. -P. 244-254. DOI: DOI: 10.1177/1094342013488238
  • ICL Fault Tolerance URL: http://fault-tolerance.org/ulfm/ulfm-specification (дата обращения: 01.03.2015).
  • Бондаренко, А.А. Обеспечение отказоустойчивости высокопроизводительных вычислений с помощью локальных контрольных точек/А.А. Бондаренко, М.В. Якобовский//Вестник Южно-Уральского государственного университета. Серия «Вычислительная математика и информатика». -2014. -Том. 3, No. 3. -С. 20-36. DOI: DOI: 10.14529/cmse140302
  • Scientific Cluster of Keldysh Institute of Applied Mathematics RAS. URL: http://imm6.keldysh.ru/~informer/(дата обращения: 01.03.2015).
Статья научная