Опыт разработки коммуникационной сети суперкомпьютера «СКИФ-аврора»

Автор: Адамович Игорь Алексеевич, Климов Андрей Валентинович, Климов Юрий Андреевич, Орлов Антон Юрьевич, Шворин Артем Борисович

Журнал: Программные системы: теория и приложения @programmnye-sistemy

Статья в выпуске: 3 (3) т.1, 2010 года.

Бесплатный доступ

В данной статье обсуждается опыт реализации коммуникационной сети с топологией 3D-тор для суперкомпьютера «СКИФ-Аврора». Авторами выполнена разработка всех уровней сетевой инфраструктуры от схемотехники сетевых адаптеров, реализованных в ПЛИС, до пользовательских библиотек. Приводятся соображения о целесообразности самостоятельной разработки суперкомпьютерных сетей в сравнении с покупкой готовых решений. Показано, что по некоторым параметрам общедоступные на рынке сетевые решения далеки от совершенства, и некоторые их характеристики могут быть значительно превзойдены при самостоятельной разработке. В качестве иллюстрации приводится сравнение нашей разработки с сетью InfiniBand по темпу выдачи сообщений, и обсуждаются некоторые технические приемы, позволившие добиться высокого результата.

Еще

Суперкомпьютеры, сеть, плис, маршрутизация, 3d-тор

Короткий адрес: https://sciup.org/14335879

IDR: 14335879

Thoughts on the development of SKIF-Aurora supercomputer interconnect

This article presents speculations on the experience authors have got while developing the 3D-torus interconnect of SKIF-Aurora supercomputer. Authors have implemented all the levels of network infrastructure from the schematics of network adapters up to the support of communication libraries. Some advantages of self-made networks over the commercially available off-the-shelf solutions are discussed. We show that the last ones can be significantly surpassed in some aspects by careful engineering and implementation. As an example we compare message rate characteristics in our network and in InfiniBand.

Еще

Список литературы Опыт разработки коммуникационной сети суперкомпьютера «СКИФ-аврора»

  • Абрамов С. М., Заднепровский В. Ф., Шмелев А. Б., Московский А. А., "Супер ЭВМ ряда 4 семейства СКИФ: штурм вершины суперкомпьютерных технологий", Параллельные вычислительные технологии, Труды Международной научной конференции (30 марта-3 апреля 2009 г., г. Нижний Новгород), Изд. Нижегородского государственного университета им. Н. И. Лобачевского, Нижний Новгород, 2009, 5-16
  • Климов Ю.А., Орлов А. Ю., Шворин А. Б., "Темп выдачи сообщений как мера качества коммуникационной сети", Научный сервис в сети Интернет: суперкомпьютерные центры и задачи, Труды Международной суперкомпьютерной конференции (20-25 сентября 2010 г., г. Новороссийск), Изд-во МГУ, Москва, 2010, 414-417
  • Орлов А. Ю., Шворин А. Б., "О реализации в ПЛИС маршрутизатора высокопроизводительной сети", Научный сервис в сети Интернет: масштабируемость, параллельность, эффективность, Труды Всероссийской суперкомпьютерной конференции (21-26 сентября 2009 г., г. Новороссийск), Изд-во МГУ, Москва, 2009, 208-210
  • Лацис А. О., Вычислительная система МВС-Экспресс, http://www.kiam.ru/MVS/research/mvs_express.html
  • Андреев С. С., Дбар С. А., Лацис А. О., Плоткина Е. А., "Система программирования Автокод HDL и опыт ее применения для схемной реализации численных методов в FPGA", Научный сервис в сети Интернет: масштабируемость, параллельность, эффективность, Труды Всероссийской суперкомпьютерной конференции (21-26 сентября 2009 г., г. Новороссийск), Изд-во МГУ, Москва, 2009, 237
  • Корж А. А., "Результаты масштабирования бенчмарка NPB UA на тысячи ядер суперкомпьютера Blue Gene/P с помощью PGAS-расширения OpenMP", Вычислительные методы и программирование, 2010, №11, 31-41
  • Adiga N. R., Blumrich M. A., Chen D., Coteus P., Gara A., Giampapa M. E., Heidelberger P., Singh S., Steinmacher-Burow B. D., Takken T., Tsao M., Vranas P., "Blue Gene/L Torus Interconnection Network", IBM J. Research and Development, 2005
  • Duato J., "A necessary and sufficient condition for deadlock-free routing in wormhole networks", IEEE Transactions on Parallel and Distributed Systems, 6 (1995), 1055-1067
  • Puente V., Izuy C., Beivide R., Gregorio J. A., Vallejo F., Prellezo J. M., "The Adaptive Bubble Router", Journal of Parallel and Distributed Computing, 61:9 (2001),1180-1208
  • Scott S. L., Thorson G. M., "The Cray T3E Network: Adaptive Routing in a High Performance 3D Torus", HOT Interconnects IV, Stanford University, 1996
  • Набор тестов Intel MPI Benchmarks (IMB), http://software.intel.com/en-us/articles/intel-mpi-benchmarks/
  • Набор тестов HPC Challenge Benchmark, http://icl.cs.utk.edu/hpcc/
  • Набор тестов NAS Parallel Benchmarks (NPB), http://www.nas.nasa.gov/Resources/Software/npb.html
  • Тест Bandwidth, http://botik.ru/~klimov/bandwidth.tgz
  • Altera Stratix IV FPGA: transceiver overview, http://www.altera.com/products/devices/stratix-fpgas/stratix-iv/transceivers/stxiv-transceivers.html
  • Berkeley Open Infrastructure for Network Computing, http://boinc.berkeley.edu/
  • Message Passing Interface (MPI), http://www.mpi-forum.org/
  • SHMEM application programming interface, http://www.shmem.org/
Еще