Моделирование параллельной работы ядер векторного потокового процессора с общей памятью

Автор: Дикарев Николай Иванович, Шабанов Борис Михайлович, Шмелв Александр Сергеевич

Журнал: Программные системы: теория и приложения @programmnye-sistemy

Рубрика: Программное и аппаратное обеспечение для супер ЭВМ

Статья в выпуске: 1 (36) т.9, 2018 года.

Бесплатный доступ

Процессор с архитектурой управления потоком данных может выполнять до 16 команд в такт по сравнению с 4--6 командами в такт у лучших процессоров фон-неймановской архитектуры. Моделирование векторного потокового процессора показало, что его производительность может быть доведена до 256 флоп в такт на ядро, и при изготовлении на кристалле с современными технологическими нормами можно разместить до 4 таких ядер. Приводятся результаты моделирования системы из нескольких ядер векторного потокового процессора с общей памятью на программах перемножения матриц и решения систем дифференциальных уравнений 2D Stencil. Показано, что программа перемножения матриц масштабируется пропорционально числу ядер процессора, в то время как производительность 2D Stencil ограничивается пропускной способностью к общей оперативной памяти

Еще

Архитектура управления потоком данных, перемножение матриц, оценка производительности, суперкомпьютер, векторный процессор

Короткий адрес: https://sciup.org/143164297

IDR: 143164297   |   УДК: 004.27   |   DOI: 10.25209/2079-3316-2017-9-1-37-52

Simulation of multicore vector dataflow processor with shared memory

A Dataflow processor can execute up to 16 instructions per cycle compared to 4 to 6 instructions of the best von Neumann processors. Simulation of the vector dataflow processor (VDP) showed that it is possible to raise its core vector performance up to 256 flops per clock, and using modern manufacturing process to implement up to 4 such cores on a single die. Simulation results of the matrix multiplication program and 2D Stencil on double core VDP with shared memory are given in this paper. It is shown that the matrix multiplication program scales well on VDP, while the performance of 2D Stencil is limited by the shared memory bandwidth. (In Russian). (in Russian).

Еще

Список литературы Моделирование параллельной работы ядер векторного потокового процессора с общей памятью

  • Д. Л. Хеннеси, Д. А. Паттерсон. Компьютерная архитектура. Количественный подход, Пер. с англ., под ред. А. К. Кима, 5-е изд-е., Техносфера, М., 2016, 936 с., ISBN:978-0-12-383872-8.
  • Н. И. Дикарев, Б. М. Шабанов. Архитектура высокопроизводительных вычислительных систем, Фазис, М., 2015, 108 с.
  • S. Momose, et al. "The brand-new vector supercomputer, SX-ACE", ISC 2014: Supercomputing, Lecture Notes in Computer Science, vol. 8488. P. 199-214.
  • G. V. Papadopoulos, K. R. Traub. "Multithreading: A revisionist view of dataflow architectures", Proc. 18-th Ann. Symp. on Computer Architecture, 1991. P. 342-351.