Мелкоструктурный параллелизм и более высокая производительность процессорного ядра: преимущества векторного потокового процессора

Автор: Дикарев Николай Иванович, Шабанов Борис Михайлович, Шмелв Александр Сергеевич

Журнал: Программные системы: теория и приложения @programmnye-sistemy

Рубрика: Программное и аппаратное обеспечение распределенных и суперкомпьютерных систем

Статья в выпуске: 4 (43) т.10, 2019 года.

Бесплатный доступ

В настоящее время резервы в повышении производительности современных процессоров практически исчерпаны, что проявляется в отсутствии роста, как тактовой частоты, так и числа команд, выполняемых в такт, которые определяют скалярную производительность процессорного ядра. В разрабатываемом векторном процессоре с архитектурой управления потоком данных (векторном потоковом процессоре) производительность процессорного ядра может быть повышена до 256 флоп в такт на ядро, что в 8 раз выше по сравнению с последними процессорами Intel Xeon. Это достигается за счет более высокой доли векторных вычислений. В работе показано, что отношение реальной производительности к пиковой на программах битонной сортировки, умножения матриц и 2D Stencil у векторного потокового процессора выше, чем у лучших процессоров традиционной архитектуры.

Еще

Векторный процессор, архитектура управления потоком данных, многопроцессорная система с общей памятью, оценка производительности

Короткий адрес: https://sciup.org/143169808

IDR: 143169808   |   УДК: 004.272.25:004.272.44   |   DOI: 10.25209/2079-3316-2019-10-4-201-217

Fine-grained parallelism and higher core performance: advantages of vector dataflow processor

Currently, the reserves in increasing the performance of modern processors are almost exhausted. The stagnation is evidenced by the absence of growth, both the clock frequency and the number of instructions executed per clock, which determine the scalar performance of the processor core. In vector dataflow processor under development, processor core performance looks increased up to 256 flops per clock, which is eight times higher than the latest Intel Xeon processors due to a higher fraction of vector execution. We show that that vector dataflow processor has a higher ratio of real performance to peak on programs such as bitonic sorting, matrix multiplication, and 2D Stencil compared to the best traditional architecture processors.

Еще

Список литературы Мелкоструктурный параллелизм и более высокая производительность процессорного ядра: преимущества векторного потокового процессора

  • М. С. Клинов, С. Ю. Лапшина, П. Н. Телегин, Б. М. Шабанов. «Особенности использования многоядерных процессоров в научных вычислениях», Вестник УГАТУ, 16:6 (51) (2012), с. 25-31.
  • Arvind, R. S. Nikhil. “Executing a program on the MIT tagged-token data-flow architecture”, IEEE Transactions on Computers, 39:3, pp. 300-318. DOI: 10.1109/12.48862
  • G. V. Papadopoulos, K. R. Traub. “Multithreading: A revisionist view of dataflow architectures” (30 May 1991, Toronto, Canada), 1991, pp. 342-351. DOI: 10.1145/115953.115986
  • А. В. Климов, Н. Н. Левченко, А. С. Окунев, А. Л. Стемпковский. «Вопросы применения и реализации потоковой модели вычислений». II, МЭС-2016 (3-7 октября 2016 года), ИППМ РАН, М., 2016, с. 100-106.
  • Н. И. Дикарев, Б. М. Шабанов. «Векторный потоковый процессор», Известия ТРТУ, 2005, №10 (54), Тематический выпуск «Интеллектуальные и многопроцессорные системы», с. 80-85.
  • Н. И. Дикарев, Б. М. Шабанов, А. С. Шмелёв. «Векторный потоковый процессор: оценка производительности», Известия ЮФУ. Технические науки, 2014, №12 (161), Тематический выпуск: Суперкомпьютерные технологии, с. 36-46.
  • Н. И. Дикарев, Б. М. Шабанов, А. С. Шмелёв. «Использование „сдвоенного‟ умножителя и сумматора в векторном процессоре с архитектурой управления потоком данных», Программные системы: теория и приложения, 6:4(27) (2015), с. 227-241.
  • N. Satish, M. Harris, M. Garland. “Designing efficient sorting algorithms for manycore GPUs” (Rome, 23-29 May 2009), 2009, pp. 1-10.
  • DOI: 10.1109/IPDPS.2009.5161005
  • B. Bramas. “A Novel Hybrid Quicksort Algorithm Vectorized using AVX-512 on Intel Skylake”, International Journal of Advanced Computer Science and Applications, 8:10 (2017), pp. 337-344.
  • DOI: 10.14569/IJACSA.2017.081044
  • Н. И. Дикарев, Б. М. Шабанов, А. С. Шмелёв. «Быстрые алгоритмы сортировки для векторного потокового процессора», Материалы 5-й Всероссийской научно-технической конференции СКТ-2018. 1 (17-22 сентября 2018 г., с. Дивноморское), Изд-во ЮФУ, Ростов-на-Дону-Таганрог, 2018, с. 87-91.
  • Н. И. Дикарев, Б. М. Шабанов, А. С. Шмелёв. «Недостаточная пропускная способность памяти на программе Stencil: преимущество векторного потокового процессора», Программные системы: теория и приложения, 9:4(39) (2018), с. 399-415.
  • DOI: 10.25209/2079-3316-2018-9-4-399-415
  • Н. И. Дикарев, Б. М. Шабанов, А. С. Шмелёв. «Выбор оптимальной производительности ядра векторного потокового процессора», Материалы 4-й Всероссийской научно-технической конференции СКТ-2016, в 2 т. 1 (19-24 сентября 2016 г.), Изд-во ЮФУ, Ростов-на-Дону, 2016, с. 36-41.
Еще