Повышение энергоэффективности нейросетевых вычислений с использованием NVDLA на ПЛИС

Автор: Носкова Елизавета Сергеевна, Захаров Игорь Евгеньевич, Шкандыбин Юрий Николаевич, Рыкованов Сергей Георгиевич

Журнал: Компьютерная оптика @computer-optics

Рубрика: Численные методы и анализ данных

Статья в выпуске: 1 т.46, 2022 года.

Бесплатный доступ

На сегодняшний день актуальна проблема создания высокопроизводительных и энергоэффективных аппаратных платформ для решения задач искусственного интеллекта. Популярным решением этой проблемы является использование ускорителей глубокого обучения для запуска нейросетей, таких как графические процессорные устройства и тензорные процессорные устройства. Компания NVIDIA предлагает программный комплекс NVDLA, позволяющий конструировать нейросетевые ускорители на базе открытого исходного кода. Данная статья описывает полный цикл создания прототипа ускорителя NVDLA на ПЛИС, а также тестирование полученного решения путем запуска на нем нейронной сети resnet-50. В завершение предоставляется оценка производительности и энергопотребления прототипа NVDLA ускорителя относительно GPU и CPU, результаты которой показывают превосходство NVDLA по многим характеристикам.

Еще

Nvdla, плис, inference, нейросетевые ускорители

Короткий адрес: https://sciup.org/140290698

IDR: 140290698   |   DOI: 10.18287/2412-6179-CO-914

Список литературы Повышение энергоэффективности нейросетевых вычислений с использованием NVDLA на ПЛИС

  • Goodfellow I, Bengio Y, Courville A. Deep learning. Cambridge: The MIT Press; 2016.
  • Zacharov I, Arslanov R, Gunin M, Stefonishin D, Pavlov S, Panarin O, Maliutin A, Rykovanov SG, Fedorov M. "Zhores" - Petaflops supercomputer for data-driven modeling, machine learning and artificial intelligence installed in Skolkovo Institute of Science and Technology. Open Eng 2019; 9(1): 512-520.
  • Shaw DE, Deneroff MM, Dror RO, et al. Anton, a specialpurpose machine for molecular dynamics simulation. Commun ACM 2008; 51(7): 91-97.
  • Singer G. Deep Learning is coming of age. 2018. Source: (https://www.nextplatform.com/2018/10/18/deep-learning-is-coming-of-age/).
  • Merenda M, Porcaro C, Iero D. Machine learning for AI-enabled IoT devices: a review. Sensors 2020; 20(9): 2533.
  • Park J, Naumov M, Basu P, et al. Deep learning inference in facebook data centers: Characterization, performance optimizations and hardware implications. arXiv preprint arXiv: 1811.09886. 2018. Source: (https://arxiv.org/abs/1811.09886).
  • Mishra A, Nurvitadhi E, Cook J. Marr D. WRPN: Wide reduced-precision networks. ICLR (Poster) 2018.
  • Chen Y, Xie Y, Song L, Chen F, Tang T. A survey of accelerator architectures for deep neural networks. Engineering 2020; 6(3): 264-274.
  • Jouppi NP, Young C, Patil N, et al. In-datacenter performance analysis of a tensor processing unit. Proc 44th Annual Int Symposium on Computer Architecture 2017: 1-12.
  • Guo K, Zeng S, Yu J, Wang Y, Yang H. A survey of FPGA-based neural network accelerator. arXiv preprint arXiv: 1712.08934. 2017. Source:
  • NVDLA.
  • Jia Y, Shelhamer E, Donahue J, Karayev S, Long J, Girshick RB, Guadarrama S, Darrell T. Caffe: Convolu-tional architecture for fast feature embedding. Proc 22nd ACM Int Conf on Multimedia 2014: 675-678.
  • Tan Z, Waterman A, Cook H, Bird S, Asanovic K, Patterson D. A case for FAME: FPGA architecture model execution. ACM SIGARCH Computer Architecture News 2010; 38(3): 290-301.
  • BeagleV Forum. Source:
  • The economics of ASICs: At what point does a custom SoC become viable? Source:
  • revolution/article/21808278/the-economics-of-asics-at-what-point-does-a-custom-soc-become-viable).
  • Xilinx Zynq UltraScale+ MPSoCZCU104 evaluation kit Source:
  • Delbergue G, Burton M, Konrad F, Le Gal B, Jego C. QBox: An industrial solution for virtual platform simulation using QEMU and SystemC TLM-2.0. 8th European Congress on Embedded Real Time Software and Systems (ERTS 2016) 2016: hal-01292317.
  • The Xilinx Vivado. Source:
  • Farshchi F, Huang Q, Yun H. Integrating NVIDIA deep learning accelerator (NVDLA) with RISC-V SoC on FireSim. 2019 2nd Workshop on Energy Efficient Machine Learning and Cognitive Computing for Embedded Applications (EMC2) 2019: 21-25.
  • He K, Zhang X, Ren S, Sun J. Deep residual learning for image recognition. 2016 IEEE Conf on Computer Vision and Pattern Recognition (CVPR) 2016: 770-778.
  • UltraScale+ FPGA product tables and product selection guide. Source:
  • GeForce GTX 1080 Ti. Source:
  • GeForce RTX 2080 Ti. Source:
  • Second Generation Intel Xeon scalable processors datasheet. Source:
  • Likwid perfctr. Source:
  • TechPowerUp. NVIDIA GeForce RTX 2080 Ti. Source:
  • TechPowerUp. NVIDIA GeForce GTX 1080 Ti. Source:
  • Zakharov IE, Panarin OA, Rykovanov SG, Zagidullin RR, Malyutin AK, Shkandybin YuN, Ermekova AE. Monitoring applications on the ZHORES cluster at Skoltech. Pro- [29] Panarin OA, Zacharov IE. Monitoring mobile information gram Systems: Theory and Applications 2021; 12(2:49): processing systems. Russian Digital Libraries Journal
Еще
Статья научная