Оценка локальности параллельных алгоритмов, реализуемых на графических процессорах

Бесплатный доступ

Исследуется задача получения блоков операций и потоков операций параллельного алгоритма, приводящих к меньшему числу обращений к глобальной памяти и к эффективному использованию параллельными потоками вычислений кэшей и разделяемой памяти графического процессора. Сформулированы и доказаны утверждения, позволяющие оценить объем коммуникационных операций, порождаемых альтернативными вариантами задания размеров блоков вычислений, а также минимизировать число промахов кэша за счет использования временной и пространственной локальности данных с учетом размера и длины строк кэша. Исследования конструктивны и допускают программную реализацию для практического использования.

Еще

Параллельные вычисления, графический процессор, минимизация объема коммуникационных операций, временная локальность, пространственная локальность

Короткий адрес: https://sciup.org/147160603

IDR: 147160603   |   DOI: 10.14529/cmse160307

Список литературы Оценка локальности параллельных алгоритмов, реализуемых на графических процессорах

  • Лиходед Н.А. Полещук М.А. Метод ранжирования параметров размера блоков вычислений параллельного алгоритма//Доклады НАН Беларуси. 2015. Т. 59, № 4. С. 25-33.
  • Kandemir M., Ramanujam J., Irwin M., Narayanan V., Kadayif I., Parikh A. A compiler based approach for dynamically managing scratch-pad memories in embedded systems//IEEE Transactions on Computer-Aided Design. 2004. Vol. 23, No. 2. P. 243-260.
  • Baskaran M., Bondhugula U., Krishnamoorthy S., Ramanujam J., Rountev A., Sadayappan P. Automatic data movement and computation mapping for multi-level parallel architectures with explicitly managed memories//Proceedings of the 13th ACM SIGPLAN Symposium on Principles and practice of parallel programming. Salt Lake City, USA, February 20-23, 2008.
  • Воеводин Вл.В., Воеводин Вад.В. Спасительная локальность суперкомпьютеров//Открытые системы. 2013. № 9. С. 12-15.
  • Воеводин В.В., Воеводин В.Вл. Параллельные вычисления. Санкт-Петербург: БХВ-Петербург, 2002. 608 с.
  • Xue J., Cai W. Time-minimal tiling when rise is larger than zero//Parallel Computing. 2002. Vol. 28, No. 5. P. 915-939.
  • Baskaran M., Ramanujam J., Sadayappan P. Automatic C-to-CUDA code generation for affine programs//Proceedings of the Compiler Construction, 19th International Conference. Part of the Joint European Conferences on Theory and Practice of Software. Paphos, Cyprus, March 20-28, 2010.
  • Bondhugula U., Baskaran M., Krishnamoorthy S., Ramanujam J., Rountev A., Sadayappan P. Automatic transformations for communication-minimized parallelization and locality optimization in the polyhedral model//Lecture notes in computer science. 2008. No. 4959. P. 132-146.
  • Venkataraman G., Sahni S., Mukhopadhyaya S. A blocked all-pairs shortest-paths algorithm//J. Exp. Algorithmics. 2003. Vol. 8. P. 2.2.
  • Katz G.J., Kider J. All-pairs shortest-paths for large graphs on the GPU//Proceedings of the 23rd ACM SIGGRAPH/EUROGRAPHICS symposium on Graphics hardware. Sarajevo, Bosnia and Herzegovina: Eurographics Association. 2008. P. 47-55.
  • Lund B.D., Smith J.W. A multi-stage cuda kernel for floyd-warshall//CoRR abs/1001.4108. 2010.
Еще
Статья научная