GPU上大規模稀疏矩陣特徵值計算高效算法之一——GPU介紹

原創

_Bob908

2020-06-24 08:40

GPU主要特點

1. 高吞吐量。

2. 擁有數百個硬件處理單元，性能達到1Tflops。

3. 每個處理單元深度多線程，即使有的線程被stall了，GPU還能夠繼續正常執行。

4. 高memory帶寬。

GPU結構特性

1）硬件模型

2）線程塊網絡

3）存儲器層次結構

GPU工作模式

1）CPU 具有獨立的內存和寄存器,GPU也具有獨立的顯存和寄存器。CPU作爲主控制器,CPU和 GPU 協同處理任務,GPU主要處理可以高度並行的數據處理任務,CPU則負責邏輯處理和串行計算相關任務。

2）GPU上的程序被稱爲內核函數,也叫kernel。kernel是並行執行的程序段。在一段程序中可以有多個內核函數,每個內核函數內部都是並行執行的,但是各個kernel之間確是是串行執行的,其中還可以穿插CPU代碼段。

3）CUDA程序執行步驟:CPU完成初始化工作,將參與並行運算的數據拷貝到顯存中,GPU上啓動內核函數,在GPU上執行並行運算程序,GPU運算完成後將數據結果由顯存傳送回CPU內存。在程序設計中應儘量少使用分配內存,拷貝數據等涉及到CPU和 GPU 數據交換的這些命令。GPU的硬件特性使得block與block之間的通信很難,但是CUDA中的全局存儲器允許多個GPU或者同一個GPU的多個block同時對一塊存儲空間進行訪問。

GPU編程模型

1）CUDA中的基本邏輯執行單位:網格(grid)、線程塊(block)、線程(thread)和線程組(warp )。

2）一個內核函數對應一個網格。一個網格中有多個block,block是內核函數執行的基本單位,線程塊之間是無序並行執行的,並且不同的線程塊之間是沒辦法相互通信的。

3）一個block可最多由512個線程構成。線程是CUDA編程模型中可以分配的最小單位,也是資源最終的持有者。每個線程都有獨立的register和 local memory,同一個線程塊的線程之間可以相互進行細粒度通信。

4）warp是 CUDA 程序運行時的實際執行單位。CUDA架構中一個warp由 32 個線程組成。

5）GPU編程有兩個主要平臺，一個是OpenCL，編程方式類似OpenGL的產業標準，還有另一個是爲了C/C++ 的CUDA，在NVIDIA的GPU上編程。

GPU的適用範圍

1. 內核中有很多並行線程的應用。

2. 對於線程間的數據交換都發生在kernel調度空間中的相鄰線程之間的應用，因爲這樣就可以用到per-block shared memory。

3. 數據並行的應用，多個線程做相似工作，循環是數據並行的主要來源。

4. 做同步操作較少的應用。

什麼應用不適合GPU

1. 並行度小的應用，如需要的線程數小於100個，那麼使用GPU加速效果不明顯。

2. 不規則的任務並行---儘管應用需要很多線程，但是這些線程都做不同的工作，那麼GPU不能得到有效的利用。不過這也依賴於具體工作，多久對線程調度一次，加速的可能仍然存在。

3. 頻繁的全局同步，這要求全局的barrier，帶來很大性能開銷。

4. 在線程之間，會出現隨機的點對點同步的應用。GPU對這個的支持不好，通常需要在每次同步的時候做一個全局barrier，如果要利用GPU，最好重構算法避免出現這個問題。

5. 要求計算量（相比於數據傳輸量）少的應用。儘管在CPU+GPU計算結構中，GPU可以帶來計算性能的提升，但是這些提升都被向GPU傳輸數據所消耗的實踐覆蓋了。舉個例子，對於兩個向量求和運算，如果非常大的向量的話，一般都選擇在CPU上算，否則傳輸到GPU上的時間開銷很大。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

GPU上大規模稀疏矩陣特徵值計算高效算法之一——GPU介紹

GPU主要特點

GPU結構特性

GPU工作模式

GPU編程模型

GPU的適用範圍

什麼應用不適合GPU

一鍵自動化博客發佈工具,用過的人都說好(頭條篇)

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

01 穩定性（一）如何應對事故並做好覆盤？

線程池那些坑爹的參數-核心線程數&最大線程數&工作隊列

Stream流常用方法總結

數據挖掘中的分類算法比較

分類算法之二——特徵提取與特徵選擇

知己知彼，IT公司對數據挖掘相關從業者的的要求

分類算法之一——數據預處理

Hadoop相關面試題（一）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結