NVIDIA CUDA入門(4)GPU體系架構概述

GPU 體系架構概述

爲什麼需要GPU?

應用的需求越來越高

FLOPS:每秒鐘可以進行的浮點數預算

GFLOPS:每秒鐘可以運行十億條浮點數運算

TFLOPS:一萬億次

GPU是一個異構的多處理器芯片,爲圖形圖像處理優化

橙色的是渲染器(核心爲ALU計算單元)0

 

三種方法提升GPU的處理速度:

1、16個核共享一條指令流,如果不是一條,需要額外的輔助控制機構,指令流共享,多個程序片源共享指令流。

2、3、增加ALU,SMD,128個程序片元同時執行,併發16路指令流。

SIMD處理並不總是需要顯式的SIMD指令:顯示的向量運算指令、標量指令,但是硬件進行矢量化。

停滯:當沒有準備好時需要

3、大量的獨立片元相互切換,通過片元切換掩藏延遲

上下文存儲空間:上下文存儲池

 

GPU設計舉例

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章