GPU 體系架構概述
爲什麼需要GPU?
應用的需求越來越高
FLOPS:每秒鐘可以進行的浮點數預算
GFLOPS:每秒鐘可以運行十億條浮點數運算
TFLOPS:一萬億次
GPU是一個異構的多處理器芯片,爲圖形圖像處理優化
橙色的是渲染器(核心爲ALU計算單元)0
三種方法提升GPU的處理速度:
1、16個核共享一條指令流,如果不是一條,需要額外的輔助控制機構,指令流共享,多個程序片源共享指令流。
2、3、增加ALU,SMD,128個程序片元同時執行,併發16路指令流。
SIMD處理並不總是需要顯式的SIMD指令:顯示的向量運算指令、標量指令,但是硬件進行矢量化。
停滯:當沒有準備好時需要
3、大量的獨立片元相互切換,通過片元切換掩藏延遲
上下文存儲空間:上下文存儲池
GPU設計舉例