英特爾圖形處理器第8代架構

英特爾圖形處理器第8代架構

The Compute Architecture of Intel®Processor Graphics Gen8

一.概述
在這裏插入圖片描述

  1. 簡介

瞭解英特爾體系結構的軟件、硬件和產品處理器圖形第8代。與運行相關的架構特性,英特爾處理器圖形上的計算應用程序。

這個Gen8更新了“Intel的計算體系結構”中的大部分內容,處理器圖形Gen7.5“使其能夠獨立運行。

英特爾的片上集成處理器圖形體系結構提供卓越的實時3D渲染和媒體性能。然而,它的底層計算架構也提供了接近teraFLOPS性能的通用計算能力。構建英特爾處理器圖形處理器的整數計算能力、分層的高帶寬內存層次結構和深度集成具有片上CPU和其他片上系統(SoC)設備。

它是一個模塊,實現從手機到平板電腦和筆記本電腦,高端臺式機和服務器。
2. 什麼是英特爾圖形處理器?

英特爾處理器圖形是指提供圖形、計算、媒體和英特爾許多SoC產品的顯示功能。在Intel,架構師通俗地稱爲Intel處理器圖形體系結構簡單地稱爲“gen”,簡稱gen。
特定的一代
對於第6代,英特爾處理器圖形體系結構可以稱爲“gen6”,或者“gen7”用於第7代等品牌產品Intel HD graphics 4600、Intel Iris™繪圖5100和Intel Iris Pro graphics 5200都是從Intel處理器graphics實例派生的gen7.5構架。

Intel HD graphics 5300、Intel Iris graphics 6100和Intel Iris Pro graphics6200是圖形組件基於Intel的處理器產品的示例處理器圖形gen8體系結構。本文只關注計算架構,英特爾處理器圖形第8代的幾個方面。

用gen8這個詞來作速記,計算架構是指那些計算組件。本文也簡要介紹討論Intel Core中Intel處理器圖形gen8的實例化™ i5處理器和同樣在Intel Core M處理器中用於低功耗外形。
在這裏插入圖片描述
二.SOC 架構ARCHITECTURE

本節介紹Intel圖形處理器是其組件的SoC體系結構。
在這裏插入圖片描述
The Compute Architecture of Intel Processor Graphics Gen8 v1.1

1. SOC架構

Intel Core M處理器是集成多個CPU核的複雜SoC,Intel圖形處理器和其他潛在的固定功能都在一個共享的硅芯片上。構建實現多個唯一的時鐘域,這些時鐘域已被劃分爲每個CPU核心時鐘域、處理器圖形時鐘域和環形互連時鐘域。這個SoC體系結構設計爲可擴展到一系列產品,但仍然能夠將SoC中各組件之間的有效佈線。

  1. 環形互連

CPU核心、緩存和英特爾處理器圖形之間的片上總線是基於環的,爲每個連接的“代理”提供專用本地接口的拓撲結構。這個SoC環interconnect是一個雙向環,具有32字節寬的數據總線,具有請求、窺探和確認。每個片上CPU核心都被視爲唯一的代理。

類似地,Intel圖形處理器被視爲互連環上的唯一代理。一個系統代理也連接到環,環捆綁了DRAM內存管理單元、顯示控制器和其他片外I/O控制器,如PCI Express。重要的是,與CPU核心之間和與英特爾處理器圖形之間的芯片系統內存事務,是通過這種互連、系統代理和統一的DRAM內存控制器。

  1. SHARED LLC

一些SoC產品包括一個共享的末級緩存(LLC),它也連接到雙向環。在這樣的soc中,每個片上的核心被分配一個緩存片,並且該緩存片是作爲環上的唯一代理連接。但是,所有的切片作爲一個單獨的緩存,儘管是共享和分佈式緩存。地址哈希方案路由數據請求分配給其地址的緩存片。此分佈式SHARED LLC也與英特爾共享圖形處理器。對於CPU內核和英特爾圖形處理器,LLC都希望減少系統DRAM和提供更高有效帶寬,減少延遲。
4. 可選EDRAM

一些SoC產品包括嵌入到SoC芯片中的DRAM(EDRAM)封裝。例如,基於Intel圖形處理器gen7.5的Intel Iris Pro 5200和基於Intel處理器圖形gen8的Intel Iris Pro 6200產品捆綁128兆字節EDRAM。EDRAM在自己的時鐘域中工作,最高可工作1.6GHz。這個EDRAM有獨立的讀寫總線,每個總線都能進行32字節/EDRAM循環。

EDRAM支持許多應用程序,包括低延遲顯示錶面刷新。對於兩個CPU,Intel圖形處理器gen8、EDRAM的體系結構和計算體系結構,通過充當LLC,Compute數據後面的大型“victim cache緩存”來支持內存層次結構。

首先填充LLC。從LLC緩存線Cacheline victims將泄漏到EDRAM中。如果以後對存儲在EDRAM中的緩存線進行讀/寫操作,它們很快被重新加載到LLC中,並且讀/寫然後照常進行。

三.Gen8圖形處理器架構

THE COMPUTE ARCHITECTURE OF INTEL PROCESSOR
GRAPHICS GEN8

  1. 英特爾圖形處理器第8代中的關鍵改進

英特爾處理器圖形gen8在整個微體系結構和支持軟件。它還包括幾個主要的新功能和英特爾的變化圖形處理器gen7.5。簡而言之,這些變化包括:

· Gen8’s micro-architecture throughput for 32-bit integer computation
has doubled.

· Gen8 has added native 16-bit floating-point support to the execution units.

· For some gen8-based products, the write bandwidth from GTI has
doubled.

· Coherent shared virtual memory between CPU cores and Intel
processor graphics gen8 has been implemented, enabling seamless sharing of pointer rich data structures.

· For many gen8-based products, 8 execution units are now
instantiated per subslice. This can improve compute throughput as data port and sampler are now shared by fewer execution units. (Gen 7.5 was 10 execution units per subslice.)

· For many gen8-based products, 3 subslices are now instantiated per
slice. This enables new product configurations, and instantiates more samplers per slice, and more concurrent memory interfaces to L3 and SLM. (Gen 7.5 was 2 subslices per slice.)

· Gen8 has increased the L3

  1. 產品可擴展性的模塊化設計

gen8計算體系結構的設計是爲了在廣泛的目標範圍內實現可伸縮性產品。體系結構的模塊化使產品能夠精確地瞄準特定的市場或產品功率包絡線。體系結構從稱爲執行單位。執行單元被聚集到稱爲子片的組中。子切片更進一步成片地聚在一起。集成,執行單元、子片和片是模塊化的構建,用於創建基於英特爾圖形處理器的許多產品變體的塊,第8代計算架構。一些示例變量如圖7和圖8所示。以下各節詳細描述了架構組件,並整體展示了它們是如何可以組成完整的產品。

  1. 執行單元(EUS)架構

gen8計算體系結構的基本構建塊通常是執行單元縮寫爲EU。執行單元的體系結構是同時多線程的組合(SMT)和細粒度交錯多線程(IMT)。這些是計算處理器驅動多問題單指令多數據算術邏輯單元(SIMD,ALUs),流水線跨多個線程,用於高吞吐量浮點和整數計算。

細顆粒EUs的線程特性確保了執行指令的連續流,支持長時間操作的延遲,如內存分散/收集、採集卡請求或其它系統通信。

在這裏插入圖片描述
產品架構師可以微調每個EU的線程數和寄存器數,以匹配可擴展性和特定的產品設計需求。對於基於gen8的產品,每個EU線程有128個通用寄存器。每個寄存器存儲32個字節,可作爲SIMD訪問32位數據元素的8元素向量。因此,每個gen8線程都有4kbytes的通用目的寄存器文件(GRF)。在gen8架構中,每個EU有7個線程,每個EU 28千字節的GRF。靈活的尋址模式允許寄存器一起尋址,有效地建立更寬的寄存器,甚至表示跨步矩形塊數據結構。每線程體系結構狀態在單獨的專用體系結構中維護註冊文件(ARF)。

  1. 子層架構

在gen8計算體系結構中,EUs數組被實例化在一個稱爲subslice的組中。爲了可伸縮性,圖形產品架構可以選擇每個子片的EUs數量。基於gen8的產品,每個子片包含8個EUs。每個子片都包含自己的本地線程分派器單元及其自己的支持指令緩存。

給這8個EUs加上7個每個線程,單個子片都有專用的硬件資源,並註冊文件,總共56個同時線程。每個子層還包括一個採集卡器單元和一個數據端口存儲器管理股。與gen7.5的設計相比,gen7.5的設計中每個層有10個EUs,這個gen8設計減少了共享每個子層的採集卡和數據端口的EUs數量。從每個EU的觀點來看,這有提高子片本地有效帶寬的效果。
在這裏插入圖片描述
5. SLICE ARCHITECTURE
在這裏插入圖片描述
子片聚集成片。對於大多數基於gen8的產品,共有3個子片組成一片。因一個切片總共聚集了24個EUs3。除了分組子片之外,該片集成了另外的線程調度路由邏輯、一個3級緩存庫、一個較小但高存儲容量的共享本地內存結構,以及原子的固定功能邏輯。附加的固定功能單元支持媒體和圖形功能。

  1. PRODUCT ARCHITECTURE

SoC產品架構師可以在一個系列中創建產品系列或特定的產品。通過實例化一個或多個切片。產品系列的組成可能不同,主要是切片的數量。這些片與附加的前端邏輯相結合,管理命令提交,以及支持3D、渲染和媒體管道。另外,整個gen8計算體系結構與SoC組件通過一個稱爲圖形技術接口(GTI)的專用單元。
在這裏插入圖片描述
在這裏插入圖片描述
7. MEMORY

1)Unified Memory Architecture

2)Shared Memory Coherency
在這裏插入圖片描述
8. ARCHITECTURE CONFIGURATIONS, SPEEDS, AND FEEDS

下表顯示了英特爾計算體系結構的理論峯值吞吐量,兩個示例產品SKU的處理器圖形。對於每種產品,峯值吞吐量爲英特爾圖形處理器Gen8,v1.116的計算體系結構在整個體系結構中聚合。基於其他產品的理論峯值吞吐量,在gen8體系結構上,遵循與英特爾Iris Pro系列類似的模式。
在這裏插入圖片描述
四.EXAMPLE COMPUTE APPLICATIONS

下面的圖片提供了幾種計算應用程序和英特爾處理器圖形加速的算法。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章