Intel至強可擴展處理器 Skylake-SP(Purley 最新一代至強)購買指南

前言

Intel Purley平臺,Skylake-SP,至強可擴展處理器(鉑金、黃金、白銀、青銅)發售了,共58顆處理器。

這些處理器裏哪些值得購買?哪些是騙小白的?它們各自的定位如何?本文將幫助你解決問題。

本文將會按照使用場景將這58顆處理器分類,並通過不同處理器在各自應用場景的性價比剔除一些坑爹玩意。

那至強處理器有哪些使用場景呢?

 

處理器的使用場景

不同的軟件對處理器的要求各有側重,這取決於這個軟件處理的問題類型、算法的選擇、是不是適合並行運算、內存I/O性能、開發者的水平、選擇的程序庫、編譯工具等等等等。

這些對處理器運算性能的影響因素綜合起來大致可分爲以下幾類:

  • 串行運算(單線程)

串行運算是軟件中常見的一種運算方式。沒有多線程,沒有向量化。這種運算方式大多運用於腳本語言,如Python。使用串行運算的程序也通常是不強調運算性能的或者是古董程序,沒人去優化它們。

(但是腳本語言,如Python通常只是用來寫一些前端代碼,需要大計算量的話會調用高度並行化的程序庫。就像numpy調用MKL庫。)

運行這類程序的CPU主要看重最大加速頻率。如果要同時跑好幾個這類實例的話,也要看Non-AVX全核加速頻率。(比如典型的“商業”服務器應用,web app,e-mail等)

  • 非向量化多線程運算

用到了多線程但沒有用到向量化運算的程序很多。這類程序通常實現了“多任務”但並不涉及大量矩陣向量計算。這類程序除非機械地增加並行運算數量,不然擴展性有限。

對於極度並行化並需要長時間運算的程序,核心數量多佔優勢。在選擇CPU時主要考慮核心數量和Non-AVX全核加速頻率。

很多這類程序擴展性堪憂。有些甚至對線程數量有限制,太多的線程用不上。這時,我們需要考慮恰當的CPU核心數量、高全核加速頻率和高Non-AVX全核加速頻率。

  • 向量化多線程運算

這類運算是最適合至強處理器的運算。在這個情景下選擇CPU需要一顆核心數量較多、AVX-512 全核加速頻率高(對於不能使用AVX-512的舊軟件,那就看AVX2全核加速頻率)。

這類軟件通常是HPC負載,用於仿真和機器學習。程序涉及大量的矩陣向量運算,且對AVX-512和FMA有針對性優化。程序使用的庫叫做Intel MKL庫(Mathe Kernel Library)或者DAAL庫(Data Analytics Acceleration Library),這是至強處理器的最佳舞臺。

  • 內存I/O性能

這在選擇CPU時是一個重要,但常常被忽略的參數。經常遇到這麼個問題,買了最新、最好、最貴的電腦硬件但是程序沒有跑得更快。如果程序本身的I/O性能低下、軟件作者水平不行、存儲器佈局不合理,存在大量緩存缺失等情況,那麼使用更好硬件可能不會提高性能。

在一些情況下,每個核心配更大的緩存可能會讓爛I/O性能的程序提速。當然,L3緩存是所有CPU核心共享的,那麼一個大L3緩存的多核CPU能提高性能。

如果你的程序需要大量的內存,那至強提供了一個M系列,這個系列單個CPU支持1.5T的內存。

  • 不關心CPU

必須承認,現在有很多重要的程序、框架和庫是用GPU加速的。這些程序更需要在Tesla或GeForce顯卡上跑NVIDIA CUDA,它們擁有的處理器單元比CPU高一個量級。

但要注意這些GPU加速的程序中有些任務仍需要CPU計算來完成,這就參考上面幾種CPU運行工況。對於那些只用GPU來運算的程序,你只需要一個CPU來亮機罷了。

現在讓我們開始按照不同工況來分類新款至強吧。

初選

這一代至強總共58個處理器。

Intel將它們按照金屬分成四類:鉑金(81XX),黃金(61XX),白銀(51XX),青銅(31XX)。

對於大多數用戶,這58個CPU中很多是不需要考慮的。

首先是那些帶後綴的CPU(M,F,T),這些後綴代表:

  • M:大內存,最高可達1.5TB(普通版是768GB)。
  • F:Intel Omni-Path架構(Intel新一代高速網絡架構,用於超算通訊)
  • T:低發熱(適用於那些買來要用10年的用戶)

M系列可能有時候還用得上,但F和T系列那是完全不用考慮了。帶M的至強要比不帶M的至強貴不少,但是除了能配置更大的內存之外其他方面的性能完全一樣,因此除非真的需要超過768GB內存,不然不考慮M。

2個青銅組的成員也不用看了。它們只有1.7GHz,沒有Turbo-Boost,沒有超線程。

就這樣先去掉25個CPU。

還有兩個CPU重複了。8156,8158和5122,6136參數完全相同,除了8開頭的CPU支持8個CPU插在同個主板上,5122、6136只能插4個。8156、8158賣$7007,5122賣$1221,6136賣$2460。多花$6000只爲了能插8個。。。。除非你真的買8個CPU插同一臺電腦上。

Non-AVX全核加速頻率低於2.5GHz也去了,它們是4108,4110,4116和8153。它們的工作頻率只有1.6GHz,開啓AVX-512的時候還要更低,屬於殘廢。

現在只剩27個CPU供選擇,這還是太多了但已經可以用來按照使用場景分類了。

下面是這些CPU的編號:

性能評價標準

先按照下面的公式來估算CPU的理論性能。

性能=核心數量 * 頻率 * 向量寬度 * #FMA

其中:

  • 核心數量:CPU核心數量(不考慮超線程)
  • 頻率:至強有5種頻率標定方式,選相關工況的那種。具體哪5種頻率標定方式下面文章會寫。
  • 向量寬度:雙精度浮點數的AVX向量寬度(AVX2爲4,AVX-512爲8)
  • #FMA:FMA AVX單元(快速乘加)的數量,少數性能較低的處理器有1個FMA單元,其餘的有2個。

這樣算出來的數字可以大致評估GFLOP/s計算性能。這不是一個估計浮點計算峯值性能的好方法,但對於比較不同CPU性能來說足夠了。

CPU頻率

至強有5種不同的CPU頻率標定方式!

  • 基本頻率:如果在BIOS裏禁用Turbo-Boost和power management,那麼CPU就跑在這個頻率上。CPU標定的TDP就是在這種情況下測的。這個頻率對於用戶來說沒有任何意義。因爲它不能反映CPU的真實性能,只是標在那裏。
  • 最大加速頻率:在只使用2個核心(其他核心都空閒)的情況下,CPU會達到這個頻率。這也是CPU能達到的最高頻率。在非並行(串行)工作時主要看這個參數,這個參數也能決定系統運行的“順滑”程度。
  • Non-AVX全核加速頻率:這是CPU最重要的頻率參數。 當AVX單元沒有被使用時,CPU所有核心的工作頻率。 這個參數主要適用於那些不使用矩陣向量運算但是多線程優化的程序,也包括那些需要“多開”的用戶。
  • AVX2全核加速頻率:當使用AVX單元時,CPU的頻率會降低,而且兩種AVX單元(AVX2和AVX-512)降低的程度不同。新版至強支持SSE4.2, AVX, AVX2和AVX-512向量運算。這些向量運算對於那些使用矩陣向量進行數學運算的程序有巨大的提升。經過實測,在Linpack benchmark(爲Intel優化)裏,向量單元能提升4-16倍計算性能。但是有代價的,在AVX單元工作時需要大量的能量。這就導致爲了保證CPU能在安全的TDP下運行,開啓AVX單元時需要降低主頻運行。
  • AVX-512全核加速頻率:AVX-512單元開啓時CPU的頻率。

處理器參數

不同等級的芯片可能都是在同一塊晶圓上生產出來的。低端芯片可能是高端芯片的閹割得到。Intel這次儘可能利用起各種等級的芯片,從而導致出現了那麼多性能差不多的CPU。顯然Intel的刀法沒有老黃出色,這次至強的CPU多得讓人迷惑。

注1:上面的價格單位是美元。

注2:CPU頻率單位是GHz。

注3:內存頻率單位是MHz。

注4:緩存單位是MB。

注5:TDP單位是W。

這些數字看得讓人頭暈,下面會有圖表來展示它們的性能。先推薦幾個適合工作站或臺式機的CPU:

  • 4112,上面表裏面最便宜的CPU。可以用來配合4或8塊GPU使用。
  • 5122,有最高的AVX-512全核加速頻率。它只有4核但全部核心都能全速運行。它每個核心分配到的緩存也是最多的,適合對內存I/O有要求的程序。它不適合並行運算但配備了AVX-512單元,也不知道是從哪個邊角料閹割來的。
  • 6144和6146,全核加速頻率以及最大加速頻率很高,同時每個核心分配到的緩存也不小。
  • 8168,核心多,頻率高。

性價比分析

這個項目是評價在啓用AVX-512單元時各CPU的性價比。

在這個項目裏有11個處理器表現不好,我們把它們淘汰,下面不再出現。

淘汰:8180, 8176, 8170, 8164, 8160, 6152, 6150, 8153, 5115, 5118, 5120

這下就清楚很多了。

下一張圖裏考慮了每個核心緩存的大小。這樣對於那些需要內存I/O的應用更有參考價值。

這張圖表面,有高主頻和大緩存的CPU明顯佔優。

下面的圖時全核加速頻率下各CPU的性價比。雖然和AVX-512開啓時各CPU的趨勢差不多,但仍可以淘汰一些CPU。

最後,獲勝者是:8168, 6154, 6148, 6144, 6140, 6134, 6130, 6128, 6126, 5122 4114 4112

 

按工作情景分類

  • 串行運算(單線程)

6144,6128,5122,它們分別是8、6、4核,有高主頻核大緩存。它們的單核能力強大並且多核能力也還行。如果用到的並行計算程序對核心數量有限制的話,它們是不錯的選擇。

  • 非向量化多線程運算

8168,6154, 6148, 6140, 6130, 6126, 4114,它們各自有24、18、20、18、16、12和10核,全核加速頻率高。其中最推薦雙路6154,性價比很高。

  • 向量化多線程運算

8168, 6154, 6148, 6140, 6130, 6126,和上面的基本相同。這些CPU AVX-512全核加速頻率相對較高,CPU核心數也很多。

  • 內存I/O性能

6144, 6134, 5122或者8168, 6148, 6140,第一組的CPU每個核心的緩存大,第二組是L3緩存總數大。

  • 不關心CPU

6128, 5122, 4114, 4112,前兩個非常適合用在GPU和CPU共同工作的平臺上。它們CPU計算能力強,也有大緩存來和GPU進行通信。後兩個就是因爲便宜,用在純GPU加速計算平臺上。

 

最後要強調的是,這裏只比較了最新一代的至強可擴展處理器,至於這新一代比至強E5 V4強了多少,需要大家自己判斷啦。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章