ARM與X86不具備可比性性能差距可大上千倍

[轉自：http://www.cnbeta.com/articles/167883.htm]

我們要明白CPU是一個執行部件，它之所以能執行，也是因爲人們在裏面製作了執行各種功能的硬件電路，然後再用一定的邏輯讓它按照一定的順序工作，這樣就能完成人們給它的任務。也就是說，如果把CPU看作一個人，首先它要有正常的工作能力（既執行能力），然後又有足夠的邏輯能力（能明白做事的順序），最後還要聽的懂別人的話（既指令集），才能正常工作。而這些集中在一起就構成了所謂的“架構”，它可以理解爲一套“工具”、“方法”和“規範”的集合。不同的架構之間，工具可能不同，方法可能不同，規範也可能不同，這也造成了它們之間的不兼容——你給一個意大利泥瓦匠看一份中文寫成的烹飪指南，他當然不知道應該幹什麼了。

如果還看不懂，沒關係，我們繼續。從CPU發明到現在，有非常多種架構，從我們熟悉的X86，ARM，到不太熟悉的MIPS，IA64，它們之間的差距都非常大。但是如果從最基本的邏輯角度來分類的話，它們可以被分爲兩大類，即所謂的“複雜指令集”與“精簡指令集”系統，也就是經常看到的“CISC”與“RISC”。屬於這兩種類中的各種架構之間最大的區別，在於它們的設計者考慮問題方式的不同。我們可以繼續舉個例子，比如說我們要命令一個人吃飯，那麼我們應該怎麼命令呢？我們可以直接對他下達“吃飯”的命令，也可以命令他“先拿勺子，然後舀起一勺飯，然後張嘴，然後送到嘴裏，最後嚥下去”。從這裏可以看到，對於命令別人做事這樣一件事情，不同的人有不同的理解，有人認爲，如果我首先給接受命令的人以足夠的訓練，讓他掌握各種複雜技能（即在硬件中實現對應的複雜功能），那麼以後就可以用非常簡單的命令讓他去做很複雜的事情——比如只要說一句“吃飯”，他就會吃飯。但是也有人認爲這樣會讓事情變的太複雜，畢竟接受命令的人要做的事情很複雜，如果你這時候想讓他吃菜怎麼辦？難道繼續訓練他吃菜的方法？我們爲什麼不可以把事情分爲許多非常基本的步驟，這樣只需要接受命令的人懂得很少的基本技能，就可以完成同樣的工作，無非是下達命令的人稍微累一點——比如現在我要他吃菜，只需要把剛剛吃飯命令裏的“舀起一勺飯”改成“舀起一勺菜”，問題就解決了，多麼簡單。

這就是“複雜指令集”和“精簡指令集”的邏輯區別。可能有人說，明顯是精簡指令集好啊，但是我們不好去判斷它們之間到底誰好誰壞，因爲目前他們兩種指令集都在蓬勃發展，而且都很成功——X86是複雜指令集（CISC）的代表，而ARM則是精簡指令集（RISC）的代表，甚至ARM的名字就直接表明了它的技術：Advanced RISC Machine——高級RISC機。

到了這裏你就應該明白爲什麼RISC和CISC之間不好直接比較性能了，因爲它們之間的設計思路差異太大。這樣的思路導致了CISC和RISC分道揚鑣——前者更加專注於高性能但同時高功耗的實現，而後者則專注於小尺寸低功耗領域。實際上也有很多事情CISC更加合適，而另外一些事情則是RISC更加合適，比如在執行高密度的運算任務的時候CISC就更具備優勢，而在執行簡單重複勞動的時候RISC就能佔到上風，比如假設我們是在舉辦吃飯大賽，那麼CISC只需要不停的喊“吃飯吃飯吃飯”就行了，而RISC則要一遍一遍重複吃飯流程，負責喊話的人如果嘴巴不夠快（即內存帶寬不夠大），那麼RISC就很難吃的過CISC。但是如果我們只是要兩個人把飯舀出來，那麼CISC就麻煩得多，因爲CISC裏沒有這麼簡單的舀飯動作，而RISC就只需要不停喊“舀飯舀飯舀飯”就OK。

這就是CISC和RISC之間的區別。但是在實際情況中問題要比這複雜許許多多，因爲各個陣營的設計者都想要提升自家架構的性能。這裏面最普遍的就是所謂的“發射”概念。什麼叫發射？發射就是同時可以執行多少指令的意思，例如雙發射就意味着CPU可以同時拾取兩條指令，三發射則自然就是三條了。現代高級處理器已經很少有單發射的實現，例如Cortex A8和A9都是雙發射的RISC，而Cortex A15則是三發射。ATOM是雙發射CISC，Core系列甚至做到了四發射——這個方面大家倒是不相上下，但是不要忘了CISC的指令更加複雜，也就意味着指令更加強大，還是吃飯的例子，CISC只需要1個指令，而RISC需要5個，那麼在內存帶寬相同的情況下，CISC能達到的性能是要超過RISC的（就吃飯而言是5倍），而實際中CISC的Core i處理器內存帶寬已經超過了100GB/s，而ARM還在爲10GB/s而苦苦奮鬥，一個更加吃帶寬的架構，帶寬卻只有別人的十分之一，性能自然會受到非常大的制約。爲什麼說ARM和X86不好比，這也是很重要的一個原因，因爲不同的應用對帶寬需求是不同的。一旦遇到帶寬瓶頸，哪怕ARM處理器已經達到了很高的運算性能，實際上根本發揮不出來，自然也就會落敗了。

說到這兒大家應該也已經明白CISC和RISC的區別和特色了。簡而言之，CISC實際上是以增加處理器本身複雜度作爲代價，去換取更高的性能，而RISC則是將複雜度交給了編譯器，犧牲了程序大小和指令帶寬，換取了簡單和低功耗的硬件實現。但如果事情就這樣發展下去，爲了提升性能，CISC的處理器將越來越大，而RISC需要的內存帶寬則會突破天際，這都是受到技術限制的。所以進十多年來，關於CISC和RISC的區分已經慢慢的在模糊，例如自P6體系（即Pentium Pro）以來，作爲CISC代表的X86架構引入了微碼概念，與此對應的，處理器內部也增加了所謂的譯碼器，負責將傳統的CISC指令“拆包”爲更加短小的微碼（uOPs）。一條CISC指令進來以後，會被譯碼器拆分爲數量不等的微碼，然後送入處理器的執行管線——這實際上可以理解爲RISC內核+CISC解碼器。而RISC也引入了指令集這個就邏輯角度而言非常不精簡的東西，來增加運算性能。正常而言，一條X86指令會被拆解爲2～4個uOPs，平均來看就是3個，因此同樣的指令密度下，目前X86的實際指令執行能力應該大約是ARM的3倍左右。不過不要忘了這是基於“同樣指令密度”下的一個假設，實際上X86可以達到的指令密度是十倍甚至百倍於ARM的。

最後一個需要考慮的地方就是指令集。這個東西的引入，是爲了加速處理器在某些特定應用上性能而設計的，已經有了幾十年的歷史了。而實際上在目前的應用環境內，起到決定作用的很多時候是指令集而不是CPU核心。X86架構的強大，很多時候也源於指令集的強大，比如我們知道的ATOM，雖然它的X86核心非常羸弱，但是由於它支持SSE3，在很多時候性能甚至可以超過核心性能遠遠強大於它的Pentium M，這就是指令集的威力。目前X86指令集已經從MMX，發展到了SSE，AVX，而ARM依然還只有簡單而基礎的NEON。它們之間不成比例的差距造成了實際應用中成百上千倍的性能落差，例如即便是現今最強大的ARM內核依然還在爲軟解1080p H.264而奮鬥，但一顆普通的中端Core i處理器卻可以用接近十倍播放速度的速度去壓縮1080p H.264視頻。至少在這點上，說PC處理器的性能百倍於ARM是無可辯駁的，而實際中這樣的例子比比皆是。這也是爲什麼我在之前說平均下來ARM只有X86幾十分之一的性能的原因。

打了這麼多字，其實就是爲了說明一點，雖然現在ARM很強大，但它距離X86還是非常遙遠，並沒有因爲這幾年的進步而縮短，實際上反而在被更快的拉大。畢竟它們設計的出發點不一樣，因此根本不具備多少可比性，X86無法做到ARM的功耗，而ARM也無法做到X86的性能。這也是爲什麼ATOM一直以來都不成功的原因所在——Intel試圖用自己的短處去和別人的長處對抗，結果自然是不太好的，要不是Intel擁有這個星球上最先進的半導體工藝，ATOM根本都不可能出現。而ARM如果嘗試去和X86拼性能，那結果自然也好不到哪兒去，原因剛剛也解釋過了。不過這也不意味着ARM以後就只能佔據低端，畢竟任何架構都有其優點，一旦有應用針對其進行優化，那麼就可以揚長避短。X86的繁榮也正是因爲整個世界的資源都針對它進行了優化所致。只要能爲ARM找到合適的應用與適合的領域，未來ARM也未必不可以進入更高的層次。

skywalker_leo

發佈了59 篇原創文章 · 獲贊 43 · 訪問量 58萬+

私信關注

ARM與X86不具備可比性性能差距可大上千倍

如何使用 JS 判斷用戶是否處於活躍狀態

lightdb秒級增加列和刪除列（not null帶默認值）

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

TWO-WIRE INTERFACE CONTROLLER（TWI控制器）

關於MFC CEdit中僅輸入數字時，如何使其不能輸入以0開頭的非0整數

重新理解“複數”

C++：overload, override和overwrite

ARM與X86不具備可比性性能差距可大上千倍

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

ARM與X86不具備可比性 性能差距可大上千倍

ARM與X86不具備可比性性能差距可大上千倍