AI芯片的廠商競爭激烈,計算力將會發展如何?

  人工智能應用的蓬勃發展對算力提出了非常迫切的要求。由於摩爾定律已經失效, 定製計算將成爲主流方向,因而新型的 AI 芯片開始層出不窮,競爭也日趨白熱。參與這一競爭的不光是傳統的半導體芯片廠商,大型的互聯網和終端設備企業依託於自身龐大的應用規模,直接從自身業務需求出發,參與到 AI 芯片的開發行列。這其中以英偉達爲代表的 GPU 方案已經形成規模龐大的生態體系,谷歌的 TPU 則形成了互聯網定義 AI 芯片的標杆,其餘各家依託各自需求和優勢,提出了多類解決方案。本文將簡要梳理目前各家技術進展狀態,結合人工智能應用的發展趨勢,對影響 AI 芯片未來發展趨勢的主要因素做出一個粗淺探討。

  AI 計算芯片現狀

  目前 AI 芯片領域主要的供應商仍然是英偉達,英偉達保持了極大的投入力度,快速提高 GPU 的核心性能,增加新型功能,保持了在 AI 訓練市場的霸主地位,並積極拓展嵌入式產品形態,推出 Xavier 系列。互聯網領域,谷歌推出 TPU3.0,峯值性能達到 100pflops,保持了專用加速處理器的領先地位。同時華爲、百度、阿里、騰訊依託其龐大應用生態,開始正式入場,相繼發佈其產品和路線圖。此外,FPGA 技術,因其低延遲、計算架構靈活可定製,正在受到越來越多的關注,微軟持續推進在其數據中心部署 FPGA,Xilinx 和 Intel 倆家不約而同把 FPGA 未來市場中心放到數據中心市場。Xilinx 更是推出了劃時代的 ACAP,第一次將其產品定位到超越 FPGA 的範疇。相較雲端高性能 AI 芯片,面向物聯網的 AI 專用芯片門檻要低很多,因此也吸引了衆多小體量公司參與。

  1、NVIDIA:Xavier

  2018 年 1 月,英偉達發佈了首個自動駕駛處理器——Xavier。這款芯片具有非常複雜的結構,內置六種處理器,超過 90 億個晶體管,可以處理海量數據。Xavier 的 GMSL(千兆多媒體串行鏈路)高速 IO 將其與迄今爲止最大陣列的激光雷達、雷達和攝像頭傳感器連接起來。

  2、NVIDIA:DGX-2

  2018 年 3 月,NVIDIA 發佈首款 2-petaFLOPS 系統——DGX-2。它整合了 16 個完全互聯的 GPU,使深度學習性能提升 10 倍。有了 DGX-2 ,模型的複雜性和規模不再受傳統架構限制的約束。與傳統的 x85 架構相比,DGX-2 訓練 ResNet-50 的性能相當於 300 臺配備雙英特爾至強 Gold CPU 服務器的性能,後者的成本超過 270 美元。

  3、Google:TPU

  自 2016 年首次發佈 TPU 以來,Google 持續推進,2017 年發佈 TPU 2.0,2018 年 3 月 Google I/O 大會推出 TPU 3.0。其每個 pod 的機架數量是 TPU 2.0 的兩倍;每個機架的雲 TPU 數量是原來的兩倍。據官方數據,TPU 3.0 的性能可能是 TPU2.0 的八倍,高達 100 petaflops。

  4、華爲:晟騰 910 & 晟騰 310

  2018 年 10月,華爲正式發佈兩款 AI 芯片:昇騰 910 和昇騰 310。預計下一年第二季度正式上市。華爲昇騰 910 採用 7nm 工藝,達芬奇架構,半精度(FP16)可達 256TeraFLOPS,整數精度(INT8)可達 512TeraOPS,自帶 128 通道全高清視頻××× H.264/265,最大功耗350W。華爲昇騰 310 採用 12nmFFC 工藝,達芬奇架構,半精度(FP16)可達8TeraFLOPS,整數精度(INT8)可達 16 TeraOPS,自帶 16 通道全高清視頻×××H.264/265,最大功耗 8W。

  5、寒武紀:MLU100

  2018 年 5 月,寒武紀推出第一款智能處理板卡——MLU100。搭載了寒武紀 MLU100 芯片,爲雲端推理提供強大的運算能力支撐。等效理論計算能力高達 128 TOPS,支持 4 通道 64 bit ECCDDR4 內存,並支持多種容量。1M 是第三代機器學習專用芯片,使用 TSMC 7nm 工藝生產,其 8 位運算效能比達 5Tops/watt(每瓦 5 萬億次運算)。寒武紀 1M 處理器延續了前兩代 IP 產品(1H/1A)的完備性,可支持 CNN、RNN、SOM 等多種深度學習模型,此次又進一步支持了 SVM、K-NN、K-Means、決策樹等經典機器學習算法的加速。這款芯片支持幫助終端設備進行本地訓練,可爲視覺、語音、自然語言處理等任務提供高效計算平臺。

  6、地平線:旭日 1.0 & 征程 1.0

  2017 年 12 月,地平線自主設計研發了中國首款嵌入式人工智能視覺芯片——旭日 1.0 和征程 1.0。旭日 1.0 是面向智能攝像頭的處理器,具備在前端實現大規模人臉檢測跟蹤、視頻結構化的處理能力,可廣泛用於智能城市、智能商業等場景。征程 1.0是面向自動駕駛的處理器,可同時對行人、機動車、非機動車、車道線交通標識等多類目標進行精準的實時監測和識別,實現 FCW/LDW/JACC 等高級別輔助駕駛功能。

  7、比特大陸:BM1880 & BM1682

  2018 年 10 月,比特大陸正式發佈邊緣計算人工智能芯片 BM1880,可提供 1 TOPS@INT8 算力。推出面向深度學習領域的第二代張量計算處理器 BM 1682,峯值性能達 3 TFLOPS FP32。

  BM1682 的算豐智能服務器SA3、嵌入式 AI 迷你機 SE3、3D 人臉識別智能終端以及基於 BM1880 的開發板、AI 模塊、算力棒等產品。BM1682 芯片量產發佈,峯值算力達到 3TFlops,功耗爲 30W。

  8、百度:崑崙芯片

  2018 年 7 月,百度AI開發者大會上李彥宏正式宣佈研發 AI 芯片——崑崙。這款 AI 芯片適合對 AI、深度學習有需求的廠商、機構等。藉助着崑崙 AI 芯片強勁的運算性能,未來有望應用到無人駕駛、圖像識別等場景中去。

  9、阿里:研發 Ali-NPU、成立平頭哥半導體芯片公司

  2018 年 4 月,阿里巴巴達摩院宣佈正在研發的一款神經網絡芯片——Ali-NPU。其主要用途是圖像視頻分析、機器學習等 AI 推理計算。9 月,在雲棲大會上,阿里巴巴正式宣佈合併中天微達摩院團隊,成立平頭哥半導體芯片公司。

  10、Xilinx:ACAP、收購深鑑科技無錫×××醫院 http://wapyyk.39.net/wx/zonghe/fc96e.html

  2018 年 3 月,賽靈思宣佈推出一款超越 FPGA 功能的新產品——ACAP(自適應計算加速平臺)。其核心是新一代的 FPGA 架構。10月,發佈最新基於 7nm 工藝的 ACAP 平臺的第一款處理器——Versal。其使用多種計算加速技術,可以爲任何應用程序提供強大的異構加速。Versal Prime 系列和 Versal AI Core 系列產品也將於 2019 年推出。

  2018 年 7 月,賽靈思宣佈收購深鑑科技。

  AI 芯片發展面臨的矛盾、問題、挑戰

  目前AI芯片發展面臨4大矛盾:圍繞這些矛盾,需要解決大量相關問題和挑戰。

  1、大型雲服務商與AI芯片提供商的矛盾

  技術路線上,面向通用市場的英偉達持續推進 GPU 技術發展,但是大型雲服務商也不願陷入被動,結合自身規模龐大的應用需求,比較容易定義一款適合的 AI 芯片,相應的應用打磨也比較好解決。同時,新的芯片平臺都會帶來生態系統的分裂。但是對於普通用戶,競爭會帶來價格上的好處。由於 AI 算力需求飛速提升,短期內 AI 芯片市場還會進一步多樣化。

  2、專用與通用間的矛盾

  雲端市場由於各大巨頭高度壟斷,會形成多個相對封閉的 AI 芯片方案。而邊緣端市場由於高度分散,局部市場難以形成完整的技術生態體系,生態建設會圍繞主流核心技術拓展,包括ARM、Risc-V、NVDLA 等。各大掌握核心技術的廠商,也會迎合這一趨勢,儘可能佔領更大的生態份額,積極開放技術給中小企業開發各類 AI 芯片。

  3、AI 芯片創新與設計工具及生態之間的矛盾

  以 FPGA 爲例,學界和業界仍然沒有開創性的方法簡化 FPGA 的開發,這是現階段制約 FPGA 廣泛使用的最大障礙。和 CPU 或 GPU 成熟的編程模型和豐富的工具鏈相比,高性能的 FPGA 設計仍然大部分依靠硬件工程師編寫 RTL 模型實現。RTL 語言的抽象度很低,往往是對硬件電路進行直接描述,這樣,一方面需要工程師擁有很高的硬件專業知識,另一方面在開發複雜的算法時會有更久的迭代週期。因此,FPGA 標榜的可編程能力與其複雜的編程模型之間,形成了鮮明的矛盾。近五到十年來,高層次綜合(High Level Synthesis - HLS)一直是 FPGA 學術界研究的熱點,其重點就是希望設計更加高層次的編程模型和工具,利用現有的編程語言比如 C、C++ 等,對 FPGA 進行設計開發。

  在工業界,兩大 FPGA 公司都選擇支持基於 OpenCL 的 FPGA 高層次開發,並分別發佈了自己的 API 和 SDK 等開發工具。這在一定程度上降低了 FPGA 的開發難度,使得 C 語言程序員可以嘗試在 FPGA 平臺上進行算法開發,特別是針對人工智能的相關應用。儘管如此,程序員仍然需要懂得基本的 FPGA 體系結構和設計約束,這樣才能寫出更加高效的 OpenCL/HLS 模型。因此,儘管有不少嘗試 OpenCL/HLS 進行產品開發的公司,但是目前國內實際能夠掌握這類設計方法的公司還是非常稀缺。各家專用 AI 芯片廠商,都需要建立自己相對獨立的應用開發工具鏈,這個投入通常比開發芯片本身還要龐大,成熟週期也慢很多。Xilinx 對深鑑的收購有效補充了其在 AI 應用開發方面的工具短板。近期 Intel 開源了 OpenVINO,也是在推動其 AI 及 FPGA 生態。也有少數在 FPGA 領域有長期積累的團隊,例如深維科技在爲市場提供定製 FPGA 加速方案,可以對應用生態產生有效促進作用。

  面對不同的需求,AI計算力最終將會駛向何方?

  主要雲服務商以及終端提供商都會圍繞自家優勢產品平臺發展 AI 芯片,雲端 AI 芯片投入巨大,主流技術快速進化,國內企業需要重視 AI 芯片的隱性投入:設計開發工具、可重用資源和生態夥伴。不過近期不大可能迅速形成整合的局面,競爭會進一步加劇。在端上,基於 DSA/RISC-V 的 AI 芯片更多出現在邊緣端 AI+IoT,百花齊放。

  三大類技術路線各有優劣,長期並存。

  GPU 具有成熟的生態,在 AI 領域具有顯著的先發優勢,目前保持高速增長態勢。

  以 Google TPU 爲代表的專用 AI 芯片在峯值性能上較 GPU 有一定優勢。確定性是 TPU 另一個優勢。CPU 和 GPU 需要考慮各種任務上的性能優化,因此會有越來越複雜的機制,帶來的副作用就是這些處理器的行爲非常難以預測。而使用 TPU 能輕易預測運行一個神經網絡並得出模型與推測結果需要多長時間,這樣就能讓芯片以吞吐量接近峯值的狀態運行,同時嚴格控制延遲。不過,TPU 的性能優勢使得它的靈活性較弱,這也是 ASIC 芯片的常見屬性。充分針對性優化的架構也可以得到最佳的能效比。但是開發一款高性能專用芯片的投入是非常高昂的,通常週期也需要至少 15 個月。

  FPGA 以及新一代 ACAP 芯片,則具備了高度的靈活性,可以根據需求定義計算架構,開發週期遠遠小於設計一款專用芯片。但是由於可編程資源必不可少的冗餘,FPGA 的能效比以及價格通常比專用芯片要差很多。但是 ACAP 的出現,引入了 AI 核的優點,勢必會進一步拉近與專用芯片的差距。隨着 FPGA 應用生態的逐步成熟,FPGA 的優勢也會逐漸爲更多用戶所瞭解。

  總而言之,AI 芯片的“戰國時代”大幕已經拉開,各路“諸侯”爭相割據一方,謀求霸業,大家難以獨善其身,合縱連橫、百家爭鳴將成爲常態。這也必定會是一個英雄輩出的時代。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章