PaddlePaddle首次曝光全景圖和中文名“飛槳”,發佈11項重大更新

4月23日,在2019年百度開發者峯會上,深度學習平臺PaddlePaddle首次對外公佈了全景圖,並曝光中文名——飛槳,意爲快速划動的槳,期望PaddlePaddle實現快速成長。

除此之外,百度深度學習技術平臺部總監馬豔軍還發布了PaddlePaddle新版本的11項重大功能更新,包括開發、訓練、預測等環節,並宣佈“1億元”AI Studio算力支持計劃,爲開發者提供價值一億元的免費算力。

首次對外公佈PaddlePaddle全景圖和中文名“飛槳”

2016年,百度深度學習框架PaddlePaddle 正式開源,成爲中國首個也是目前國內唯一開源開放的端到端深度學習平臺。據馬豔軍透露,PaddlePaddle 現已覆蓋10萬開發者,主要爲企業用戶。

PaddlePaddle最新版本GitHub地址:

https://github.com/PaddlePaddle/Paddle/blob/develop/README_cn.md

發佈會上,PaddlePaddle首次對外公佈全景圖:

image

(PaddlePaddle全景圖)

此外,PaddlePaddle今後將有一箇中文名——飛槳,意爲快速划動的槳,寓意期望這個平臺能夠實現快速成長。

11項新特性及服務發佈

image

上圖中,黃色框爲此次更新涵蓋的模塊,服務平臺包括AI Studio一站式開發平臺,工具組件包括PaddleHub遷移學習、PARL強化學習、AutoDL Design自動化網絡結構設計,核心框架中的模型庫PaddleNLP、PaddleCV,訓練模塊中的大規模分佈式訓練和工業級數據處理,預測模塊的Paddle Serving和PaddleSlim都有了更新,以下爲具體細節:

開發環節:

  1. PaddleNLP工具集

PaddleNLP面向工業級應用,將自然語言處理領域的多種模型用一套共享骨架代碼實現,可減少開發者在開發過程中的重複工作,擁有業內領先的語義表示模型ERNIE(Enhenced Representation through Knowledge IntEgration)。Benchmark顯示,ERNIE在自然語言推斷、語義匹配、命名實體識別、檢索式問答任務中超過谷歌提出的BERT。

image

  1. 視頻識別工具集

image

(飛槳視頻識別工具集) 當天,百度首次發佈業內首個視頻識別工具集,爲開發者提供解決視頻理解、視頻編輯、視頻生成等一系列任務。它開放了7個視頻分類經典模型,這些模型共享一套配置文件,並且在數據的讀取、評估等方面共享一套代碼,覆蓋視頻識別方向的主流領先模型,還可實現一鍵式配置來做訓練和預測。

訓練環節:

  1. 大規模分佈式訓練

image

(分佈式訓練Benchmark) 大規模分佈式訓練主要從三方面實現了升級。首先多機多卡的全面高效支持,提升了速度;其次是在CPU的應用場景方面,針對**大規模稀疏特徵**設計並開放了大規模稀疏參數服務器,開發者可輕鬆下載相關鏡像使用;大規模分佈式訓練支持在各種容器上高速運行,同時支持在**K8S生態下**使用PaddlePaddle進行訓練。

image

(大規模係數參數服務器) 2. 工業級數據處理

image

數據處理方面,優化分佈式 IO,增加遠程文件系統流式讀取能力。GPU 多機多卡同步訓練通過增加稀疏通信能力提升帶寬不敏感訓練能力,在低配網絡帶寬網絡環境下,例如 10G 網絡下,同步訓練可提速 10 倍。

預測環節:

開發和訓練後,將模型部署到各種應用場景下是非常關鍵的一個步驟。部署環節需要高速的推理引擎,在此基礎上,爲了部署在更多的硬件上往往需要做模型壓縮,在真正使用時,還需要軟硬一體能力的支持。基於此,PaddlePaddle準備了完整的端到端的全流程部署方案,並將持續擴展對各類硬件的支持。基於多硬件的支持,PaddlePaddle提供底層加速庫和推理引擎,全新發布Paddle Serving支持服務器端的快速部署

不僅如此,飛槳還發布了模型體積壓縮庫PaddleSlim用兩行Python代碼即可調用自動化模型壓縮,經過減枝、量化、蒸餾處理,針對體積已經很小的MobileNet模型,它仍能在模型效果不損失的前提下實現70%以上的體積壓縮。

image

工具環節:

在工具組件模塊,PaddlePaddle還開源了AutoDL Design、升級PARL,在算法的覆蓋、高性能通訊以及並行的訓練方面做了支持和擴展,10分鐘可以訓練一個Atari 智能體。

此外,飛槳還全新發布了預訓練一站式管理工具PaddleHub

image

預訓練模型管理工具PaddleHub提供包括預訓練模型管理、命令行一鍵式使用和遷移學習三大功能,10行代碼即可讓開發者完成模型遷移。

AI studio億元算力支持

image

會議接近尾聲,馬豔軍還宣佈了AI Studio即將推出的億元算力支持計劃,即飛槳將爲開發者提供價值一億元的免費算力。

據介紹,免費算力主要以兩種模式提供,第一種是一人一卡模式,V100的訓練卡包括16G的顯存,最高2T的存儲空間。另外一種是遠程集羣模式,PaddlePaddle提供高性能集羣,供開發者免費使用,獲取前者需要使用邀請碼,後者現在登錄AI Studio即可使用。

路線圖:11月實現動態圖與靜態圖靈活轉化

image

最後,馬豔軍展示了飛槳從2016年建立到今年的路線圖,其中值得關注的是其在動態圖方面的計劃。路線圖顯示,到今年11月,飛槳將實現動態圖和靜態圖的靈活轉換,支持高層API,且訓練速度全面優化,還將發佈PaddleHub 2.0以及多項行業應用解決方案。

馬豔軍表示,飛槳今後的目標是讓核心框架易用性和性能的持續提升,雖然目前PaddlePaddle的實現比較簡潔,所以在易學易用方面有自己的優勢,但飛槳還將持續降低它的使用門檻,讓開發者覺得它越來越好用。另外,飛槳將更關注模型和工具在真實場景中的實用性,一方面變得更好用,另一方面滿足產業實踐的要求。

Q&A

會後,馬豔軍在採訪中進一步詳解飛槳深度學習平臺,並表達了他對深度學習的看法。

Q:ONNX使得不同的深度學習框架可以採用相同格式存儲模型數據並交互,阿里巴巴的XDL支持任意開源深度學習框架,採用的是橋接的理念,兩種產品雖然不同但總體思路,都是用一種產品支持所有深度學習框架,這樣的思路您怎麼看?

馬豔軍:ONNX現在確實有幾個框架在支持。ONNX更多的是在底層的算子實現層做標準,實現統一。各個框架要想兼容這種格式其實有不小的開發成本,是因爲深度學習模型是在不斷增加、不斷被研發出來的,在使用了某個深度學習框架以後,就會按照這個框架的要求不斷往裏面加算子,可以實現這些模型。因此,現有的框架轉換爲採用ONNX標準都有不小的成本。目前應該說還沒有一個很明朗的趨勢,表明大家都會用統一的一套算子或標準,不一定最後會實現統一的框架,而是可能多個框架都在用。

Q:Paddle和Pytorch、TF相比差別主要在哪裏?  
 
馬豔軍:第一,PaddlePaddle是在我們的產業實踐中持續研發和完善起來的,我們的slogan也是“源自產業實踐的開源深度學習平臺”。因此PaddlePaddle貼合實際應用場景,真正滿足工業場景的應用需求。PaddlePaddle也開放了深度學習產業應用中的最佳實踐。如官方支持面向真實場景應用、達到工業級應用效果的模型,針對大規模數據場景的分佈式訓練能力、支持多種異構硬件的高速推理引擎,訓練所支持的數據規模、訓練速度、推理支持的硬件全面性、推理速度更優。

第二,PaddlePaddle不僅包含深度學習框架,而是提供一整套緊密關聯、靈活組合的完整工具組件和服務平臺,更加有利於深度學習技術的應用落地。目前PaddlePaddle完整具備了端到端的平臺能力。去年我們就將PaddlePaddle定位爲深度學習平臺,我們佈局也是很早的。所以,我們出的各種相應的配套工作都做得非常完善,開發者能在實打實的應用裏體驗到,在這個方面PaddlePaddle和其他框架相比形成了自己的特色。

Q:PaddleNLP以前包含很多官方模型,前期預處理數據或文本數據處理比較麻煩,這次會不會包括在內?

馬豔軍:自然語言處理和視覺技術確實不太一樣, 對於很多NLP的任務,端到端的深度學習還不能直接解決問題。在NLP包裏我們提供了針對一系列任務的處理工具,包括預處理和後處理,這是PaddleNLP裏的一些功能,並且這塊功能也是我們持續完善的點。之所以叫它工具集,就是希望在這些任務場景裏包含這些能力,這樣用戶真正在用的時候,就覺得都能跑得通,跑得順,不需要前後準備很多工作。

Q:今天發佈的新模型都是用一套骨架、相同的API?

馬豔軍:NLP裏的模型比較多,針對不同的網絡結構,針對不同的任務可以選擇使用這些網絡結構,也可以基於這些網絡結構做出新網絡。之前是針對每一個任務都要從頭到尾把這一套都跑一遍,寫針對各種任務的工具,最後工具之間互相沒有關係。PaddleNLP做了一些任務的抽象,最後放出來的是一套工具,只要修改配置都可以在上面跑了,避免任何工具都要重新寫一遍,提升效率。

Q:您認爲引領下一波機器學習進步浪潮的將是哪個/哪些技術?有人說是遷移學習,您怎麼看?

馬豔軍:深度學習本身的能力,不管是它靈活建模的能力還是強大的表示能力,這些內在的潛力還可以繼續挖掘,並由可能產生新的突破;另一方面,它和一些其他方法的結合,比如說它和知識圖譜結合,和強化學習結合,都有可能在一個特定的領域產生一些突破。 深度學習和遷移學習也有很多好的結合點,比如深度學習的預訓練模型做Fine-tuning就能應用到很多場景,這也是個趨勢。當然,這點也是發揮了深度學習本身的技術優勢,基於深度學習的預訓練模型,我們可以把它遷移到很多場景發揮作用。
    
關於深度學習數據的問題,也有很多解法,比如通過自監督的方法可以解決數據少的問題,這裏還有很多可挖掘的點。所以,深度學習領域還在持續出現有影響力的成果,未來還會有更多。

image

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章