PaddlePaddle首次曝光全景圖和中文名“飛槳”，發佈11項重大更新

4月23日，在2019年百度開發者峯會上，深度學習平臺PaddlePaddle首次對外公佈了全景圖，並曝光中文名——飛槳，意爲快速划動的槳，期望PaddlePaddle實現快速成長。

除此之外，百度深度學習技術平臺部總監馬豔軍還發布了PaddlePaddle新版本的11項重大功能更新，包括開發、訓練、預測等環節，並宣佈“1億元”AI Studio算力支持計劃，爲開發者提供價值一億元的免費算力。

首次對外公佈PaddlePaddle全景圖和中文名“飛槳”

2016年，百度深度學習框架PaddlePaddle 正式開源，成爲中國首個也是目前國內唯一開源開放的端到端深度學習平臺。據馬豔軍透露，PaddlePaddle 現已覆蓋10萬開發者，主要爲企業用戶。

PaddlePaddle最新版本GitHub地址：

https://github.com/PaddlePaddle/Paddle/blob/develop/README_cn.md

發佈會上，PaddlePaddle首次對外公佈全景圖：

（PaddlePaddle全景圖）

此外，PaddlePaddle今後將有一箇中文名——飛槳，意爲快速划動的槳，寓意期望這個平臺能夠實現快速成長。

11項新特性及服務發佈

上圖中，黃色框爲此次更新涵蓋的模塊，服務平臺包括AI Studio一站式開發平臺，工具組件包括PaddleHub遷移學習、PARL強化學習、AutoDL Design自動化網絡結構設計，核心框架中的模型庫PaddleNLP、PaddleCV，訓練模塊中的大規模分佈式訓練和工業級數據處理，預測模塊的Paddle Serving和PaddleSlim都有了更新，以下爲具體細節：

開發環節：

PaddleNLP工具集

PaddleNLP面向工業級應用，將自然語言處理領域的多種模型用一套共享骨架代碼實現，可減少開發者在開發過程中的重複工作，擁有業內領先的語義表示模型ERNIE（Enhenced Representation through Knowledge IntEgration）。Benchmark顯示，ERNIE在自然語言推斷、語義匹配、命名實體識別、檢索式問答任務中超過谷歌提出的BERT。

視頻識別工具集

（飛槳視頻識別工具集）當天，百度首次發佈業內首個視頻識別工具集，爲開發者提供解決視頻理解、視頻編輯、視頻生成等一系列任務。它開放了7個視頻分類經典模型，這些模型共享一套配置文件，並且在數據的讀取、評估等方面共享一套代碼，覆蓋視頻識別方向的主流領先模型，還可實現一鍵式配置來做訓練和預測。

訓練環節：

大規模分佈式訓練

（分佈式訓練Benchmark）大規模分佈式訓練主要從三方面實現了升級。首先多機多卡的全面高效支持，提升了速度；其次是在CPU的應用場景方面，針對**大規模稀疏特徵**設計並開放了大規模稀疏參數服務器，開發者可輕鬆下載相關鏡像使用；大規模分佈式訓練支持在各種容器上高速運行，同時支持在**K8S生態下**使用PaddlePaddle進行訓練。

(大規模係數參數服務器) 2. 工業級數據處理

數據處理方面，優化分佈式 IO，增加遠程文件系統流式讀取能力。GPU 多機多卡同步訓練通過增加稀疏通信能力提升帶寬不敏感訓練能力，在低配網絡帶寬網絡環境下，例如 10G 網絡下，同步訓練可提速 10 倍。

預測環節：

開發和訓練後，將模型部署到各種應用場景下是非常關鍵的一個步驟。部署環節需要高速的推理引擎，在此基礎上，爲了部署在更多的硬件上往往需要做模型壓縮，在真正使用時，還需要軟硬一體能力的支持。基於此，PaddlePaddle準備了完整的端到端的全流程部署方案，並將持續擴展對各類硬件的支持。基於多硬件的支持，PaddlePaddle提供底層加速庫和推理引擎，全新發布Paddle Serving支持服務器端的快速部署。

不僅如此，飛槳還發布了模型體積壓縮庫PaddleSlim，用兩行Python代碼即可調用自動化模型壓縮，經過減枝、量化、蒸餾處理，針對體積已經很小的MobileNet模型，它仍能在模型效果不損失的前提下實現70%以上的體積壓縮。

工具環節：

在工具組件模塊，PaddlePaddle還開源了AutoDL Design、升級PARL，在算法的覆蓋、高性能通訊以及並行的訓練方面做了支持和擴展，10分鐘可以訓練一個Atari 智能體。

此外，飛槳還全新發布了預訓練一站式管理工具PaddleHub。

預訓練模型管理工具PaddleHub提供包括預訓練模型管理、命令行一鍵式使用和遷移學習三大功能，10行代碼即可讓開發者完成模型遷移。

AI studio億元算力支持

會議接近尾聲，馬豔軍還宣佈了AI Studio即將推出的億元算力支持計劃，即飛槳將爲開發者提供價值一億元的免費算力。

據介紹，免費算力主要以兩種模式提供，第一種是一人一卡模式，V100的訓練卡包括16G的顯存，最高2T的存儲空間。另外一種是遠程集羣模式，PaddlePaddle提供高性能集羣，供開發者免費使用，獲取前者需要使用邀請碼，後者現在登錄AI Studio即可使用。

路線圖：11月實現動態圖與靜態圖靈活轉化

最後，馬豔軍展示了飛槳從2016年建立到今年的路線圖，其中值得關注的是其在動態圖方面的計劃。路線圖顯示，到今年11月，飛槳將實現動態圖和靜態圖的靈活轉換，支持高層API，且訓練速度全面優化，還將發佈PaddleHub 2.0以及多項行業應用解決方案。

馬豔軍表示，飛槳今後的目標是讓核心框架易用性和性能的持續提升，雖然目前PaddlePaddle的實現比較簡潔，所以在易學易用方面有自己的優勢，但飛槳還將持續降低它的使用門檻，讓開發者覺得它越來越好用。另外，飛槳將更關注模型和工具在真實場景中的實用性，一方面變得更好用，另一方面滿足產業實踐的要求。

Q&A

會後，馬豔軍在採訪中進一步詳解飛槳深度學習平臺，並表達了他對深度學習的看法。

Q：ONNX使得不同的深度學習框架可以採用相同格式存儲模型數據並交互，阿里巴巴的XDL支持任意開源深度學習框架，採用的是橋接的理念，兩種產品雖然不同但總體思路，都是用一種產品支持所有深度學習框架，這樣的思路您怎麼看？

馬豔軍：ONNX現在確實有幾個框架在支持。ONNX更多的是在底層的算子實現層做標準，實現統一。各個框架要想兼容這種格式其實有不小的開發成本，是因爲深度學習模型是在不斷增加、不斷被研發出來的，在使用了某個深度學習框架以後，就會按照這個框架的要求不斷往裏面加算子，可以實現這些模型。因此，現有的框架轉換爲採用ONNX標準都有不小的成本。目前應該說還沒有一個很明朗的趨勢，表明大家都會用統一的一套算子或標準，不一定最後會實現統一的框架，而是可能多個框架都在用。

Q：Paddle和Pytorch、TF相比差別主要在哪裏？

馬豔軍：第一，PaddlePaddle是在我們的產業實踐中持續研發和完善起來的，我們的slogan也是“源自產業實踐的開源深度學習平臺”。因此PaddlePaddle貼合實際應用場景，真正滿足工業場景的應用需求。PaddlePaddle也開放了深度學習產業應用中的最佳實踐。如官方支持面向真實場景應用、達到工業級應用效果的模型，針對大規模數據場景的分佈式訓練能力、支持多種異構硬件的高速推理引擎，訓練所支持的數據規模、訓練速度、推理支持的硬件全面性、推理速度更優。

第二，PaddlePaddle不僅包含深度學習框架，而是提供一整套緊密關聯、靈活組合的完整工具組件和服務平臺，更加有利於深度學習技術的應用落地。目前PaddlePaddle完整具備了端到端的平臺能力。去年我們就將PaddlePaddle定位爲深度學習平臺，我們佈局也是很早的。所以，我們出的各種相應的配套工作都做得非常完善，開發者能在實打實的應用裏體驗到，在這個方面PaddlePaddle和其他框架相比形成了自己的特色。

Q：PaddleNLP以前包含很多官方模型，前期預處理數據或文本數據處理比較麻煩，這次會不會包括在內？

馬豔軍：自然語言處理和視覺技術確實不太一樣，對於很多NLP的任務，端到端的深度學習還不能直接解決問題。在NLP包裏我們提供了針對一系列任務的處理工具，包括預處理和後處理，這是PaddleNLP裏的一些功能，並且這塊功能也是我們持續完善的點。之所以叫它工具集，就是希望在這些任務場景裏包含這些能力，這樣用戶真正在用的時候，就覺得都能跑得通，跑得順，不需要前後準備很多工作。

Q：今天發佈的新模型都是用一套骨架、相同的API？

馬豔軍：NLP裏的模型比較多，針對不同的網絡結構，針對不同的任務可以選擇使用這些網絡結構，也可以基於這些網絡結構做出新網絡。之前是針對每一個任務都要從頭到尾把這一套都跑一遍，寫針對各種任務的工具，最後工具之間互相沒有關係。PaddleNLP做了一些任務的抽象，最後放出來的是一套工具，只要修改配置都可以在上面跑了，避免任何工具都要重新寫一遍，提升效率。

Q：您認爲引領下一波機器學習進步浪潮的將是哪個/哪些技術？有人說是遷移學習，您怎麼看？

馬豔軍：深度學習本身的能力，不管是它靈活建模的能力還是強大的表示能力，這些內在的潛力還可以繼續挖掘，並由可能產生新的突破；另一方面，它和一些其他方法的結合，比如說它和知識圖譜結合，和強化學習結合，都有可能在一個特定的領域產生一些突破。深度學習和遷移學習也有很多好的結合點，比如深度學習的預訓練模型做Fine-tuning就能應用到很多場景，這也是個趨勢。當然，這點也是發揮了深度學習本身的技術優勢，基於深度學習的預訓練模型，我們可以把它遷移到很多場景發揮作用。

關於深度學習數據的問題，也有很多解法，比如通過自監督的方法可以解決數據少的問題，這裏還有很多可挖掘的點。所以，深度學習領域還在持續出現有影響力的成果，未來還會有更多。

PaddlePaddle首次曝光全景圖和中文名“飛槳”，發佈11項重大更新

首次對外公佈PaddlePaddle全景圖和中文名“飛槳”

11項新特性及服務發佈

開發環節：

訓練環節：

預測環節：

工具環節：

AI studio億元算力支持

路線圖：11月實現動態圖與靜態圖靈活轉化

Q&A

愛奇藝全球首發互動視頻標準IVG，融合多種AI技術

甲骨文中國研發中心裁員900人，給出“N+6”賠償方案

2019年，醫療AI的熱潮將會退去

一鍵修復女神林青霞舊照，背後用到了哪些AI技術？

PaddlePaddle首次曝光全景圖和中文名“飛槳”，發佈11項重大更新

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結