架構師(2019年8月)

卷首語

作者:第四範式資深AI架構師 陳迪豪

機器學習毫無疑問是2019年最受關注的技術之一,無論是手機中每日收到的諮訊推薦,還是我們在銀行系統中的信用評分,機器學習都已經應用到所有人生活中的方方面面。大數據的積累、計算能力的提升以及日漸成熟的算法,讓機器學習成爲企業向數字化、智能化方向轉型的關鍵。然而,眼下並非所有企業都能像巨頭公司一樣,迅速積累經驗實現業務與AI的無縫整合。若要跨過AI應用落地的門檻,真正讓AI能在企業中應對複雜多變的業務應用,除了在算法上不斷革新,打好地基之外,規範化的機器學習建模流程、面向AI的工程技術優化等環節更是將這項浩大工程由“做”轉變爲“做好”的關鍵所在。

機器學習閉環流程

人,之所以被稱之爲“智能體”,是因爲人總是在不斷的學習。在人類心理學研究史上,有一個著名的“庫伯學習圈”理論,該理論認爲人類學習的過程是由“行動、經驗、反思、理論”這四個階段構成的。簡單來說,人們通過行動產生經驗,再通過反思經驗,學習、總結其中的規律,在新的行爲發生時找到最優決策。人工智能的本質亦是如此。

關聯到企業的AI平臺中,標準的AI全流程則將以上的四個步驟轉化爲“行爲數據採集、模型訓練、模型應用、反饋數據採集”的過程。行爲數據採集保證了機器學習模型有足夠的特徵作爲輸入,是訓練有效模型的基礎,模型應用則是收集反饋數據的前提,如果沒有數據反饋及時更新模型,就無法體現機器學習模型自適應的能力以及實時性的模型效果。

作爲架構師,需要考慮在機器學習平臺中整合數據引入、數據管理甚至是數據標註系統,提供標準和統一的數據格式給模型訓練使用,除了要能夠支持主流的機器學習訓練框架,模型上線後提供數據迴流功能也很重要,對於實時性要求較高的模型提供參數Fine-tune、模型更新等功能,才能幫助企業構建一站式的機器學習閉環流程。

軟硬一體優化

隨着模型應用越來越廣,性能優化成爲降低業務成本、提高模型效果的重要手段,藉助GPU、FPGA等新硬件的軟硬一體優化更成爲業界的主流。以GPU爲例,主流的GPU擁有超過3000個並行計算單元,無論是浮點運算能力還是計算並行度都比CPU有數百倍的提升,而定製化的FPGA在能耗上也有突出的優勢。除了計算相關的硬件優化,RDMA技術可以給機器學習模型訓練帶來更極致的網絡吞吐和極低的延時,針對特定硬件的軟件優化不僅提高了AI計算的性能,也實現了更低TCO的智能應用落地。

線下線上一致性

在傳統的機器學習中,離線的特徵計算與在線的預估服務往往是相互獨立的兩個階段,而維護線下線上特徵一致性成爲保證模型業務效果的關鍵。離線的特徵計算包括任意寬表的拼接或超大時間窗內的聚合等操作,甚至出現使用未來特徵或者標籤作爲特徵等穿越問題,這樣會導致在線服務無法生成模型所需要的特徵輸入,離線效果好的模型更是無法上線。

從架構的角度,規範在線和離線特徵生成過程非常重要,使用針對機器學習場景優化的特徵計算引擎,可以避免線上線下重複實現冗餘的計算邏輯,更是杜絕了期望特徵在模型訓練和在線預估時不一致的隱患。

這些只是實現AI規模化落地技術的冰山一角,身爲架構師的我們,真正從企業應用AI的實際情況出發,解決其中的種種問題纔是重中之重。

熱點 | Hot

GitHub 有國界:全面封禁美國製裁地區開發者賬戶

企業紛紛效仿阿里建中臺,到底是盲目跟風還是不做會死?

理論派 | Theory

騰訊全球最大金融級分佈式 MySQL 集羣實踐

推薦文章 | Article

我是一名技術總監,被技術選型給埋坑裏了

揭祕大牛程序員十二時辰:有人作息規律,有人全年無休

觀點 | Opinion

獨家專訪 AI 大神賈揚清:我爲什麼選擇加入阿里巴巴?

特別專欄 | Column

華爲雲智能邊緣平臺首席架構師解讀KubeEdge:雲原生的邊緣計算平臺

微服務可靠性設計

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章