數據人不得不知的機器學習平臺

作者介紹

@飛狐沖沖

在國內某知名央企負責數據挖掘與分析相關工作,並曾經在京東、美團等大型互聯網公司擔任算法工程師的崗位,有一定算法開發經驗。

01 爲什麼需要機器學習平臺?

衆說周知,當今社會大數據和人工智能技術正助推各個領域迅猛發展,各大企業都在通過機器學習算法挖掘業務背後的商業價值,打造AI產品,快速的從數據轉化爲收益。

因此,業務、數據、算法成爲AI產品的三個重要因素。通過對數據進行算法建模,賦能業務,產生價值。稍微對算法有了解的同學都知道,算法開發工作一般包括數據準備、特徵工程、算法建模、模型評估、模型調優、模型部署以及模型監控等步驟,如下圖所示:
數據人不得不知的機器學習平臺

從算法開發整個流程可以看出,在算法開發落地應用整個過程中,其實摻雜着與很多機器學習本身不是很相關,但與其他工程領域強相關而且通用的事情,比如模型部署、任務監控、模型可視化甚至包括環境搭建、資源調度等。於是,幫助大家脫離繁瑣的工程化開發,如何讓機器學習快速落地應用並提供通用的能力,成爲機器學習平臺這個概念產生的意義。

02 名詞解釋

爲了便於大家理解不混淆,這裏對機器學習平臺相關的名詞做了一定的解釋。

機器學習算法。簡稱算法,指使用各類編程語言構建的算法,大部分情況下和具體業務是無關的。主要包括統計方法、傳統機器學習算法、深度學習甚至某些數學規則等。比如無監督K均值聚類算法,有監督LR、隨機森林、GBDT等算法,還有DNN、RNN深度學習等算法。

機器學習模型。簡稱模型,對具體業務強依賴,與業務強相關,用來對新數據進行直接預測的一系列算法參數的集合,通常需要和機器學習算法配合進行工作。比如金融風控模型、推薦模型、廣告點擊率模型、銷量預測模型等。

機器學習框架。也可稱爲機器學習運行時環境,是指能夠直接提供機器學習算法編寫、模型訓練和模型應用的軟件系統,如Tensorflow、MxNet等,這些框架會直接調度計算資源和存儲資源,其運行機制和具體的業務場景無關。

機器學習平臺。上面已經說明,通過平臺化來封裝整個機器學習建模流程,允許用戶使用主流的機器學習框架進行算法開發工作並且大部分提供可視化的構建流程。比如阿里雲PAI、騰訊Ti-ML等(後面會具體描述)。其目的是爲了使機器學習快速工程化落地應用,產生價值。

03 機器學習平臺功能

機器學習平臺能夠支撐算法開發、分享、模型訓練、部署、監控等⼀站式算法服務,其一般的框架及功能如上圖所示,其功能主要有大量內置的基礎算法、統一的數據管理、集成的運行環境、可視化建模、模型複用等,還可以在此基礎上進行算法超市開發沉澱解決方案。這裏主要介紹一下可視化建模。

數據人不得不知的機器學習平臺

可視化建模不同於算法工程師利用編程語言(比如:Python、java等)進行算法開發,它通過拖拉拽的方式完成數據到圖形的映射,引導用戶直觀的進行數據操作、探索。如下圖所示:

數據人不得不知的機器學習平臺

數據人不得不知的機器學習平臺

可視化建模可以讓用戶基於平臺內部的數據處理、算法節點,以拖拉拽迅速完成機器學習、深度學習、自然語言處理等算法模型構建,實現數據的關聯、模型的預測等功能。這樣就降低了建模工作對於專業算法工程師的依賴,更加智能、高效的進行算法開發工作。

04 業內機器學習平臺介紹

業內比較知名的機器學習平臺有阿里雲PAI、騰訊Ti-ML、第四範式先知、美林Tempo等。

4.1阿里雲PAI

阿里雲PAI是目前國內應用範圍最廣泛的機器學習平臺,也是國內技術能力公認最強的平臺之一。主要優點有:

1.多框架支持

2.多語言間接支持(默認提供 Python 編程入口,其他語言需要自己提供運行環境)

3.阿里雲集成度較高

4.豐富的API接口

數據人不得不知的機器學習平臺

4.2 騰訊Ti-ML

Ti-ML包含三個機器學習平臺自產品,分別是:

(1)Ti-ONE,一站式機器學習平臺,提供AutoML能力,自動化的構建機器學習程序;

(2)Ti-EMS,自動根據客戶的機器學習程序來進行資源需求推理和調度;(3)Ti-Insight,根據工業界的需求,內置了各類主流的機器學習場景流程,用戶可以直接從模板構建自己的機器學習應用。

騰訊推出其機器學習平臺相對較晚,但其功能和定位和阿里雲PAI即無二致。主要優點爲:

1.多框架支持。

2.多語言間接支持。

3.騰訊雲集成度高。

4.API 豐富等。

數據人不得不知的機器學習平臺

4.3 第四範式先知

第四範式公司是專門做機器學習平臺的AI技術與服務商,先知是國內曝光率最高的機器學習平臺之一。國際權威研究機構IDC發佈了首份《IDC MarketScape:中國機器學習開發平臺市場評估》。

該評估結果顯示,第四範式市場份額位列中國第一,並處於機器學習平臺市場領導者位置。其優點主要爲:

1.自成一體,通常可以方便的獨立部署。

2.國內專門做機器學習的商業化公司,通常可以方便的提供二次開發服務。

3.自研GDBT計算性能,處理大規模數據和高維特徵優勢明顯。

4.4 美林tempo

美林成立於1998年,成立時間比較久,雖然公司規模不大,但在數據分析領域已經有不少的積澱。

其中TempoData機器學習平臺作爲其主打產品,其主要優點爲:

1.入門門檻較低,功能的複雜度遠遠低於阿里雲PAI。

2.作爲專業商業服務公司,便於二次開發。

數據人不得不知的機器學習平臺

此外,還有百度EasyDL、九章雲極等,這裏就不一一做介紹了。

05 結尾

大部分機器學習平臺的早期都是公司內部普遍使用,隨着人工智能和大數據技術的火熱,逐漸產品成熟度增加,最後進行市場化推廣。基於AI應用的機器學習平臺是快速實踐業務創新的基礎底座,ta不但幫助算法工程師脫離繁瑣的工程化開發,把有限的精力聚焦於自己優勢算法策略的迭代上面,也使非專業IT人員可以進行可視化建模,降低了AI開發的門檻。

以上內容,爲個人理解總結而來。如有不對的地方,歡迎指正,萬分感謝~~

一個數據人的自留地是一個助力數據人成長的大家庭,幫助對數據感興趣的夥伴們明確學習方向、精準提升技能。關注我,帶你探索數據的神奇奧祕

1、回“數據產品”,獲取<大廠數據產品面試題>

2、回“數據中臺”,獲取<大廠數據中臺資料>

3、回“商業分析”,獲取<大廠商業分析面試題>;

4、回“交個朋友”,進交流羣,認識更多的數據小夥伴。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章