開發部署時間從幾個月到幾分鐘:eBay的大規模AI平臺實踐

本文將介紹eBay的人工智能轉型是如何通過一個統一開放的現代化人工智能平臺實現的。

本文最初發佈於eBay技術博客,由InfoQ中文站翻譯並分享。

你是否曾經想要找一件物品,卻難以用語言來描述它?現在,有了eBay的現代化人工智能平臺提供的計算機視覺功能,這項技術可以幫助你根據你點擊的照片或圖像找到物品。用戶可以進入eBay應用程序,拍下他們正在尋找的東西的照片,只需要幾毫秒,平臺就會顯示出與圖像匹配的物品。用戶不僅觸發了計算機視覺技術,還利用了一些先進的人工智能功能,包括深度學習、分佈式訓練和推理。該計算機視覺算法對5億多張圖片和eBay的14億份清單進行篩選,找到在視覺上相似的最相關的清單。

eBay之所以能夠實現如此有效的、大規模的、精確的人工智能,一個主要原因是Krylov——eBay最先進的現代化人工智能平臺,其目標是提高eBay的人工智能生產率,並加速大規模人工智能模型的上市時間。

人工智能平臺正對所有行業的領軍企業產生了巨大的影響。像谷歌這樣的公有云提供商使用人工智能平臺提供了許多產品和服務。Facebook的人工智能平臺名爲FBLearner Flow,可以對新聞源進行個性化處理,並過濾掉攻擊性內容。在Uber,機器學習平臺米開朗基羅(Michelangelo)提供了一種能力,讓顧客能夠準確預測他們通過UberEats點的餐何時送達。

類似地,eBay從頭開始構建了Krylov,目標是將其作爲一個可伸縮的、多租戶的、基於雲的人工智能平臺,以支持各種規模的人工智能用例。僅在2019年,eBay的數據科學家每月就使用Krylov運行數千個模型訓練試驗,這些試驗涵蓋了各種人工智能用例,如計算機視覺、自然語言處理(NLP)、銷售規劃建議、買方個性化服務、賣方價格指導、風險、信任、運輸估計等等。

圖 1 eBay的AI策略

從幾個月到幾分鐘

在Krylov之前,數據科學家需要幾周甚至幾個月的時間來建立一個具備生產力的模型。他們需要採購和管理基礎設施,將數據轉移到機器上,並安裝框架——有時還會遇到問題,帶來額外的生產管理費用。在大型數據集上訓練模型不能跨節點伸縮。

現在,人工智能雲上的基礎設施可以按需使用,數據科學家可以訪問最新的軟件、硬件、模型和運行時,如Notebooks、Tensorflow、PyTorch和H20。通過這些運行時,我們可以對BERT(用於語言理解)或ResNet(用於計算機視覺)等模型在我們的14億庫存清單上進行大規模的訓練。

數據科學家可以使用分佈式訓練在大數據集上訓練模型。他們可以同時進行試驗和超參數調整,記錄和可視化試驗,並部署最好的模型試驗。例如,我們的人工智能研究人員使用Krylov來訓練神經機器翻譯模型、用於推薦系統的深度和廣度模型,以及用於增強圖像搜索的計算機視覺模型。這是提高模型精度和縮短eBay機器翻譯技術上市時間的關鍵。機器翻譯技術對實現跨境貿易貢獻巨大,佔eBay國際收入的59%。

Krylov允許我們的人工智能團隊最大限度地利用eBay擁有的海量數據,包括批量數據和實時數據。如果將數據看作是人工智能和機器學習的燃料,那麼Krylov就是由這種燃料驅動的複雜的交通工具。

這是一種快速發展的交通工具。如今,數據科學家可以在不到一分鐘的時間內,通過流行的軟件框架(Tensorflow、Scikit Learn、數學庫、Jupyter Notebooks等)在自己選擇的計算配置(GPU、高內存多核心)上構建一個AI工作空間。以前,這個過程可能需要幾天。

數據科學家還可以使用Python、Java或Scala接口運行自動化AI工作流(管道),以試驗各種方法(超參數),並記錄他們的試驗及比較試驗的輸出。在大型數據集和模型上進行超參數調優和運行分佈式訓練的能力顯著提高了模型的準確性。

爲了更好地管理系統中傳輸的大量數據,eBay設計並構建了自己的專用服務器。新的服務器可以讓eBay的數據科學家和工程師加速開發新功能,將開發時間從幾周減少到幾個小時。

在業務影響方面,部署時間有巨大的改善。eBay現在可以將模型訓練自動化,並將模型部署到個性化或通用推理平臺上,只需幾天,而以前需要幾個月。這導致了一些重要功能的改進,比如圖像搜索,它允許購物者通過上傳相似商品的圖片來瀏覽他們想要的商品。

建立統一的人工智能平臺團隊

Krylov是高度創新的,它的開發方式也是如此。

eBay的統一平臺需要跨不同的用例集,比如計算機視覺、自然語言處理(NLP)和推薦系統。因此,開發人員和數據科學家有各種各樣的需求。這是一個爲期多年的平臺轉型。實現Krylov是一項打破各種豎井並跨職能和地理區域開發和執行統一願景的實踐。

爲了領導該項目,我們組建了統一人工智能計劃核心團隊(ICT)。ICT包括來自AI平臺團隊的代表(該團隊是服務的提供者)、平臺的所有者和構建者。此外,人工智能平臺還依賴於硬件、計算、網絡、存儲和數據服務。

ICT的第三個組成部分是AI領域團隊,即平臺的內部客戶,例如廣告、計算機視覺、NLP、風險、信任和營銷等方面的AI研究和工程。對於日常的AI生命週期管理,這些人工智能團隊已經從定義、實現和採用這個平臺獲益。

這些專家一起爲eBay創建了一個統一的AI願景,包括平臺的戰略、路線圖和關鍵原則。這是一個實踐過程。在不同的地方,來自領域團隊的研究人員和工程師會以內部開源的方式參與到平臺某些部分的構建。因爲這些工程師和研究人員更接近領域問題(AI生命週期),或者在過去已經爲他們的特定需求構建了框架/平臺,所以他們能夠提供關鍵的輸入。在某些情況下,有些框架和平臺被納入了“統一AI平臺”,因爲它們很好地解決了一個特定的問題,並有助於加速平臺向更廣泛的eBay AI社區的發展。

此外,我們還設立了一個eBay機器學習(ML)工程獎學金項目,任何在eBay的工程師都可以加入到人工智能平臺團隊中,類似於一個實習項目,幫助構建產品待辦列表中的平臺特性。這個獎學金項目的目的是讓eBay工程師熟悉ML的概念和技術。參與者會獲得來自資深領域專家的關於ML工程概念的指導。

內部開源模型和ML工程獎學金項目不僅有助於代碼貢獻,而且也在我們擴展我們的科學家和工程師的技能集時,作爲平臺開發的反饋機制。

瞭解痛點

在構建Krylov的探索階段,爲了更好地理解構建eBay人工智能的難點和挑戰,跨不同地理位置的eBay全球團隊協同工作。這包括理解需求和希望;對人工智能研究人員和開發人員的日常生活表示理解和感激;並研究行業中現有的方法。

分階段構建、採用和轉換人工智能的多年時間裏,需要:

  • 通過強大的計算能力(GPU、高內存多核心)輕鬆、安全、高效地訪問數據的人工智能訓練集羣;
  • 訓練平臺:可自動訓練工作流及交互式工作空間、SDK、客戶端(Python、Java、Scala、REST);
  • AI模型生命週期管理:模型試驗管理、模型管理服務、部署服務、AI Hub(基於Web的UI)
  • 模型服務平臺和反饋循環:將AI模型作爲服務綁定到試驗框架和監控系統(操作以及模型性能)實現部署;
  • 用於建模、部署和推斷由數據發現、準備、特性存儲和服務以及反饋循環組成的生命週期的數據生命週期抽象;
  • 此外,該平臺必須建立與幾個關鍵的原則,以解決eBay不同數據科學家和工程團隊的人工智能用例和操作模式。我們確立的主要原則有:
    • 支持異構軟件框架——Tensorflow、PyTorch、Cafe、Notebook以及任何選用的框架;
    • 異構硬件架構——支持GPU、高內存CPU;
    • 支持大規模;
    • 以開源的方式使用開源技術。

圖2 使用AI平臺進行端到端的AI模型生命週期管理

圖3 AI Hub(用於模型端到端生命週期管理的UI)顯示了在AI項目中與合作者進行的模型訓練試驗

圖4 AI Hub顯示了一個AI項目中兩個模型訓練試驗之間的指標對比

圖5 AI Hub顯示了一個ML模型訓練工作流(DAG)的可視化,在這裏用戶可以看到狀態以及工作流中每個任務的更多細節。用戶還可以附加日誌和資產、指定配置和查看部署狀態。

平臺建成後,我們將爲AI ICT團隊提供預覽、Alpha和Beta訪問,讓他們提前訪問並測試平臺。這種迭代式的、具有統一願景和執行力的協作幫助eBay AI社區爲自己構建了一個統一的平臺。

雖然早期的結果取得了成功,但這並不意味着我們已經完成了全部工作。人工智能是一場沒有終點的進化之旅。展望未來,我們將通過eBay的人工智能託管市場繼續創新之路,我們也會繼續分享我們的發現。

原文鏈接:

eBay’s Transformation to a Modern AI Platform

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章