3年從200個數據用戶發展到6000人,eBay的大數據平臺是如何做到的?

在 7 月首屆 Kylin Data Summit 上,大會特別邀請到了eBay 全球研發副總裁、中國研發中心總經理田衛女士帶來主旨演講。eBay,這家在國內非常低調的老牌電商,以其深厚的技術基礎在業內廣受關注。熟悉 Kylin 的朋友也都知道,Kylin 項目最初也正是在 eBay 內部孵化並完成。今天小編就爲大家回顧田衛女士當天的演講,演講主題是:增強分析在 eBay 的實踐。

增強分析

Gartner在今年 2 月的數據分析峯會上提出了十項數據發展的趨勢,其中“增強分析 Augmented Analytics ”被列在第一條, 被 Gartner 譽爲“數據和分析的未來”。

在數據可以被分析前,數據工程師需要對數據進行抽取、清洗、融合等準備工作,以提高數據分析的效率和準確性。增強分析Augmented Analytics能夠幫助普通用戶在沒有數據科學專家或IT人員協助的情況下,訪問有效數據,並對理論和假設情況展開測試與驗證。增強分析作爲數據分析的高級增強階段,能爲分析計劃帶來更多自動化動能以及創新洞察力。(點擊此處,查看Gartner對於增強分析的解讀)

田衛,eBay 全球研發副總裁、中國研發中心總經理

eBay的大數據歷程

eBay 始於 1994 年,由 eBay 公司發展歷史我們也可以窺見整個電商行業的演變。

eBay 保存了世界上第一筆電商交易數據,一直發展到今天,整個世界電商的發展史都能在 eBay 找到它的痕跡。此外,eBay 橫跨了全世界 180 多個國家,eBay 的數據不僅僅侷限於某一個地區、市場,是包括北美、歐洲、亞太,整個一條完整的數據鏈。

通過上圖,我們可以對 eBay 的大數據平臺有一個快速的瞭解。eBay 現在處理的數據量涵蓋 700PB 數據, 每天查詢量在120萬左右,這對 eBay 大數據系統有着很高的要求。

目前參與這個系統的數據工程師有6 千餘人。Gartner 一份報告顯示,在高科技公司內,使用數據來驅動業務增長的人數佔 32 %的人。反過來看68%的人還沒有真正應用數據,eBay 現在 1 萬 4 千人,整個應用數據的人大概達到將近 40% 左右。這個數據也不是一蹴而就的,在 2015 年時,大概只有 200 個數據工程師和數據分析師在應用數據;隨着增強型數據平臺的推出,用戶人數有了大幅增長。

eBay 的大數據生態,以 Data Fabric 爲核心。支持以API爲基礎的數據服務。

eBay的大數據演進之路

從上圖可以看到,2005年 eBay 的數據平臺主要是基於 SQL,record report系統。到 2010年,轉向了 Visual Based Discovery 階段。2015年開始, eBay 從 Teradata 向 Hadoop 大數據平臺的遷移,Real-time Streaming 也在那一年出現,進入了一個更爲高級的 Visual Based Discovery 階段。2018年,eBay 大面積開始應用 Hadoop、Spark;以及基於會話式的、NLU等增強式數據分析解決方案。這其中還包括圖譜的元數據管理系統,以及自動商業洞察等新技術, eBay 從 2018 年開始真正意義上向增強分析邁進了一步。

客戶角度的演變

從客戶角度看 eBay 大數據的演進,最早是專職的數據分析師,現在隨着增強分析平臺推出,可以延展到每一位 eBay 的員工。即使用戶不瞭解數據在什麼地方,不瞭解整個數據背後複雜業務邏輯,也能夠非常簡便地去做一些基本數據分析和查詢。

從商業決策的流程來看,從過去靜態的商業決策,提前通過一些 SQL、dashboard,延展到現在是一個動態的 data dashboard。以前公司領導們在做商業討論和決策時,都是由分析師拿一些數據報表,現在直接通過 eBay 的增強數據平臺,能夠直接通過實時 dashboard,快速地進行商業決策。

數據邏輯非常複雜,而且數據本身也是孤立的,eBay 現在通過 data fabric, 把一個從單個部門孤立的分析視角延展到不同的部門,不同業務之間,能夠大家共同協作完成一個商業的決定。這是從客戶層面我們看到的一個進化,從過去一小部分的核心決策人,延展到每一個人都在使用數據進行分析,以及通過數據來輔助商業決策的用戶。

產品角度的演變

從產品層面,eBay 以前依賴於 Teradata,現在發展到了一個自研的基於開源的一整套解決方案。從使用到的技術上來講,非常契合 Gartner 的預測,有 Data Fabric,智能化數據運維、Ad-hoc OLAP 查詢;以及基於 NLP,機器學習等技術的對話式的交互分析。還有 open metadata, 這是整個大數據智能化很重要很重要的一個核心。eBay 做了一個open metadata framework 去賦能大數據的演進。

上圖是 Gartner 在2019年提出的十個大數據領域的趨勢,eBay 中國研發中心已經在標黃色的五個方面取得了顯著的成績。eBay 的技術人員會繼前行,通過實時分析,與業務部門的深度整合,爲 eBay 業務部門提供實時、自動化的,可以進一步提升業務能力的建議。

eBay數據分析生態

iDo

從數據管理這個角度來看,eBay有一套完整的 intelligent data operation, iDo,它能夠自動化地計劃、部署所有的作業,然後自動化進行監測。當有一些作業發生問題的時候,可以進行自動修復。Gartner 預測到 2020 年,增強技術可以降低大概45% 數據運維人員和數據 IT 人員的投入。在 eBay 當這個 iDo 產品推出以後,eBay 數據運維人員減少了 60%。

Open Metadata

這是一個跨平臺,跨領域的平臺。可以支持Teradata, Hadoop,以及其他不同的數據源;能夠做自動發現,同時通過圖譜把不同數據之間的關係、血緣,以及業務邏輯,數據邏輯整合起來。

Zeta

這個平臺相當於數據開發工程師的集成開發環境 IDE,它面向所有的數據開發工程師,當數據工程師需要開發一個數據產品時,這個平臺能夠幫助工程師有效地構建、部署以及調度作業,並幫助數據工程師進行調優;平臺也可以自動分析用戶的SQL,幫助用戶診斷其性能瓶頸在什麼地方,很方便地幫助用戶進行debug和調優,以及一鍵式發佈;同時還可幫助數據科學家在這個平臺進行ad-hoc的查詢和基本的分析工作。

MMD

MMD, Moving Metrics Detection,這個平臺通過無監督機器學習,去發現數據的 pattern,在哪些地方有瓶頸,然後還可以自動地預測數據 pattern 有可能發生的一些趨勢變化,重新找到它的 change point,在新的 pattern下面再進行進一步發現。

GRO

Global Retail Automation,它是通過機器學習理解市場趨勢以及幫助銷售人員有效地做他們的庫存的管理。做這種定位的管理,能夠更好地幫助他們驅動他們在eBay上的業務增長。

Nous

Nous 是 eBay 的增強分析產品的代表之一,背後是基於 bot 的技術,用戶可以跟它進行交互式的數據查詢和報表分析。這個產品體現了三個核心價值:

  • 容易,任何一個人可以容易到像在谷歌上搜索一個普通的關鍵詞一樣,去搜索要做的數據分析,或者感興趣的一些商業上的點。

  • 智能,它取代了傳統報表,不但能夠產生報表,還可做一些具體定位的分析,可能是因爲什麼原因造成了現在數據上的一些偏差。

  • 快,無論後臺是使用 Teradata 還是用 Hadoop,能夠實現非常快非常及時的數據分析的結果。

NOUS -操作簡便的查詢

iBot-對話式查看數據

eBay 在增強分析數據上剛剛邁了第一步,未來還會繼續不斷地加快在增強型數據分析和數據管理上步伐;eBay 中國研發中心也期待能進一步跟業務部門集成在一起,爲業務部門提供更加實時、便捷的分析服務,助力 eBay 創造更多經濟價值;同時 eBay 將秉承一貫作風,把好的技術、實踐、產品貢獻到開源社區,帶動整個大數據業界的發展。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章