大數據分析平臺的演進之路

1、石器時代

大數據技術剛起步時平臺架構很簡單,數據流從日誌通過RSYNC(linux系統下的數據鏡像備份工具)流入到Hive,然後通過Hive SQL語句統計分析,結果導入到MySQL,最後形成報表展示。整個流程的驅動基於Shell腳本完成,報表系統和數據處理是利用Java實現。所有業務需求都是手工處理,所有報表都要寫Java代碼開發,這個給開發人員造成了很大的工作量,並且用戶獲取數據週期長,速度慢。

圖片.png

2、鐵器時代

整合了所有數據、所有計算資源和服務框架,重新構建形成一個大數據平臺框架。底層是大數據平臺所用的計算資源,離線計算主要是Hive、Spark,流式計算主要是Spark Streaming和Flink;OLAP主要是Impala和Kylin。數據方面Pingback是用戶行爲日誌,機器日誌就是程序產生的相關日誌。線上數據庫主要是MySQL、MongoDB等,大數據存儲主要是HDFS、HBase、Kudu,Kudu主要是支持實時,分佈式存儲主要是HBase、HDFS。再往上層是開發平臺層,主要負責工作流開發。流計算通過專門的開發工具進行管理,就是將任務開發進行重新構建。數據開發針對於系統數據進行血緣管理,提供數據集成管理,實現數據在不同集羣、引擎間的同步。如機房中有很多機器分成3-4個集羣,相互之間要進行數據同步,先前主要是手寫程序完成,現在可以通過數據集成來進行跨DC的數據同步。數倉管理主要是埋點投遞管理、指標維度管理、數倉模型管理。最上層就是直接面向用戶的分析報表平臺,自助分析工具有漏斗分析、畫像分析、路徑分析,還有自助查詢工具、BI報表工具等。

圖片.png

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章