數據上雲,應該選擇全量抽取還是增量抽取?

作者:向師富 轉自:阿里巴巴數據中臺官網https://dp.alibaba.com
概述
數據抽取是指從源數據抽取所需要的數據, 是構建數據中臺的第一步。 數據源一般是關係型數據庫,近幾年,隨着移動互聯網的蓬勃發展,出現了其他類型的數據源,典型的如網站瀏覽日期、APP瀏覽日誌、IoT設備日誌
從技術實現方式來講,從關係型數據庫獲取數據,可以細分爲全量抽取、增量抽取2種方式,兩種方法分別適用於不用的業務場景

增量抽取

  • 時間戳方式

用時間戳方式抽取增量數據很常見,業務系統在源表上新增一個時間戳字段,創建、修改表記錄時,同時修改時間戳字段的值。 抽取任務運行時,進行全表掃描,通過比較抽取任務的業務時間、時間戳字段來決定抽取哪些數據。
此種數據同步方式,在準確率方面有兩個弊端:
1、只能獲取最新的狀態,無法捕獲過程變更信息,比如電商購物場景,如果客戶

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章