本文介紹如何在E-MapReduce中通過Tablestore Spark Streaming Source將TableStore中的數據實時導入到Delta Lake中。
背景介紹
近些年來HTAP(Hybrid transaction/analytical processing)的熱度越來越高,通過將存儲和計算組合起來,既能支持傳統的海量結構化數據分析,又能支持快速的事務更新寫入,是設計數據密集型系統的一個成熟的架構。
表格存儲(Tablestore)是阿里雲自研的 NoSQL 多模型數據庫,提供海量結構化數據存儲以及快速的查詢和分析服務(PB 級存儲、千萬 TPS 以及毫秒級延遲),藉助於表格存儲的底層引擎,能夠很好的完成OLTP場景下的需求。Delta Lake類似於支持Delta的Data Lake(數據湖),使用列存來存ba