EMR Spark Relational Cache 利用數據預組織加速查詢

Relational Cache相關文章鏈接:

使用Relational Cache加速EMR Spark數據分析
使用EMR Spark Relational Cache跨集羣同步數據
EMR Spark Relational Cache的執行計劃重寫
EMR Spark Relational Cache如何支持雪花模型中的關聯匹配

背景

在利用Relational Cache進行查詢優化時,我們需要通過預計算,存儲大量數據。而在查詢時,我們真正需要讀取的數據量也許並不大。爲了能讓查詢實現秒級響應,這就涉及到優化從大量數據中快速定位所需數據的場景。本文介紹在EMR Spark Relational Cache中,我們如何針對這種場景進行了優化。

存儲格式

在數據存儲格式上,我們默認選擇Spark社區支持最好的Parquet格式。Parquet是

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章