Relational Cache相關文章鏈接:
使用Relational Cache加速EMR Spark數據分析
使用EMR Spark Relational Cache跨集羣同步數據
EMR Spark Relational Cache的執行計劃重寫
EMR Spark Relational Cache如何支持雪花模型中的關聯匹配
背景
在利用Relational Cache進行查詢優化時,我們需要通過預計算,存儲大量數據。而在查詢時,我們真正需要讀取的數據量也許並不大。爲了能讓查詢實現秒級響應,這就涉及到優化從大量數據中快速定位所需數據的場景。本文介紹在EMR Spark Relational Cache中,我們如何針對這種場景進行了優化。
存儲格式
在數據存儲格式上,我們默認選擇Spark社區支持最好的Parquet格式。Parquet是