sparkSQL數據傾斜，通過兩步計算徹底解決數據傾斜

原創

2018-11-23 04:33

前言：業務場景，單個用戶的數據量，佔總數據量的30%-40%，使用sparkSQL工具進行統計分析；Group By分組聚合，求PV，UV等出現嚴重數據傾斜；

解決思路：加鹽打散，將大Key散列；

解析：加鹽是散列大key，最爲常用的方式，這一點想必大家都能想到；加鹽的方式也很多，像加隨機數，加Hash值等；但是加鹽容易，“消鹽”難；尤其是我們使用sparkSQL作爲工具時，由於SQL的侷限性，加鹽和“消鹽”的難度更大；不過在SQL中加鹽通常不是加隨機數，或者加Hash值來處理；而是要加“維度”，在Group By 分組條件中添加散列度更高的維度（如：user_id,session等）；

兩步操作：1）添加維度count 2）降維度SUM

具體例子：目的是計算UV；分組的條件是ak，由於個別ak的數據超過總數據量的30%。因此導致數據傾斜；此時我們分兩步進行計算，第一步COUNT，第二步SUM；關鍵是在第一步加入了散列程度更高的字段uu;

一步操作導致數據傾斜：上面用兩步計算得到UV，下面用一步計算得到UV，但是一步計算會導致嚴重的數據傾斜；

總結：sparkSQL解決數據傾斜的關鍵是兩步計算的思想；同時要根據業務特性，找到一個合適維度進行加鹽；

如果對該博客仍有不理解的地方；可以添加我的微信，進一步溝通討論；

此時此刻，還有一個事情我不得不說了；

樓主本人家中自產蜂蜜，純天然；

爺爺，老爹時代養蜂，而今我輩養蜂技術盡然荒廢，唯有編碼餬口；

老爹在家養蜂不易，一波廣告還望見諒！

對蜂蜜若有興趣，也可諮詢；本人微信號：zfw1307

小弟在大數據實時分析，和數據傾斜優化等方面積累了一些經驗；如果興趣一起溝通學習；

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

sparkSQL數據傾斜，通過兩步計算徹底解決數據傾斜

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

HDFS一致性和高可用原理

sparkSQL數據傾斜，通過兩步計算徹底解決數據傾斜

spring的事務配置詳解

MySql優化

MyBatis關聯查詢，表字段相同，resultMap映射問題的解決辦法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結