Hive數據傾斜及解決方案

原創

午夜阳光psb

2018-08-22 06:05

1.現象

數據傾斜是進行大數據計算時最經常遇到的問題之一。當我們在執行hiveql或者運行mapreduce作業時候，如果遇到一直卡在map100%,reduce99%,查看任務監控頁面，發現只有少量（1個或幾個）reduce子任務未完成。因爲其處理的數據量和其他reduce差異過大。一般就是遇到了數據傾斜的問題。數據傾斜其實是進行分佈式計算的時候，某些節點的計算能力比較強或者需要計算的數據比較少，早早執行完了，某些節點計算的能力較差或者由於此節點需要計算的數據比較多，導致出現其他節點的reduce階段任務執行完成，但是這種節點的數據處理任務還沒有執行完成。

2.產生原因

1)key分佈不均勻

2)業務數據本身的特性

3)建表時考慮不周

4)某些sql語句本身就有數據傾斜，如下表所示：

關鍵詞	情形	後果
join	中一個表較小，但是key集中	分發到某一個或幾個reduce上的數據遠高於平均值
join	大表與大表，但是分桶的判斷字段0值或空值過多	這些空值都由一個reduce處理，非常慢
group by	group by 維度過小，某值的數量過多	處理某值的reduce灰常耗時
count distinct	某特殊值過多	處理此特殊值reduce耗時

（待完善）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Hive map階段優化之一次詳細的優化分析過程原

問津已非少年

2018-12-02 21:12:16

【總結】一不小心的Map端數據傾斜

2018-09-10 03:54:18

Spark數據傾斜

Star-Technology

2018-08-22 08:57:03

hive優化

2018-08-22 03:17:07

Map端join算法實現，解決Reduce端數據傾斜，負載不均（分佈式緩存）

2018-08-21 21:46:07

MapReduce解決數據傾斜

谁主沉浮---data

2018-08-20 21:46:34

Hive 窗口函數（Windowing Functions）

窗口函數對點擊流處理，和類似的時間序列/滑動窗分析很有用。最近在做時間序列分析，希望趁這個機會對窗口函數有進一步深入的瞭解。 Lead & Lag Lead 和Lag是金融方面的術語，意思是提前和延期。按照時間段統計時，有些

2020-07-08 12:17:40

hive使用tez環境配置

Tez引擎包下載： https://mirrors.tuna.tsinghua.edu.cn/apache/tez/0.8.4/apache-tez-0.8.4-bin.tar.gz 1：將下載的安裝包解壓 $ pwd /opt/ubd/

梦里却知是客

2020-07-08 11:59:58

tez 0.9.0 的安裝和測試

文章目錄1 tez的概覽1.1 tez介紹1.1.1 介紹2 tez的安裝2.1 tez下載2.2 tez源碼編譯2.3 tez的安裝2.3.1 解壓並配置環境2.3.2 配置配置文件2.4 tez、hadoop、hive整合2.

Aidon-东哥博客

2020-07-08 11:21:42

hive常用窗口函數

1 hive窗口函數在平時的開發中常用那些hive函數？？ 1、字符串操作函數？split、concat、ifnull、cast 2、聚合函數： hive適用於分析，所以常用。 3、時間函數：數倉的特徵隨時間變化而變化，所

Aidon-东哥博客

2020-07-08 11:21:42

hive配置教程詳解

使用到的工具 xshell centos7 xtpf apache-hive-2.3.6-bin mysql的驅動第一步：將下載好的hive安裝包上傳到/usr/local目錄下解壓解壓命令 tar -zxvf apache-

2020-07-08 11:12:13

datax同步mysql數據到hive

datax hdfswriter文檔 https://github.com/alibaba/DataX/blob/master/hdfswriter/doc/hdfswriter.md 需要注意的是，hdfswriter寫入時的字段分隔符

2020-07-08 10:43:36

Apache Hive+Kerberos安裝配置及 Kettle訪問帶 Kerberos 認證的 Hive的集成

目錄1 連接2 KDC 安裝2.1 安裝 Kerberos 服務2.2 配置 /var/kerberos/krb5kdc/kdc.conf2.3 配置 /var/kerberos/krb5kdc/kadm5.acl2.4 配置 /

2020-07-08 09:55:10

hive鎖的問題

hive鎖的問題最近在insert into 插入數據的時候遇到了hive鎖表的問題，下面是報錯信息，原因就是一張hive的臨時表被鎖造成報錯。 1.Hive中定義了兩種鎖的模式：共享鎖（S）和排它鎖（X），顧名思義，多個共

2020-07-08 09:11:58

Hive批量刪除一段時間分區和動態分區更新數據

Hive批量刪除一段時間分區和動態分區更新數據 1.hive動態分區 -- 批量刪除分區數據 alter table dm.dm_call_gateway_bill_time_detail drop partition(dt >=

2020-07-08 09:11:58

24小時熱門文章

前端使用 Konva 實現可視化設計器（13）- 折線 - 最優路徑應用【思路篇】

最新文章

最新評論文章