數倉面試高頻考點--解決hive小文件過多問題

本文首發於公衆號：五分鐘學大數據

小文件產生原因

hive 中的小文件肯定是向 hive 表中導入數據時產生，所以先看下向 hive 中導入數據的幾種方式

直接向表中插入數據

insert into table A values (1,'zhangsan',88),(2,'lisi',61);

這種方式每次插入時都會產生一個文件，多次插入少量數據就會出現多個小文件，但是這種方式生產環境很少使用，可以說基本沒有使用的

通過load方式加載數據

load data local inpath '/export/score.csv' overwrite into table A  -- 導入文件

load data local inpath '/export/score' overwrite into table A   -- 導入文件夾

使用 load 方式可以導入文件或文件夾，當導入一個文件時，hive表就有一個文件，當導入文件夾時，hive表的文件數量爲文件夾下所有文件的數量

通過查詢方式加載數據

insert overwrite table A  select s_id,c_name,s_score from B;

這種方式是生產環境中常用的，也是最容易產生小文件的方式

insert 導入數據時會啓動 MR 任務，MR中 reduce 有多少個就輸出多少個文件

所以，文件數量=ReduceTask數量*分區數

也有很多簡單任務沒有reduce，只有map階段，則

文件數量=MapTask數量*分區數

每執行一次 insert 時hive中至少產生一個文件，因爲 insert 導入時至少會有一個MapTask。
像有的業務需要每10分鐘就要把數據同步到 hive 中，這樣產生的文件就會很多。

小文件過多產生的影響

首先對底層存儲HDFS來說，HDFS本身就不適合存儲大量小文件，小文件過多會導致namenode元數據特別大, 佔用太多內存，嚴重影響HDFS的性能
對 hive 來說，在進行查詢時，每個小文件都會當成一個塊，啓動一個Map任務來完成，而一個Map任務啓動和初始化的時間遠遠大於邏輯處理的時間，就會造成很大的資源浪費。而且，同時可執行的Map數量是受限的。

怎麼解決小文件過多

1. 使用 hive 自帶的 concatenate 命令，自動合併小文件

使用方法：

#對於非分區表
alter table A concatenate;

#對於分區表
alter table B partition(day=20201224) concatenate;

舉例：

#向 A 表中插入數據
hive (default)> insert into table A values (1,'aa',67),(2,'bb',87);
hive (default)> insert into table A values (3,'cc',67),(4,'dd',87);
hive (default)> insert into table A values (5,'ee',67),(6,'ff',87);

#執行以上三條語句，則A表下就會有三個小文件,在hive命令行執行如下語句
#查看A表下文件數量
hive (default)> dfs -ls /user/hive/warehouse/A;
Found 3 items
-rwxr-xr-x   3 root supergroup        378 2020-12-24 14:46 /user/hive/warehouse/A/000000_0
-rwxr-xr-x   3 root supergroup        378 2020-12-24 14:47 /user/hive/warehouse/A/000000_0_copy_1
-rwxr-xr-x   3 root supergroup        378 2020-12-24 14:48 /user/hive/warehouse/A/000000_0_copy_2

#可以看到有三個小文件，然後使用 concatenate 進行合併
hive (default)> alter table A concatenate;

#再次查看A表下文件數量
hive (default)> dfs -ls /user/hive/warehouse/A;
Found 1 items
-rwxr-xr-x   3 root supergroup        778 2020-12-24 14:59 /user/hive/warehouse/A/000000_0

#已合併成一個文件

注意：
1、concatenate 命令只支持 RCFILE 和 ORC 文件類型。
2、使用concatenate命令合併小文件時不能指定合併後的文件數量，但可以多次執行該命令。
3、當多次使用concatenate後文件數量不在變化，這個跟參數 mapreduce.input.fileinputformat.split.minsize=256mb 的設置有關，可設定每個文件的最小size。

2. 調整參數減少Map數量

設置map輸入合併小文件的相關參數：

#執行Map前進行小文件合併
#CombineHiveInputFormat底層是 Hadoop的 CombineFileInputFormat 方法
#此方法是在mapper中將多個文件合成一個split作爲輸入
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; -- 默認

#每個Map最大輸入大小(這個值決定了合併後文件的數量)
set mapred.max.split.size=256000000;   -- 256M

#一個節點上split的至少的大小(這個值決定了多個DataNode上的文件是否需要合併)
set mapred.min.split.size.per.node=100000000;  -- 100M

#一個交換機下split的至少的大小(這個值決定了多個交換機上的文件是否需要合併)
set mapred.min.split.size.per.rack=100000000;  -- 100M

設置map輸出和reduce輸出進行合併的相關參數:

#設置map端輸出進行合併，默認爲true
set hive.merge.mapfiles = true;

#設置reduce端輸出進行合併，默認爲false
set hive.merge.mapredfiles = true;

#設置合併文件的大小
set hive.merge.size.per.task = 256*1000*1000;   -- 256M

#當輸出文件的平均大小小於該值時，啓動一個獨立的MapReduce任務進行文件merge
set hive.merge.smallfiles.avgsize=16000000;   -- 16M

啓用壓縮

# hive的查詢結果輸出是否進行壓縮
set hive.exec.compress.output=true;

# MapReduce Job的結果輸出是否使用壓縮
set mapreduce.output.fileoutputformat.compress=true;

3. 減少Reduce的數量

#reduce 的個數決定了輸出的文件的個數，所以可以調整reduce的個數控制hive表的文件數量，
#hive中的分區函數 distribute by 正好是控制MR中partition分區的，
#然後通過設置reduce的數量，結合分區函數讓數據均衡的進入每個reduce即可。

#設置reduce的數量有兩種方式，第一種是直接設置reduce個數
set mapreduce.job.reduces=10;

#第二種是設置每個reduce的大小，Hive會根據數據總大小猜測確定一個reduce個數
set hive.exec.reducers.bytes.per.reducer=5120000000; -- 默認是1G，設置爲5G

#執行以下語句，將數據均衡的分配到reduce中
set mapreduce.job.reduces=10;
insert overwrite table A partition(dt)
select * from B
distribute by rand();

解釋：如設置reduce數量爲10，則使用 rand()， 隨機生成一個數 x % 10 ，
這樣數據就會隨機進入 reduce 中，防止出現有的文件過大或過小

4. 使用hadoop的archive將小文件歸檔

Hadoop Archive簡稱HAR，是一個高效地將小文件放入HDFS塊中的文件存檔工具，它能夠將多個小文件打包成一個HAR文件，這樣在減少namenode內存使用的同時，仍然允許對文件進行透明的訪問

#用來控制歸檔是否可用
set hive.archive.enabled=true;
#通知Hive在創建歸檔時是否可以設置父目錄
set hive.archive.har.parentdir.settable=true;
#控制需要歸檔文件的大小
set har.partfile.size=1099511627776;

#使用以下命令進行歸檔
ALTER TABLE A ARCHIVE PARTITION(dt='2020-12-24', hr='12');

#對已歸檔的分區恢復爲原文件
ALTER TABLE A UNARCHIVE PARTITION(dt='2020-12-24', hr='12');

注意:
歸檔的分區可以查看不能 insert overwrite，必須先 unarchive

最後

如果是新集羣，沒有歷史遺留問題的話，建議hive使用 orc 文件格式，以及啓用 lzo 壓縮。
這樣小文件過多可以使用hive自帶命令 concatenate 快速合併。

如果你想獲取更多大數據相關技術文章，可關注公衆號：五分鐘學大數據，專注於大數據技術研究，分享高質量的原創技術文章

數倉面試高頻考點--解決hive小文件過多問題

小文件產生原因

小文件過多產生的影響

怎麼解決小文件過多

1. 使用 hive 自帶的 concatenate 命令，自動合併小文件

2. 調整參數減少Map數量

3. 減少Reduce的數量

4. 使用hadoop的archive將小文件歸檔

最後

工作中用到的腳本合集

通過f-string編寫簡潔高效的Python格式化輸出代碼

24-5-18 X

創新大師Steve Blank: 你真的知道什麼是真正的精益創業嗎？

CV學習筆記(二十四):發票類OCR識別

遍歷多盤的方法

使用OpenCV實現人臉圖像卡通化

這個17歲的黑客天才，破解了第一代iPhone！

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結