MaxCompute小文件問題優化方案

小文件背景知識
小文件定義
分佈式文件系統按塊Block存放，文件大小比塊大小小的文件（默認塊大小爲64M），叫做小文件。

如何判斷存在小文件數量多的問題
查看文件數量

desc extended + 表名

判斷小文件數量多的標準
1、非分區表，表文件數達到1000個，文件平均大小小於64M
2、分區表: a) 單個分區文件數達到1000個，文件平均大小小於64M，
b) 整個非分區表分區數達到五萬（系統限制爲6萬）

產生小文件數量多的主要原因
1、表設計不合理導致：分區多導致文件多，比如按天按小時按業務單元（假如有6個業務單元BU）分區，那麼一年下來，分區數將會達到365246=52560。
2、在使用Tunnel、Datahub、Console等數據集成工具上傳上傳數據時，頻繁Commit，寫入表（表分區）使用不合理導致：每個分區存在多個文件，文件數達到幾百上千，其中大多數是大小隻有幾 k 的小文件。
3、在使用insert into寫入數據時過，幾條數據就寫入一次，並且頻繁的寫入。
4、Reduce過程中產生小文件過多。
5、Job執行過程中生成的各種臨時文件、回收站保留的過期的文件過多。

注意：雖然在MaxCompute系統側會自動做小文件合併的優化，但對於原因1、2、3需要客戶採用合理的表分區設計和上傳數據的方法纔可以避免。

小文件數量過多產生的影響
MaxCompute處理單個大文件比處理多個小文件更有效率，小文件過多會影響整體的執行性能;小文件過多會給文件系統帶來一定的壓力，且影響空間的有效利用。MaxCompute對單個fuxi Instance可以處理的小文件數限制爲120個，文件數過多影響fuxi instance數目，影響整體性能。

合併小文件命令
set odps.merge.max.filenumber.per.job=50000; --值默認爲50000個；當分區數大於50000時需要調整，最大可到1000000萬，大於1000000的提交多次merge
ALTER TABLE 表名[partition] MERGE SMALLFILES;
如何合併小文件
分區表：
如果您的表已經是分區表，請檢查您的分區字段是否是可收斂的，如果分區數過多同樣會影響計算性能，建議用日期做分區。
1、定期執行合併小文件命令；
2、如果是按日期建的分區，可以每天對前一天的分區數據用insert overwrite重新覆蓋寫入。
例如：

insert overwrite table tableA partition (ds='20181220')
select * from tableA where ds='20181220';
非分區表：
如果您的表是非分區表，您可以定期執行合併小文件命令來優化小文件問題，但強烈建議您設計成分區表：
1、先創建一個新的分區表，建議按日期做分區，合理設置生命週期，以方便進行歷史數據回收；
2、把原非分區表的數據導入新的分區表；（建議先暫停原非分區表的實時寫入業務）
例如：

create table sale_detail_patition like sale_detail;
alter table sale_detail_insert add partition(sale_date='201812120', region='china');
insert overwrite table sale_detail_patition partition (sale_date='20181220', region='china')
select * from sale_detail;
3、修改上下游業務：入庫程序改成寫入新分區表，查詢作業改成從新分區表中查詢；
4、新分區表完成數據遷移和驗證後，刪除原分區表。

注意：如果您使用insert overwrite重新寫入全量數據合併小文件時，請注意一定不要同時存在insert overwrite和insert into同時存在的情況，否則有丟失數據的風險。

如何避免產生小文件
優化表設計
合理設計表分區，分區字段是儘量是可收斂或可管理的，如果分區數過多同樣會影響計算性能，建議用日期做分區，併合理設置表的生命週期，以方便對歷史數據回收，也可控制您的存儲成本。
參考文章：《MaxCompute 表(Table)設計規範》、《MaxCompute表設計最佳實踐》

避免使用各種數據集成工具產生小文件
1、Tunnel->MaxCompute
使用Tunnel上傳數據時避免頻繁commit，儘量保證每次提交的DataSize大於64M，請參考《離線批量數據通道Tunnel的最佳實踐及常見問題》

2、Datahub->MaxCompute
如果用Datahub產生小文件，建議合理申請shard，可以根據topic的Throughput合理做shard合併，減少shard數量。可以根據topic的Throughput觀察數據流量變化，適當調大數據寫入的間隔時間。

申請Datahub shard數目的策略（申請過多的datahub shard將會產生小文件問題）
1）默認吞吐量單個shard是1MB/s，可以按照這個分配實際的shard數目（可以在此基礎上多加幾個）；
2）同步MaxCompute的邏輯是每個shard有一個單獨的task（滿足5分鐘或者64MB會commit一次），默認設置5分鐘是爲了儘快能在MaxCompute查到數據。如果是按照小時建partition，那個一個shard每個小時有12個文件。如果這個時候數據量很少，但是shard很多，在MaxCompute裏面就會很多小文件（shard*12/hour）。所以不要過多的分配shard，按需分配。

參考建議：如果流量是5M/s，那麼就申請5個shard，爲預防流量峯值預留20%的Buffer，可以申請6個shard。

3、DataX->MaxCompute
因爲datax也是封裝了tunnel的SDK來寫入MaxCompute的，因此，建議您在配置ODPSWriter的時候，把blockSizeInMB這個參數不要設置太小，最好是64M以上。

MaxCompute小文件問題優化方案

序列化方案選型對比 - JSON/ProtocolBuffer/FlatBuffer/DIMBIN

亞洲唯一，阿里雲SLB位列Gartner全球網絡負載均衡市場前五

阿里雲安全肖力：雲上數據安全體系建設的六要素

MaxCompute客戶端(odpscmd)在windows命令行下查詢中文亂碼問題處理實踐

阿里雲OSS同城冗餘存儲正式商業化，提供雲上同城容災能力

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結