Spark讀取HDFS文件分區數量確定

結論

  1. split數量決定分區數量
  2. split數量取決於textFile ("", partitionNum)參數
  3. goalsize = totalsize / partitionNum
  4. splitsize = Max(minSize,Max(goalsize, blocksize))
  5. 文件大小大於splitsize 1.1倍會被拆分
  6. 一個分區只能包含一個文件
  7. 分區數量 >= 文件數量
  8. 參考地址:https://www.jianshu.com/p/e33671341f0d
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章