Spark分區相關

在Linux啓動spark-shell時,可以使用以下命令(兩個線程):

$ spark-shell --master local[2]

使用sc.textFile(“path”)導入文件,然後可以使用以下命令查看分區數:

scala> rdd.toDebugString()

此時我從HDFS中導入了一個文件:

然後查看該 RDD --- accounts的分區數:

使用sc.textFile("path",num)命令可以手動設置分區數:

查看分區數:

這次使用HDFS中accounts文件夾下面的所有文件進行創建RDD:

我們有7個數據文件,也就創建了7個分區。

打印每個partition的第一行(每一個partition都是一個迭代器):

scala> accounts.foreachPartition(partition => println(partition.next))

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章