在Linux啓動spark-shell時,可以使用以下命令(兩個線程):
$ spark-shell --master local[2]
使用sc.textFile(“path”)導入文件,然後可以使用以下命令查看分區數:
scala> rdd.toDebugString()
此時我從HDFS中導入了一個文件:
然後查看該 RDD --- accounts的分區數:
使用sc.textFile("path",num)命令可以手動設置分區數:
查看分區數:
這次使用HDFS中accounts文件夾下面的所有文件進行創建RDD:
我們有7個數據文件,也就創建了7個分區。
打印每個partition的第一行(每一個partition都是一個迭代器):
scala> accounts.foreachPartition(partition => println(partition.next))