Spark API編程動手實戰-05-spark文件操作和debug

這次 我們以指定executor-memory參數的方式來啓動spark-shell:

啓動成功了

 

在命令行中我們指定了spark-shell運行暫用的每個機器上的executor的內存爲1g大小,啓動成功後參看web頁面:

 

從hdfs上讀取文件:

 

在命令行中返回的MappedRDD,使用toDebugString,可以查看其lineage的關係:

可以看出MappedRDD是從HadoopRDD轉換而來的

再看下textFile的源代碼:

 

hadoopFile這個方法返回的是一個HadoopRDD,源碼如下所示:

而map方法產生的是一個MappedRDD:

 

下面進行一個簡單的wordcount操作:

執行結果:

再次使用toDebugString,查看下依賴關係:

HadoopRDD -> MappedRDD -> FlatMappedRDD ->  MappedRDD -> ShuffledRDD 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章