這次 我們以指定executor-memory參數的方式來啓動spark-shell:
啓動成功了
在命令行中我們指定了spark-shell運行暫用的每個機器上的executor的內存爲1g大小,啓動成功後參看web頁面:
從hdfs上讀取文件:
在命令行中返回的MappedRDD,使用toDebugString,可以查看其lineage的關係:
可以看出MappedRDD是從HadoopRDD轉換而來的
再看下textFile的源代碼:
hadoopFile這個方法返回的是一個HadoopRDD,源碼如下所示:
而map方法產生的是一個MappedRDD:
下面進行一個簡單的wordcount操作:
執行結果:
再次使用toDebugString,查看下依賴關係:
HadoopRDD -> MappedRDD -> FlatMappedRDD -> MappedRDD -> ShuffledRDD