[
在spark shell中編寫WordCount程序
.
執行步驟
- 將spark.txt文件上傳到hdfs上 /usr/local hadoop fs -put
- 打包maven項目
- 將打包後的jar包上傳到機器
- 編寫 spark-submit 腳本
- 執行腳本,提交spark應用到集羣執行
hadoop fs -put spark.txt /spark.txt
http://spark1:50070 查看
】
如果要在集羣上運行,則需要修改代碼中的兩處:
- 將 setMaster() 方法刪掉,他會自己去連接
- 將對象是本地文件改成hdfs上的文件
SparkConf conf = new SparkConf().setAppName("wordCountCluster");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD<String> lines = sc.textFile("hdfs://spark1:9000/spark.txt");