Spark Core - 數據加載 - 從HDFS讀取數據

package DataInput

import org.apache.spark.{SparkConf, SparkContext}

/**
  * @ Description:Spark Core - 從HDFS讀取數據
  * @ Modified By:
  * @ Date       :22:53 2020/4/20 0020
  *
  * @ Author     :leoxry
  * @ Version    :1.0
  */
object HDFS {
  def main(args: Array[String]): Unit = {
    // 1. 創建SparkConf並設置App名稱
    val conf = new SparkConf()
      .setMaster("local[*]")
      .setAppName("DataInput-HDFS")
    // 2. 創建SparkContext,該對象是提交Spark App的入口
    val sc = new SparkContext(conf)

    // 3. 使用sc創建RDD並執行想應的transformation和action
    val data01 = sc.textFile("hdfs://hadoop01:9000/data/WordCount/test01.txt")
      .flatMap(x => x.split(" "))
      .map(x => (x, 1))
      .reduceByKey(_+_, 1)
      .sortBy(_._2, false)

    data01.foreach(println)

    // 4. 關閉連接
    sc.stop()
  }
}

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章