1.RDD工作流程

1.1 RDD理解

RDD是spark特有的數據模型，談到RDD就會提到什麼彈性分佈式數據集，什麼有向無環圖，本文暫時不去展開這些高深概念，在閱讀本文時候，大家可以就把RDD當作一個數組，這樣的理解對我們學習RDD的API是非常有幫助的。本文所有示例代碼都是使用scala語言編寫的。RDD的執行過程如下：

從外部數據創建出輸入RDD,或者從驅動程序分發驅動程序中的對象集合

對RDD進行轉化，一個RDD轉化爲一個新的RDD，如filter()操作

如果需要重用，告知RDD執行persist()操作

執行action觸發計算並行計算，spark先優化再執行計算，如count()和first()

RDD的創建有2種方式

1)從驅動程序分發驅動程序中的對象集合
從內存裏構造RDD，使用的方法：makeRDD和parallelize方法

val rdd01 = sc.makeRDD(List(1,2,3,4,5,6));

val r01 = rdd01.map { x => x * x }

println(r01.collect().mkString(","))

/* Array */

val rdd02 = sc.makeRDD(Array(1,2,3,4,5,6))

val r02 = rdd02.filter { x => x < 5}

println(r02.collect().mkString(","))

 

val rdd03 = sc.parallelize(List(1,2,3,4,5,6), 1)

val r03 = rdd03.map { x => x + 1 }

println(r03.collect().mkString(","))

/* Array */

val rdd04 = sc.parallelize(Array(1,2,3,4,5,6) ,1)

val r04 = rdd04.filter { x => x > 3 }

println(r04.collect().mkString(","))

1.2.makeRDD和parallelize的區別

makeRDD有兩種實現方式，第一種方式parallelize聲明都一樣，接收的參數和parallelize完全一樣，def makeRDD[T:ClassTag]，這種實現方式的makeRDD依賴了parallelize；makeRDD第二種實現方式defmakeRDD[T:ClassTag](T,Seq(String)))

第一種:mkRDD實現方式

val blog1=sc.parallelize(List(1,2,3));
val blog2=sc.makeRDD(List(1,2,3)

第二種:mkRDD實現方式

val seq=List((1,List("a","b","c")),(2,List("aa","bb","cc")));

 val seq=List((1,List("a","b","c")),(2,List("aa","bb","cc")));

val blog3=sc.makeRDD(seq);
blog3.preferredLocations(blog3.partitions(0));
blog3.preferredLocations(blog3.partitions(1));

2.WordCount解說

WordCount是分佈式編程的入門示例，本節也從WordCount舉例說明RDD DEMO

2.1.Spark shell版本

//加載hdfs上的文件
val txtFile ="/tmp/test/core-site.xml" ;       
val txtData = sc.textFile(txtFile);
//將上一步生成的RDD對象保存到緩存中，在此之後Spark就不需要在每次數據查詢時都重新計算
txtData.cache()    ;
// flatMap先映射後扁平化,
val wcData = txtData.flatMap(l =>l.split(" ")).map(word => (word, 1)).reduceByKey(_ + _);    
//可以提取出所有rdd裏的數據項,逐行輸出
wcData.collect().foreach(println);

備註：

A. 關於spark-shell的啓動參數指定

bin/spark-shell --executor-memory 1G --total-executor-cores10 --executor-cores 1 --master yarn-client --driver-class-path /usr/local/tdr_hadoop/spark/spark-1.6.0-bin-hadoop2.6/lib/mysql-connector-java-5.1.40-bin.jar

--executor-memory: 指定每個executor(執行器)佔用的內存

--total-executor-cores: 所有executor總共使用的cpu核數

--executor-cores：每個executor使用的cpu核數

--driver-class-path:指定要加載的jar包

--master:

local[8]：表示在本地運行，數據會下載到接口機本地來執行，單機版

spark://master01:7077：表示在集羣上運行應用程序，指定任務提交的集羣路徑在哪裏。這就需要提前啓動一個真實的Standalone集羣。可以指定多個master的地址，用逗號隔開。

yarn-client：在客戶模式上，driver與提交程序的客戶端在一個進程

yarn-cluster：在集羣模式上，driver是從集羣中的一個worker進程中啓動的，這個進程只要完成了提交作業任務就會退出，不會等待提交的應用程序的完成。Spark-shell時，必須使用yarn-client模式，因爲你要在client上寫SQL。

B.spark-shell 是一個spark application，運行時需要向資源管理器申請資源，如standalone spark、YARN、Mesos。本例向standalone spark申請資源，所以在運行spark-shell時需要指向申請資源的standalonespark集羣信息，其參數爲MASTER。

如果未在spark-env.sh中申明MASTER，則使用命令MASTER=spark://cdh1:7077bin/spark-shell啓動；如果已經在spark-env.sh中申明MASTER，則可以直接用bin/spark-shell啓動。

由於spark-shell缺省的情況下，會申請所有的CPU資源

2.2. java 版本

搭建Spark開發環境

（1）前提：配置好jdk和scala到windows
（2）安裝Intellij去官網下載Intellij：https://www.jetbrains.com/idea/，在windows環境下雙擊安裝即可
（3）安裝scala插件,安裝好scala插件後，點擊restart重啓intellij

（4）、使用Intellij寫WordCount代碼
a.新建scala工程:File -> new -> project -> scala project –>scala，項目名稱：spark02

在src目錄下，建立cn.com包，在該包下建立object 類，命名爲word，完成word.scala代碼如下所示：

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._

/**
  * Created by Administrator on 2016/11/2.
  */
object word {
  def main(args: Array[String]) {
    if(args.length < 1) {
      System.err.println("Usage: <file>")
      System.exit(1)
    }
    val conf = new SparkConf()
    val sc = new SparkContext(conf)
    //SparkContext 是把代碼提交到集羣或者本地的通道，我們編寫Spark代碼，無論是要本地運行還是集羣運行都必須有SparkContext的實例
    val line = sc.textFile(args(0))
    //把讀取的內容保存給line變量，其實line是一個MappedRDD，Spark的所有操作都是基於RDD的
    line.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect.foreach(println)
    sc.stop
  }

}

b.導入spark包
File

->Project structure

->project settting

->libraries->+

導入spark-assembly-1.6.0-hadoop2.6.0.jar包（該包從spark安裝包的lib下獲得）

c.選擇Artifacts

File

->Project structure

->project settting

->Artifacts->+，選擇要導入的項目，以及main類

並且指定jar包輸出的位置

d．輸出jar包
Build -> Build ArtiFacts ->build,打好jar包到：D:\spark02\out\artifacts\spark02_jar\spark02.jar

e．上傳jar包到spark客戶端，並執行
執行命令：

spark-submit --master yarn --executor-memory 1000M /usr/local/tdr_hadoop/spark/spark02.jarhdfs://tdrHadoop/tmp/test/core-site.xml

在yarn的前臺顯示正在執行

執行結果輸出：

本文爲原創文章,同時在微信公衆號發佈，在轉載請聯繫作者，想了解更多精彩大數據技術文章，請關注微信公衆號：大數據梅峯谷，也可以掃描二維碼

【spark你媽喊你回家喫飯-05】RDD編程之旅基礎篇-01

1.RDD工作流程

1.1 RDD理解

1.2.makeRDD和parallelize的區別

2.WordCount解說

2.1.Spark shell版本

2.2. java 版本

工作中用到的腳本合集

微服務實踐Aspire項目發佈到遠程k8s集羣

通過f-string編寫簡潔高效的Python格式化輸出代碼

[轉帖]20個常用的Linux工具命令

[轉帖]PostgreSQL從小白到高手教程 - 第46講：poc-tpch測試

24-5-18 X

12/05,12/06 ----XML篇

tomcat服務器與HTTP協議

Android 4.1:UI開源,連接,服務和工具全面升級

創建和使用SDCARD

【Spark你媽喊你回家喫飯-04】再說Spark底層運行機制

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結