19 Spark

目錄

 1安裝Spark

2示例

2.1Spark應用、作業、階段和任務

2.2Scala獨立應用

3彈性分佈式數據集

3.1創建

3.2轉換和動作

3.3持久化

3.4序列化

4共享變量

4.1廣播變量

4.2累加器

5剖析Spark作業運行機制

5.1作業提交

5.2DAG構建

5.3任務調度

5.4任務執行

6執行器和集羣管理器


 

 1安裝Spark

2示例

2.1Spark應用、作業、階段和任務

2.2Scala獨立應用

3彈性分佈式數據集

3.1創建

3.2轉換和動作

聚合轉換

foldByKey操作作用於RDD[K,V]根據K將V做摺疊、合併處理,其中的參數zeroValue表示先根據映射函數將zeroValue應用與V,進行初始化V,在將映射函數應用於初始化後的V。

3.3持久化

持久化級別

3.4序列化

4共享變量

4.1廣播變量

4.2累加器

待補充

5剖析Spark作業運行機制

5.1作業提交

5.2DAG構建

5.3任務調度

5.4任務執行

6執行器和集羣管理器

運行在YARN上的SPARK

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章