Spark的RDD的簡要描述

文章目錄

什麼是RDD

RDD叫做彈性分佈式數據集，是Spark中最基本的數據抽象。代碼中是一個抽象類，它代表一個不可變、可分區、裏面的元素可並行計算的集合。

RDD的屬性

1)一組分區（Partition），即數據集的基本組成單位;
2)一個計算每個分區的函數;
3)RDD之間的依賴關係;
4)一個Partitioner，即RDD的分片函數;
5)一個列表，存儲存取每個Partition的優先位置（preferred location）。

RDD特點

RDD表示只讀的數據集，生成的RDD不可改變只能通過轉換操作性生成一個新的RDD，新的RDD包含了從其他RDD衍生所必需的信息。RDDs之間存在依賴，RDD的執行是按照血緣關係延時計算的。如果血緣關係較長，可以通過持久化RDD來切斷血緣關係。

RDD的兩種算子

一類叫做transformations，它是用來將RDD進行轉化，構建RDD的血緣關係；另一類叫做actions，它是用來觸發RDD的計算，得到RDD的相關計算結果或者將RDD保存的文件系統中

緩存

如果在應用程序中多次使用同一個RDD，可以將該RDD緩存起來，該RDD只有在第一次計算的時候會根據血緣關係得到分區的數據，在後續其他地方用到該RDD的時候，會直接從緩存處取而不用再根據血緣關係計算，這樣就加速後期的重用。如下圖所示，RDD-1經過一系列的轉換後得到RDD-n並保存到hdfs，RDD-1在這一過程中會有個中間結果，如果將其緩存到內存，那麼在隨後的RDD-1轉換到RDD-m這一過程中，就不會計算其之前的RDD-0了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark的RDD的簡要描述

文章目錄

什麼是RDD

RDD的屬性

RDD特點

RDD的兩種算子

緩存

HDFS文件讀和寫

簡要談談Fsimage，Edits的作用

secondarynameNode如何輔助管理FSImage與Edits文件

RAID的意思

Shuffle（混洗）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結