深入淺出RDD Persist和Cache

原創

一铭

2020-05-24 06:36

前面已經介紹了persist和cache的基本原理。那麼RDD是如何進行persist和cache操作的呢？

Persist RDD如何執行

從實現層面，persist()函數只是對RDD的storageLevel（存儲級別）進行了設置，函數內部並沒有執行任何數據緩存的動作。那麼，當設置完RDD的storageLevel後，RDD的緩存動作是如何觸發的，又是如何實現的呢？

首先，在抽象類RDD中，定義了一個沒有實現的函數compute，該函數用來計算RDD的一個分區。該函數由各種類型的RDD（RDD的子類）來實現，因爲每種類型的RDD計算方式不同。該函數的定義如下：

  def compute(split: Partition, context: TaskContext): Iterator[T]

另外，在RDD抽象類中還提供的一個迭代器函數：

  final def iterator(split: Partition, context: TaskContext): Iterator[T] = {
    // 若設置了RDD的存儲級別：storageLevel，從緩存中讀取或則重新計算
    if (storageLevel != StorageLevel.NONE) {
      getOrCompute(split, context)
    } else {
      // 默認是存儲級別是NONE，調用下面的函數來重新計算RDD，或從checkpoint讀取數據
      computeOrReadCheckpoint(split, context)
    }
  }

getOrCompute函數

getOrCompute函數會根據StorageLevel先從本地的存儲中讀取分區數據，若讀取失敗，則調用compute函數來計算分區數據。

/**
 * Compute an RDD partition or read it from a checkpoint if the RDD is checkpointing.
 */
private[spark] def computeOrReadCheckpoint(split: Partition, context: TaskContext): Iterator[T] =
{
  // 若checkpoint中存在該分區，則直接讀取該分區的數據，調用compute函數計算該分區數據
  if (isCheckpointedAndMaterialized) {
    firstParent[T].iterator(split, context)
  } else {
    compute(split, context)
  }
}

該函數用來讀取或計算RDD的分區。該函數的執行步驟如下：

先從本地獲取分區數據，若本地不存在該分區的數據則會通過傳輸服務從遠端節點獲取分區數據。
若從本地或遠端沒有獲取到數據，則調用computeOrReadCheckpoint函數從checkpoint數據保存目錄獲取數據，若沒有進行checkpoint則調用compute來計算。

Persist實戰

數據準備

scala> val rdd = sc.parallelize(Seq("Hello World", "Just doit"))
scala> val mapres = rdd.map(x => x.split(" "))
scala> mapres.collect()

cache和persist實戰

scala> mapres.getStorageLevel.description
res1: String = Serialized 1x Replicated

scala> mapres.getStorageLevel.toString
res2: String = StorageLevel(1 replicas)

# 進行persist操作，其實就是進行cache操作
scala> mapres.persist()
res3: mapres.type = MapPartitionsRDD[1] at map at <console>:25

# 再次查看rdd的狀態，可以看到其狀態改了，存儲級別是memory了
scala> mapres.getStorageLevel.toString
res4: String = StorageLevel(memory, deserialized, 1 replicas)

# 修改StoreageLevel
scala> import org.apache.spark.storage.StorageLevel
import org.apache.spark.storage.StorageLevel

# 修改存儲級別時報錯了。
# 可見，在同一個SparkContext下，若設置了RDD的存儲級別，則無法修改
scala> mapres.persist(StorageLevel.MEMORY_AND_DISK)
java.lang.UnsupportedOperationException: Cannot change storage level of an RDD after it was already assigned a level
  at org.apache.spark.rdd.RDD.persist(RDD.scala:170)
  at org.apache.spark.rdd.RDD.persist(RDD.scala:195)
  ... 49 elided

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

深入淺出RDD Persist和Cache

Persist RDD如何執行

getOrCompute函數

Persist實戰

數據準備

cache和persist實戰

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

spark2 sql原理分析—執行計劃的生成和處理(QueryExecution實現概要)

spark2實戰-使用Spark SQL的Join

spark2原理分析-shuffleWriter：SortShuffleWriter實現分析

DeltaLake介紹

spark2原理分析-shuffleWriter之BypassMergeShuffleWriter實現分析

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結