Apache Spark Delta Lake 事務日誌實現源碼分析
我們已經在這篇文章詳細介紹了 Apache Spark Delta Lake 的事務日誌是什麼、主要用途以及如何工作的。那篇文章已經可以很好地給大家介紹 Delta Lake 的內部工作原理,原子性保證,本文爲了學習的目的,帶領大家從源碼級別來看看 Delta Lake 事務日誌的實現。在看本文時,強烈建議先看一下《深入理解 Apache Spark Delta Lake 的事務日誌》文章。
Delta Lake 更新數據事務實現
Delta Lake 裏面所有對錶數據的更新(插入數據、更新數據、刪除數據)都需要進行下面這些步驟,其主要目的是把刪除哪些文件、新增哪些文件等記錄寫入到事務日誌裏面,也就是 _delta_log 目錄下的 json 文件,通過這個實現 De