深入理解 Apache Spark Delta Lake 的事務日誌
事務日誌是理解 Delta Lake 的關鍵,因爲它是貫穿許多最重要功能的通用模塊,包括 ACID 事務、可擴展的元數據處理、時間旅行(time travel)等。本文我們將探討事務日誌(Transaction Log)是什麼,它在文件級別是如何工作的,以及它如何爲多個併發讀取和寫入問題提供優雅的解決方案。
事務日誌(Transaction Log)是什麼
Delta Lake 事務日誌(也稱爲 DeltaLog)是 Delta Lake 表上執行每次事務的有序記錄。具體形式如下:
[email protected]:/tmp/delta-table/_delta_log|
⇒ ll
total 280
-rw-r--r-- 1 yangping.w