原创 Apache Spark Delta Lake 刪除使用及實現原理代碼解析

Apache Spark Delta Lake 刪除使用及實現原理代碼解析Delta Lake 的 Delete 功能是由 0.3.0 版本引入的。在介紹 Apache Spark Delta Lake 實現邏輯之前,我們先來看看如何使用

原创 Apache Spark Delta Lake 寫數據使用及實現原理代碼解析

Apache Spark Delta Lake 寫數據使用及實現原理代碼解析Delta Lake 寫數據是其最基本的功能,而且其使用和現有的 Spark 寫 Parquet 文件基本一致,在介紹 Delta Lake 實現原理之前先來看看如

原创 Apache Spark Delta Lake 事務日誌實現源碼分析

Apache Spark Delta Lake 事務日誌實現源碼分析我們已經在這篇文章詳細介紹了 Apache Spark Delta Lake 的事務日誌是什麼、主要用途以及如何工作的。那篇文章已經可以很好地給大家介紹 Delta Lak

原创 深入理解 Apache Spark Delta Lake 的事務日誌

深入理解 Apache Spark Delta Lake 的事務日誌事務日誌是理解 Delta Lake 的關鍵,因爲它是貫穿許多最重要功能的通用模塊,包括 ACID 事務、可擴展的元數據處理、時間旅行(time travel)等。本文我們

原创 使用 Kafka + Spark Streaming + Cassandra 構建數據實時處理引擎

Apache Kafka 是一個可擴展,高性能,低延遲的平臺,允許我們像消息系統一樣讀取和寫入數據。我們可以很容易地在 Java 中使用 Kafka。 Spark Streaming 是 Apache Spark 的一部分,是一個可擴展、高

原创 Apache Cassandra Composite Key\Partition key\Clustering key 介紹

在前面文章裏面我們使用了下面語句創建了一張名爲 iteblog_user 的表: cqlsh> use iteblog_keyspace; cqlsh:iteblog_keyspace> CREATE TABLE iteblog_user