原创 2、Apache Hudi入門

1、編譯 github地址:https://github.com/apache/incubator-hudi cd incubator-hudi-hoodie-0.4.7 mvn clean install -DskipITs -

原创 Kyuubi採坑記錄

1、hive meta server使用sentry權限認證,kyuubi在opensession的時候初始化默認數據庫會報空指針異常 問題版本:0.8 原因:hive metahook過濾元數據的時候需要從配置中獲取用戶名,屬性

原创 1、Apache Hudi簡介

1、Hudi簡介 Hudi是Hadoop Updates and Incrementals的縮寫,用於管理HDFS上的大型分析數據集存儲,主要目的是高效的減少入庫延時。 Hudi是一個開源Spark三方庫,支持在Hadoop上執行

原创 4、Apache Hudi:Spark讀取Binlog並寫入

1、數據準備 使用canal將mysql binlog的數據發送到kafka中 2、程序編寫 1、消費kafka中的binlog數據 val kafkaParams = Map[String, String]( "bootstr

原创 SparkSQL集成sentry權限認證

0、SparkSQL要集成sentry權限認證要解決下面幾個問題: 1、從hive認證hook中找到sentry認證方法,並將認證代碼提取出來 2、從spark sql的邏輯計劃中提取sentry認證方法所需的參數 3、通過spa

原创 第13課 Spark內核架構解密

前言: 我們爲什麼要這樣寫程序?爲何要這樣運行程序?以及程序運行背後發生了什麼? 關於Spark Runtime Driver 是運行程序的時候具有main 方法並且創建了sparkcontext 的環境對象。Dirver裏面運行a