原创 Kettle實現 HDFS文件解析同步到SQLServer數據庫(ETL 包括:時間格式化、IP校驗、字段拼接)

目錄 一、需求及總體設計 1、設計完成後的作業 2、設計完成後的轉換 3、處理流程概述 二、具體處理流程 1、作業 1、JS下載文件到本地  2、轉換(具體處理見下面) 3、JS重命名 4、Shell組件 5、刪除多個文件 2、轉換 2.

原创 Kettle轉換中SQL中的執行順序(使用 阻塞數據直到步驟都完成 ===》控制轉換中的 SQL執行順序)

目錄 1、kettle中轉換和作業的執行順序 2、根據業務需要,通常需要在轉換內順序執行,小技巧如下 3、爲什麼會用到這個組件  4、案例演示 1、kettle中轉換和作業的執行順序     1、一個作業內的轉換,是順序執行的。     

原创 Kettle解析HDFS文件進行----字段拼接、字符的替換、IP校驗

目錄 1、字段的拼接 2、字段串替換 3、IP校驗  1、字段的拼接 字段的拼接使用 JS 腳本實現,JS腳本在 Kettle 中使用起來很是方便,目前我使用 JS 實現過 IP 校驗、字段拼接、文件移動。 ​var a = Id

原创 FAILED:HiveAccessContorlException Permission denied: user[hive] does not havar[USER] privilege on

1、 Ranger 是什麼? ranger則是針對組件內的權限 ,比如HDFS的讀寫執行,Hive和Hbase的讀寫更新,yarn的隊列資源使用權,目前ranger只支持 hdfs,hive,hbase,kafka,yarn等組件,針對

原创 kettle根據時間戳增量的將數據從MySQL同步SQLServer(linux部署腳本啓動作業、config.properties 配置數據庫)

目錄         一、設計思路與方案 1、思路 2、方案 3、總體流程 二、實現步驟 2.1、創建作業和DB連接 2.2、創建時間戳表 2.3、獲取時間戳並設爲變量 2.4、插入更新 2.5、更新時間戳 2.6、配置數據源加載外部文件

原创 Hive中Join的 MR 底層原理

籠統的說,Hive中的Join可分爲Common Join(Reduce階段完成join)和Map Join(Map階段完成join)。本文簡單介紹一下兩種join的原理和機制。 一、 Hive Common Join 如果不指定Ma

原创 MySQL 存儲過程入門 (一)

概述 MySQL 5.0 版本開始支持存儲過程。 存儲過程(Stored Procedure)是一種在數據庫中存儲複雜程序,以便外部程序調用的一種數據庫對象。 存儲過程是爲了完成特定功能的SQL語句集,經編譯創建並保存在數據庫中,用戶可

原创 HBase概念介紹及典型案例分析

本文來自於2018年10月20日由中國 HBase 技術社區在武漢舉辦的中國 HBase Meetup 第六次線下交流會。分享者爲過往記憶。 目錄 一、簡單介紹一下 HBase 是什麼 二、 HBase 是如何讀寫數據的 三、RowKey

原创 Apache Griffin 安裝與簡介

目錄 一、Griffin簡介 二、安裝部署 2.1 依賴準備 1、初始化 2、Hadoop和Hive 3、Scala 安裝 4、 ES的安裝與啓動 2.2 源碼打包部署 一、Griffin簡介  數據質量模塊是大數據平臺中必不可少的一個功

原创 Spark core學習筆記(二)-----(RDD屬性、RDD深度解析、RDD邏輯圖與物理圖生成、Job調度、寬窄依賴、Shuffle過程、廣播變量,閉包)

目錄 一、 深入 RDD 1.1. 案例 1.2. 再談 RDD 1.2.1. RDD 爲什麼會出現? 1.2.2. RDD 1.2.3. 什麼叫做彈性分佈式數據集   總結: RDD 的五大屬性 二、RDD 的算子 2.1. Trans

原创 CentOS8 配置本地 yum 源的詳細教程

    採用iso鏡像文件方式掛載 首先你得把iso文件傳到你的centos 上面,這裏就只能想想辦法咯。沒網絡用U盤,沒u盤用光驅。總之得傳到對應一個目錄上 mount -o loop /mnt/iso/CentOS-8-x86_64

原创 CentOS 系統版本查看方法

有以下命令可以查看 centos 版本號:   rpm -q centos-release  lsb_release -a ​[root@client usr]# lsb_release -a LSB Version: :b

原创 關於AARRR用戶增長漏斗模型,你究竟瞭解多少?

前言 AARRR模型,又稱海盜模型,最初由美國著名風險投資機構的創始人戴夫.麥克盧爾提出,由Acquisition、Activation、Retention、Revenue、Refer五個單詞的首字母拼寫組成。爲了方便記憶和易於傳播,業

原创 Kettle 數據同步 Caused by: com.microsoft.sqlserver.jdbc.SQLServerException

場景: 使用 Kettle 將 數據從 MySQL同步到 SQLSErver , 其中有一個字段默認爲空串,而且確實也沒有數據,同步數據報錯。 報錯如下: 不能將值 NULL 列 'dataType',表 'test1.student

原创 Ambari開啓Kerberos安全認證

目錄 一、術語簡介 二、安裝 2.1、安裝JCE 2.2、安裝Kerberos   三、Ambari 添加 kerberos 認證 一、術語簡介  通俗易懂 Kerberos原理  https://blog.csdn.net/qq_359