Kettle:介紹與使用(一)

1.介紹

1.1 ETL

  • 抽取(Extract):一般抽取過程需要連接到不同的數據源,以便爲隨後的步驟提供數據。這一部分看上去簡單而瑣碎,實際上它是ETL解決方案的成功實施的一個主要障礙。
  • 轉換(Transform):任何對數據的處理過程都是轉換。這些處理過程通常包括(但不限於)下面一些操作:
    移動數據
    根據規則驗證數據
    數據內容和數據結構的修改
    將多個數據源的數據集成
    根據處理後的數據計算派生值和聚集值
  • 加載(Load):將數據加載到目標系統的所有操作。
    概念擴展:ELT,EII(Enterprise information integration)/Data federation

1.2 Kettle

  • Kettle是一款國外開源的ETL工具,純java編寫,可以在Window、Linux、Unix上運行,綠色無需安裝,數據抽取高效穩定。
  • Kettle 中文名稱叫水壺,該項目的主程序員MATT希望把各種數據放到一個壺裏,然後以一種指定的格式流出。
  • Kettle這個ETL工具集,它允許你管理來自不同數據庫的數據,通過提供一個圖形化的用戶環境來描述你想做什麼,而不是你想怎麼做。
  • Kettle中有兩種腳本文件,transformation和job,transformation完成針對數據的基礎轉換,job則完成整個工作流的控制。
  • Kettle(現在已經更名爲PDI,Pentaho Data Integration-Pentaho數據集成)。

2.下載與安裝

2.1 下載

官網下載
注意:官網下載比較慢,可以下載國內的
在這裏插入圖片描述

2.2 目錄

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

2.3 安裝

2.3.1 配置JDK環境

a).打開我的電腦--屬性--高級--環境變量
b).新建系統變量JAVA_HOMECLASSPATH
變量名:JAVA_HOME
變量值:C:\Program Files\Java\jdk1.7.0[具體路徑以自己本機安裝目錄爲準]

變量名:CLASSPATH
變量值:.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;

c). 選擇“系統變量”中變量名爲“Path”的環境變量,雙擊該變量,把JDK安裝路徑中bin目錄的絕對路徑,添加到Path變量的值中,並使用半角的分號和已有的路徑進行分隔。
變量名:Path
變量值:%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;

2.3.2 配置Kettle環境

在系統的環境變量中添加KETTLE_HOME變量,目錄指向kettle的安裝目錄:D:\kettle\data-integration

3.使用

3.1 啓動

雙擊Spoon.bat腳本啓動即可
在這裏插入圖片描述
啓動成功後,界面如圖:
在這裏插入圖片描述

3.2 界面介紹

在這裏插入圖片描述

_

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章