原创 ETL工具kettle的組件--生成記錄

今天介紹下kettle的一個比較實用的組件——生成記錄;當我們想將一部分文本數據變成數據行,每個字段作爲一個數據行的一個列,那麼我們可以利用這個組件;它的位置在雙擊點開根據自己的實際需要進行設置當設置後,可以點擊預覽,上面的【限制】選項就是

原创 ETL工具kettle的csv輸入和excel輸入

實際工作中我們可能回經常將excel或者csv的數據導入到數據庫中,這裏講下怎麼通過kettle進行導入;首先說下這兩種格式的區別:CSV是文本文件,用記事本就能打開,XLS是二進制的文件只有用EXCEL才能打同時CSV (*.csv) 文

原创 kettle的【阻塞數據】、【阻塞數據直到完成】、【執行SQL腳本】

kettle轉換中的各個組件是並行的關係,job中是有先後順序的,這樣就可能會遇到一種情況——我想在某個步驟完成後再執行下面的步驟,這時該怎麼辦呢?那麼這時就可以用到【阻塞數據】和【阻塞數據直到完成】兩個組件;【阻塞數據】:這個組件只允許前

原创 ETL工具kettle的幾個小插件(字符串替換,字段選擇,將字段值設置爲常量)

繼續給大家介紹幾個小組件:一、字符串替換這個功能類似於oracle的replace函數,就是將某個字段的某些字符替換成我們給定的字符首先,選擇【輸入流字段】,【輸出流字段】自己命名(就是用來保存處理後的結果的字段,可以和輸入流字段保持一致)

原创 ETL工具kettle的幾個小組件(剪切字符串,增加常量,計算器)

接下來幾天給大家介紹下幾個常用的kettle組件1.剪切字符串所謂的剪切字符串,就類似於Oracle的substr函數,具體位置在某個轉換的核心對象-轉換中,如圖使用方法爲--雙擊打開組件,選擇你要裁剪的流字段(必須),輸出字段(選填),輸

原创 ETL工具kettle的使用,基礎--1 (最基本的輸入輸出)

直接上幹活,不扯淡我使用的kettle是6.1版本的,有需要的朋友可以到:https://sourceforge.net/projects/pentaho/files/Data%20Integration/6.1/pdi-ce-6.1.0.

原创 ETL工具怎麼進行值映射(類似oracle的cas when功能)

這裏所說的值映射就有點類似oracle的cas when功能,比如有個字段a的值爲1,但是我現在想讓a=1的時候變成a男,也就是1映射成男,這就是所說的值映射,那麼怎麼操作呢,實際上kettle有一個“值映射”組件;接下來就簡單介紹下怎麼使

原创 ETL工具kettle的使用二——怎麼實現數據連接的重複使用

我們在實際操作過程中每個轉換可能會使用到很多的數據連接,那麼怎麼實現連接的可重複利用呢,其實很簡單,只需要一步操作就好:我們打開一個轉換點擊程序左邊的主對象樹,點擊DB連接,展開,你會看到你當前所創建的連接,如果該連接是可複用的,那麼字體會

原创 ETL工具kettle怎麼做定時任務

kettle做定時任務平時任務中經常需要用兩種方法;一、kettle自帶的功能。具體操作如下:首先形成一個job,然後點擊開始組件;結果如圖:當需要定時時,那麼就是需要重複;此時勾選重複選項,然後點擊類型下拉選選擇你需要定時的類型,如時間間

原创 ETL工具kettle的數據分發和複製的區別

大家在實際 操作過程中可能會出現一個這樣的情況,當你將一個組件與另一個組件進行連接時,會出現一個告知框,如圖這時候會讓你選擇分發或者複製,這時候很多朋友會疑惑,這倆有啥區別呢;當你的目標組件是單線程時,選誰沒區別,什麼叫目標組件和單線程呢,

原创 ETL工具kettle怎麼進行錯誤定義

在實際操作過程中,數據有可能會報錯,這時我們可能會需要進行錯誤定義,所謂的錯誤定義就是怎麼對錯誤進行錯誤處理,這裏解說一種很基礎的錯誤處理,就是把錯誤輸出:這是我的 一個實際業務操作,大家可以看到在這中間有兩個紅叉,紅叉後面又有其他的步驟,

原创 ETL工具kettle簡單的性能調優

一般有 幾項1.雜項,這個是設置的前一個步驟到下個步驟的緩存,默認是10000操作爲,進入轉換,右鍵點擊空白處或者雙擊空白處,單擊的話進入設置,會出現如圖選擇雜項,主要設置‘記錄集合裏的記錄數’,可以適當的加大,也不要太大,會對內存造成很大

原创 ETL工具kettle怎麼將多個轉換集成到一個作業中

在實際工作中,經常會出現很多個轉換,這樣管理成本會很高,那麼這時就可以採取一種方式將這些轉換集成到一個作業之中,可以看一個現成的例子,如圖我們在這一個作業中集成了四個轉換,有一點需要說明,就是每個作業只能有一個start組件,這四個轉換的執

原创 ETL工具kettle基礎--插入更新組件

插入更新組件主要是對錶進行插入或者更新操作這個組件的邏輯是,根據選定的字段判斷目標表中是否存在現有數據,如果存在則執行更新操作,否則執行插入操作;首先選擇或添加一個數據庫連接,目標模式指的是用戶,用戶同實例跨用戶訪問,提交記錄數量理論上比較

原创 ETL工具kettle怎麼實現增量數據抽取:二 時間戳

再進行增量數據抽取的時候,通過標誌位來進行之外,還可以通過時間戳,所謂的時間戳就是某個時間字段,最好每條記錄的該字段都是非空的;這種方法很簡單,就是在輸入的時候增加where條件;where條件語句就是一個時間的範圍;比如: