kettle的轉換組件

1、轉換是轉換裏面的第四個分類。轉換屬於ETL的T,T就是Transform清洗、轉換。ETL三個部分中,T花費時間最長,是一般情況下這部分工作量是整個ETL的2/3。

2、Concat fields,就是多個字段連接起來形成一個新的字段。

3、 值映射,就是把字段的一個值映射成其他的值。在數據質量規範上使用非常多,比如很多系統對應性別gender字段的定義不同。

4、增加常量就是在本身的數據流裏面添加一列數據,該列的數據都是相同的值。

5、增加序列,是給數據流添加一個序列字段。

6、字段選擇,是從數據流中選擇字段、改變名稱、修改數據類型。

可以選擇要移除的字段。

可以選擇要改變的元數據信息。

7、計算器是一個函數集合來創建新的字段,還可以設置字段是否移除(臨時字段)。

8、剪切字符串,是指定輸入流字段裁剪的位置剪切出新的字段。

9、字符串替換,是指定搜索內容和替換內容,如果輸入流的字段匹配上搜索內容就進行替換生成新字段。

10、字符串操作是去除字符串兩端的空格和大小寫切換,並生成新的字段。

11、去除重複記錄,是去除數據流裏面相同的數據行。注意:必須先對數據流進行排序!

12、排序記錄,是按照指定的字段的升序或降序對數據流排序。

13、唯一行(哈希值)就是刪除數據流重複的行。注意:唯一行(哈希值)和(排序記錄+去除重複記錄)效果一樣的,但是實現的原理不同!

  唯一行(哈希值)執行的效率會高一些!唯一行哈希值是根據哈希值進行比較的,而去除重複記錄是比較相鄰兩行數據是否一致進行比較的。

14、拆分字段是把字段按照分隔符拆分成兩個或多個字段。注意:拆分字段後,原字段就不存在於數據流中!

15、列拆分爲多行就是把指定分隔符的字段進行拆分爲多行。

16、列轉行就是如果數據一列有相同的值,按照指定的字段,把多行數據轉換爲一行數據。去除一些原來的列名,把一列數據變爲字段。

  注意:列轉行之前數據流必須進行排序!必須使用排序記錄圖元哦!

17、行轉列,就是把數據字段的字段名轉換爲一列,把數據行變爲數據列。

18、行扁平化就是把同一組的多行數據合併成爲一行。注意:只有數據流的同類數據數據行記錄一致的情況纔可使用!數據流必須進行排序,否則結果會不正確!

 

作者:別先生

博客園:https://www.cnblogs.com/biehongli/

如果您想及時得到個人撰寫文章以及著作的消息推送,可以掃描上方二維碼,關注個人公衆號哦。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章