kettle從入門到精通 第五十五課 ETL之kettle Excel輸入

1、 Excel輸入,Microsoft Excel輸入步驟的作用是從Microsoft Excel中讀取數據,如下圖所示:

1)Excel輸入步驟從文件D:\data\測試數據.xlsx讀取數據。

2)將數據通過寫日誌步驟打印出來。

2、Excel輸入步驟-文件配置

 步驟名稱:自定義

表格類型(引擎):

Excel 97-2003 XLS:這個引擎是JXL軟件後端提供的默認向後兼容類型。
Excel 2007 XLSX(Apache POI):如果您選擇這種電子表格類型,您可以讀取所有已知的Excel文件類型。功能由Apache POI項目提供。
注意:如果您使用了受密碼保護的工作表,您必須將電子表格類型(引擎)設置爲Excel 2007 XLSX(Apache POI)。
Excel 2007 XLSX(Apache POI Streaming):這種電子表格類型允許您讀取大型Excel文件。
Open Office ODS:通過選擇這種類型,您可以使用ODFDOM引擎讀取OpenOffice電子表格文件。

文件或目錄:通過點擊瀏覽按鈕進行選擇文件或者目錄。

正則表達式:如果上方指定的是目錄,這裏指定一個正則表達式來匹配指定目錄中的文件名。

正則表達式(排除):如果上方指定的是目錄,這裏指定一個正則表達式來排除指定目錄中的文件名。

Password:當Excel文件設置密碼保護時,請指定打開Excel文件所需的密碼。 

選中的文件:上面點擊增加按鈕之後的文件會展示在這裏,可以刪除或者編輯。

從前面的步驟獲取文件名:動態設置Excel文件名稱。

3、Excel輸入步驟-工作表配置,當文件選中之後可以點擊獲取工作表名稱或者手動填寫工作表名稱也可以。

開始讀數據的行號和列號(從0開始),這個根據文件的具體情況進行設置。

4、Excel輸入步驟-內容配置。

 1)頭部:在“sheet”選項卡中指定的工作表包含標題行需要跳過時,請選擇此選項。

2)非空記錄:在此步驟的輸出中不希望出現空行,請選擇此選項。

3)停在空記錄:在空數據的地方停下來。

4)限制:在此步驟生成的記錄數量上設置一個限制。當設置爲零時,結果不受限制。

5)編碼:指定要使用的文本文件編碼。將此選項留空以使用默認系統編碼。首次使用時,PDI會搜索您的系統以獲取可用編碼。要使用Unicode,請指定UTF-8或UTF-16。

5、Excel輸入步驟-錯誤處理配置。

 嚴格類型:選擇在讀取時讓PDI報告數據類型錯誤。

忽略錯誤:選擇是否要在解析過程中忽略錯誤。這些行可以通過在警告文件目錄、錯誤文件目錄和失敗行號文件目錄中指定路徑來轉儲到單獨的文件中。取消選中此選項,以使具有錯誤的行在此步驟的輸出中顯示爲NULL值。

跳過錯誤行:選擇讓PDI跳過包含錯誤的行。

警告文件目錄:指定生成警告時放置警告的目錄位置。生成的文件名稱爲<警告目錄>/文件名.<日期_時間>.<警告擴展名>。

錯誤文件目錄:指定發生錯誤時放置錯誤的目錄位置。生成的文件名稱爲<errorfile_dir>/文件名.<日期_時間>.<errorfile_extension>。

失敗的記錄數文件目錄:翻譯:如果發生行解析錯誤,請指定放置錯誤的目錄位置。生成的文件名稱爲<errorline dir>/filename.<date_time>.<errorline extension>。

6、Excel輸入步驟-字段配置

 點擊偶去來自頭部數據的字段按鈕進行設置字段。也就是Excel文件第一行的列名。

 

7、Excel輸入步驟-其他輸出配置。

自定義其他輸出字段,然後這些字段會同文件內容一同輸出,傳遞給後續步驟。 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章