數據融合利器CKettle初體驗

突如其來的新冠疫情,加速了國內數字化進程。不久的將來,能夠在線上做的工作都不會在線下做,能夠依靠數據的決策都不會再拍腦袋。隔離在家的日子,每個人都在關注確診病例數、接受醫學觀察人數、密切接觸者人數、死亡人數,都在關注什麼時候累計確診增速下降、什麼時候再無新增?

很多人都會看新聞聯播,因爲每天都有最權威的數字發佈。但在手機網民規模已達9個億的中國,更多人會選擇看移動資訊。手機輕輕一點,不僅能夠看得到全國的數字,各個省、地級市的數據都能看得到;除了數字,還能夠看得到疫情地圖、折線圖等更爲直觀的材料,用於判斷態勢和分析趨勢(如圖1)。

圖1:丁香園疫情地圖

 

如果您有技術背景,一定會思考這個問題:這些數據是從哪裏來的?又如何能夠匯聚到一起?

實際上,這正是數據領域的一個專業,叫做ETL。主要負責從多個來源採集數據,並進行清洗、轉換、校覈後,存入各種數據媒介。

上述問題的答案是,ETL工程師必須從各省衛健委網站(如圖2)獲取原始數據,進行必要轉換和校準後,統一存入數據庫中,並由數據分析人員實現其可視化展示。

圖2:省級衛健委網站示例

 

而在ETL領域,最爲著名的工具之一當屬Kettle。因爲其功能強大、源碼開放等特性,吸引了全球上百萬的用戶。但也正是因爲其開源,纔會導致國內大部分用戶在遇到BUG時,無解決問題的專業渠道;遇到技術問題時,無專業諮詢渠道,大部分依賴加入的熱心人建立的QQ羣。

今天要爲大家介紹的工具是CKettle。源自開源,依然保留了其免費優勢;強於開源,增強了其中文化、服務化能力。下文將詳細介紹其使用流程,以實現快速入門。

1 下載軟件

首先從其門戶網站下載最新軟件,地址爲https://ckettle.ccsaii.com.cn。從網站上可以看出,官方提供了精簡版和完整版兩個版本(如圖3)。精簡版不帶任何插件,只有110M,大概是原來Kettle體積的十分之一;完整版帶所有已經上架的插件,大約360M,大概是原來Kettle體積的四分之一。從這裏可以看出CKettle的一個重大改進,就是所有插件都是按需下載,不需要的插件不佔任何控件。

圖3:CKettle網站

 

2 註冊

訪問地址https://cksso.ccsaii.com.cn/register進行用戶註冊,或者在啓動Spoon後點擊登錄按鈕,在彈出的對話框中點擊註冊。

圖4:CKettle中的登錄與註冊

3 打開現有轉換或者作業

打開已有轉換或者作業,在提示的下載插件框中點擊確認,即可下載所有缺失插件(如圖5)。插件下載後,可以如Kettle原樣使用所有功能。

圖5:批量下載插件

 

4 按需下載

在覈心對象輸入框中錄入部分插件名稱或者拼音首字母,CKettle將自動從本地和雲端搜索插件(如圖6)。在需要的雲端插件名稱上點擊右鍵,選擇安裝插件,即可實現從雲端下載插件到本地。

圖6:搜索安裝插件

 

5 自定義分組

在現有常用、默認與雲端三大分類的條件下,也可以自定義分組。在左側工具欄中點擊+符號,輸入分組名稱(如圖7),然後在插件的右鍵菜單中,選擇添加插件至菜單,可以直接將插件加入指定分類,也可以在雲端直接將插件安裝到指定分類。

圖7:自定義分組

圖8:添加插件到指定分組

圖9:安裝插件到分組

 

如果有技術問題,可以訪問其論壇:

https://ckbbs.ccsaii.com.cn/

 

感覺目前CKettle正處在公測階段,和我一樣有興趣與產品一起成長的朋友可以查看鏈接:

https://ccsaii.com.cn/main/ccaii-index-xwgg/2020-04/2c91808271b402120171b47e70350067.html?_t=1589503647571

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章