數據集成

什麼是數據集成

數據集成就是將不同的數據源存放到同一個數據儲存中(如數據倉庫),從而方便後續的數據挖掘工作。比如我們有多個數據源,有文本文件,Excel文件,mysql數據表,爲了方便數據的統計分析,我們需要把他們存放到同一個容器中,可以是數據庫也可以是文本文件,這樣一個過程我們就叫數據集成。

數據集成的其中一種架構:ETL:

ETL是英文Extract、Transform和Load的縮寫,顧名思義它包括了數據抽取、轉換、加載三個過程。ETL可以說是進行數據挖掘這項工作前的“備菜”過程。
抽取是將數據從已有的數據源中提取出來。
轉換是對原始數據進行處理,變成目標數據格式的過程。
加載是將轉換的結果寫入目的地。

ETL的工具有哪些:

典型的商業軟件:
Informatica PowerCenter、IBM InfoSphere DataStage、Oracle Data Integrator、Microsoft SQL Server Integration Services 等
開源軟件:
Kettle、DataX、Sqoop等
其中Kettle是一個易於使用的,低成本的解決方案。國內很多公司都在使用Kettle用來做數據集成。

Kettle介紹

Kettle中文名稱叫水壺,該項目的目標是將各種數據放到一個壺裏,然後以一種指定的格式流出。
Kettle下載地址:
https://sourceforge.net/projects/pentaho/files/latest/download?aliId=137249511
在使用Kettle之前還需要安裝數據庫軟件和Java運行環境(JRE),注意配置系統JAVA_HOME環境變量。
另外如果用的是MySQL,導入數據時會報Driver class ‘org.gjt.mm.mysql.Driver’ could not be found, make sure the ‘MySQL’ driver (jar file) is installed. org.gjt.mm.mysql.Driver錯誤。此時需要到https://dev.mysql.com/downloads/file/?id=468318%20下載後,解壓出mysql-connector-java-5.1.41-bin.jar 包,放到pdi-ce-8.2.0.0-342\data-integration\lib目錄即可。
都下載完成後,打開文件夾下的Spoon.bat就可以開啓軟件開始進行操作。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章