[轉載]必看:數據平臺的搭建教程及軟件工具

按系統功能分,不同的數據平臺對應着不同的常用軟件。在大數據興盛的今天,欲進軍數據界的你,應該對此有更進一步的瞭解。


 

1.數據挖掘模塊

作爲一個跨學科的計算機科學分支,數據挖掘是用人工智能、機器學習、統計學和數據庫的交叉方法在相對較大型的數據集中發現模式的計算過程,屬於非傳統的數據處理。相對於傳統ETL數據處理,數據挖掘更側重於知識發現,其計算和規則也更加複雜。

【現階段常用的數據挖掘軟件】AnalysisService、KNIME、KXENAnalyticFramework、MicrosoftSQLServer、OracleDataMining、Python、R語言、RapidMiner、SAS、SPSS、Weka等。

2.ETL模塊

目前,對於傳統ETL,大部分ETL軟件都可以勝任;但是對於大數據下的ETL,ETL工具對其支持非常有限。

Informatica爲大數據下的ETL開發推出InformaticaBigData版本,它將之前的Mapping翻譯爲HQL腳本,從而在Hive引擎上執行。IBM的DataStage則通過相應BalancedOptimizer實現Mapping到Netezza、Oracle和DB2等專用數據庫的腳本翻譯,以利用不同的更爲強大的數據處理引擎。TalendETL則把Mapping翻譯爲SparkSQL,從而利用Spark引擎對數據進行處理。


 

【現階段常用的ETL軟件】IBMDataStageandQualityStage、InformaticaPowerCenter、MicrosoftIntegrationService、OracleOWB、PentahoDataIntegration(Kettle)、TalendETL等,主要表現爲通過拖拽和配置的方式可視化、免編碼地完成ETL工作;腳本包括標準AWK、HQL、Java、Pig、PL/SQL、Python、Ruby、SparkSQL、SQL等,主要表現爲通過特定的語法進行編碼實現ETL工作。

3.調度模塊

調度模塊,可以對企業內跨平臺和跨主機的軟硬件資源進行統一調度。這些資源包括ETL主機、數據交換主機、報表主機、數據庫主機、DQ主機、郵件服務器和打印機等。

【現階段常用的調度軟件】ApacheOozie、AsisinfoScheduleServer、AutoSys、BMCControl-M、TaskCtl、JobServer、LinkedinAzkaban、MoiaControl等。這些調度軟件往往提供GUI和CLI的配置方式,其中Control-M在大企業中用的最多,TaskCtl在中小型企業中用的最多。


 

4.數據交換模塊

數據交換模塊,包括數據導入和數據導出。數據導入包括文件日誌接入、數據庫日誌接入、關係型數據庫接入和應用程序接入等。

【現階段常用的數據交換軟件】文件日誌接入可採用Flume等;數據庫日誌接入則往往需要開發特定的插件來讀取MySQL、Oracle和SQLServer等的數據庫日誌或變更表;關係型數據庫和NoSQL數據庫接入則使用ApacheSqoop、大衆點評wormhole、TaobaoDataX等;應用程序接入則通過應用程序對外接口進行接入。

5.報表模塊

報表工具的學習成本和開發難度比起手工編寫頁面來說,無疑更低,而且,它的開發週期和項目風險也得到了有效的控制。

【現階段常用的報表軟件】

BusinessObject、CrystalReports、FineReport、IBMCognos、JasperReport、MicrosoftReportService、MicroStrategy、Pentaho、Tableau等。這些報表軟件多數都提供了列表、交叉表、圖表、地圖和儀表板的能力。

6.監控模塊

監控模塊,可以對系統硬件(交換機、路由器和主機等的電力、通信、磁盤、內存、CPU等)、系統軟件(Web服務器、中間件服務器、數據庫服務器和緩存服務器等的資源、連接數和負載等)和數據(數據的一致性、穩定性和可靠性等)進行實時監控,發現問題及時告警甚至按預設方案自動進行處理。


 

【現階段常用的監控軟件】Argus、Cacti、Collectd、Ganglia、Monit、Munin、Nagios、Observium、Zabbix、Zenoss等。

7.DQ模塊

DQ模塊,主要對數據質量進行控制,包括源數據的質量檢查、數據清洗、數據融合和數據監控等,貫穿數據處理的整個生命週期。儘管DQ模塊非常重要,但是目前好些數據處理項目都沒有專門的DQ模塊,這些功能以腳本形式零散分佈於不同的作業中。

【現階段常用的DQ軟件】AggregateProfilier、DataCleaner、IBMQualityStage、InformaticaDataQuality、InformaticaMasterDataManagement、StudioforDataQuality、TalendOpen等。

8.資產權限模塊

資產權限模塊,能夠統一對一些無形資產(企業的各種數據庫表、視圖、ETL作業、報表、郵件等)進行權限管控,保障信息安全和共享。該模塊完整實現的工作量還是比較大的,多數企業都會藉助不同軟件自帶的權限管理能力,形成分散的資產權限模塊。

【現階段常用的資產權限軟件】並沒有完全開箱即用的資產權限模塊。

想要縱橫大數據世界,傍身技能必不可少,善用工具能讓你百戰不殆!




來源:簡書
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章