開源BI系統的簡述

 

本文摘自:http://www.chinabi.net/CIO/knowledge/200803/1035.html

本文介紹了ETL工具、報表工具、OLAP工具的各項開源資源情況,有一定的普及和參考價值。

  這些衆多的BI項目從規模和對BI系統支撐的完善程度上來說,大體可以分爲Framework、Stand-alone Tools和BI Suit三種類型。

  Framework

  開源框架,這是在商業BI系統中所沒有的。我們可以使用它們來構建自己的BI工具,或者增強和擴展我們的BI解決方案。

  Stand-alone Tools

  獨立的BI工具,這是開源項目中數量最多的一類。很多工具只側重BI系統中的某個環節和方面,如ETL、Report、OLAP和Database等等。

  BI Suit

  在統一的架構下提供了多種BI系統的特性的工具集合。就目前的情況看,不管是商業軟件還是開源軟件,還沒有任何一個套件提供了完整的端到端的BI解決方案。這些開源的BI Suit是通過連接多個其他的組件和工具的方式形成套件的,由於BI系統涉及到的工具是非常多的,所以整合一套完整的BI解決方案是很困難的。

  BI解決方案中的工具

  一個完整的BI解決方案中有多種工具來完成BI系統中各個階段的工作。

  ETL工具

  數據抽取、轉換和加載工具。優秀的ETL工具應該具有以下特性:

  1、 Workflow Management, Job Execution and Scheduling Manager。能方便地定義流程並自動化執行ETL任務。

  2、 Centralized Metadata Repository and Management。集中存儲和管理符合業界標準的元數據。

  3、 Data Profile and Validation。可以檢驗數據的質量。

  4、 High Performance。在大負荷的任務執行中仍然有良好的性能。

  5、 Scalable, Platform Independent。具有良好的彈性,支持多種操作系統和數據庫系統,能操作多種異構的數據源。

  6、 Open Architecture and API。具有開放的架構和易於使用的二次開發接口。

  目前較爲知名的開源ETL工具有:

  1、 KETL,由具有IBM和KPMG背景的Kinetic Networks公司開發,現在已經有三年多的產品應用歷史,成功應用於一些產品中,在點擊流(ClickStream)分析應用中表現出色。KETL採用Plug-in的架構,使用Java開發。

  2、 KETTLE,爲一個元數據驅動的ETL工具。已經加入Pentaho。

  3、 Clover ETL,爲一個基於Java的ETL Framework,可以用來開發自己的ETL應用。

  4、 Enhydra Octopus,爲一個基於Java的ETL工具,使用JDBC來連接各種數據源,易於使用和部署。曾有人應用於電信網絡資源分析系統中。

  報表工具

  優秀的報表工具通常具有以下特性:

  1、 支持多種數據源。

  2、 直觀的可視化設計器,簡單易用的報表定製功能。

  3、 方便的數據訪問和格式化,豐富的數據呈現方式。

  4、 符合數據呈現的通用標準,能和應用程序很好地進行結合。

  5、 易於擴展和部署。

  目前較爲知名的開源報表工具有:

  1、 JasperReports,一個優秀的Java報表工具,始於2001,現在JasperSoft公司持續開發和支持該工具。該工具類似於商業軟件Crystal Report,支持PDF、HTML、XLS、CSV和XML文件輸出格式,現在是Java開發者最常用的報表工具。

  2、 OpenReports,提供基於web的靈活報表解決方案,通過瀏覽器自動生成動態PDF,XLS,HTMLCSV 和Chart報表,它是用Java開發的,使用JasperReports 作爲報表引擎,利用到的開源技術有Hibernate,Veloctiy,Webwork。

  3、 JFreeReport,現在是Pentaho的一部分,它是一個優秀的用來生成報表的Java類庫。它爲Java應用程序提供一個靈活的打印 功能並支持輸出到打印機和PDF, Excel, HTML和XHTML, PlainText, XML和CSV文件中。

  4、 Eclipse BIRT,是Eclipse下面的一個企業智能和報表 工具,能爲J2EE的WEB應用程序創建漂亮醒目的PDF或者HTML格式的報表,它提供了核心的報表功能。
OLAP工具

  聯機分析處理工具。目前開源的OLAP工具也分爲MOLAP、ROLAP和HOLAP,優秀的OLAP工具通常有以下特性:

  1、 良好的執行性能,能快速地進行分析處理工作。

  2、 良好的適用性和可伸縮性。

  3、 開放式接口和豐富的API。

  目前較爲知名的開源OLAP工具有:

  1、 Mondrian,是Pentaho的一部分,爲一個用Java開發的OLAP服務器,實現了MDX語言、XML解析和JOLAP規範,可以不寫SQL就能分析存儲於SQL 數據庫的龐大數據集,可以封裝JDBC數據源並把數據以多維的方式展現出來。

  2、 JPivot,是一個JSP 自定製的標籤庫,可以繪製一個OLAP表格和圖表。用戶可以執行 典型的OLAP導航,如下鑽,切片和方塊。它使用Mondrian 作爲其OLAP服務器。它使用WCF (Web Component Framework) ,基於XML/XSLT來渲染Web UI組件。JPivot在元數據緩存方面的過於簡化的整體性初始化裝載的做法將限制它只能處理很小的立方體(Cube)。

  數據庫

  開源的數據庫也有很多,大多數爲關係型數據庫,少數爲應用於數據倉庫環境做了專門的優化工作。Bizgres以PostgreSQL爲基礎進行了數據倉庫環境下的優化,提高了分析查詢性能。

  開源BI套件

  下面列出相對成熟和完整,並且有借鑑意義的開源BI套件。

  Bizgres

  爲GreenPlum公司主導的開源項目,和Sun公司達成合作關係。Bizgres爲BI應用而對PostgreSQL做了優化,提高了大負荷的並行計算能力,在BI環境中,相對於普通的關係型數據庫具有卓越的數據處理性能。Bizgres的數據庫平臺可以和KETL和JasperReports進行整合,從而形成一個BI套件:

  1、 數據庫:BI專業數據庫Bizgres,或者大型應用中的高性能服務器Bizgres MPP,能比普通關係數據庫快20倍

  2、 ETL工具:KETL

  3、 報表工具:JasperReports

  Openi

  是一個Java開發的Web應用,能對OLAP服務器、關係數據庫和數據挖掘服務器進行分析和報表展示,非常易於使用和部署,界面美觀友好,後續還將支持數據挖掘和ETL等。Openi主要包括:

  1、 OLAP展示:JPivot

  2、 報表工具:JFreeChart

  3、 分析數據源連接器

  Pentaho

  是一個以工作流爲核心的、強調面向解決方案而非工具組件的BI套件,整合了多個開源項目,目標是和商業BI相抗衡。它包括:

  1、 工作流引擎:Shark and JaWE

  2、 數據庫:Firebird RDBMS

  3、 集成管理和開發環境:Eclipse

  4、 報表工具:Eclipse BIRT

  5、 ETL工具:Enhydra/Kettle

  6、 OLAP Server:Mondrian

  7、 OLAP展示:JPivot

  8、 數據挖掘組件:Weka

  9、 應用服務器和Portal服務器:JBoss

  10、 單點登陸服務及LDap認證:JOSSO

  11、 自定義腳本支持:Mozilla Rhino Javascript腳本處理器

  由上可見Pentaho是一個很完善的BI解決方案。Pentaho偏向於與業務流程相結合的BI解決方案,側重於大中型企業應用。

  SpagoBI

  SpagoBI 集成了Mondrain和JProvit,能夠通過OpenLaszlo產生實時報表。SpagoBI使用java開發,不依賴於具體的操作系統,有很強的擴展能力。它主要包括:

  1、 報表工具:JasperReports /Eclipse BIRT/ iReport

  2、 OLAP Server:Mondrian

  3、 OLAP展示:JPivot

  4、 數據挖掘組件:Weka

  5、 Map引擎:Geo

  6、 ETL:BIE

  7、 搜索引擎:Lucene

  8、 Dashboard:OpenLaszlo

  9、 Portal Server:JBoss/ Tomcat/ JOnAS

  根據其Roadmap可以看出,SpagoBI將融入更多的BI功能,甚至BI之外的功能.

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章