ODS和EDW

企業運營數據倉儲(ODS)和企業數據倉庫(EDW )


企業數據架構

EDW主要爲企業提供分析決策服務。ODS主要實現企業數據整合、共享和準實時運營監控等功能,ODS是EDW的一個有益的補充和擴展

淺析ODS與EDW關係(轉載)


其中.ADB爲應用數據庫;A、B、C表示不同類型的數據流動:A表示操作環境中應用數據庫之間的直接數據交換;B表示操作環境中應用數據庫之間通過ODS進行數據交換;C表示數據從操作環境被抽取到分析環境。

操作環境下各生產系統中的運營數據通過ETL(抽取、轉換、裝載)過程進人到ODS中,生產系統之間準實時的數據交換由ODS系統完成,ODS系統同時還將整合好的操作環境下的運營數據通過ETL等方式傳送到EDW中.完成運營數據從操作環境進人到分析環境的過程。

各生產系統的應用數據庫、ODS、EDW構成了整個企業數據架構的主體。下文重點對企業數據架構中的ODS和EDW這兩個實體的概念與作用做詳細說明。

2.1 ODS的概念及作用

ODS存儲了運營系統(如OLTP(聯機事務處理)系統)近實時的詳細數據。ODS的概念最早是由“數據倉庫之父”——Bill Inmon提出的。ODS最初引入是爲了尋找能滿足快速加載和數據整合的性能要求,並且減少面向分析需求的變更和擴充對生產系統影響的解決方案,這一解決方案便是在生產系統和EDW之間增加一個數據整合層(也叫做數據緩衝層)即ODS。具有數據整合層的作用,是提出ODS概念的主要出發點。隨着技術的發展,近年來ODS被賦予的功能和作用也得到了延伸,目前業界普遍認同的觀點是:ODS爲企業原始運營數據存儲提供了一個整合平臺,它的信息來自於不同的運營型應用系統。通過數據接口,在數據整合業務規則作用下,進入ODS的信息是可靠的、可信的。ODS中數據的集成、實時特徵決定了ODS主要有以下3個作用。

 對運營數據進行清理整合,提高運營數據質量,是EDW的一個主要數據來源。ODS對生產系統產生的數據進行了初步的清洗、過濾和整合,存儲了較爲詳細和全面的企業運營數據,ODS中的數據不僅具有較高的數據質量,而且比OLTP系統更有利於EDW對數據進行獲取和進一步的轉換、整合等處理,是EDW的主要數據來源之一。

· 實現跨系統的近實時報表和查詢統計應用。ODS從不同的運營應用系統中採集數據.整合各個系統的共享交易數據,形成企業級數據的整體視圖。ODS最大的價值是集成了跨系統的數據,從而能夠實現一些跨系統的報表和查詢統計應用。另外,ODS也可以從EDW中獲取自身所需的數據.如經過EDW統計分析後的一些結果性的數據,可以提供給統計分析人員和業務人員進行實時調用和備查。

· 作爲其他生產系統的數據同步源。ODS捕捉當前和近期的交易數據.數據具有實時性或準實時性,ODS中的數據按照需要可以與運營系統數據定期同步。由於ODS中的數據是“新”的。因而可以通過它使數據與其他生產系統中的數據同步。

2.2 EDW 的概念及作用

EDW依據企業的統一標準和規則對來自於企業內外的分散在不同系統的數據進行消除非一致性的集成和標準化處理(即ETL處理),形成企業數據的全面統一視圖。

EDW採用多維分析和數據挖掘等手段。細分市場和客戶,支撐市場的經營分析、準確決策和快速反應能力。爲各級部門和分析決策人員提供基於部門的和基於企業的全方位的數據和分析服務。通過EDW,從根本上解決了數據分散重複、共享困難和信息孤島等問題,充分發揮了數據資源的價值,全面提升了企業在經營決策、運營管理、業務拓展和客戶服務等方面的支撐能力。EDW中數據面向主題、

集成及非易失的特徵決定了EDW主要有以下兩個作用。

· 爲企業各級的經營決策和市場營銷提供及時、精確、全面的數據支持和科學、方便、體系化的分析工具和使用方法,爲除生產系統以外的管理、分析等需求提供數據支撐,實現業務數據與分析數據的分離。

 解決目前市場等部門信息獲取能力和分析決策手段不能適應企業環境變化和精確化管理要求的問題,並通過各種形式的主題,專題分析,支撐針對性營銷、上市信息披露、精確化管理.有效降低營銷成本,減少客戶流失,尋找商機,達到提升企業價值的目的。

3 ODS和EDW 的相同點與不同點

3.1 ODS與EDW的相同點

從ODS與EDW各自的概念與作用可以看出。ODS與EDW具有以下的共同之處。

· ODS與EDW都是企業數據架構中的獨立系統,兩個系統都不是直接產生運營數據的系統,兩個系統中的數據都是由操作環境的數據經過抽取、轉換、加載(ETL)的過程而來,還要進行進一步的清理、整合等工作(EDW的數據可由ODS加載裝入)。

· ODS與EDW一樣都既有細粒度的數據。也有根據不同維度彙總的彙總數據。

· ODS與EDW上均提供基於跨系統整合後數據的報表類應用。

3.2 ODS與EDW之間的差異

雖然ODS與EDW具有一些相似之處.但兩者卻是完全不同的實體,下面從多個角度對比兩者的不同之處。

(1)使用角色

· ODS主要面向營業、渠道等一線生產人員和一線管理人員,爲了實現準實時、跨系統的運營細節數據的查詢,以獲得細粒度的運營數據展現,例如渠道人員查詢客戶的全視圖信息由ODS提供數據支撐。

· EDW主要面向專業分析人員、輔助決策支持人員等,爲了實現基於歷史數據的統計分析和數據挖

掘,以獲得客戶深層次的特徵和市場發展的規律,例如專業分析人員的經營狀況趨勢分析由EDW提

供支撐。

(2)數據來源

· ODS需要的大部分運營數據直接來源生產系統。 ODS中的部分分析結果數據來源於EDW,例如客戶

洞察信息等。

· EDW需要的運營數據,如果在ODS中已存在,EDW則直接從ODS獲取這部分數據。· EDW需要的運營數據,如果在ODS中沒有,EDW則直接從生產系統獲取這部分數據。

(3)數據獲取性能和及時性

·  ODS支持OLTP類型的數據更新,數據更新時間短,數據可實現準實時更新,性能與及時性都高於EDW 。

· EDW中的數據一般通過批量加載進入,數據更新速度慢,無法實現準實時更新,數據更新時間不足以支持實時的報表和事件監控需求。

(4)數據架構

 ODS以關注生產運營過程的統計與監控爲主的生產視角主題域方式來組織數據。

ODS提供操作數據的統計,主要提供應用需要的細粒度運營數據。ODS中也存在部分粗粒度彙總數據,但彙總的維度少且簡單。

EDW關注對歷史數據的深層次分析與挖掘.從分析與挖掘的需要出發按不同主題維度來彙總與組織數據。

EDW提供歷史數據的展示和分析,主要提供多層粗粒度彙總數據.彙總的維度多且複雜。

(5)數據共享能力

ODS爲其他生產系統提供運營數據的準實時數據共享服務。

 EDW一般不爲生產系統提供此類準實時的數據共享服務。系統中的數據只供本系統分析與挖掘應用使用。

(6)系統提供應用數據查詢。

ODS提供生產環境下的數據查詢,查詢的交易量較小,不耗費太多資源,有確定的完成速度。而EDW提供分析環境下的查詢,查詢單元量較大,消耗的資源很多,完成的速度也不確定。

固定報表。

ODS提供生產環境下實時性較高的生產經營報表,而EDW提供分析環境下的主題分析與挖掘報表。動態報表。

ODS提供面向少量維度的細粒度數據的統計,而EDW提供面向多個維度的多層粗粒度數據的主題統計、分析及深層次的挖掘。

ODS提供績效管理和統計、數據質量審計和監控管理等功能。

EDW提供趨勢分析、客戶消費行爲分析和評估等功能。

(7)數據存儲

客戶等關鍵實體數據。ODS長久保存當前數據,EDW長久保存當前與歷史數據。

詳單數據。ODS保存1個月到3個月;EDW保存2年。

彙總數據。ODS保存3年;EDW保存5年。

其他數據。ODS保存l3個月;EDW保存3年。

(8)系統技術特徵

ODS主要面對大併發用戶數、小數據量的訪問,EDW主要面對小併發用戶數、大數據量的訪問。

 ODS數據庫優化同時側重索引和分區技術;EDW數據庫優化主要側重分區技術。

 ODS支持OLTP類型和OLAP(聯機分析處理)類型的數據操作,EDW支持OLAP類型的數據操作。

(9)系統可靠性

 ODS參與運營.必須保證可靠性。

 相對ODS.EDW可以允許有更多的脫機時間。

(1O)系統開放性

因爲需要與大量不同硬件、數據庫配置的系統相互交換數據。ODS要求比較高的系統開放性。

 EDW一般只獲取數據.而不提供給其他應用系統以多種模式直接訪問,解決方案上也可採用相對封閉的數據庫、軟硬件平臺。

4 ODS與EDW 建設方案

從上述ODS與EDW 的分析與對比可知,ODS與EDW是兩個定位與功能完全不同的實體.但在ODS與EDW的實際建設方式上,業界又有兩種不同的聲音,一種是以Bill Inmon爲代表的認爲ODS應該作爲一個獨立系統單獨建設.另一種是以Ralph Kimball爲代表的認爲ODS應該納入到EDW中.作爲EDW的一部分,在一個獨立系統中統一建設。下文對兩種方案逐一進行說明。

Bi11 Inmon在1996年寫的《建立運營數據倉儲》一書中正式提出了ODS的概念。Inmon認爲分析決策需要基於越來越實時和細節的運營數據.同時這些數據又必須是集成的和麪向主題的.而運營系統和數據倉庫均無法滿足相應的信息需求,因此提出了ODS的概念,並在整個IT支撐體系(即Inmon所說的企業信息工廠)中增加了獨立的ODS組件。Bill Inmon提出的兩者建設架構如圖2所示。


淺析ODS與EDW關係(轉載)


從圖2可以看到.ODS的數據來自於各個分散的運營系統,這些數據在獨立的ODS中進行整合.在ODS中形成面向主題的、集成的、易變的、當前值的、詳細的運營數據.按照業務需求和性能的要求進行組織存儲.並在ODS建立相應的應用以滿足業務的要求。ODS中整合好的運營數據通過ETL處理過程進入到EDW中.ODS與EDW作爲兩個獨立的系統分別建設。

而另外一種觀點的提出者Ralph Kimball認爲在技術發展的情況下.Bill Inmon認爲的ODS單獨存在的理由(ETL的限制無法實現實時數據加載、大量細粒度數據的存儲、高性能的查詢和7x24 h可靠性的要求.增加了數據倉庫的負載.甚至會引起數據倉庫的崩潰)不成立。Kimball認爲,支撐EDW的軟、硬件技術得到了發展.大數據量存儲的數據倉庫技術已經不是問題。也就是說數據倉庫系統中存儲細粒度的數據也是沒有問題的,ETL的處理速度越來越快,通過高速的ETL工具已經可實現以所需要的任何頻度抽取數據到EDW中;而且隨着EDW本身的發展,EDW越變越大.分析更加細節的客戶行爲和更加具體的操作數據的需求也在增長.在大多數情況下.分析挖掘必須基於細粒度數據進行,細粒度的運營數據越來越多地在EDW中被使用.因而Kimball認爲在這樣的情況下.ODS已經沒必要作爲一個單獨的系統.可看作是數據倉庫系統的“前端邊緣”。他將ODS重定義爲EDW中的面向主題的、集成的、

經常擴展的細節數據的存儲區域。同時Kimball認爲把ODS納入到數據倉庫的環境後較其單獨建設還會給維護者和使用者帶來更大的便利與好處,包括只建立一個單獨的抽取系統.減少ETL開發與維護工作量:運營細節數據在一個統一的系統中存儲.減少數據的冗餘存儲等。

Kimball提出的兩者建設架構如圖3所示。


淺析ODS與EDW關係(轉載)

在ODS與EDW 的實際建設過程中.這兩種觀點都有不同的追隨者.在系統架構設計上都有采用。作者也一度傾向於Kimball的ODS應作爲EDW的一部分建設的觀點,但是隨着對ODS與EDW更進一步的研究。作者發現Kimball之所以建議將ODS作爲EDW的一個部分建設,更多考慮的是.單一系統的數據獲取頻度與大數據量細粒度數據存儲能力這兩個方面能同時滿足ODS與EDW的需要.但是ODS是否單獨建設不僅需要考慮單一系統能否實時獲取並存儲大量運營細節數據。更應該考慮單一系統能否高效地同時支持ODS和EDW上的兩種不同類型的前端應用。ODS與EDW上需要承載的應用是截然不同的,爲更高效地支撐兩種不同類型的應用,系統應採用的硬、軟件的技術特點是各不相同的。如果按照Kimball的理論將兩者建立在一個系統中.不是絕對不行.但是和它們分開建設相比。混合兩種不同類型的工作到同一個系統需要耗費更多的資源和成本,而且更加難以保證服務水平,因此從系統的穩定性、性能、成本等方面綜合考慮,原則上作者不建議ODS與EDW建設在一個系統中,兩個實體應作爲兩個獨立系統分開建設。但對於數據規模不大,EDW 已經建設完成的個別省,在EDW數據庫產品、硬件設備、數據實時性及應用支撐能力等方面能較好地滿足ODS應用支撐的功能及性能要求的前提下,作者認爲將ODS與EDW合建在一個系統內也是切實可行的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章