數據倉庫的定義、特徵、產生和發展、現狀和趨勢

數據倉庫綜述 

一、數據的倉庫的產生和發展 
數據倉庫的出現和發展是計算機應用到一定階段的必然產物。經過多年的計算機應用和市場積累,許多商業企業已保存了大量原始數據和各種業務數據,這些數據真實地反映了商業企業主體和各種業務環境的經濟動態。然而由於缺乏集中存儲和管理,這些數據不能爲本企業進行有效的統計、分析和評估提供幫助。也就是說,無法將這些數據轉化成企業有用的信息。 

70年代出現並被廣泛應用的關係型數據庫技術爲解決這一問題提供了強有力的工具。 從80年代中期開始,隨着市場競爭的加劇,商業信息系統用戶已經不滿足於用計算機僅僅去管理日復一日的事務數據,他們更需要的是支持決策制定過程的信息。 80年代中後期,出現了數據倉庫思想的萌芽,爲數據倉庫概念的最終提出和發展打下了基礎。 
90年代初期,W.H.Inmon在其里程碑式的著作《建立數據倉庫》中提出了“數據倉庫”的概念,數據倉庫的研究和應用得到了廣泛的關注。這對處於激烈競爭中的商業企業,有着非同小可的現實意義。 

二、國內外數據倉庫的發展現狀和趨勢 
隨着各種計算機技術,如數據模型、數據庫技術和應用開發技術的不斷進步,數據倉庫技術也不斷髮展,並在實際應用中發揮了巨大的作用。IDC在1996年的一次對90年代前期進行的62個數據倉庫項目的調查結果表明:進行數據倉庫項目開發的公司在平均2.73年的時間內獲得了平均爲321%的投資回報率。使用數據倉庫所產生的巨大效益同時又刺激了對數據倉庫技術的需求,數據倉庫市場正以迅猛勢頭向前發展:一方面,數據倉庫市場需求量越來越大,每年約以400%的速度擴張;另一方面,數據倉庫產品越來越成熟,生產數據倉庫工具的廠家也越來越多。數據倉庫技術及市場將向以下方向發展: 

1、並行化和可擴展性 
爲提高數據倉庫的性能和可擴展能力,數據倉庫已趨向並行化。在硬件層次上,已越來越明顯地採用多處理器並行結構;在數據庫層次上,許多數據庫廠商已推出並行產品,以適應數據倉庫市場的需要。 

2、集中化
數據倉庫項目將越來越大,GartnerGroup預測:到2000年,約有70%的集中化信息管理將依賴於數據倉庫市場。 

3、數據倉庫與Internet/Intranet的集成
隨着Internet/Intranet技術的廣泛應用和發展,數據倉庫將Internet/Intranet進行很好的集成,即前臺是Web服務器,後臺是數據倉庫系統。 

4、數據挖掘工具的成熟和廣泛使用
數據挖掘工具和人工智能代理將是以後5年推動決策支持演變過程的主要力量。 

5、通用數據庫
數據倉庫將支持多媒體、支持結構化和非結構化數據,即向通用數據庫發展,具有面向對象的能力。 

6、數據倉庫打包應用
數據倉庫將集成一些工具和應用,打包推向用戶。

二、數據倉庫的定義 
數據倉庫不是數據的簡單堆積,而是從大量的事務型數據庫中抽取數據,並將其清理、轉換爲新的存儲格式,即爲決策目標把數據聚合在一種特殊的格式中。公認的數據倉庫之父W.H.Inmon將其定義爲:“數據倉庫是支持管理決策過程的、面向主題的、集成的、隨時間而變的、持久的數據集合。” 


三、數據倉庫的特徵 

1、數據倉庫的數據是面向主題的
與傳統數據庫面向應用進行數據組織的特點相對應,數據倉庫中的數據是面向主題進行組織的。什麼是主題呢,首先,主題是一個抽象的概念,是較高層次上企業信息系統中的數據綜合、歸類並進行分析利用的抽象。在邏輯意義上,它是對應企業中某一宏觀分析領域所涉及的分析對象。面向主題的數據組織方式,就是在較高層次上對分析對象的數據的一個完整、一致的描述,能完整、統一地刻劃各個分析對象所涉及的企業的各項數據,以及數據之間的聯繫。所謂較高層次是相對面嚮應用的數據組織方式而言的,是指按照主題進行數據組織的方式具有更高的數據抽象級別。 


2、數據倉庫的數據是集成的
數據倉庫的數據是從原有的分散的數據庫數據抽取來的。在前面的表1中我們已經看到,操作型數據與DSS分析型數據之間差別甚大。第一,數據倉庫的每一個主題所對應的源數據在原有的各分散數據庫中有許多重複和不一致的地方,且來源於不同的聯機系統的數據都和不同的應用邏輯捆綁在一起;第二,數據倉庫中的綜合數據不能從原有的數據庫系統直接得到。因此在數據進入數據倉庫之前,必然要經過統一與綜合,這一步是數據倉庫建設中最關鍵、最複雜的一步,所要完成的工作有: 

(1)要統一源數據中所有矛盾之處,如字段的同名異義、異名同義、單位不統一、字長不一致,等等。 
(2)進行數據綜合和計算。數據倉庫中的數據綜合工作可以在從原有數據庫抽取數據時生成,但許多是在數據倉庫內部生成的,即進入數據倉庫以後進行綜合生成的。 


3、數據倉庫的數據是不可更新的 
數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一般情況下並不進行修改操作。數據倉庫的數據反映的是一段相當長的時間內歷史數據的內容,是不同時點的數據庫快照的集合,以及基於這些快照進行統計、綜合和重組的導出數據,而不是聯機處理的數據。數據庫中進行聯機處理的數據經過集成輸入到數據倉庫中,一旦數據倉庫存放的數據已經超過數據倉庫的數據存儲期限,這些數據將從當前的數據倉庫中刪去。因爲數據倉庫只進行數據查詢操作,所以數據倉庫管理系統相比數據庫管理系統而言要簡單得多。數據庫管理系統中許多技術難點,如完整性保護、併發控制等等,在數據倉庫的管理中幾乎可以省去。但是由於數據倉庫的查詢數據量往往很大,所以就對數據查詢提出了更高的要求,它要求採用各種複雜的索引技術;同時由於數據倉庫面向的是商業企業的高層管理者,他們會對數據查詢的界面友好性和數據表示提出更高的要求。 


4、數據倉庫的數據是隨時間不斷變化的

數據倉庫中的數據不可更新是針對應用來說的,也就是說,數據倉庫的用戶進行分析處理時是不進行數據更新操作的。但並不是說,在從數據集成輸入數據倉庫開始到最終被刪除的整個數據生存週期中,所有的數據倉庫數據都是永遠不變的。 

數據倉庫的數據是隨時間的變化而不斷變化的,這是數據倉庫數據的第四個特徵。這一特徵表現在以下3方面: 
(1)數據倉庫隨時間變化不斷增加新的數據內容。數據倉庫系統必須不斷捕捉OLTP數據庫中變化的數據,追加到數據倉庫中去,也就是要不斷地生成OLTP數據庫的快照,經統一集成後增加到數據倉庫中去;但對於確實不再變化的數據庫快照,如果捕捉到新的變化數據,則只生成一個新的數據庫快照增加進去,而不會對原有的數據庫快照進行修改。 

(2)數據倉庫隨時間變化不斷刪去舊的數據內容。數據倉庫的數據也有存儲期限,一旦超過了這一期限,過期數據就要被刪除。只是數據倉庫內的數據時限要遠遠長於操作型環境中的數據時限。在操作型環境中一般只保存有60~90天的數據,而在數據倉庫中則需要保存較長時限的數據(如5~10年),以適應DSS進行趨勢分析的要求。 

(3)數據倉庫中包含有大量的綜合數據,這些綜合數據中很多跟時間有關,如數據經常按照時間段進行綜合,或隔一定的時間片進行抽樣等等。這些數據要隨着時間的變化不斷地進行重新綜合。 

因此,數據倉庫的數據特徵都包含時間項,以標明數據的歷史時期。 

數據倉庫是決策支持系統(dss)和聯機分析應用數據源的結構化數據環境。數據倉庫研究和解決從數據庫中獲取信息的問題。數據倉庫的特徵在於面向主題、集成性、穩定性和時變性。 

數據倉庫之父William H. Inmon在1991年出版的“Building the Data 
Warehouse”一書中所提出的定義被廣泛接受——數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用於支持管理決策(Decision Making Support)。 

編輯本段特點 
1、數據倉庫是面向主題的;操作型數據庫的數據組織面向事務處理任務,而數據倉庫中的數據是按照一定的主題域進行組織。主題是指用戶使用數據倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統相關。

2、數據倉庫是集成的,數據倉庫的數據有來自於分散的操作型數據,將所需數據從原來的數據中抽取出數據倉庫的核心工具 
來,進行加工與集成,統一與綜合之後才能進入數據倉庫; 

3、數據倉庫是不可更新的,數據倉庫主要是爲決策分析提供數據,所涉及的操作主要是數據的查詢; 

4、數據倉庫是隨時間而變化的,傳統的關係數據庫系統比較適合處理格式化的數據,能夠較好的滿足商業商務處理的需求。穩定的數據以只讀格式保存,且不隨時間改變。

5、彙總的。操作性數據映射成決策可用的格式。 
6、大容量。時間序列數據集合通常都非常大。 
7、非規範化的。Dw數據可以是而且經常是冗餘的。 
8、元數據。將描述數據的數據保存起來。 
9、數據源。數據來自內部的和外部的非集成操作系統。 

數據倉庫,是在數據庫已經大量存在的情況下,爲了進一步挖掘數據資源、爲了決策需要而產生的,它並不是所謂的“大型數據庫”。數據倉庫的方案建設的目的,是爲前端查詢和分析作爲基礎,由於有較大的冗餘,所以需要的存儲也較大。爲了更好地爲前端應用服務,數據倉庫往往有如下幾點特點: 

1.效率足夠高。數據倉庫的分析數據一般分爲日、周、月、季、年等,可以看出,日爲週期的數據要求的效率最高,要求24小時甚至12小時內,客戶能看到昨天的數據分析。由於有的企業每日的數據量很大,設計不好的數據倉庫經常會出問題,延遲1-3日才能給出數據,顯然不行的。

2.數據質量。數據倉庫所提供的各種信息,肯定要準確的數據,但由於數據倉庫流程通常分爲多個步驟,包括數據清洗,裝載,查詢,展現等等,複雜的架構會更多層次,那麼由於數據源有髒數據或者代碼不嚴謹,都可以導致數據失真,客戶看到錯誤的信息就可能導致分析出錯誤的決策,造成損失,而不是效益。 


3.擴展性。之所以有的大型數據倉庫系統架構設計複雜,是因爲考慮到了未來3-5年的擴展性,這樣的話,未來不用太快花錢去重建數據倉庫系統,就能很穩定運行。主要體現在數據建模的合理性,數據倉庫方案中多出一些中間層,使海量數據流有足夠的緩衝,不至於數據量大很多,就運行不起來了。 

從上面的介紹中可以看出,數據倉庫技術可以將企業多年積累的數據喚醒,不僅爲企業管理好這些海量數據,而且挖掘數據潛在的價值,從而成爲通信企業運營維護系統的亮點之一。正因爲如此, 
廣義的說,基於數據倉庫的決策支持系統由三個部件組成:數據倉庫技術,聯機分析處理技術和數據挖掘技術,其中數據倉庫技術是系統的核心,在這個系列後面的文章裏,將圍繞數據倉庫技術,介紹現代數據倉庫的主要技術和數據處理的主要步驟,討論在通信運營維護系統中如何使用這些技術爲運營維護帶來幫助。 


面向主題 

操作型數據庫的數據組織面向事務處理任務,各個業務系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織的。主題是與傳統數據庫的面向應用相對應的,是一個抽象概念,是在較高層次上將企業信息系統中的數據綜合、歸類並進行分析利用的抽象。每一個主題對應一個宏觀的分析領域。數據倉庫排除對於決策無用的數據,提供特定主題的簡明視圖。 


集成的數據倉庫中的數據是在對原有分散的數據庫數據抽取、清理的基礎上經過系統加工、彙總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關於整個企業的一致的全局信息。 相對穩定的 


數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以後,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。 


反映歷史變化
數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。 編輯本段數據庫和數據倉庫數據庫已經在信息技術領域有了廣泛的應用,我們社會生活的各個部門,幾乎都有各種各樣的數據庫保存着與我們的生活息息相關的各種數據。作爲數據庫的一個分支,數據倉庫概念的提出,相對於數據庫從時間上就近得多。美國著名信息工程專家WilliamInmON博士在90年代初提出了數據倉庫概念的一個表述,認爲:“一個數據倉庫通常是一個面向主題的、集成的、隨時間變化的、但信息本身相對穩定的數據集合,它用於對管理決策過程的支持。”  


這裏的主題,是指用戶使用數據倉庫進行決策時所關心的重點方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數據倉庫內的信息是按主題進行組織的,而不是像業務支撐系統那樣是按照業務功能進行組織的。 

集成,是指數據倉庫中的信息不是從各個業務系統中簡單抽取出來的,而是經過一系列加工、整理和彙總的過程,因此數據倉庫中的信息是關於整個企業的一致的全局信息。 
隨時間變化,是指數據倉庫內的信息並不只是反映企業當前的狀態,而是記錄了從過去某一時點到當前各個階段的信息。通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。 


編輯本段實現方式  

數據倉庫是一個過程而不是一個項目。 
數據倉庫系統是一個信息提供平臺,他從業務處理系統獲得數據,主要以星型模型和雪花模型進行數據組織,併爲用戶提供各種手段從數據中獲取信息和知識。 
從功能結構劃分,數據倉庫系統至少應該包含數據獲取(Data Acquisition)、數據存儲(Data Storage)、數據訪問(Data Access)三個關鍵部分。 
企業數據倉庫的建設,是以現有企業業務系統和大量業務數據的積累爲基礎。數據倉庫不是靜態的概念,只有把信息及時交給需要這些信息的使用者,供他們做出改善其業務經營的決策,信息才能發揮作用,信息纔有意義。而把信息加以整理歸納和重組,並及時提供給相應的管理決策人員,是數據倉庫的根本任務。因此,從產業界的角度看,數據倉庫建設是一個工程,是一個過程。 


編輯本段體系結構 

數據源 
是數據倉庫系統的基礎,是整個系統的數據源泉。通常包括企業內部信息和外部信息。內部信息包括存放於RDBMS中的各種業務處理數據和各類文檔數據。外部信息包括各類法律法規、市場信息和競爭對手的信息等等; 


數據的存儲與管理 
是整個數據倉庫系統的核心。數據倉庫的真正關鍵是數據的存儲和管理。數據倉庫的組織管理方式決定了它有別於傳統數據庫,同時也決定了其對外部數據的表現形式。要決定採用什麼產品和技術來建立數據倉庫的核心,則需要從數據倉庫的技術特點着手分析。針對現有各業務系統的數據,進行抽取、清理,並有效集成,按照主題進行組織。數據倉庫按照數據的覆蓋範圍可以分爲企業級數據倉庫和部門級數據倉庫(通常稱爲數據集市)。 

OLAP(聯機分析處理)服務器
對分析需要的數據進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,並發現趨勢。其具體實現可以分爲:ROLAP(關係型在線分析處理)、MOLAP(多維在線分析處理)和HOLAP(混合型線上分析處理)。ROLAP基本數據和聚合數據均存放在RDBMS之中;MOLAP基本數據和聚合數據均存放於多維數據庫中;HOLAP基本數據存放於RDBMS之中,聚合數據存放於多維數據庫中。 

前端工具 
主要包括各種報表工具、查詢工具、數據分析工具、數據挖掘工具以數據挖掘及各種基於數據倉庫或數據集市的應用開發工具。其中數據分析工具主要針對OLAP服務器,報表工具、數據挖掘工具主要針對數據倉庫。 編輯本段組成 

數據抽取工具
把數據從各種各樣的存儲方式中拿出來,進行必要的轉化、整理,再存放到數據倉庫內。對各種不同數據存儲方式的訪問能力是數據抽取工具的關鍵,應能生成COBOL程序、MVS作業控制語言(JCL)、UNIX腳本、和SQL語句等,以訪問不同的數據。數據轉換都包括,刪除對決策應用沒有意義的數據段;轉換到統一的數據名稱和定義;計算統計和衍生數據;給缺值數據賦給缺省值;把不同的數據定義方式統一。 

數據倉庫數據庫 
是整個數據倉庫環境的核心,是數據存放的地方和提供對數據檢索的支持。相對於操縱型數據庫來說其
IBM數據倉庫解決方案產品組成突出的特點是對海量數據的支持和快速的檢索技術。 
元數據 
元數據是描述數據倉庫內數據的結構和建立方法的數據。可將其按用途的不同分爲兩類,技術元數據和商業元數據。 


技術元數據是數據倉庫的設計和管理人員用於開發和日常管理數據倉庫是用的數據。包括:數據源信息;數據轉換的描述;數據倉庫內對象和數據結構的定義;數據清理和數據更新時用的規則;源數據到目的數據的映射;用戶訪問權限,數據備份歷史記錄,數據導入歷史記錄,信息發佈歷史記錄等。 
商業元數據從商業業務的角度描述了數據倉庫中的數據。包括:業務主題的描述,包含的數據、查詢、報表; 
元數據爲訪問數據倉庫提供了一個信息目錄

(informationdirectory),這個目錄全面描述了數據倉庫中都有什麼數據、這些數據怎麼得到的、和怎麼訪問這些數據。是數據倉庫運行和維護的中心,數據倉庫服務器利用他來存貯和更新數據,用戶通過他來了解和訪問數據。 

數據集市(DataMarts) 
爲了特定的應用目的或應用範圍,而從數據倉庫中獨立出來的一部分數據,也可稱爲部門數據或主題數據(subjectarea)。在數據倉庫的實施過程中往往可以從一個部門的數據集市着手,以後再用幾個數據集市組成一個完整的數據倉庫。需要注意的就是在實施不同的數據集市時,同一含義的字段定義一定要相容,這樣在以後實施數據倉庫時纔不會造成大麻煩。 數據倉庫管理安全和特權管理;跟蹤數據的更新;數據質量檢查;管理和更新元數據;審計和報告數據倉庫的使用和狀態;刪除數據;複製、分割和分發數據;備份和恢復;存儲管理。 


信息發佈系統 
把數據倉庫中的數據或其他相關的數據發送給不同的地點或用戶。基於Web的信息發佈系統是對付多用戶訪問的最有效方法。 訪問工具 
爲用戶訪問數據倉庫提供手段。有數據查詢和報表工具;應用開發工具;管理信息系統(EIS)工具;在線分析(OLAP)工具;數據挖掘工具。 編輯本段設計步驟 
1)選擇合適的主題(所要解決問題的領域) 
2)明確定義事實表 
3)確定和確認維 
4)選擇事實表 
5)計算並存儲fact表中的衍生數據段 
6)轉換維表 
7)數據庫數據採集 
8)根據需求刷新維表 
9)確定查詢優先級和查詢模式。 
硬件平臺:數據倉庫的硬盤容量通常要是操作數據庫硬盤容量的2-3倍。通常大型機具有更可靠的性能和和穩定性,也容易與歷史遺留的系統結合在一起;而PC服務器或UNIX服務器更加靈活,容易操作和提供動態生成查詢請求進行查詢的能力。選擇硬件平臺時要考慮的問題:是否提供並行的I/O吞吐,對多CPU的支持能力如何,
數據倉庫DBMS:他的存儲大數據量的能力、查詢的性能、和對並行處理的支持如何。 
網絡結構:數據倉庫的實施在那部分網絡段上會產生大量的數據通信,需不需要對網絡結構進行改進。 
編輯本段建立步驟 


步驟 
1)收集和分析業務需求 
數據倉庫價值曲線 
2)建立數據模型和數據倉庫的物理設計 
3)定義數據源 
4)選擇數據倉庫技術和平臺 
5)從操作型數據庫中抽取、淨化、和轉換數據到數據倉庫 
6)選擇訪問和報表工具 
7)選擇數據庫連接軟件 
8)選擇數據分析和數據展示軟件 
9)更新數據倉庫 


數據轉換工具 
1)數據轉換工具要能從各種不同的數據源中讀取數據。 
2)支持平面文件、索引文件、和legacyDBMS。 
3)能以不同類型數據源爲輸入整合數據。 
4)具有規範的數據訪問接口 
5)最好具有從數據字典中讀取數據的能力 
6)工具生成的代碼必須是在開發環境中可維護的 
7)能只抽取滿足指定條件的數據,和源數據的指定部分 
8)能在抽取中進行數據類型轉換和字符集轉換 
9)能在抽取的過程中計算生成衍生字段 
10)能讓數據倉庫管理系統自動調用以定期進行數據抽取工作,或能將結果生成平面文件 
11)必須對軟件供應商的生命力和產品支持能力進行仔細評估 

主要數據抽取工具供應商:
Prismsolutions.Carleton'sPASSPORT.InformationBuildersInc.'s 
EDA/SQL.SASInstituteInc. 編輯本段數據倉庫帶來了什麼 
每一家公司都有自己的數據。並且,許多公司在計算機系統中儲存有大量的數據,記錄着企業購買、銷售、生產過程中的大量信息和客戶的信息。通常這些數據都儲存在許多不同的地方。 


使用數據倉庫之後,企業將所有收集來的信息存放在一個唯一的地方——數據倉庫。倉庫中的數據按照一定的方式組織,從而使得信息容易存取並且有使用價值。 
目前,已經開發出一些專門的軟件工具,使數據倉庫的過程實現可以半自動化,幫助企業將數據導入數據倉庫,並使用那些已經存入倉庫的數據。 
數據倉庫給組織帶來了巨大的變化。數據倉庫的建立給企業帶來了一些新的工作流程,其他的流程也因此而改變。 
數據倉庫爲企業帶來了一些“以數據爲基礎的知識”,它們主要應用於對市場戰略的評價,和爲企業發現新的市場商機,同時,也用來控制庫存、檢查生產方法和定義客戶羣。 
每一家公司都有自己的數據。數據倉庫將企業的數據按照特定的方式組織,從而產生新的商業知識,併爲企業的運作帶來新的視角。 編輯本段爲何要建立數據倉庫 
計算機發展的早期,人們已經提出了建立數據倉庫的構想。“數據倉庫”一詞最早是在1990年,由Bill Inmon先生提出的,其描述如下:數據倉庫是爲支持企業決策而特別設計和建立的數據集合。 
企業建立數據倉庫是爲了填補現有數據存儲形式已經不能滿足信息分析的需要。數據倉庫理論中的一個核心理念就是:事務型數據和決策支持型數據的處理性能不同。 
企業在它們的事務操作收集數據。在企業運作過程中:隨着定貨、銷售記錄的進行,這些事務型數據也連續的產生。爲了引入數據,我們必須優化事務型數據庫。 
處理決策支持型數據時,一些問題經常會被提出:哪類客戶會購買哪類產品,促銷後銷售額會變化多少,價格變化後或者商店地址變化後銷售額又會變化多少呢,在某一段時間內,相對其他產品來說哪類產品特別容易賣呢,哪些客戶增加了他們的購買額,哪些客戶又削減了他們的購買額呢, 事務型數據庫可以爲這些問題作出解答,但是它所給出的答案往往並不能讓人十分滿意。在運用有限的計算機資源時常常存在着競爭。在增加新信息的時候我們需要事務型數據庫是空閒的。而在解答一系列具體的有關信息分析的問題的時候,系統處理新數據的有效性又會被大大降低。另一個問題就在於事務型數據總是在動態的變化之中的。決策支持型處理需要相對穩定的數據,從而問題都能得到一致連續的解答。 
數據倉庫的解決方法包括:將決策支持型數據處理從事務型數據處理中分離出來。數據按照一定的週期(通常在每晚或者每週末),從事務型數據庫中導入決策支持型數據庫——既“數據倉庫”。數據倉庫是按回答企業某方面的問題來分“主題”組織數據的,這是最有效的數據組織方式。 編輯本段數據倉庫和數據集市 
有關決策支持型數據庫的數據集市是面向企業中的某個部門或是項目小組的。一些專家顧問將數據集市 數據倉庫基本體系結構的建造描述爲建立數據倉庫全過程中的一步。首先,一個儲存企業全部信息的數據倉庫被創建,其中,數據均具備有組織的、一致的、不變的格式。
數據集市隨後被創立,其目的是爲不同部門提供他們所需要的那部分信息。數據倉庫聚集了所有詳細的信息,而數據集市中的數據則是針對用戶們的特定需求總結而出的。 
而另外一些專家則認爲數據集市的建立並不需要首先建立一個數據倉庫。在這個模型中,數據直接由事務型數據庫轉入數據集市中。一個公司可能建立有多個數據集市,而彼此之間毫無聯繫。 
這種不在建立數據倉庫的基礎上創建數據集市的方式會更便宜、更快速,因爲它的規模更加易於管理。 
第二種觀點的缺陷在於無法實現最初創建數據倉庫的最主要的目的——將企業所有的數據統一爲一致的格式。現有的事務處理系統的數據往往是不一致、冗餘的。如果首先建立起一個全公司範圍的數據倉庫,組織就能夠獲得一個統一關於企業的活動和客戶的知識庫。如果先建立起一個個獨立的數據集市,那麼數據倉庫的諸多優勢都能夠得以實現,但是企業遠遠無法做到對數據的一致的儲存。 

編輯本段數據倉庫與數據庫的關係 
二者的聯繫: 
數據倉庫的出現,並不是要取代數據庫。目前,大部分數據倉庫還是用關係數據庫管理系統來管理的。可以說,數據庫、數據倉庫相輔相成、各有千秋。 

二者的區別: 

1、出發點不同:數據庫是面向事務的設計;數據倉庫是面向主題設計的。 
2、存儲的數據不同:數據庫一般存儲在線交易數據;數據倉庫存儲的一般是歷史數據。 
3、設計規則不同:數據庫設計是儘量避免冗餘,一般採用符合範式的規則來設計;數據倉庫在設計是有意引入冗餘,採用反範式的方式來設計。 
4、提供的功能不同:數據庫是爲捕獲數據而設計,數據倉庫是爲分析數據而設計, 
5、基本元素不同:數據庫的基本元素是事實表,數據倉庫的基本元素是維度表。 
6、容量不同:數據庫在基本容量上要比數據倉庫小的多。 
7、服務對象不同:數據庫是爲了高效的事務處理而設計的,服務對象爲企業業務處理方面的工作人員;數據倉庫是爲了分析數據進行決策而設計的,服務對象爲企業高層決策人員。 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章