數據庫與數據倉庫的區別與聯繫(通俗版本)

數據庫是面向事務的設計,數據倉庫是面向主題設計的。數據庫一般存儲在線交易數據,數據倉庫存儲的一般是歷史數據。

數據庫設計是儘量避免冗餘,一般採用符合範式的規則來設計,數據倉庫在設計是有意引入冗餘,採用反範式的方式來設計。

數據庫是爲捕獲數據而設計,數據倉庫是爲分析數據而設計,它的兩個基本的元素是維表和事實表。(維是看問題的角度,比如時間,部門,維表放的就是這些東西的定義,事實表裏放着要查詢的數據,同時有維的ID) 

數據倉庫,是在數據庫已經大量存在的情況下,爲了進一步挖掘數據資源、爲了決策需要而產生的,它決不是所謂的“大型數據庫”。那麼,數據倉庫與傳統數據庫比較,有哪些不同呢?讓我們先看看W.H.Inmon關於數據倉庫的定義:面向主題的、集成的、與時間相關且不可修改的數據集合。 

“面向主題的”:傳統數據庫主要是爲應用程序進行數據處理,未必按照同一主題存儲數據;數據倉庫側重於數據分析工作,是按照主題存儲的。這一點,類似於傳統農貿市場與超市的區別—市場裏面,白菜、蘿蔔、香菜會在一個攤位上,如果它們是一個小販賣的;而超市裏,白菜、蘿蔔、香菜則各自一塊。也就是說,市場裏的菜(數據)是按照小販(應用程序)歸堆(存儲)的,超市裏面則是按照菜的類型(同主題)歸堆的。 

“與時間相關”:數據庫保存信息的時候,並不強調一定有時間信息。數據倉庫則不同,出於決策的需要,數據倉庫中的數據都要標明時間屬性。決策中,時間屬性很重要。同樣都是累計購買過九車產品的顧客,一位是最近三個月購買九車,一位是最近一年從未買過,這對於決策者意義是不同的。 

“不可修改”:數據倉庫中的數據並不是最新的,而是來源於其它數據源。數據倉庫反映的是歷史信息,並不是很多數據庫處理的那種日常事務數據(有的數據庫例如電信計費數據庫甚至處理實時信息)。因此,數據倉庫中的數據是極少或根本不修改的;當然,向數據倉庫添加數據是允許的。 

數據倉庫的出現,並不是要取代數據庫。目前,大部分數據倉庫還是用關係數據庫管理系統來管理的。可以說,數據庫、數據倉庫相輔相成、各有千秋

補充一下,數據倉庫的方案建設的目的,是爲前端查詢和分析作爲基礎,由於有較大的冗餘,所以需要的存儲也較大。爲了更好地爲前端應用服務,數據倉庫必須有如下幾點優點,否則是失敗的數據倉庫方案。

1.效率足夠高。客戶要求的分析數據一般分爲日、周、月、季、年等,可以看出,日爲週期的數據要求的效率最高,要求24小時甚至12小時內,客戶能看到昨天的數據分析。由於有的企業每日的數據量很大,設計不好的數據倉庫經常會出問題,延遲1-3日才能給出數據,顯然不行的。

2.數據質量。客戶要看各種信息,肯定要準確的數據,但由於數據倉庫流程至少分爲3步,2次ETL,複雜的架構會更多層次,那麼由於數據源有髒數據或者代碼不嚴謹,都可以導致數據失真,客戶看到錯誤的信息就可能導致分析出錯誤的決策,造成損失,而不是效益。

3.擴展性。之所以有的大型數據倉庫系統架構設計複雜,是因爲考慮到了未來3-5年的擴展性,這樣的話,客戶不用太快花錢去重建數據倉庫系統,就能很穩定運行。主要體現在數據建模的合理性,數據倉庫方案中多出一些中間層,使海量數據流有足夠的緩衝,不至於數據量大很多,就運行不起來了.
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章