數據庫與數據倉庫的區別與聯繫(通俗版本)

原創

2020-06-16 16:23

數據庫是面向事務的設計，數據倉庫是面向主題設計的。數據庫一般存儲在線交易數據，數據倉庫存儲的一般是歷史數據。

數據庫設計是儘量避免冗餘，一般採用符合範式的規則來設計，數據倉庫在設計是有意引入冗餘，採用反範式的方式來設計。

數據庫是爲捕獲數據而設計，數據倉庫是爲分析數據而設計，它的兩個基本的元素是維表和事實表。（維是看問題的角度，比如時間，部門，維表放的就是這些東西的定義，事實表裏放着要查詢的數據，同時有維的ID） 

數據倉庫，是在數據庫已經大量存在的情況下，爲了進一步挖掘數據資源、爲了決策需要而產生的，它決不是所謂的“大型數據庫”。那麼，數據倉庫與傳統數據庫比較，有哪些不同呢？讓我們先看看W.H.Inmon關於數據倉庫的定義：面向主題的、集成的、與時間相關且不可修改的數據集合。 

“面向主題的”：傳統數據庫主要是爲應用程序進行數據處理，未必按照同一主題存儲數據；數據倉庫側重於數據分析工作，是按照主題存儲的。這一點，類似於傳統農貿市場與超市的區別—市場裏面，白菜、蘿蔔、香菜會在一個攤位上，如果它們是一個小販賣的；而超市裏，白菜、蘿蔔、香菜則各自一塊。也就是說，市場裏的菜（數據）是按照小販（應用程序）歸堆（存儲）的，超市裏面則是按照菜的類型（同主題）歸堆的。 

“與時間相關”：數據庫保存信息的時候，並不強調一定有時間信息。數據倉庫則不同，出於決策的需要，數據倉庫中的數據都要標明時間屬性。決策中，時間屬性很重要。同樣都是累計購買過九車產品的顧客，一位是最近三個月購買九車，一位是最近一年從未買過，這對於決策者意義是不同的。 

“不可修改”：數據倉庫中的數據並不是最新的，而是來源於其它數據源。數據倉庫反映的是歷史信息，並不是很多數據庫處理的那種日常事務數據（有的數據庫例如電信計費數據庫甚至處理實時信息）。因此，數據倉庫中的數據是極少或根本不修改的；當然，向數據倉庫添加數據是允許的。 

數據倉庫的出現，並不是要取代數據庫。目前，大部分數據倉庫還是用關係數據庫管理系統來管理的。可以說，數據庫、數據倉庫相輔相成、各有千秋

補充一下，數據倉庫的方案建設的目的，是爲前端查詢和分析作爲基礎，由於有較大的冗餘，所以需要的存儲也較大。爲了更好地爲前端應用服務，數據倉庫必須有如下幾點優點，否則是失敗的數據倉庫方案。

1.效率足夠高。客戶要求的分析數據一般分爲日、周、月、季、年等，可以看出，日爲週期的數據要求的效率最高，要求24小時甚至12小時內，客戶能看到昨天的數據分析。由於有的企業每日的數據量很大，設計不好的數據倉庫經常會出問題，延遲1-3日才能給出數據，顯然不行的。

2.數據質量。客戶要看各種信息，肯定要準確的數據，但由於數據倉庫流程至少分爲3步，2次ETL，複雜的架構會更多層次，那麼由於數據源有髒數據或者代碼不嚴謹，都可以導致數據失真，客戶看到錯誤的信息就可能導致分析出錯誤的決策，造成損失，而不是效益。

3.擴展性。之所以有的大型數據倉庫系統架構設計複雜，是因爲考慮到了未來3-5年的擴展性，這樣的話，客戶不用太快花錢去重建數據倉庫系統，就能很穩定運行。主要體現在數據建模的合理性，數據倉庫方案中多出一些中間層，使海量數據流有足夠的緩衝，不至於數據量大很多，就運行不起來了.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數據庫與數據倉庫的區別與聯繫(通俗版本)

如何查看Linux系統中的 LABEL/UUID

linux Top 命令詳解

數據庫索引--B樹

linux系統性能測試工具(磁盤)

數據庫與數據倉庫的區別與聯繫(通俗版本)

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結