數據倉庫讀書筆記--概念篇

數據倉庫

1、概述

    1.1、什麼情況下使用數據倉庫

            各個業務系統產生的是原始的業務數據,當企業業務逐漸豐富起來之後,業務數據也會隨之增大,針對已經發生過的數據,在業務層面有需求:就是針對業務數據的分析,通常這時候有兩種技術處理方案:

            (1)針對業務規模、數據規模比較小的情況下,直接在原有的系統中進行處理(統計),這樣體現在客戶那裏最直觀的就是一些各種角度的統計報表這是一種比較小規模數據、業務的處理方式

            (2)針對業務比較複雜,數據量比較大並且統計維度比較多的時候,就會考慮採用一種新的模型來處理,那就是數據倉庫。將各種業務數據進行抽取、清洗、彙總、保存,形成結果獨立各個業務系統保存,這一系列的的數據處理過程就形成了數據倉庫,爲後期的數據分析挖掘提供數據基礎

    1.2、什麼是數據倉庫

            簡單裏講,數據倉庫只是一個概念而已,在這個概念裏講述的是如下的內容:

            (1)整合不同的業務數據源:這個數據源可以是一切數據的提供形式(數據庫、文件、字節流等等)

            (2)針對不同的數據源(業務數據),採用不同的數據抽取方式、清洗方式

            (3)將不同來源的數據進行統一、彙總

            (4)將步驟3中的結果進行保存

    1.3、數據倉庫有些什麼特徵

            (1)數據倉庫的數據時面向主題的。因爲數據倉庫的數據時提供給分析決策作爲依據的,在業務的層面上需要針對一個主題進行分析。

            (2)數據倉庫的數據時集成性的。從如下的方面進行理解:

                    a)數據倉庫的數據來源於多個數據源,是多種數據的集成結果

                    b)數據倉庫的數據是爲分析提供依據的,是彙總的數據,也就是集成的數據

            (3)數據倉庫的數據還有一個基本的特性就是:時間特性。數據倉庫的數據隨着時間的推移,在不斷的增加新的內容

            (4)數據倉庫的數據具有相對穩定性。這種相對穩定指的是:通常進入到數據倉庫中的數據,之後只會進行查詢、二不會進行修改

            (5)數據倉庫具有數據量大的特性

    1.4、數據倉庫的基本結構

 

 

 

2、數據倉庫相關的概念

    2.1、主題

        在數據倉庫中,“主題”是指業務方從宏觀方面的分析領域。比如:產品訂單分析。在數據倉庫建設中,主題是來自業務方的需求,作爲技術支撐的分析、開發人員而言,就需要將這種主題在技術層面進行轉換,具體的就是分析主題涉及到的數據內容,最終在數據倉庫中找到與之對應的實體表。

        每個主題在數據倉庫中都是由一組關係表實現的,那麼“主題”就更像是一個概念了,同時這個概念有自身的特點:

            (1)獨立性:主題域可以與其他主題域有交叉的部分,但是他必須有獨特的內涵,即要求有明確的界限,規定某項數據是否屬於該主題

。         (2)完備性:要求任何一個與某主題相關的分析要求,都應該能在這一主題中找到該分析處理所要求的一切內容

    2.2、粒度

        在數據倉庫中指的是數據單元的詳細程度和級別。數據越詳細,粒度就越小,級別就越低;數據綜合度越高,粒度就越大,級別也就越高。在數據倉庫中粒度的大小可以直接影響數據倉庫能夠回答詢問的種類。粒度越小回答詢問的能力就越強,反之就越小。從另外一個方面將,粒度越小的話,就意味着數據倉庫需要裝載更多的數據,數據倉庫本身的壓力也會增大

    2.3、維度

        維是指人們觀察事物的角度。在數據倉庫中常見的維有:客戶維、時間維、產品維、地區維。

        時間維(日期、周、月、季度、年、時間段上分爲:黃金時間與非黃金時間)

        地區維(城市、地區、國家)

    2.4、數據立方體

        指的是由兩個或更多個維來描述或分類的數據。數據倉庫的主要操作對象時多維數據,因此在數據倉庫的設計中,應採用多維數據建模技術,以使用戶能更好的理解企業的數據信息。

    2.5、數據集市

        數據集市是完整的數據倉庫的一個邏輯子集,而數據倉庫正是由所有的數據集市有機組合而成的。數據集市一般在一個業務部門建立,滿足其分析決策的需要,可以將其理解爲“部門級數據倉庫”(各數據集市都應該是數據倉庫的有機組成部分,且各數據集市間應協調一致,滿足整個企業分析決策的需要)

        數據集市在設計上有一些原則:

        (1)在數據倉庫內,所有的數據集市必須有統一一致的維定義

        (2)在數據倉庫內,所有的數據集市必須有統一一致的業務事實

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章