維度模型數據倉庫基礎對象概念一覽

一、度量、指標、指標器

度量和維度構成OLAP的主要概念，對於在事實表或者一個多維立方體裏面存放的數值型的、連續的字段，就是度量。這符合上面的意思，有標準，一個度量字段肯定是統一單位，例如元、戶數。如果一個度量字段，其中的度量值可能是歐元又有可能是美元，那這個度量沒法彙總。

在OLAP中還有計算度量的說法，用一個總費用除以用戶數，得到每戶平均費用。但這究竟還算不算度量了呢？這已經不是原本意義上的度量了，只是爲了稱呼方便而已。

這就得說到指標，英文的Metric。在績效管理軟件裏面，通常是有這個概念的。其定義可表述爲"它是表示某種相對程度的值"。區別於度量概念，那是一種絕對值，尺子量出來的結果，彙總出來的數量等。而指標至少需要兩個度量之間的計算才能得到，例如ARPU，用收入比上用戶數，例如收入增長率，用本月收入比上上月收入。當然可能指標的計算還需要兩個以上的度量。

而Indicator的字面意思爲指示器，在KPI中，最後一個I就是它，但是用中文稱呼它的時候，總是叫"關鍵績效指標"，而沒有叫做"指標器"，也就造成一些混亂。

我們身邊充當指示器的有：紅綠燈，提醒行人車輛是否等待或通行；監控室裏的警報燈，提醒哪兒出現異常；汽車儀表盤，提醒駕駛員油是否足夠，速度如何。它們起到的作用是傳遞一種宏觀的信息，促使人的下一步行動。紅燈停綠燈行；看到警報亮起要趕緊派人查看。目前常見的企業績效管理軟件中，儀表盤（有的地方稱作駕駛艙）的展示界面也是必不可少，正是用這種直觀而比較有象徵性的指示器反映企業運營狀況。

可以設想提出KPI的初衷，是希望企業通過一些粗略（非細節）的信息（而非數據）來爲下一步的決策作出依據。導致不同的決策行爲必定是離散的輸入，最簡單的就是一個開關，是或不是（例如警報燈）。如果說度量和指標是定量話，指示器就是一種定性的。

然而，這些系統中的KPI並非完全上面提到的指示器，很多系統建設稱爲度量系統或是指標系統。而對一個企業，哪些指標能夠充分反映經營活動，這也是需要精心制定的，而不是讓技術部門提出一堆似是而非的指標名稱，諸如在網用戶數、收入之類，這不是KPI。

三者區別的說明：

"度量"是絕對的定量值；

"指標"是基於兩個或更多度量計算得出的相對值；

"指示器"是基於度量或指標，並依據某個基準值得到的定性結果。

二、維度中層與級的區別

在OLAP中定義維度時，層（Hierarchy）與級（Level）是比較讓人迷惑的兩個概念。簡單的說，層就是一種維度成員的分類方式，級就是維度成員之間或維度成員屬性之間的包含關係。

一個維度至少要包含一個層。以[產品]維度爲例，可以創建一個[產地]層，可以創建一個[廠商]層，也可以創建一個[分類]層。在SSAS中，可以不定義層，此時維度的默認層爲AllMembers層。在Mondrian的Schema定義工具中，則要求全部手工定義。

一個層至少要包含一個級，以[產品]維度爲例，[產地]層可以包含省-市-縣三個級別，[分類]層可以包含日用品-洗滌用品-洗衣粉三個級別。級別的定義有2種方式，一種是在一個維度成員的屬性之間定義，例如[產品]維度的每個成員都有產品系列、大類、小類三個屬性，這樣定義[分類]層的級別時，直接利用這三個屬性即可，即：每個級別都是一個成員的一個屬性。另一種是在維度成員之間進行，例如HR中的上下級關係，每個級別都是一個具體的維度成員，即：每個級別都是一個或多個維度成員，每個級都包含多個屬性。後一種級別在數據庫中往往是以遞歸的方式進行保存的。

三、數據倉庫相關術語

數據倉庫：數據倉庫是一個支持管理決策的數據集合。數據是面向主題的、集成的、不易丟失的並且是時變的。數據倉庫是所有操作環境和外部數據源的快照集合。它並不需要非常精確，因爲它必須在特定的時間基礎上從操作環境中提取出來。

數據集市：數據倉庫只限於單個主題的區域，例如顧客、部門、地點等。數據集市在從數據倉庫獲取數據時可以依賴於數據倉庫，或者當它們從操作系統中獲取數據時就不依賴於數據倉庫。

事實：事實是數據倉庫中的信息單元，也是多維空間中的一個單元，受分析單元的限制。事實存儲於一張表中（當使用關係數據庫時）或者是多維數據庫中的一個單元。每個事實包括關於事實（銷售額，銷售量，成本，毛利，毛利率等）的基本信息，並且與維度相關。在某些情況下，當所有的必要信息都存儲於維度中時，單純的事實出現就是對於數據倉庫足夠的信息。

維度：維度是用來反映業務的一類屬性，這類屬性的集合構成一個維度。例如，某個地理維度可能包括國家、地區、省以及城市的級別。一個時間維度可能包括年、季、月、周、日的級別。

級別：維度層次結構的一個元素。級別描述了數據的層次結構，從數據的最高（彙總程度最大）級別直到最低（最詳細）級別（如大分類-中分類-小分類-細分類）。級別僅存在於維度內。級別基於維度表中的列或維度中的成員屬性。

數據清洗：對數據倉庫系統無用的或者不符合數據格式規範的數據稱之爲髒數據。清洗的過程就是清除髒數據的過程。

數據採集：數據倉庫系統中後端處理的一部分。數據採集過程是指從業務系統中收集與數據倉庫各指標有關的數據。

數據轉換：解釋業務數據並修改其內容，使之符合數據倉庫數據格式規範，並放入數據倉庫的數據存儲介質中。數據轉換包括數據存儲格式的轉換以及數據表示符的轉換（如產品代碼到產品名稱的轉換）。

聯機分析處理(OLAP Online Analytical Processing )：OLAP是一種多維分析技術，用來滿足決策用戶在大量的業務數據中，從多角度探索業務活動的規律性、市場的運作趨勢的分析需求，並輔助他們進行戰略發展決策的制定。按照數據的存儲方式分OLAP又分爲ROLAP、MOLAP和HOLAP。在客戶信息數據倉庫CCDW的數據環境下，OLAP提供上鑽、下鑽、切片、旋轉等在線分析機制。完成的功能包括多角度實時查詢、簡單的數據分析，並輔之於各種圖形展示分析結果。

數據挖掘：在數據倉庫的數據中發現新信息的過程被稱爲數據挖掘，這些新信息不會從操作系統中獲得。

切片：一種用來在數據倉庫中將一個維度中的分析空間限制爲數據子集的技術。

切塊：一種用來在數據倉庫中將多個維度中的分析空間限制爲數據子集的技術。

星型模式：是數據倉庫應用程序的最佳設計模式。它的命名是因其在物理上表現爲中心實體，典型內容包括指標數據、輻射數據，通常是有助於瀏覽和聚集指標數據的維度。星形圖模型得到的結果常常是查詢式數據結構，能夠爲快速響應用戶的查詢要求提供最優的數據結構。星形圖還常常產生一種包含維度數據和指標數據的兩層模型。

雪花模式：指一種擴展的星形圖。星形圖通常生成一個兩層結構，即只有維度和指標，雪花圖生成了附加層。實際數據倉庫系統建設過程中，通常只擴展三層：維度（維度實體）、指標（指標實體）和相關的描述數據（類目細節實體）；超過三層的雪花圖模型在數據倉庫系統中應該避免。因爲它們開始像更傾向於支持OLTP 應用程序的規格化結構，而不是爲數據倉庫和OLAP應用程序而優化的非格式化結構。

粒度：粒度將直接決定所構建倉庫系統能夠提供決策支持的細節級別。粒度越高表示倉庫中的數據較粗，反之，較細。粒度是與具體指標相關的，具體表現在描述此指標的某些可分層次維的維值上。例如，時間維度，時間可以分成年、季、月、周、日等。

數據倉庫模型中所存儲的數據的粒度將對信息系統的多方面產生影響。事實表中以各種維度的什麼層次作爲最細粒度，將決定存儲的數據能否滿足信息分析的功能需求，而粒度的層次劃分、以及聚合表中粒度的選擇將直接影響查詢的響應時間。

度量值：在多維數據集中，度量值是一組值，這些值基於多維數據集的事實數據表中的一列，而且通常爲數字。此外，度量值是所分析的多維數據集的中心值。即，度量值是最終用戶瀏覽多維數據集時重點查看的數字數據（如銷售、毛利、成本）。

維度模型數據倉庫基礎對象概念一覽

工作中用到的腳本合集

通過f-string編寫簡潔高效的Python格式化輸出代碼

24-5-18 X

Hive自身數據導出的方式

Hive與傳統數據庫對比

大數據環境部署7：SparkSQL配置使用

文思海輝賈丕星：大數據時代對傳統數據倉庫的五點思考

大數據環境部署3：Hadoop環境部署

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結