數據倉庫與數據挖掘學習筆記(三)OLAP技術

學習心得
一、什麼是OLAP?

在以前20世紀60年代末,關係型數據庫與OLTP得到了快速發展,隨着時間的延續,全球數據暴增,越來越多的數據被生產,同時人們對信息的需求也更加發雜,希望儘可能從GB,TB甚至PB數據直觀的連接隱藏在這些數據背後的信息,傳統的OLTP顯得力不從心了,於是數據倉庫跟OLAP技術營運而生。
定義:針對某個特定的主題進行聯機數據訪問,處理和分析,通過直觀的方式從多個維度多種數據綜合起來給使用者觀看。

二、OLAP和OLTP區別
在這裏插入圖片描述
三、簡述OLAP和數據倉庫的關係

建立數據倉庫的目的是爲公司決策使用的,OLAP服務作爲一種多維查詢和分析工具,是數據倉庫功能的自然擴展,也是數據倉庫大數據量得以有效利用,快速查詢的重要保障。主要用於分析查詢數據倉庫的數據進行聚合操作。
在這裏插入圖片描述
四、簡述有哪些OLAP的常用操作

1、切片
2、切塊
3、旋轉
4、上卷
5、下鑽

五、OLAP的分類

主流的OLAP數據組織方式有3中,
ROLAP(基於關係型數據庫的OLAP)
MOLAP(基於多維數據庫的OLAP)
HOLAP(基於關係型數據庫與多維數據庫的OLAP)

六、OLAP索引
主要分爲倆大類:位圖索引,連接索引
位圖索引:在OLAP中是很流行的,因爲他允許在數據立方體中快速索引,位圖索引方法描述如下:
在給定屬性的位圖索引中,屬性域中的每個值v有一個不同的維向量Bv,如果給定的屬性域包含n個值,則位圖索引中以n僞向量表示不同的值,如果數據表給定行上 的屬性爲是v,則在位圖索引行,表示該值的位是1,其他值是0,大家是不是覺得很繞口,接下來舉個例子
例如,有(A,B,C)三維數據立方體,維A在頂層有3個值(HSC),每個值用維A的位圖索引表的一個位向量表示,如圖,假定立方體存放在一個具有a行的關係表中,維i的域有m個,對應的位圖索引則需要m個位向量,每個維向量有a個二進制位。
在這裏插入圖片描述
由於維上的每個值是一個維向量,位操作非常快,所以其性能會得到大幅度提高
ps:位圖索引對於基數較小的域特別有用,因爲比較,連接,聚集都變成了位運算,大大減小處理時間,對於字符串可以用單個二進制表示,位圖索引降低了空間和IO消耗,對於基數較高的域,可以使用壓縮技術,這種方式可以接受。
連接索引其實就是一個事實表引用了外部衆多維度表的主鍵,跟mysql主外鍵性質一樣。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章