mysql b-tree索引

B樹索引的相關概念

索引與表一樣,也屬於段(segment)的一種。裏面存放了用戶的數據,跟表一樣需要佔用磁盤空間。只

不過,在索引裏的數據存放形式與表裏的數據存放形式非常的不一樣。在理解索引時,可以想象一本書,其中書的內容就相當於表裏的數據,而書前面的目錄就相當於該表的索引。同時,通常情況下,索引所佔用的磁盤空間要比表要小的多,其主要作用是爲了加快對數據的搜索速度,也可以用來保證數據的唯一性。

       但是,索引作爲一種可選的數據結構,你可以選擇爲某個表裏的創建索引,也可以不創建。這是因爲一旦創建了索引,就意味着oracle對錶進行DML(包括INSERT、UPDATE、DELETE)時,必須處理額外的工作量(也就是對索引結構的維護)以及存儲方面的開銷。所以創建索引時,需要考慮創建索引所帶來的查詢性能方面的提高,與引起的額外的開銷相比,是否值得。

       從物理上說,索引通常可以分爲:分區和非分區索引、常規B樹索引、位圖(bitmap)索引、翻轉(reverse)索引等。其中,B樹索引屬於最常見的索引,由於我們的這篇文章主要就是對B樹索引所做的探討,因此下面只要說到索引,都是指B樹索引。

       B樹索引是一個典型的樹結構,其包含的組件主要是:

1)      葉子節點(Leaf node):包含條目直接指向表裏的數據行。

2)      分支節點(Branch node):包含的條目指向索引裏其他的分支節點或者是葉子節點。

3)      根節點(Root node):一個B樹索引只有一個根節點,它實際就是位於樹的最頂端的分支節點。

可以用下圖一來描述B樹索引的結構。其中,B表示分支節點,而L表示葉子節點。

對於分支節點塊(包括根節點塊)來說,其所包含的索引條目都是按照順序排列的(缺省是升序排列,也可以在創建索引時指定爲降序排列)。每個索引條目(也可以叫做每條記錄)都具有兩個字段。第一個字段表示當前該分支節點塊下面所鏈接的索引塊中所包含的最小鍵值;第二個字段爲四個字節,表示所鏈接的索引塊的地址,該地址指向下面一個索引塊。在一個分支節點塊中所能容納的記錄行數由數據塊大小以及索引鍵值的長度決定。比如從上圖一可以看到,對於根節點塊來說,包含三條記錄,分別爲(0 B1)、(500 B2)、(1000 B3),它們指向三個分支節點塊。其中的0、500和1000分別表示這三個分支節點塊所鏈接的鍵值的最小值。而B1、B2和B3則表示所指向的三個分支節點塊的地址。

       對於葉子節點塊來說,其所包含的索引條目與分支節點一樣,都是按照順序排列的(缺省是升序排列,也可以在創建索引時指定爲降序排列)。每個索引條目(也可以叫做每條記錄)也具有兩個字段。第一個字段表示索引的鍵值,對於單列索引來說是一個值;而對於多列索引來說則是多個值組合在一起的。第二個字段表示鍵值所對應的記錄行的ROWID,該ROWID是記錄行在表裏的物理地址。如果索引是創建在非分區表上或者索引是分區表上的本地索引的話,則該ROWID佔用6個字節;如果索引是創建在分區表上的全局索引的話,則該ROWID佔用10個字節。

       知道這些信息以後,我們可以舉個例子來說明如何估算每個索引能夠包含多少條目,以及對於表來說,所產生的索引大約多大。對於每個索引塊來說,缺省的PCTFREE爲10%,也就是說最多隻能使用其中的90%。同時9i以後,這90%中也不可能用盡,只能使用其中的87%左右。也就是說,8KB的數據塊中能夠實際用來存放索引數據的空間大約爲6488(8192×90%×88%)個字節。

       假設我們有一個非分區表,表名爲warecountd,其數據行數爲130萬行。該表中有一個列,列名爲goodid,其類型爲char(8),那麼也就是說該goodid的長度爲固定值:8。同時在該列上創建了一個B樹索引。

在葉子節點中,每個索引條目都會在數據塊中佔一行空間。每一行用2到3個字節作爲行頭,行頭用來存放標記以及鎖定類型等信息。同時,在第一個表示索引的鍵值的字段中,每一個索引列都有1個字節表示數據長度,後面則是該列具體的值。那麼對於本例來說,在葉子節點中的一行所包含的數據大致如下圖二所示:



從上圖可以看到,在本例的葉子節點中,一個索引條目佔18個字節。同時我們知道8KB的數據塊中真正可以用來存放索引條目的空間爲6488字節,那麼在本例中,一個數據塊中大約可以放360(6488/18)個索引條目。而對於我們表中的130萬條記錄來說,則需要大約3611(1300000/360)個葉子節點塊。

       而對於分支節點裏的一個條目(一行)來說,由於它只需保存所鏈接的其他索引塊的地址即可,而不需要保存具體的數據行在哪裏,因此它所佔用的空間要比葉子節點要少。分支節點的一行中所存放的所鏈接的最小鍵值所需空間與上面所描述的葉子節點相同;而存放的索引塊的地址只需要4個字節,比葉子節點中所存放的ROWID少了2個字節,少的這2個字節也就是ROWID中用來描述在數據塊中的行號所需的空間。因此,本例中在分支節點中的一行所包含的數據大致如下圖三所示:

從上圖可以看到,在本例的分支節點中,一個索引條目佔16個字節。根據上面葉子節點相同的方式,我們可以知道一個分支索引塊可以存放大約405(6488/16)個索引條目。而對於我們所需要的3611個葉子節點來說,則總共需要大約9個分支索引塊。

       這樣,我們就知道了我們的這個索引有2層,第一層爲1個根節點,第二層爲9個分支節點,而葉子節點數爲3611個,所指向的表的行數爲1300000行。但是要注意,在oracle的索引中,層級號是倒過來的,也就是說假設某個索引有N層,則根節點的層級號爲N,而根節點下一層的分支節點的層級號爲N-1,依此類推。對本例來說,9個分支節點所在的層級號爲1,而根節點所在的層級號爲2。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章