Mysql索引原理

說起Mysql就離不開SQL優化，說起優化就離不開索引，那麼什麼是索引？爲什麼加了索引就可以快？那接下來我們就一起來探討一下索引相關的知識！

一、數據結構中常見的索引

【對這塊數據結構瞭解的同學建議跳過本節】

1.二叉樹

說起二叉樹，我們都知道每個結點最多只能有兩個子結點，例如：

可以發現二叉樹很有規律，左子結點小於當前結點，右子結點大於當前結點。那這樣不是查詢起來很方便呢？二叉樹的性質決定了它的時間複雜度爲 Olog(n)，當然，二叉樹的時間複雜度與它的插入順序有着，如果按升序或降序的方式插入數據，那麼它的二叉樹的高度h就與結點個數相等了，此時複雜度就提高到了O(n)。

假如，數據庫使用二叉樹來做索引，此時需要插入1000條數據，我們來計算一下這樹的高度。（深度爲k的二叉樹最少有k個結點，最多有2^k-1個結點）

2^10-1 ≈ 1000    此時樹的高度約爲10
最差的情況，樹的高度爲1000

樹的高度決定了查詢的效率，而二叉樹又會存在高度10~1000這麼大的差距，很明顯它已經不適合做我們的索引了！

2.平衡樹

前面把問題擺出來了，二叉樹的高度很不穩定，那我們能不能把高度穩定一下呢？這就是平衡樹，它會根據插入的情況，動態的調整二叉樹的高度（左右子樹的高度最多差1），比如：我們插入從10，9，8，，，1

看，我沒有騙你吧，它會根據插入的情況調整樹的高度，具體怎麼調整的，我只簡單說明一下吧，畢竟不是本文的重點。

平衡樹的調整分四種情況：

LL、LR、RL、RR

這種情況很好理解

這種情況就是，先將5與6結點左旋轉，然後轉成了LL型，再右旋轉。
好了，另外兩種就不說了，和這兩種的旋轉方式正好相反而已。

咳咳，回到正題，現在好了，平衡樹足以保證了樹的平衡，那麼使用它來做索引有沒有問題呢？
假如我們有100000 條記錄，那麼根據二叉樹的性質，樹的高度最低約爲2^16，也就是查找一個元素需要查找16次，有同學可能說，嗯，查詢16次我可以接受了，那麼假如插入或刪除數據呢？AVL樹的最大缺點就是插入結點時，樹需要頻繁的旋轉調整結點，所以平衡樹也不太適合做索引。

3.紅黑樹

前面說了平衡樹對二叉樹的要求，左右子樹的高度最多差1，插入數據稍有不慎就會造成平衡樹的轉換操作，而轉換又是非常耗時的一件事情。
而紅黑樹的出現就是爲了避免平衡樹的頻繁轉換結點操作。紅黑樹並不追求完全平衡它只要求部分結點達到平衡，降低了對旋轉的要求，從而提高了性能。先看下紅黑樹的定義吧！

*   每個結點要麼是紅的要麼是黑的。  
*   根結點是黑的。  
*   每個葉結點（葉結點即指樹尾端NIL指針或NULL結點）都是黑的。  
*   如果一個結點是紅的，那麼它的兩個兒子都是黑的。  
*    對於任意結點而言，其到葉結點樹尾端NIL指針的每條路徑都包含相同數目的黑結點。

插入或刪除元素時，也是需要維護紅黑樹結構的，之所以索引也不使用紅黑樹主要是二叉樹保存大量結點的時候，會導致樹的高度不斷增加。比如1億個節點，樹的高度就會達到27層左右，而一般索引又是保存到磁盤中的，如果每次查詢都需要一次IO的話，那也就是需要27次IO操作，而每次IO操作都是非常耗時的。

4.B樹

平衡樹、紅黑樹都是二叉樹，當二叉樹保存大量元素的時候會導致樹的高度不斷增高，那可不可以使用多叉樹呢？

先來看下B樹的定義：

1、B樹的組成
    關鍵字（可以理解爲數據）
    指向孩子節點的指針

2、B樹的性質：
* 若根結點不是終端結點，則至少有2棵子樹
* 除根節點以外的所有非葉結點至少有 M/2 棵子樹，至多有 M 個子樹（關鍵字數爲子樹減一）
* 所有的葉子結點都位於同一層

5.B+樹

B+樹與B樹的區別主要在於：

* 節點的子樹數和關鍵字數相同（B 樹是關鍵字數比子樹數少一）
* 節點的關鍵字表示的是子樹中的最大數，在子樹中同樣含有這個數據
* 葉子節點包含了全部數據，同時符合左小右大的順序

B+樹相比B樹的優點再於：層級更低，葉子結點形成鏈表，範圍查詢方便；

二、Mysql中的B樹與B+樹

1.磁盤讀取原理

索引文件一般以文件的形式存在磁盤上面，索引檢索操作需要磁盤的IO，但是磁盤順序讀取的效率很高，所以在讀取的時候，磁盤往往不是按需讀取，而且每次都會預讀，即使只需要一個字節，磁盤也會從這個位置開始，順序向後讀取一定長度的數據放入內存。由於磁盤順序讀取的效率很高，因此對於具有局部性的程序來說，預讀可以提高IO效率。預讀的長度一般爲頁的整數倍（頁是計算機管理存儲器的邏輯塊，操作系統往往將主存和磁盤存儲區分割爲連續的大小相等的塊，每個存儲塊稱爲一頁，大小通常是4K）主存和磁盤以頁爲單位交換數據。當程序要讀取的數據不在主存中時，會觸發一個缺頁異常，此時系統會向磁盤發出讀盤信號，磁盤會找到數據的起始位置並向後連續讀取一頁或幾頁載入內存中，然後異常返回，程序繼續運行

2.Innodb中的B+樹

Innodb中使用是B+樹作爲索引，比如下圖中的主索引：

葉子結點包含了所以的結點，除了葉子結點之外，其它結點不包含值，而葉子結點包含具體的值

二級索引
Innodb中的二級索引，也是一棵B+樹，只是它的葉子結點指向的是主索引中的主鍵值，然後再去主索引中查找具體的值；

3.myISAM中的B+樹

MyISAM引擎使用B+樹作索引時，結構與Innodb大致相同，只是它葉子結點存放的不是具體的記錄值，而是記錄的地址。

二級索引
一級索引中，MyISAM的索引文件僅僅保存數據記錄的地址，而二級索引在結構上沒有任何區別，二級索引也是直接指向記錄的地址。

一、數據結構中常見的索引

1.二叉樹

2.平衡樹

3.紅黑樹

4.B樹

5.B+樹

二、Mysql中的B樹與B+樹

1.磁盤讀取原理

2.Innodb中的B+樹

3.myISAM中的B+樹

中外程序員到底有啥區別？

Nginx R31 doc-13-Limiting Access to Proxied HTTP Resources 訪問限流

Python數據分析與挖掘實戰（5章）

python包：pandas

C++文件/流

一、什麼是Docker

二、Docker 組件

揹包九講一 01揹包

今天！通義靈碼在北京、成都、杭州三城開講啦

【BI 可視化插件】怎麼做？手把手教你實現

MQ使用心得

淺談Linux Ext文件系統

分佈式系統中常用的負載均衡算法

redis實現分佈式鎖踩坑記錄

單點登錄系統SSO——理論

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結