關於mysql index

一、參考：What is an index in SQL? ，內容如下：

An index is used to speed up searching in the database. MySQL have some good documentation on the subject (which is relevant for other SQL servers as well): http://dev.mysql.com/doc/refman/5.0/en/mysql-indexes.html

An index can be used to efficiently find all row matching some column in your query and then walk through only that subset of the table(have index) to find exact matches. If you don’t have indexes on any column in the WHERE clause, the SQL server have to walk through the whole table and check every row to see if it matches(no index), which may be a slow operation on big tables.

The index can also be a UNIQUE index, which means that you cannot have duplicate values in that column, or a PRIMARY KEY which in some storage engines defines where in the database file the value is stored.

In MySQL you can use EXPLAIN in front of your SELECT statement to see if your query will make use of any index. This is a good start for troubleshooting performance problems. Read more here: http://dev.mysql.com/doc/refman/5.0/en/explain.html

二、參考：9.3.1 How MySQL Uses Indexes ，內容如下：

Indexes are used to find rows with specific column values quickly. Without an index, MySQL must begin with the first row and then read through the entire table to find the relevant rows. The larger the table, the more this costs(no index). If the table has an index for the columns in question, MySQL can quickly determine the position to seek to in the middle of the data file without having to look at all the data. This is much faster than reading every row sequentially.

Most MySQL indexes (PRIMARY KEY, UNIQUE, INDEX, and FULLTEXT) are stored in B-trees.

Exceptions: Indexes on spatial data types use R-trees; MEMORY tables also support hash indexes; InnoDB uses inverted lists for FULLTEXT indexes.

建索引有哪些優點呢？

MySQL uses indexes for these operations:

1.To find the rows matching a WHERE clause quickly.

2.To eliminate rows from consideration（排除不必要的rows）. If there is a choice between multiple indexes, MySQL normally uses the index that finds the smallest number of rows (the most selective index（多個index中最有競爭力的） ).

3.If the table has a multiple-column index, any leftmost prefix of the index can be used by the optimizer to look up rows. For example, if you have a three-column index on (col1, col2, col3), you have indexed search capabilities on (col1), (col1, col2), and (col1, col2, col3).

4.To retrieve rows from other tables when performing joins. MySQL can use indexes on columns more efficiently if they are declared as the same type and size. In this context, VARCHAR and CHAR are considered the same if they are declared as the same size. For example, VARCHAR(10) and CHAR(10) are the same size, but VARCHAR(10) and CHAR(15) are not.

5.To find the MIN() or MAX() value for a specific indexed column key_col. This is optimized by a preprocessor that checks whether you are using WHERE key_part_N = constant on all key parts that occur before key_col in the index. In this case, MySQL does a single key lookup for each MIN() or MAX() expression and replaces it with a constant. If all expressions are replaced with constants, the query returns at once. For example:

SELECT MIN(key_part2),MAX(key_part2)
  FROM tbl_name WHERE key_part1=10;

6.To sort or group a table if the sorting or grouping is done on a leftmost prefix of a usable index (for example, ORDER BY key_part1, key_part2). If all key parts are followed by DESC, the key is read in reverse order.

7.In some cases, a query can be optimized to retrieve values without consulting the data rows. (An index that provides all the necessary results for a query is called a covering index.) If a query uses from a table only columns that are included in some index, the selected values can be retrieved from the index tree for greater speed:

SELECT key_part3 FROM tbl_name
  WHERE key_part1=1

不適用情況：

Indexes are less important for 1.queries on small tables, or 2.big tables where report queries process most or all of the rows. When a query needs to access most of the rows, reading sequentially is faster than working through an index. Sequential reads minimize disk seeks, even if not all the rows are needed for the query. 當查詢需要涉及到大部分rows時，順序讀取會更快。

三、參考：MySQL索引分析和優化，內容如下：

對於索引中的每一項，MySQL在內部為它保存一個數據文件中實際記錄所在位置的「指針」。因此，如果我們要查找name等於「Mike」記錄的peopleid（SQL命令為「SELECT peopleid FROM people WHERE name=’Mike’;」），MySQL能夠在name的索引中查找「Mike」值，然後直接轉到數據文件中相應的行，準確地返回該行的 peopleid（999）。在這個過程中，MySQL只需處理一個行就可以返回結果。如果沒有「name」列的索引，MySQL要掃瞄數據文件中的所有記錄，即1000個記錄！顯然，需要MySQL處理的記錄數量越少，則它完成任務的速度就越快。

索引的類型

1.普通索引

這是最基本的索引類型，而且它沒有唯一性之類的限制。普通索引可以通過以下幾種方式創建：

創建索引，例如CREATE INDEX <索引的名字> ON tablename (列的列表);
修改表，例如ALTER TABLE tablename ADD INDEX [索引的名字] (列的列表);
創建表的時候指定索引，例如CREATE TABLE tablename ( [...], INDEX [索引的名字] (列的列表));

2.唯一性索引

這種索引和前面的「普通索引」基本相同，但有一個區別：索引列的所有值都只能出現一次，即必須唯一。唯一性索引可以用以下幾種方式創建：

創建索引，例如CREATE UNIQUE INDEX <索引的名字> ON tablename (列的列表);
修改表，例如ALTER TABLE tablename ADD UNIQUE [索引的名字] (列的列表);
創建表的時候指定索引，例如CREATE TABLE tablename ( [...], UNIQUE [索引的名字] (列的列表));

3.主鍵

主鍵是一種唯一性索引，但它必須指定為「PRIMARY KEY」。如果你曾經用過AUTO_INCREMENT類型的列，你可能已經熟悉主鍵之類的概念了。主鍵一般在創建表的時候指定，例如「CREATE TABLE tablename ( […], PRIMARY KEY (列的列表) ); 」。但是，我們也可以通過修改表的方式加入主鍵，例如「ALTER TABLE tablename ADD PRIMARY KEY (列的列表); 」。每個表只能有一個主鍵。

4.全文索引

在 MySQL中，全文索引的索引類型為FULLTEXT。全文索引可以在VARCHAR或者TEXT類型的列上創建。它可以通過CREATE TABLE命令創建，也可以通過ALTER TABLE或CREATE INDEX命令創建。對於大規模的數據集，通過ALTER TABLE（或者CREATE INDEX）命令創建全文索引要比把記錄插入帶有全文索引的空表更快。

單列索引與多列索引

舉例來說明，假設有這樣一個people表：

CREATE TABLE people ( peopleid SMALLINT NOT NULL AUTO_INCREMENT, firstname CHAR(50)
NOT NULL, lastname CHAR(50) NOT NULL, age SMALLINT NOT NULL, townid SMALLINT NOT
NULL, PRIMARY KEY (peopleid) );

例如，我們可能需要查找姓名為Mike Sullivan、年齡17歲用戶的peopleid（SQL命令為SELECT peopleid FROM people WHERE firstname=’Mike’ AND lastname=’Sullivan’ AND age=17;）。由於我們不想讓MySQL每次執行查詢就去掃瞄整個表，這裡需要考慮運用索引。

首先，我們可以考慮在單個列上創建單列索引，比如firstname、lastname或者age列。如果我們創建firstname列的索引（ALTER TABLE people ADD INDEX firstname (firstname);），MySQL將通過這個索引迅速把搜索範圍限制到那些firstname=’Mike’的記錄，然後再在這個「中間結果集」上進行其他條件的搜索：它首先排除那些lastname不等於「Sullivan」的記錄，然後排除那些age不等於17的記錄。當記錄滿足所有搜索條件之後，MySQL就返回最終的搜索結果。

有了單列索引，效率提高了很多，再看多列索引。

為了提高搜索效率，我們需要考慮運用多列索引。如果為firstname、lastname和age這三個列創建一個多列索引，MySQL只需一次檢索就能夠找出正確的結果！下面是創建這個多列索引的SQL命令：

ALTER TABLE people ADD INDEX fname_lname_age (firstname,lastname,age);

那麼，如果在firstname、lastname、age這三個列上分別創建單列索引，效果是否和創建一個firstname、lastname、age 的多列索引一樣呢？多個單列引用是否和多列引用一樣？答案是否定的，兩者完全不同。當我們執行查詢的時候，MySQL只能使用一個索引。如果你有三個單列的索引，MySQL會試圖選擇一個限制最嚴格的索引。但是，即使是限制最嚴格的單列索引，它的限制能力也肯定遠遠低於firstname、lastname、age這三個列上的多列索引。

最左前綴

多列索引還有另外一個優點，它通過稱為最左前綴（Leftmost Prefixing）的概念體現出來。繼續考慮前面的例子，現在我們有一個firstname、lastname、age列上的多列索引，我們稱這個索引為fname_lname_age。當搜索條件是以下各種列的組合時，MySQL將使用fname_lname_age索引：

firstname，lastname，age
firstname，lastname
firstname

從另一方面理解，它相當於我們創建了(firstname，lastname，age)、(firstname，lastname)以及(firstname)這些列組合上的索引。下面這些查詢都能夠使用這個fname_lname_age索引：

SELECT peopleid FROM people WHERE firstname='Mike' AND lastname='Sullivan' AND age='17';
SELECT peopleid FROM people WHERE firstname='Mike' AND lastname='Sullivan';
SELECT peopleid FROM people WHERE firstname='Mike';

The following queries cannot use the index at all:
SELECT peopleid FROM people WHERE lastname='Sullivan';
SELECT peopleid FROM people WHERE age='17';
SELECT peopleid FROM people WHERE lastname='Sullivan' AND age='17';

選擇索引列

在性能優化過程中，選擇在哪些列上創建索引是最重要的步驟之一。可以考慮使用索引的主要有兩種類型的列：

1.在WHERE子句中出現的列
2.在join子句中出現的列

重中之重：

那麼，我們是否可以簡單地認為應該索引WHERE子句和join子句中出現的每一個列呢？差不多如此，但並不完全。

我們還必須考慮到對列進行比較的操作符類型。MySQL只有對以下操作符才使用索引：<，<=，=，>，>=，BETWEEN，IN，以及某些時候的LIKE。可以在LIKE操作中使用索引的情形是指另一個操作數不是以通配符（%或者_）開頭的情形。例如，「SELECT peopleid FROM people WHERE firstname LIKE ‘Mich%’;」這個查詢將使用索引，但「SELECT peopleid FROM people WHERE firstname LIKE ‘%ike’;」這個查詢不會使用索引。

分析索引效率

現在我們已經知道了一些如何選擇索引列的知識，但還無法判斷哪一個最有效。MySQL提供了一個內建的SQL命令幫助我們完成這個任務，這就是EXPLAIN命令。EXPLAIN命令的一般語法是：EXPLAIN

EXPLAIN SELECT peopleid FROM people WHERE firstname='Mike' AND lastname='Sullivan' AND age='17';

這個命令將返回下面這種分析結果：

1.table
這是表的名字。

2.type
連接操作的類型。

3.possible_keys
可能可以利用的索引的名字。這裡的索引名字是創建索引時指定的索引暱稱

4.key
它顯示了MySQL實際使用的索引的名字。如果它為空（或NULL），則MySQL不使用索引。

5.key_len
索引中被使用部分的長度，以字節計。在本例中，key_len是102，其中firstname佔50字節，lastname佔50字節，age佔2字節。如果MySQL只使用索引中的firstname部分，則key_len將是50。

6.ref
它顯示的是列的名字（或單詞「const」），MySQL將根據這些列來選擇行。在本例中，MySQL根據三個常量選擇行。

7.rows
MySQL所認為的它在找到正確的結果之前必須掃瞄的記錄數。顯然，這裡最理想的數字就是1。

8.extra
這裡可能出現許多不同的選項，其中大多數將對查詢產生負面影響。在本例中，MySQL只是提醒我們它將用WHERE子句限制搜索結果集。

最新的EXPLAIN命令的輸出格式解釋請查看文檔9.8.2 EXPLAIN Output Format。

索引的缺點

缺點：

1.首先，索引要佔用磁盤空間。通常情況下，這個問題不是很突出。但是，如果你創建每一種可能列組合的索引，索引文件體積的增長速度將遠遠超過數據文件。如果你有一個很大的表，索引文件的大小可能達到操作系統允許的最大文件限制。

2.對於需要寫入數據的操作，比如DELETE、UPDATE以及INSERT操作，索引會降低它們的速度。這是因為MySQL不僅要把改動數據寫入數據文件，而且它還要把這些改動寫入索引文件。

【結束語】在大型數據庫中，索引是提高速度的一個關鍵因素。

四、參考：MySQL索引原理及慢查詢優化，內容如下：

我們知道一般的應用系統，讀寫比例在10:1左右，而且插入操作和一般的更新操作很少出現性能問題，遇到最多的，也是最容易出問題的，還是一些複雜的查詢操作，所以查詢語句的優化顯然是重中之重。

MySQL索引原理

1.索引目的

索引的目的在於提高查詢效率，可以類比字典。

2.索引原理

除了詞典，生活中隨處可見索引的例子，如火車站的車次表、圖書的目錄等。它們的原理都是一樣的，通過不斷的縮小想要獲得數據的範圍來篩選出最終想要的結果，同時把隨機的事件變成順序的事件，也就是我們總是通過同一種查找方式來鎖定數據。

3.磁盤IO與預讀

前面提到了訪問磁盤，那麼這裏先簡單介紹一下磁盤IO和預讀，磁盤讀取數據靠的是機械運動，每次讀取數據花費的時間可以分爲尋道時間、旋轉延遲、傳輸時間三個部分：

1.尋道時間：磁臂移動到指定磁道所需要的時間，主流磁盤一般在5ms以下
2.旋轉延遲：就是我們經常聽說的磁盤轉速，比如一個磁盤7200轉，表示每分鐘能轉7200次，也就是說1秒鐘能轉120次，旋轉延遲就是1/120/2 = 4.17ms
3.傳輸時間指的是從磁盤讀出或將數據寫入磁盤的時間，一般在零點幾毫秒，相對於前兩個時間可以忽略不計

但是跟其他計算機硬件延遲比起來，就顯得非常慢了。如下：

通過預讀來優化磁盤IO：考慮到磁盤IO是非常高昂的操作，計算機操作系統做了一些優化，當一次IO時，不光把當前磁盤地址的數據，而是把相鄰的數據也都讀取到內存緩衝區內，因爲局部預讀性原理告訴我們，當計算機訪問一個地址的數據的時候，與其相鄰的數據也會很快被訪問到。每一次IO讀取的數據我們稱之爲一頁(page)。具體一頁有多大數據跟操作系統有關，一般爲4k或8k，也就是我們讀取一頁內的數據時候，實際上才發生了一次IO，這個理論對於索引的數據結構設計非常有幫助。

4.索引的數據結構

我們需要設計一種數據結構，它實現的功能是：每次查找數據時把磁盤IO次數控制在一個很小的數量級，最好是常數數量級。那麼我們就想到如果一個高度可控的多路搜索樹是否能滿足需求呢？就這樣，b+樹應運而生。

5.詳解b+樹

該樹的數據結構圖爲：

如上圖，是一顆b+樹，關於b+樹的定義可以參見B+樹，這裏只說一些重點，淺藍色的塊我們稱之爲一個磁盤塊，可以看到每個磁盤塊包含幾個數據項（深藍色所示）和指針（黃色所示），如磁盤塊1包含數據項17和35，包含指針P1、P2、P3，P1表示小於17的磁盤塊，P2表示在17和35之間的磁盤塊，P3表示大於35的磁盤塊。真實的數據存在於葉子節點即3、5、9、10、13、15、28、29、36、60、75、79、90、99。非葉子節點只不存儲真實的數據，只存儲指引搜索方向的數據項，如17、35並不真實存在於數據表中。

6.b+樹的查找過程

如圖所示，如果要查找數據項29，那麼首先會把磁盤塊1由磁盤加載到內存，此時發生一次IO，在內存中用二分查找確定29在17和35之間，鎖定磁盤塊1的P2指針，內存時間因爲非常短（相比磁盤的IO）可以忽略不計，通過磁盤塊1的P2指針的磁盤地址把磁盤塊3由磁盤加載到內存，發生第二次IO，29在26和30之間，鎖定磁盤塊3的P2指針，通過指針加載磁盤塊8到內存，發生第三次IO，同時內存中做二分查找找到29，結束查詢，總計三次IO。真實的情況是，3層的b+樹可以表示上百萬的數據，如果上百萬的數據查找只需要三次IO，性能提高將是巨大的，如果沒有索引，每個數據項都要發生一次IO，那麼總共需要百萬次的IO，顯然成本非常非常高。

7.b+樹性質

1.通過上面的分析，我們知道IO次數取決於b+數的高度h，假設當前數據表的數據爲N，每個磁盤塊的數據項的數量是m，則有h=㏒(m+1)N，當數據量N一定的情況下，m越大，h越小；而m = 磁盤塊的大小 / 數據項的大小，磁盤塊的大小也就是一個數據頁的大小，是固定的，如果數據項佔的空間越小，數據項的數量越多，樹的高度越低。這就是爲什麼每個數據項，即索引字段要儘量的小，比如int佔4字節，要比bigint8字節少一半。這也是爲什麼b+樹要求把真實的數據放到葉子節點而不是內層節點，一旦放到內層節點，磁盤塊的數據項會大幅度下降，導致樹增高。當數據項等於1時將會退化成線性表。

2.當b+樹的數據項是複合的數據結構，比如(name,age,sex)的時候，b+數是按照從左到右的順序來建立搜索樹的，比如當(張三,20,F)這樣的數據來檢索的時候，b+樹會優先比較name來確定下一步的所搜方向，如果name相同再依次比較age和sex，最後得到檢索的數據；但當(20,F)這樣的沒有name的數據來的時候，b+樹就不知道下一步該查哪個節點，因爲建立搜索樹的時候name就是第一個比較因子，必須要先根據name來搜索才能知道下一步去哪裏查詢。比如當(張三,F)這樣的數據來檢索時，b+樹可以用name來指定搜索方向，但下一個字段age的缺失，所以只能把名字等於張三的數據都找到，然後再匹配性別是F的數據了，這個是非常重要的性質，即索引的最左匹配特性。

建索引的幾大原則

1.最左前綴匹配原則，非常重要的原則，mysql會一直向右匹配直到遇到範圍查詢(>、<、between、like)就停止匹配，比如a = 1 and b = 2 and c > 3 and d = 4 如果建立(a,b,c,d)順序的索引，d是用不到索引的，如果建立(a,b,d,c)的索引則都可以用到，a,b,d的順序可以任意調整。

注意是一直向右遇到範圍查詢 就停止匹配，這也是爲什麼阿里java規範中要求SQL語句中等值查詢要在範圍查詢的前面的原因。

2.=和in可以亂序，比如a = 1 and b = 2 and c = 3 建立(a,b,c)索引可以任意順序，mysql的查詢優化器會幫你優化成索引可以識別的形式

3.儘量選擇區分度高的列作爲索引,區分度的公式是count(distinct col)/count(*)，表示字段不重複的比例，比例越大我們掃描的記錄數越少，唯一鍵的區分度是1，而一些狀態、性別字段可能在大數據面前區分度就是0，那可能有人會問，這個比例有什麼經驗值嗎？使用場景不同，這個值也很難確定，一般需要join的字段我們都要求是0.1以上，即平均1條掃描10條記錄

4.索引列不能參與計算，保持列“乾淨”，比如from_unixtime(create_time) = ’2014-05-29’就不能使用到索引，原因很簡單，b+樹中存的都是數據表中的字段值，但進行檢索時，需要把所有元素都應用函數才能比較，顯然成本太大。所以語句應該寫成create_time =unix_timestamp(’2014-05-29’)

5.儘量的擴展索引，不要新建索引。比如表中已經有a的索引，現在要加(a,b)的索引，那麼只需要修改原來的索引即可

到現在我漸漸明白了爲什麼阿里java規範中，要求SQL語句中，都是等值比較的情況下，要將區分度大的列排在前面，因爲建表時也可能是基於這個原則的，這樣表提供方和查詢方實現了統一了。

查詢優化神器 - explain命令

需要強調rows是核心指標，絕大部分rows小的語句執行一定很快（有例外，下面會講到）。所以優化語句基本上都是在優化rows。

慢查詢優化基本步驟

0.先運行看看是否真的很慢，注意設置SQL_NO_CACHE
1.where條件單表查，鎖定最小返回記錄表。這句話的意思是把查詢語句的where都應用到表中返回的記錄數最小的表開始查起，單表每個字段分別查詢，看哪個字段的區分度最高
2.explain查看執行計劃，是否與1預期一致（從鎖定記錄較少的表開始查詢）
3.order by limit 形式的sql語句讓排序的表優先查
4.瞭解業務方使用場景
5.加索引時參照建索引的幾大原則
6.觀察結果，不符合預期繼續從0分析

明確應用場景

一般上我們認爲區分度越高的列，越容易鎖定更少的記錄，但在一些特殊的情況下，這種理論是有侷限性的。有一些列雖然總體上很平衡，但是在業務方短時間內能夠保證不平衡，那麼對於該查詢也是可以做索引的。

並不是所有語句都能優化，而往往我們優化時，由於SQL用例迴歸時落掉一些極端情況，會造成比原來還嚴重的後果。所以，第一：不要指望所有語句都能通過SQL優化，第二：不要過於自信，只針對具體case來優化，而忽略了更復雜的情況。

寫在後面的話

本文以一個慢查詢案例引入了MySQL索引原理、優化慢查詢的一些方法論;並針對遇到的典型案例做了詳細的分析。其實做了這麼長時間的語句優化後才發現，任何數據庫層面的優化都抵不上應用系統的優化，同樣是MySQL，可以用來支撐Google/FaceBook/Taobao應用，但可能連你的個人網站都撐不住。套用最近比較流行的話：“查詢容易，優化不易，且寫且珍惜！”