SQL索引優化

原文地址：http://edobnet.cnblogs.com/archive/2004/09/07/40542.html

聚集索引 , 表中存儲的數據按照索引的順序存儲 , 檢索效率比普通索引高 , 但對數據新增 /修改 / 刪除的影響比較大

非聚集索引 , 不影響表中的數據存儲順序 , 檢索效率比聚集索引低 , 對數據新增 / 修改 / 刪除的影響很小

如何讓你的 SQL 運行得更快
---- 人們在使用 SQL 時往往會陷入一個誤區，即太關注於所得的結果是否正確，而忽略
了不同的實現方法之間可能存在的性能差異，這種性能差異在大型的或是複雜的數據庫
環境中（如聯機事務處理 OLTP 或決策支持系統 DSS ）中表現得尤爲明顯。筆者在工作實踐
中發現，不良的 SQL 往往來自於不恰當的索引設計、不充份的連接條件和不可優化的 whe
re 子句。在對它們進行適當的優化後，其運行速度有了明顯地提高！下面我將從這三個
方面分別進行總結：
---- 爲了更直觀地說明問題，所有實例中的 SQL 運行時間均經過測試，不超過１秒的均
表示爲（ < 1 秒）。
---- 測試環境 --
---- 主機： HP LH II
---- 主頻： 330MHZ
---- 內存： 128 兆
---- 操作系統： Operserver5.0.4
---- 數據庫： Sybase11.0.3
一、不合理的索引設計
---- 例：表 record 有 620000 行，試看在不同的索引下，下面幾個 SQL 的運行情況：
---- 1. 在 date 上建有一非個羣集索引
select count(*) from record where date >
'19991201' and date < '19991214'and amount >
2000 (25 秒 )
select date,sum(amount) from record group by date
(55 秒 )
select count(*) from record where date >
'19990901' and place in ('BJ','SH') (27 秒 )
---- 分析：
----date 上有大量的重複值，在非羣集索引下，數據在物理上隨機存放在數據頁上，在
範圍查找時，必須執行一次表掃描才能找到這一範圍內的全部行。
---- 2. 在 date 上的一個羣集索引
select count(*) from record where date >
'19991201' and date < '19991214' and amount >
2000 （ 14 秒）
select date,sum(amount) from record group by date
（ 28 秒）
select count(*) from record where date >
'19990901' and place in ('BJ','SH') （ 14 秒）
---- 分析：
---- 在羣集索引下，數據在物理上按順序在數據頁上，重複值也排列在一起，因而在範
圍查找時，可以先找到這個範圍的起末點，且只在這個範圍內掃描數據頁，避免了大範
圍掃描，提高了查詢速度。
---- 3. 在 place ， date ， amount 上的組合索引
select count(*) from record where date >
'19991201' and date < '19991214' and amount >
2000 （ 26 秒）
select date,sum(amount) from record group by date
（ 27 秒）
select count(*) from record where date >
'19990901' and place in ('BJ', 'SH') （ < 1 秒）
---- 分析：
---- 這是一個不很合理的組合索引，因爲它的前導列是 place ，第一和第二條 SQL 沒有引
用 place ，因此也沒有利用上索引；第三個 SQL 使用了 place ，且引用的所有列都包含在組
合索引中，形成了索引覆蓋，所以它的速度是非常快的。
---- 4. 在 date ， place ， amount 上的組合索引
select count(*) from record where date >
'19991201' and date < '19991214' and amount >
2000(< 1 秒 )
select date,sum(amount) from record group by date
（ 11 秒）
select count(*) from record where date >
'19990901' and place in ('BJ','SH') （ < 1 秒）
---- 分析：
---- 這是一個合理的組合索引。它將 date 作爲前導列，使每個 SQL 都可以利用索引，並
且在第一和第三個 SQL 中形成了索引覆蓋，因而性能達到了最優。
---- 5. 總結：
---- 缺省情況下建立的索引是非羣集索引，但有時它並不是最佳的；合理的索引設計要
建立在對各種查詢的分析和預測上。一般來說：
---- ① . 有大量重複值、且經常有範圍查詢
（ between, >,< ， >=,< = ）和 order by
、 group by 發生的列，可考慮建立羣集索引；
---- ② . 經常同時存取多列，且每列都含有重複值可考慮建立組合索引；
---- ③ . 組合索引要儘量使關鍵查詢形成索引覆蓋，其前導列一定是使用最頻繁的列。

二、不充份的連接條件：
---- 例：表 card 有 7896 行，在 card_no 上有一個非聚集索引，表 account 有 191122行，在
account_no 上有一個非聚集索引，試看在不同的表連接條件下，兩個 SQL 的執行情況：

select sum(a.amount) from account a,
card b where a.card_no = b.card_no （ 20 秒）
---- 將 SQL 改爲：
select sum(a.amount) from account a,
card b where a.card_no = b.card_no and a.
account_no=b.account_no （ < 1 秒）
---- 分析：
---- 在第一個連接條件下，最佳查詢方案是將 account 作外層表， card 作內層表，利用
card 上的索引，其 I/O 次數可由以下公式估算爲：
---- 外層表 account 上的 22541 頁 + （外層表 account 的 191122 行 * 內層表 card 上對應外層
表第一行所要查找的 3 頁） =595907 次 I/O
---- 在第二個連接條件下，最佳查詢方案是將 card 作外層表， account 作內層表，利用
account 上的索引，其 I/O 次數可由以下公式估算爲：
---- 外層表 card 上的 1944 頁 + （外層表 card 的 7896 行 * 內層表 account 上對應外層表每一
行所要查找的 4 頁） = 33528 次 I/O
---- 可見，只有充份的連接條件，真正的最佳方案纔會被執行。

----附：第一個查詢因爲只有card_no列的索引，所以大表應該做驅動表，即外層表
第二個查詢因爲兩個索引列都用到，所以小表做驅動表

公式
*   連接模型分析
假設:表A有N行數據,符合連接條件的行數爲A1
     表B有M行數據,符合連接條件的行數爲B1

1 A,B兩表均無索引
     如果A表驅動,則A表掃描一次,B表掃描A1次.
  磁盤訪問次數爲:N+A1*M;
               如果B表驅動,則B表掃描一次,A表掃描B1次.
   磁盤訪問次數爲:M+B1*N;
2 A表無索引,B表有索引
       如果A表驅動,則A表掃描一次,B表查A1次索引.
磁盤訪問次數爲:N+A1*LOG(M)/LOG(2);
     如果B表驅動,則B表查一次索引,A表掃描B1次.
   磁盤訪問次數爲:LOG(M)/LOG(2)+B1*N
3 A表有索引,B表無索引
           如果B表驅動,則B表掃描一次,A表查B1次索引.
磁盤訪問次數爲:M+B1*LOG(N)/LOG(2);
           如果A表驅動,則A表查一次索引,B表掃描B1次.
   磁盤訪問次數爲:LOG(M)/LOG(2)+B1*N
4 A,B表均有索引
        如果A表驅動,則A表查一次索引,B表查A1次索引.
磁盤訪問次數爲:LOG(M)/LOG(2)+A1*LOG(N)/LOG(2);
        如果B表驅動,則B表查一次索引,A表掃描B1次.
    磁盤訪問次數爲:B1*LOG(M)/LOG(2)+LOG(N)/LOG(2)
---- 總結：
---- 1. 多表操作在被實際執行前，查詢優化器會根據連接條件，列出幾組可能的連接方
案並從中找出系統開銷最小的最佳方案。連接條件要充份考慮帶有索引的表、行數多的
表；內外表的選擇可由公式：外層表中的匹配行數 * 內層表中每一次查找的次數確定，乘
積最小爲最佳方案。
---- 2. 查看執行方案的方法 -- 用 set showplanon ，打開 showplan 選項，就可以看到連
接順序、使用何種索引的信息；想看更詳細的信息，需用 sa 角色執行 dbcc(3604,310,30
2) 。
三、不可優化的 where 子句
---- 1. 例：下列 SQL 條件語句中的列都建有恰當的索引，但執行速度卻非常慢：
select * from record where
substring(card_no,1,4)='5378'(13 秒 )
select * from record where
amount/30< 1000 （ 11 秒）
select * from record where
convert(char(10),date,112)='19991201' （ 10 秒）
---- 分析：
---- where 子句中對列的任何操作結果都是在 SQL 運行時逐列計算得到的，因此它不得不
進行表搜索，而沒有使用該列上面的索引；如果這些結果在查詢編譯時就能得到，那麼
就可以被 SQL 優化器優化，使用索引，避免表搜索，因此將 SQL 重寫成下面這樣：
select * from record where card_no like
'5378%' （ < 1 秒）
select * from record where amount
< 1000*30 （ < 1 秒）
select * from record where date= '1999/12/01'
（ < 1 秒）
---- 你會發現 SQL 明顯快起來！
---- 2. 例：表 stuff 有 200000 行， id_no 上有非羣集索引，請看下面這個 SQL ：
select count(*) from stuff where id_no in('0','1')
（ 23 秒）
---- 分析：
---- where 條件中的 'in' 在邏輯上相當於 'or' ，所以語法分析器會將 in ('0','1') 轉化
爲 id_no ='0' or id_no='1' 來執行。我們期望它會根據每個 or 子句分別查找，再將結果
相加，這樣可以利用 id_no 上的索引；但實際上（根據 showplan ） , 它卻採用了 "OR 策略 "
，即先取出滿足每個 or 子句的行，存入臨時數據庫的工作表中，再建立唯一索引以去掉
重複行，最後從這個臨時表中計算結果。因此，實際過程沒有利用 id_no 上索引，並且完
成時間還要受 tempdb 數據庫性能的影響。
---- 實踐證明，表的行數越多，工作表的性能就越差，當 stuff 有 620000 行時，執行時
間竟達到 220 秒！還不如將 or 子句分開：
select count(*) from stuff where id_no='0'
select count(*) from stuff where id_no='1'
---- 得到兩個結果，再作一次加法合算。因爲每句都使用了索引，執行時間只有 3 秒，
在 620000 行下，時間也只有 4 秒。或者，用更好的方法，寫一個簡單的存儲過程：
create proc count_stuff as
declare @a int
declare @b int
declare @c int
declare @d char(10)
begin
select @a=count(*) from stuff where id_no='0'
select @b=count(*) from stuff where id_no='1'
end
select @c=@a+@b
select @d=convert(char(10),@c)
print @d
---- 直接算出結果，執行時間同上面一樣快！
---- 總結：
---- 可見，所謂優化即 where 子句利用了索引，不可優化即發生了表掃描或額外開銷。

---- 1. 任何對列的操作都將導致表掃描，它包括數據庫函數、計算表達式等等，查詢時
要儘可能將操作移至等號右邊。
---- 2.in 、 or 子句常會使用工作表，使索引失效；如果不產生大量重複值，可以考慮把
子句拆開；拆開的子句中應該包含索引。
---- 3. 要善於使用存儲過程，它使 SQL 變得更加靈活和高效。
---- 從以上這些例子可以看出， SQL 優化的實質就是在結果正確的前提下，用優化器可
以識別的語句，充份利用索引，減少表掃描的 I/O 次數，儘量避免表搜索的發生。其實 S
QL 的性能優化是一個複雜的過程，上述這些只是在應用層次的一種體現，深入研究還會
涉及數據庫層的資源配置、網絡層的流量控制以及操作系統層的總體設計

Sql Server查詢磁盤的可用空間，數據庫數據文件及日誌文件的大小及利用率

C#中mapxtreme使用的一些總結

SQL Server 數據庫學習筆記

SQL Server索引概念及如何創建索引

SQL索引優化

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結