一篇全面的 MySQL 高性能優化實戰總結！

1 前言

在進行 MySQL 的優化之前必須要了解的就是 MySQL 的查詢過程，很多的查詢優化工作實際上就是遵循一些原則讓 MySQL 的優化器能夠按照預想的合理方式運行而已。

2 優化的哲學

2.1 優化可能帶來的問題

優化不總是對一個單純的環境進行，還很可能是一個複雜的已投產的系統。
優化手段本來就有很大的風險，只不過你沒能力意識到和預見到！
任何的技術可以解決一個問題，但必然存在帶來一個問題的風險！
對於優化來說解決問題而帶來的問題，控制在可接受的範圍內纔是有成果。
保持現狀或出現更差的情況都是失敗！

2.2 優化的需求

穩定性和業務可持續性,通常比性能更重要！
優化不可避免涉及到變更，變更就有風險！
優化使性能變好，維持和變差是等概率事件！
切記優化,應該是各部門協同，共同參與的工作，任何單一部門都不能對數據庫進行優化！
所以優化工作，是由業務需要驅使的！！！

2.3 優化由誰參與

在進行數據庫優化時，應由數據庫管理員、業務部門代表、應用程序架構師、應用程序設計人員、應用程序開發人員、硬件及系統管理員、存儲管理員等，業務相關人員共同參與。

3 優化思路

3.1 優化什麼

在數據庫優化上有兩個主要方面：即安全與性能。

安全 → 數據可持續性

性能 → 數據的高性能訪問

3.2 優化的範圍有哪些

存儲、主機和操作系統方面:

主機架構穩定性
I/O規劃及配置
Swap交換分區
OS內核參數和網絡問題

應用程序方面:

應用程序穩定性
SQL語句性能
串行訪問資源
性能欠佳會話管理
這個應用適不適合用MySQL

數據庫優化方面:

內存
數據庫結構(物理&邏輯)
實例配置

說明：不管是在，設計系統，定位問題還是優化，都可以按照這個順序執行。

3.3 優化維度

數據庫優化維度有四個:

硬件、系統配置、數據庫表結構、SQL及索引

優化選擇

優化成本:硬件>系統配置>數據庫表結構>SQL及索引優化效果:硬件<系統配置<數據庫表結構

4 優化工具有啥？

4.1 數據庫層面

檢查問題常用工具

mysql msyqladmin                                 mysql客戶端，可進行管理操作 mysqlshow                                  功能強大的查看shell命令 show [SESSION | GLOBAL] variables          查看數據庫參數信息 SHOW [SESSION | GLOBAL] STATUS             查看數據庫的狀態信息 information_schema                         獲取元數據的方法 SHOW ENGINE INNODB STATUS                  Innodb引擎的所有狀態 SHOW PROCESSLIST                           查看當前所有連接session狀態 explain                                    獲取查詢語句的執行計劃 show index                                 查看錶的索引信息 slow-log                                   記錄慢查詢語句 mysqldumpslow                              分析slowlog文件的

不常用但好用的工具

zabbix                  監控主機、系統、數據庫（部署zabbix監控平臺） pt-query-digest         分析慢日誌 mysqlslap               分析慢日誌 sysbench                壓力測試工具 mysql profiling         統計數據庫整體狀態工具 Performance Schema      mysql性能狀態統計的數據 workbench               管理、備份、監控、分析、優化工具（比較費資源）

關於zabbix參考：http://www.cnblogs.com/clsn/p/7885990.html

4.2 數據庫層面問題解決思路

一般應急調優的思路：

針對突然的業務辦理卡頓，無法進行正常的業務處理！需要立馬解決的場景！

1、show processlist

2、explain select id ,name from stu where name=’clsn’; # ALL id name age sex

select id,name from stu where id=2-1 函數結果集>30;

　 show index from table;

3、通過執行計劃判斷，索引問題（有沒有、合不合理）或者語句本身問題

4、show status like ‘%lock%’; # 查詢鎖狀態

kill SESSION_ID; # 殺掉有問題的session

常規調優思路：

針對業務週期性的卡頓，例如在每天10-11點業務特別慢，但是還能夠使用，過了這段時間就好了。

1、查看slowlog，分析slowlog，分析出查詢慢的語句。

2、按照一定優先級，進行一個一個的排查所有慢語句。

3、分析top sql，進行explain調試，查看語句執行時間。

4、調整索引或語句本身。

4.3 系統層面

cpu方面

vmstat、sar top、htop、nmon、mpstat

內存

free 、ps -aux

IO設備（磁盤、網絡）

iostat 、 ss  、 netstat 、 iptraf、iftop、lsof

vmstat 命令說明：

Procs：r顯示有多少進程正在等待CPU時間。b顯示處於不可中斷的休眠的進程數量。在等待I/O

Memory：swpd顯示被交換到磁盤的數據塊的數量。未被使用的數據塊，用戶緩衝數據塊，用於操作系統的數據塊的數量

Swap：操作系統每秒從磁盤上交換到內存和從內存交換到磁盤的數據塊的數量。s1和s0最好是0

Io：每秒從設備中讀入b1的寫入到設備b0的數據塊的數量。反映了磁盤I/O

System：顯示了每秒發生中斷的數量(in)和上下文交換(cs)的數量

Cpu：顯示用於運行用戶代碼，系統代碼，空閒，等待I/O的CPU時間

iostat命令說明

實例命令：iostat -dk 1 5

iostat -d -k -x 5 （查看設備使用率（%util）和響應時間（await））

tps：該設備每秒的傳輸次數。“一次傳輸”意思是“一次I/O請求”。多個邏輯請求可能會被合併爲“一次I/O請求”。iops ：硬件出廠的時候，廠家定義的一個每秒最大的IO次數

"一次傳輸"請求的大小是未知的。kB_read/s：每秒從設備（drive expressed）讀取的數據量；KB_wrtn/s：每秒向設備（drive expressed）寫入的數據量；kB_read：讀取的總數據量；kB_wrtn：寫入的總數量數據量；這些單位都爲Kilobytes。

4.4 系統層面問題解決辦法

你認爲到底負載高好，還是低好呢？在實際的生產中，一般認爲 cpu只要不超過90%都沒什麼問題。

當然不排除下面這些特殊情況：

問題一：cpu負載高，IO負載低

內存不夠
磁盤性能差
SQL問題 →去數據庫層，進一步排查sql問題
IO出問題了（磁盤到臨界了、raid設計不好、raid降級、鎖、在單位時間內tps過高）
tps過高: 大量的小數據IO、大量的全表掃描

問題二：IO負載高，cpu負載低

大量小的IO 寫操作：
autocommit ，產生大量小IO
IO/PS，磁盤的一個定值，硬件出廠的時候，廠家定義的一個每秒最大的IO次數。
大量大的IO 寫操作
SQL問題的機率比較大

問題三：IO和cpu負載都很高

硬件不夠了或sql存在問題

5 基礎優化

5.1 優化思路

定位問題點吮吸

硬件 → 系統 → 應用 → 數據庫 → 架構（高可用、讀寫分離、分庫分表）

處理方向

明確優化目標、性能和安全的折中、防患未然

5.2 硬件優化

主機方面：

根據數據庫類型，主機CPU選擇、內存容量選擇、磁盤選擇
平衡內存和磁盤資源
隨機的I/O和順序的I/O
主機 RAID卡的BBU(Battery Backup Unit)關閉
cpu的選擇：
cpu的兩個關鍵因素：核數、主頻

根據不同的業務類型進行選擇：

cpu密集型：計算比較多，OLTP 主頻很高的cpu、核數還要多
IO密集型：查詢比較，OLAP 核數要多，主頻不一定高的

內存的選擇：

OLAP類型數據庫，需要更多內存，和數據獲取量級有關。
OLTP類型數據一般內存是cpu核心數量的2倍到4倍，沒有最佳實踐。

存儲方面：

根據存儲數據種類的不同，選擇不同的存儲設備
配置合理的RAID級別(raid5、raid10、熱備盤)
對與操作系統來講，不需要太特殊的選擇，最好做好冗餘（raid1）（ssd、sas 、sata）
raid卡：主機raid卡選擇：

實現操作系統磁盤的冗餘（raid1）
平衡內存和磁盤資源
隨機的I/O和順序的I/O
主機 RAID卡的BBU(Battery Backup Unit)要關閉。

網絡設備方面：

使用流量支持更高的網絡設備（交換機、路由器、網線、網卡、HBA卡）

注意：以上這些規劃應該在初始設計系統時就應該考慮好。

5.3 服務器硬件優化

1、物理狀態燈：

2、自帶管理設備：遠程控制卡（FENCE設備：ipmi ilo idarc），開關機、硬件監控。

3、第三方的監控軟件、設備（snmp、agent）對物理設施進行監控

4、存儲設備：自帶的監控平臺。EMC2（hp收購了），日立（hds），IBM低端OEM hds，高端存儲是自己技術，華爲存儲

5.4 系統優化

CPU：

基本不需要調整，在硬件選擇方面下功夫即可。

內存：

基本不需要調整，在硬件選擇方面下功夫即可。

SWAP：

MySQL儘量避免使用swap。

阿里雲的服務器中默認swap爲0

IO ：

raid、no lvm、 ext4或xfs、ssd、IO調度策略

Swap調整(不使用swap分區)

/proc/sys/vm/swappiness的內容改成0（臨時），/etc/sysctl.conf上添加vm.swappiness=0（永久）

這個參數決定了Linux是傾向於使用swap，還是傾向於釋放文件系統cache。在內存緊張的情況下，數值越低越傾向於釋放文件系統cache。

當然，這個參數只能減少使用swap的概率，並不能避免Linux使用swap。

修改MySQL的配置參數innodb_flush_method，開啓O_DIRECT模式。

這種情況下，InnoDB的buffer pool會直接繞過文件系統cache來訪問磁盤，但是redo log依舊會使用文件系統cache。

值得注意的是，Redo log是覆寫模式的，即使使用了文件系統的cache，也不會佔用太多

IO調度策略

#echo deadline>/sys/block/sda/queue/scheduler   臨時修改爲deadline

永久修改

vi /boot/grub/grub.conf

更改到如下內容:

kernel /boot/vmlinuz-2.6.18-8.el5 ro root=LABEL=/ elevator=deadline rhgb quiet

5.5 系統參數調整

Linux系統內核參數優化

vim /etc/sysctl.conf     net.ipv4.ip_local_port_range = 1024 65535   # 用戶端口範圍     net.ipv4.tcp_max_syn_backlog = 4096     net.ipv4.tcp_fin_timeout = 30     fs.file-max=65535          # 系統最大文件句柄，控制的是能打開文件最大數量

用戶限制參數（mysql可以不設置以下配置）

vim    /etc/security/limits.conf     * soft nproc 65535     * hard nproc 65535     * soft nofile 65535     * hard nofile 65535

5.6 應用優化

業務應用和數據庫應用獨立，

防火牆：iptables、selinux等其他無用服務(關閉)：

chkconfig --level 23456 acpid off    chkconfig --level 23456 anacron off    chkconfig --level 23456 autofs off    chkconfig --level 23456 avahi-daemon off    chkconfig --level 23456 bluetooth off    chkconfig --level 23456 cups off    chkconfig --level 23456 firstboot off    chkconfig --level 23456 haldaemon off    chkconfig --level 23456 hplip off    chkconfig --level 23456 ip6tables off    chkconfig --level 23456 iptables  off    chkconfig --level 23456 isdn off    chkconfig --level 23456 pcscd off    chkconfig --level 23456 sendmail  off    chkconfig --level 23456 yum-updatesd  off

安裝圖形界面的服務器不要啓動圖形界面 runlevel 3

另外，思考將來我們的業務是否真的需要MySQL，還是使用其他種類的數據庫。用數據庫的最高境界就是不用數據庫。

6 數據庫優化

SQL優化方向：

執行計劃、索引、SQL改寫

架構優化方向：

高可用架構、高性能架構、分庫分表

6.1 數據庫參數優化

調整：

實例整體（高級優化，擴展）：

thread_concurrency       # 併發線程數量個數     sort_buffer_size         # 排序緩存     read_buffer_size         # 順序讀取緩存     read_rnd_buffer_size     # 隨機讀取緩存     key_buffer_size          # 索引緩存     thread_cache_size        # (1G—>8, 2G—>16, 3G—>32, >3G—>64)

連接層（基礎優化）

設置合理的連接客戶和連接方式

max_connections           # 最大連接數，看交易筆數設置     max_connect_errors        # 最大錯誤連接數，能大則大     connect_timeout           # 連接超時     max_user_connections      # 最大用戶連接數     skip-name-resolve         # 跳過域名解析     wait_timeout              # 等待超時     back_log                  # 可以在堆棧中的連接數量

SQL層（基礎優化）

query_cache_size：查詢緩存   >>>  OLAP類型數據庫,需要重點加大此內存緩存，但是一般不會超過GB 對於經常被修改的數據，緩存會立馬失效。我們可以實用內存數據庫（redis、memecache），替代他的功能。

6.2 存儲引擎層（innodb基礎優化參數）

default-storage-engine innodb_buffer_pool_size       #沒有固定大小，50%測試值，看看情況再微調。但是儘量設置不要超過物理內存70% innodb_file_per_table=(1,0) innodb_flush_log_at_trx_commit=(0,1,2) # 1是最安全的，0是性能最高，2折中 binlog_sync Innodb_flush_method=(O_DIRECT, fdatasync) innodb_log_buffer_size        # 100M以下 innodb_log_file_size          # 100M 以下 innodb_log_files_in_group     # 5個成員以下,一般2-3個夠用（iblogfile0-N） innodb_max_dirty_pages_pct   # 達到百分之75的時候刷寫 內存髒頁到磁盤。log_bin max_binlog_cache_size         # 可以不設置 max_binlog_size               # 可以不設置 innodb_additional_mem_pool_size    #小於2G內存的機器，推薦值是20M。32G內存以上100M