我必須得告訴你的MySQL優化原理3

聊聊MySQL配置。

大多數開發者可能不太會關注MySQL的配置,畢竟在基本配置沒有問題的情況下,把更多的精力放在schema設計、索引優化和SQL優化上,是非常務實的策略。這時,如果再花力氣去優化配置項,獲得的收益通常都比較小。更多的時候,基於安全因素的考量,普通開發者很少能夠接觸到生產環境的MySQL配置。正是這樣,導致開發者(包括我)對MySQL的配置不甚瞭解,希望本文能幫你更好的瞭解MySQL配置。

如果讓你在某種環境上安裝配置MySQL,你會怎麼做?安裝後,直接copy修改示例配置文件,應該是大多數人的做法。但強烈建議不要怎麼做,首先,示例配置文件有非常多註釋掉的配置項,它可能會誘使你打開一個你並不瞭解的配置,而且這些註釋還不一定準確。其次,MySQL的一些配置對於現代化的硬件和工作負載來說,有點過時了。

MySQL有非常多的配置項可以修改,但大多數情況下,你都不應該隨便修改它,因爲錯誤或者沒用的配置導致的潛在風險非常大,而且還很難定位問題。確保基本配置正確,然後小心診斷問題,確認問題恰好可以通過某個配置項解決,緊接着再修改這個配置吧。

其實,創建一個好的配置,最快方法不是從學習配置項開始,也不是問哪個配置項應該怎麼設置或者怎麼修改開始,更不是從檢查服務器行爲和詢問哪個配置項可以提升性能開始。最好是從理解MySQL內核和行爲開始,然後利用這些知識來指導你配置MySQL。

就從理解MySQL配置的工作原理開始吧。

MySQL配置的工作原理

MySQL從哪兒獲得配置信息:命令行參數和配置文件。類Unix系統中,配置文件一般位於 /etc/my.cnf 或者 /etc/mysql/my.cnf。在啓動時,可以通過命令行參數指定配置文件的位置,當然命令行中也可以指定其它參數,服務器會讀取配置文件的內容,刪除所有註釋和換行,然後和命令行選項一起處理。

任何打算長期使用的配置項都應該寫入配置文件,而不是在命令行中指定。一定要清楚的知道MySQL使用的配置文件位置,在修改時不能想當然,比如,修改了/etc/my.cnf的配置項,但MySQL實際並未使用這個配置文件。如果你不知道當前使用的配置文件路徑,可以嘗試:

root@msc3:~# which mysqld
/usr/sbin/mysqld
root@msc3:~# /usr/sbin/mysqld --verbose --help |grep -A 1 'Default options'
Default options are read from the following files in the given order:
/etc/my.cnf /etc/mysql/my.cnf ~/.my.cnf

一個典型的配置文件包含多個部分,每個部分的開頭是一個方括號括起來的分段名稱。MySQL程序通常讀取跟它同名的分段部分,比如,許多客戶端程序讀取client部分。服務器通常讀取mysqld這一段,一定要確認配置項放在了文件正確的分段中,否則配置是不會生效的。

MySQL每一個配置項均使用小寫,單詞之間用下劃線或者橫線隔開,雖然我們常用的分隔符是下劃線,但如果在命令行或者配置文件中見到如下配置,你要知道,它們其實是等價的:

# 配置文件
max_connections=5000
max-connections=5000
# 命令行
/usr/sbin/mysqld --max_connections=5000
/usr/sbin/mysqld --max-connections=5000

配置項可以有多個作用域:全局作用域、會話作用域(每個連接作用不同)、對象作用域。很多會話級配置項跟全局配置相等,可以認爲是默認值,如果改變會話級配置項,它隻影響改動的當前連接,當連接關閉時,所有的參數變更都會失效。下面有幾個示例配置項:

  • query-cache-size 全局配置項

  • sort-buffer-size 默認全局相同,但每個線程裏也可以設置

  • join-buffer-size 默認全局,且每個線程也可以設置。但若一個查詢中關聯多張表,可以爲每個關聯分配一個關聯緩存( join-buffer),所以一個查詢可能有多個關聯緩衝。

配置文件中的變量(配置項)有很多(但不是所有)可以在服務器運行時修改,MySQL把這些歸爲動態配置變量:

# 設置全局變量,GLOBAL和@@global作用是一樣的
set   GLOBAL   sort-buffer-size  = <value>
set   @@global.sort-buffer-size := <value>
# 設置會話級變量,下面6種方式作用是一樣的
# 即:沒有修飾符、SESSION、LOCAL等修飾符作用是一致的
set  SESSION   sort-buffer-size  = <value>
set  @@session.sort-buffer-size := <value>
set          @@sort-buffer-size  = <value>
set  LOCAL     sort-buffer-size  = <value>
set     @@ocal.sort-buffer-size := <value>
set            sort-buffer-size  = <value>
# set命令可以同時設置多個變量,但其中只要有一個變量設置失敗,所有的變量都未生效
SET GLOBAL sort-buffer-size = 100, SESSION sort-buffer-size = 1000;
SET GLOBAL max-connections = 1000, sort-buffer-size = 1000000;

動態的設置變量,MySQL關閉時這些變量都會失效。如果在服務器運行時修改了變量的全局值,這個值對當前會話和其他任何已經存在的會話都不起效果,這是因爲會話的變量值是在連接創建時從全局值初始化而來的。注意,在配置修改後,需要確認是否修改成功。

你可能注意到,上面的示例中,有些使用“=”,有些使用“:=”。對於set命令本身來說,兩種賦值運算符沒有任何區別,在命令行中使用任一運算符符,均可以生效。而在其他語句中,賦值運算符必須是“:=”,因爲在非set語句中“=”被視爲比較運算符。具體可以參考如下示例: 詳細示例可以參考:stackoverflow

// @exp 表示用戶變量,上面的示例均是系統變量
// 錯誤
set @user = 123456;
set @group = select GROUP from USER where User = @user;
select * from USER where GROUP = @group;
// 正確
SET @user := 123456;
SELECT @group := `group` FROM user WHERE user = @user;
SELECT * FROM user WHERE `group` = @group;

有一些配置使用了不同的單位,比如 table-cache變量指定表可以被緩存的數量,而不是表可以被緩存的字節數。而 key-buffer-size則是以字節爲單位。

還有一些配置可以指定後綴單位,比如 1M=1024*1024字節,但需要注意的是,這只能在配置文件或者作爲命令行參數時有效。當使用SQL的SET命令時,必須使用數字值1048576或者1024*1024這樣的表達式,但在配置文件中不能使用表達式。

小心翼翼的配置MySQL

們常常動態的修改配置,但請務必小心,因爲它們可能導致數據庫做大量耗時的工作,從而影響數據庫的整體性能。比如從緩存中刷新髒塊,不同的刷新方式對I/O的影響差別很大(後文會具體說明)。最好把一些好的習慣作爲規範合併到工作流程中去,就比如:

好習慣1:不要通過配置項的名稱來推斷一個變量的作用

不要通過配置項的名稱來推斷一個變量的作用,因爲它可能跟你想象的完全不一樣。比如:

  • read-buffer-size:當MySQL需要順序讀取數據時,如無法使用索引,其將進行全表掃描或者全索引掃描。這時,MySQL按照數據的存儲順序依次讀取數據塊,每次讀取的數據塊首先會暫存在緩存中,當緩存空間被寫滿或者全部數據讀取結束後,再將緩存中的數據返回給上層調用者,以提高效率。

  • read-rnd-buffer-size:和順序讀取相對應,當MySQL進行非順序讀取(隨機讀取)數據塊的時候,會利用這個緩衝區暫存讀取的數據。比如:根據索引信息讀取表數據、根據排序後的結果集與表進行Join等等。總的來說,就是當數據塊的讀取需要滿足一定的順序的情況下,MySQL 就需要產生隨機讀取,進而使用到 read-rnd-buffer-size參數所設置的內存緩衝區。

這兩個配置都是在掃描MyISAM表時有效,且MySQL會爲每個線程分配內存。對於前者,MySQL只會在查詢需要使用時纔會爲該緩存分配內存,並且一次性分配該參數指定大小的全部內存,而後者同樣是需要時才分配內存,但只分配需要的內存大小而不是參數指定的數值, max-read-rnd-buffer-size(實際上沒有這個配置項)這個名字更能表達這個變量的實際含義。

好習慣2:不要輕易在全局修改會話級別的配置

對於某些會話級別的設置,不要輕易的在全局增加它們的值,除非你確認這樣做是對的。比如: sort-buffer-size,該參數控制排序操作的緩存大小,MySQL只會在查詢需要做排序操作時纔會爲該緩衝分配內存,一旦需要排序,就會一次性分配指定大小的內存,即使是非常小的排序操作。因此在配置文件中應該配置的小一些,然後在某些查詢需要排序時,再在連接中把它調大。比如:

SET @@seession.sort-buffer-size := <value>
-- 執行查詢的sql
SET @@seession.sort-buffer-size := DEFAULT #恢復默認值
# 可以將類似的代碼封裝在函數中方便使用。

好習慣3:配置變量時,並不是值越大越好

配置變量時,並不是值越大越好,而且如果設置的值太高,可能更容易導致內存問題。在修改完成後,應該通過監控來確認變量的修改對服務器整體性能的影響。

好習慣4:規範註釋,版本控制

在配置文件中寫好註釋,可能會節省自己和同事大量的工作,一個更好的習慣是把配置文件置於版本控制之下。

說完了好習慣,再來說說不好的習慣。

壞習慣1:根據一些“比率”來調優

一個經典的按“比率”調優的經驗法則是,緩存的命中率應該高於某個百分比,如果命中率過低,則應該增加緩存的大小。這是非常錯誤的意見,大家可以仔細思考一下:緩存的命中率跟緩存大小有必然聯繫嗎?(分母變大,值就變大了?)除非確實是緩存太小了。關於MyISAM鍵緩衝命中率,下文會詳細說明。

壞習慣2:隨便使用調優腳本

儘量不要使用調優腳本!不同的業務場景、不同的硬件環境對MySQL的性能要求是不一樣的。比如有些業務對數據的完整性要求較高,那麼就一定要保證數據不丟失,出現故障後可恢復數據,而有些業務卻對數據的完整性要求沒那麼高,但對性能要求更高。因此,即使是同一個變量,在這兩個不同場景下,其配置的值也應該是不同的。那你還能放心的使用網上找到的腳本嗎 ?

本小節示例的幾個配置項,僅用於舉例說明,並不代表它們有多麼重要,請根據實際應用場景配置它們。就比如sort-buffer-size,你真的需要100M內存來緩存10行數據?

給你一個基本的MySQL配置

前面已經說到,MySQL可配置性太強,看起來需要花很多時間在配置上,但其實大多數配置的默認值已經是最佳的,最好不要輕易改動太多的配置,你甚至不需要知道某些配置的存在。這裏有一個最小的示例配置文件,可以作爲服務器配置文件的一個起點,其中有一些配置項是必須的。本節將爲你詳細剖析每個配置有何作用?爲什麼要配置它?怎麼確定合適的值?

[mysql]
# CLIENT #
port                           = 3306
socket                         = /var/lib/mysql/mysql.sock
[mysqld]
# GENERAL #
user                           = mysql
port                           = 3306
default-storage-engine         = InnoDB
socket                         = /var/lib/mysql/mysql.sock
pid-file                       = /var/lib/mysql/mysql.pid
# DATA STORAGE #
datadir                        = /var/lib/mysql/
# MyISAM #
key-buffer-size                = 32M
myisam-recover                 = FORCE,BACKUP
# SAFETY #
max-allowed-packet             = 16M
max-connect-errors             = 1000000
# BINARY LOGGING #
log-bin                        = /var/lib/mysql/mysql-bin
expire-logs-days               = 14
sync-binlog                    = 1
# LOGGING #
log-error                      = /var/lib/mysql/mysql-error.log
log-queries-not-using-indexes  = 1
slow-query-log                 = 1
slow-query-log-file            = /var/lib/mysql/mysql-slow.log
# CACHES AND LIMITS #
tmp-table-size                 = 32M
max-heap-table-size            = 32M
query-cache-type               = 0
query-cache-size               = 0
max-connections                = 500
thread-cache-size              = 50
open-files-limit               = 65535
table-definition-cache         = 4096
table-open-cache               = 10240
# INNODB #
innodb-flush-method            = O_DIRECT
innodb-log-files-in-group      = 2
innodb-log-file-size           = 256M
innodb-flush-log-at-trx-commit = 1
innodb-file-per-table          = 1
innodb-buffer-pool-size        = 12G

分段

MySQL配置文件的格式爲集中式,通常會分成好幾部分,可以爲多個程序提供配置,如[client]、[mysqld]、[mysql]等等。MySQL程序通常是讀取與它同名的分段部分。

  • [client] 客戶端默認設置內容

  • [mysql] 使用mysql命令登錄mysql數據庫時的默認設置

  • [mysqld] 數據庫本身的默認設置

例如服務器mysqld通常讀取[mysqld]分段下的相關配置項。如果配置項位置不正確,該配置是不會生效的。

GENERAL

首先創建一個用戶mysql來運行mysqld進程,請確保這個用戶擁有操作數據目錄的權限。設置默認端口爲3306,有時爲了安全,可能會修改一下。默認選擇Innodb存儲引擎,在大多數情況下是最好的選擇。但如果默認是InnoDB,卻需要使用MyISAM存儲引擎,請顯式地進行配置。許多用戶認爲其數據庫使用了某種存儲引擎但實際上卻使用的是另外一種,就是因爲默認配置的問題。

接着設置數據文件的位置,這裏把pid文件和socket文件放到相同的位置,當然也可以選擇其它位置,但要注意的是不要將socket文件和pid文件放到MySQL編譯的默認位置,因爲不同版本的MySQL,這兩個文件的默認路徑可能會不一致,最好明確地設置這些文件的位置,以免版本升級時出現問題。

在類UNIX系統下本地連接MySQL可以採用UNIX域套接字方式,這種方式需要一個套接字(socket)文件,即配置中的 mysql.sock文件。 當MySQL實例啓動時,會將自己的進程ID寫入一個文件中——該文件即爲pid文件。該文件可由參數 pid-file控制,默認位於數據庫目錄下,文件名爲主機名.pid

DATA STORAGE

datadir用於配置數據文件的存儲位置,沒有什麼好說的。

爲緩存分配內存

接下來有許多涉及到緩存的配置項,緩存設置多大,最直接的因素肯定是服務器內存的大小。如果服務器只運行MySQL,所有不需要爲OS以及查詢處理保留的內存都可以用在MySQL緩存。爲MySQL緩存分配更多內存,可以有效的避免磁盤訪問,提升數據庫性能。大部分情況來說最爲重要的緩存:

  • InnoDB緩衝池

  • InnoDB日誌文件和MyISAM數據的操作系統緩存(MyISAM依賴於OS緩存數據)

  • MyISAM鍵緩存

  • 查詢緩存

  • 無法配置的緩存,比如:bin-log或者表定義文件的OS緩存

還有一些其他緩存,但它們通常不會使用太多內存。關於查詢緩存,前面文章(參考本系列的第一篇)已有介紹,大多數情況下我們不建議開啓查詢緩存,因此上文的配置中 query-cache-type=0表示禁用了查詢緩存,相應的查詢緩存大小 query-cache-size=0。除開查詢緩存,剩下關於InnoDB和MyISAM的相關緩存,在接下來會做詳細介紹。

如果只使用單一存儲引擎,配置服務器就會簡單許多。如果只使用MyISAM表,就可以完全關閉InnoDB,而如果只使用InnoDB,就只需要分配最少的資源給MyISAM(MySQL內部系統表使用MyISAM引擎)。但如果是混合使用各種存儲引擎,就很難在他們之間找到恰當的平衡,因此只能根據業務做一個猜測,然後在運行中觀察服務器運行狀況後做出調整。

MyISAM

key-buffer-size

key-buffer-size用於配置MyISAM鍵緩存大小,默認只有一個鍵緩存,但是可以創建多個。MyISAM自身只緩存索引,不緩存數據(依賴OS緩存數據)。如果大部分表都是MyISAM,那麼應該爲鍵緩存設置較多的內存。但如何確定該設置多大?

假設整個數據庫中表的索引大小爲X,肯定不需要把緩存設置得比X還大,所以當前的索引大小就成爲這個配置項的重要依據。可以通過下面兩種方式來查詢當前索引的大小:

// 1.通過SQL語句查詢
SELECT SUM(INDEX_LENGTH) FROM INFORMATION_SCHEMA.TABLES WHERE ENGINE = 'MYISAM'
// 2.統計索引文件的大小
$ du -sch `find /path/to/mysql/data/directory/ -name "*.MYI"`
比如:
root@dev-msc3:# du -sch `find /var/lib/mysql -name "*.MYI"`
72K        /var/lib/mysql/static/t_global_region.MYI
40K        /var/lib/mysql/mysql/db.MYI
12K        /var/lib/mysql/mysql/proxies_priv.MYI
12K        /var/lib/mysql/mysql/tables_priv.MYI
4.0K       /var/lib/mysql/mysql/func.MYI
4.0K       /var/lib/mysql/mysql/columns_priv.MYI
4.0K       /var/lib/mysql/mysql/proc.MYI
4.0K       /var/lib/mysql/mysql/event.MYI
4.0K       /var/lib/mysql/mysql/user.MYI
4.0K       /var/lib/mysql/mysql/procs_priv.MYI
4.0K       /var/lib/mysql/mysql/ndb_binlog_index.MYI
164K       total

你可能會問,剛創建好的數據庫,根本就沒什麼數據,索引文件大小爲0,那如何配置鍵緩存大小?這時候只能根據經驗值:不超過爲操作系統緩存保留內存的25% ~ 50%。設置一個基本值,等運行一段時間後,根據運行情況來調整鍵緩存大小。總結來說,索引大小與OS緩存的25%~50%兩者間取小者。當然還可以計算鍵緩存的使用情況,如果一段時間後還是沒有使用完所有的鍵緩存,就可以把緩衝區調小一點,計算緩存區的使用率可以通過以下公式:

// key_blocks_unused的值可以通過 SHOW STATUS獲取
// key_cache_block_size的值可以通過 SHOW VARIABLES獲取 
(key_blocks_unused * key_cache_block_size) / key_buffer_size

鍵緩存塊大小是一個比較重要的值,因爲它影響MyISAM、OS緩存以及文件系統之間的交互。如果緩存塊太小,可能會碰到寫時讀取(OS在寫數據之前必須先從磁盤上讀取一些數據),關於寫時讀取的相關知識,大家可以自行查閱。

關於緩存命中率,這裏再說一點。緩存命中率有什麼意義?其實這個數字沒太大的作用。比如99%和99.9%之間看起來差距很小,但實際上代表了10倍的差距。緩存命中率的實際意義與應用也有很大關係,有些應用可以在命中率99%下良好的工作,有些I/O密集型應用,可能需要99.99%。所以從經驗上來說,每秒未命中次數這個指標實際上會更有用一些。比如每秒5次未命中可能不會導致IO繁忙,但每秒100次緩存未命中則可能出現問題。

MyISAM鍵緩存的每秒未命中次數可以通過如下命令監控:

# 計算每隔10s緩存未命中次數的增量
# 使用此命令時請帶上用戶和密碼參數:mysqladmin -uroot -pxxx extended-status -r -i 10 | grep Key_reads
$ mysqladmin extended-status -r -i 10 | grep Key_reads

最後,即使沒有使用任何MyISAM表,依然需要將 key-buffer-size設置爲較小值,比如32M,因爲MySQL內部會使用MyISAM表,比如GROUP BY語句可能會創建MyISAM臨時表。

myisam-recover

myisam-recover選項用於配置MyISAM怎樣尋找和修復錯誤。打開這個選項會通知MySQL在打開表時,檢查表是否損壞,並在找到問題時進行修復,它可以設置如下值:

  • DEFAULT:表示不設置,會嘗試修復崩潰或者未完全關閉的表,但在恢復數據時不會執行其它動作

  • BACKUP:將數據文件備份到.bak文件,以便隨後進行檢查

  • FORCE:即使.myd文件中丟失的數據超過1行,也讓恢復動作繼續執行

  • QUICK:除非有刪除塊,否則跳過恢復

可以設置多個值,每個值用逗號隔開,比如配置文件中的 BACKUP,FORCE會強制恢復並且創建備份,這樣配置在只有一些小的MyISAM表時有用,因爲服務器運行着一些損壞的MyISAM表是非常危險的,它們有時可能會導致更多數據損壞,甚至服務器崩潰。然而如果有很大的表,它會導致服務器打開所有的MyISAM表時都檢查和修復,大表的檢查和修復可能會耗費大量時間,且在這段時間裏,MySQL會阻止這個連接做其它任何操作,這顯然是不切實際的。

因此,在默認使用InnoDB存儲引擎時,數據庫中只有非常小的MyISAM表時,只需要配置 key-buffe-size於一個很小的值(32M)以及 myisam-recover=BACKUP,FORCE。當數據庫中大部分表爲MyISAM表時,請根據上文的公式合理配置 key-buffer-size,而 myisam-recover則可以關閉,在啓動後使用 CHECK TABLESREPAIR TABLES命令來做檢查和修復,這樣對服務器的影響比較小。

SAFETY

基本配置設置到位後,MySQL已經比較安全了,這裏僅僅列出兩個需要注意的配置項,如果需要啓用一些使服務器更安全和可靠的設置,可以參考MySQL官方手冊,但需要注意的是,它們其中的一些選項可能會影響性能,畢竟保證安全和可靠需要付出一些代價。

max-allowed-packet

max-allowed-packet防止服務器發送太大的數據包,也控制服務器可以接收多大的包。默認值4M,可能會比較小。如果設置太小,有時複製上會出問題,表現爲從庫不能接收主庫發過來的複製數據。如果表中有Blob或者Text字段,且數據量較大的話,要小心,如果數據量超過這個變量的大小,它們可能被截斷或者置爲NULL,這裏建議設置爲16M。

max-connect-errors

這個變量是一個MySQL中與安全相關的計數器值,它主要防止客戶端暴力破解密碼。如果某一個客戶端嘗試連接MySQL服務器失敗超過n次,則MySQL會無條件強制阻止此客戶端連接,直到再次刷新主機緩存或者重啓MySQL服務器。

這個值默認爲10,太小了,有時候網絡抽風或者應用配置出現錯誤導致短時間內不斷嘗試重連服務器,客戶端就會被列入黑名單,導致無法連接。如果在內網環境,可以確認沒有安全問題可以把這個值設置的大一點,默認值太容易導致問題。

LOGGING

接下來看下日誌的配置,對於MySQL來說,慢日誌和bin-log是非常重要的兩種日誌,前者可以幫助應用程序監控性能問題,後者在數據同步、備份等方面發揮着非常重要的作用。

關於bin-log的3個配置, log-bin用於配置文件存放路徑, expire_logs_days讓服務器在指定天數之後清理舊的日誌,即配置保留最近多少天的日誌。除非有運維手動備份清理bin-log,否則強烈建議打開此配置,如果不啓用,服務器空間最終將會被耗盡,導致服務器卡住或者崩潰。

sync-binlog

sync-binlog控制當事務提交之後,MySQL是否將bin-log刷新到磁盤。如果其值等於0或者大於1時,當事務提交之後,MySQL不會將bin-log刷新到磁盤,其性能最高,但存在的風險也是最大的,因爲一旦系統崩潰,bin-log將會丟失。而當其值等於1時,是最安全的,這時候即使系統崩潰,最多也就丟失本次未完成的事務,對實際的數據沒有實質性的影響,但性能較差。

需要注意的是,在5.7.7之前的版本,這個選擇的默認值爲0,而後默認值爲1,也就是最安全的策略。對於高併發的性能,需要關注這一點,防止版本升級後出現性能問題。

剩下的4個配置項就沒太多要說的。

  • log-error:用於配置錯誤日誌的存放目錄

  • slow-query-log:打開慢日誌,默認關閉

  • slow-query-log-file:配置慢日誌的存放目錄

  • log-queries-not-using-indexes:如果該sql沒有使用索引,會將其寫入到慢日誌,但是否真的執行很慢,需要區分,默認關閉。

CACHES AND LIMITS

tmp-table-size && max-heap-table-size

這兩個配置控制使用Memory引擎的內存臨時表可以使用多大的內存。如果隱式內存臨時表的大小超過這兩個值,將會被轉爲磁盤MyISAM表(隱式臨時表由服務器創建,用戶保存執行中的查詢的中間結果)。

如果查詢語句沒有創建龐大的臨時表(通過合理的索引和查詢設計來避免),可以把這個值設大一點,以免需要把內存臨時錶轉換爲磁盤臨時表。但要謹防這個值設置得過大,如果查詢確實會創建很大的臨時表,那麼還是使用磁盤比較好,畢竟併發數一起來,所需要的內存就會急劇增長。

應該簡單的把這兩個變量設爲同樣的值,這裏選擇了32M,可以通過仔細檢查 created-tmp-disk-tablescreated-tmp-tables兩個變量來指導你設置,這兩個變量的值將展示臨時表的創建有多頻繁。

query-cache-type && query-cache-size

看前面

max-connections

用於設置用戶的最大連接數,保證服務器不會應爲應用程序激增的連接而不堪重負。如果應用程序有問題,或者服務器遇到連接延遲問題,會創建很多新連接。但如果這些連接不能執行查詢,那打開一個連接沒什麼好處,所以被“太多的連接”錯誤拒絕是一種快速而且代價小的失敗方式。

在服務器資源允許的情況下,可以把 max-connections設置的足夠大,以容納正常可能達到的負載。若認爲正常情況將有300或者更多連接,可以設置爲500或者更多(應對高峯期)。默認值是100,太小了,這裏設置爲500,但並不意味着其是一個合理的值,應該監控應用有多少連接,然後根據監控值(觀察 max_used_connections隨時間的變化)來設置。

thread-cache-size

線程緩存保存那些當前沒有與連接關聯但是準備爲後面新連接服務的線程。當一個新的連接創建時,如果緩存中有線程存在,MySQL則從緩存中刪除一個線程,並且把它分配給這個新連接。當連接關閉時,如果線程緩存還有空間的話,MySQL又會把線程放回緩存。如果沒有空間的話,MySQL會銷燬這個線程。只要MySQL在緩存裏還有空閒的線程,它就可以迅速響應連接請求,因爲這樣就不用爲每個連接創建新線程。 thread-cache-size指定MySQL可以保存在緩存中的線程數量。如果服務器沒有很多的連接請求,一般不需要配置這個值。

如何判斷這個值該設置多大?

觀察 threads-connected變量,如果 threads-connected在100-120,那麼 thread-cache-size設置爲20。如果它保持在500-700,200的線程緩存應該足夠大了。可以這麼理解:當同時有700個連接時,可能緩存中沒有線程。在500個連接時,有200個緩存的線程準備爲負載再次增加到700個連接時使用。

open-files-limit

在類Uinux系統上我們把它設置得儘可能大。現代OS中打開句柄開銷都很小,如果此參數設置過小,可能會遇到“打開的文件太多( too many open files)”錯誤。

tablecachesize

表緩存跟線程緩存類似,但存儲的對象是表,其包含表.frm文件的解析結果和一些其他數據。準確的說,緩存的數據依賴於存儲引擎,比如,對於MyISAM,緩存表的數據和索引的文件描述符。表緩存對InnoDB的存儲引擎來說,重要性會小很多,因爲InnoDB不依賴它來做那麼多的事。

從5.1版本及以後,表緩存就被分爲兩個部分:打開表緩存和定義表緩存,分別通過 table-open-cache-sizetable-definition-cache-size變量來配置。通常可以把 table-definition-cache-size設置得足夠高,以緩存所有的表定義,因爲大部分存儲引擎都能從 table-definition-cache獲益。

INNODB

InnoDB應該是使用最廣發的存儲引擎,最重要的配置選項是下面這兩個: innodb-buffer-pool-sizeinnodb-log-file-size,解決這兩個配置基本上就解決了真實場景下的大部分配置問題。

innodb-buffer-pool-size

如果大部分是InnoDB表,那麼InnoDB緩衝池或許比其他任何東西都更需要內存,InnoDB緩衝池緩衝的數據:索引、行數據、自適應哈希索引、插入緩衝、鎖以及其他內部數據結構。InnoDB還使用緩衝池來幫助延遲寫入,這樣就可以合併多個寫入操作,然後一起順序寫入,提升性能。總之,InnoDB嚴重依賴緩衝池,必須爲其分配足夠的內存。

當然,如果數據量不大且不會快速增長,就沒有必要爲緩衝池分配過多的內存,把緩衝池配置得比需要緩存的表和索引還要大很多,實際上也沒有什麼意義。很大的緩衝池也會帶來一些挑戰,例如,預熱和關閉都會花費很長的時間。如果有很多髒頁在緩衝池裏,InnoDB關閉時可能會花很長時間來把髒頁寫回數據文件。雖然可以快速關閉,但是在啓動時需要做更多的恢復工作,也就是說我們無法同時加速關閉和重啓兩個操作。當有一個很大的緩衝池,重啓服務需要花費很長時間(幾小時或者幾天)來預熱,尤其是磁盤很慢的時候,如果想加快預熱時間,可以在重啓後立刻進行全表掃描或者索引掃描,把索引載入緩衝池。

可以看到示例的配置文件中把這個值配置爲12G,這不是一個標準配置,需要根據具體的硬件來估算。那如何估算?

前面的小節,我們說到,MySQL中最重要的緩存有5種,可以簡單的使用下面的公式計算:

InnoDB緩衝池 = 服務器總內存 - OS預留 - 服務器上的其他應用佔用內存 - MySQL自身需要的內存 - InnoDB日誌文件佔用內存 - 其它內存(MyISAM鍵緩存、查詢緩存等)

具體來看,至少需要爲OS保留1~2G內存,如果機器內存大的話可以預留多一些,建議2GB和總內存的5%爲基準,以較大者爲準,如果機器上還運行着一些內存密集型任務,比如,備份任務,那麼可以爲OS再預留多一些內存。不要爲OS緩存增加任何內存,因爲OS通常會利用所有剩下的內存來做文件緩存。

一般來說,運行MySQL的服務器很少會運行其他應用程序,但如果有的話,請爲這些應用程序預留足夠多的內存。

MySQL自身運行還需要一些內存,但通常都不會太大。需要考慮MySQL每個連接需要的內存,雖然每個連接需要的內存都很少,但它還要求一個基本量的內存來執行任何給定的查詢,而且查詢過程中還需要爲排序、GROUP BY等操作分配臨時表內存,因此需要爲高峯期執行大量的查詢預留足夠的內存。這個內存有多大?只能在運行過程中監控。

如果大部分表都是InnoDB,MyISAM鍵緩存配置一個很小值足矣,查詢緩存也建議關閉。

公式中就剩下InnoDB日誌文件了,這就是我們接下來要說的。

innodb-log-file-size && innodb-log-files-in-group

如果對InnoDB數據表有大量的寫入操作,那麼選擇合適的 innodb-log-file-size值對提升MySQL性能很重要。InnoDB使用日誌來減少提交事務時的開銷。日誌中記錄了事務,就無須在每個事務提交時把緩衝池的髒塊(緩存中與磁盤上數據不一致的頁)刷新到磁盤。事務修改的數據和索引通常會映射到表空間的隨機位置,所以刷新這些變更到磁盤需要很多隨機I/O。一旦日誌安全的寫入磁盤,事務就持久化了,即使變更還沒有寫到數據文件,在一些意外情況發生時(比如斷電了),InnoDB可以重放日誌並且恢復已經提交的事務。

InnoDB使用一個後臺線程智能地刷新這些變更到數據文件。實際上,事務日誌把數據文件的隨機I/O轉換爲幾乎順序地日誌文件和數據文件I/O,讓刷新操作在後臺可以更快的完成,並且緩存I/O壓力。

整體的日誌文件大小受控於 innodb-log-file-sizeinnodb-log-files-in-group兩個參數,這對寫性能非常重要。日誌文件的總大小是每個文件的大小之和。默認情況下,只有兩個5M的文件,總共10M,對高性能工作來說太小了,至少需要幾百M或者上G的日誌文件。這裏要注意 innodb-log-files-in-group這個參數,它控制日誌文件的數量,從名字上看好似配置一個日誌組有幾個文件,實際上, loggroup表示一個重做日誌的文件集合,沒有參數也沒有必要配置有多少個日誌組。

修改日誌文件的大小,需要完全關閉MySQL,然後將舊的日誌文件遷移到其他地方,重新配置參數,然後重啓。重啓時需要將舊的日誌遷移回來,然後等待MySQL恢復數據後,再刪除舊的日誌文件,請一定要查看錯誤日誌,確認MySQL重啓成功後再刪除舊的日誌文件。

想要確定理想的日誌文件大小,需要權衡正常數據變更的開銷,以及崩潰時恢復需要的時間。如果日誌太小,InnoDB將必須要做更多的檢查點,導致更多的日誌寫,在極個別情況下,寫語句還會被拖累,在日誌沒有空間繼續寫入前,必須等待變更被刷新到數據文件。另一方面,如果日誌太大,在崩潰時恢復就得做大量的工作,這可能增大恢復時間。InnoDB會採用checkpoint機制來刷新和恢復數據,這會加快恢復數據的時間,具體可以參考:

innodb-flush-log-at-trx-commit

前面討論了很多緩存,InnoDB日誌也是有緩存的。當InnoDB變更任何數據時,會寫一條變更記錄到日誌緩存區。在緩衝慢的時候、事務提交的時候,或者每一秒鐘,InnoDB都會將緩衝區的日誌刷新到磁盤的日誌文件。如果有大事務,增加日誌緩衝區大小可以幫助減少I/O,變量 innodb-log-buffer-size可以控制日誌緩衝區的大小。通常不需要把日誌緩衝區設置的非常大,畢竟上述3個條件,任一條件先觸發都會把緩衝區的內容刷新到磁盤,所以緩衝區的數據肯定不會太多,出入你的數據中有很多相當大的BLOB記錄。通常來說,配置1M~8M即可。

既然存在緩衝區,怎樣刷新日誌緩衝就是我們需要關注的問題。日誌緩衝必須刷新到磁盤,以確保提交的事務完全被持久化。如果和持久化相比,更在乎性能,可以修改innodb-flush-log-at-trx-commit變量來控制日誌緩衝刷新的頻率。

  • 0:每1秒鐘將日誌緩衝寫到日誌文件並刷新到磁盤,事務提交時不做任何處理

  • 1:每次事務提交時,將日誌緩衝寫到日誌文件並刷新到磁盤

  • 2:每次事務提交時,將日誌緩衝寫到日誌文件,然後每秒刷新一次到磁盤

1是最安全的設置,保證不會丟失任何已經提交的事務,這也是默認的設置。0和2最主要的區別是,如果MySQL掛了,2不會丟失事務,但0有可能,2在每次事務提交時,至少將日誌緩衝刷新到操作系統的緩存,而0則不會。如果整個服務器掛了或者斷電了,則還是可能會丟失一些事務。

innodb-flush-method

前面都在討論使用什麼樣的策略刷新、以及何時刷新日誌或者數據,那InnoDB具體是怎樣刷新數據的?使用 innodb-flush-method選項可以配置InnoDB如何跟文件系統相互作用。從名字上看,會以爲只能影響InnoDB怎麼寫數據,實際上還影響了InnoDB怎麼讀數據。windows和非Windows操作系統下這個選項的值是互斥的,也就是說有些值只能Windows下使用,有些只能在非Windows下使用,其中Windows下可取值: async_unbufferedunbufferednormalNosynclittlesync,非Windows取值: fdatasync0_DIRECT0_DSYNC

這個選項既會影響日誌文件,也會影響數據文件,而且有時候對不同類型的文件的處理也不一樣,導致這個選項有些難以理解。如果有一個選項來配置日誌文件,一個選項來配置數據文件,應該會更好,但實際上它們混合在同一個配置項中。這裏只介紹類Unix操作系統下的選項。

fdatasync

InnoDB調用 fsync()fdatasync()函數來刷新數據和日誌文件,其中 fdatasync()只刷文件的數據,但不包含元數據(比如:訪問權限、文件擁有者、最後修改時間等描述文件特徵的系統數據),因此 fsync()相比 fdatasync()會產生更多的I/O,但在某些場景下 fdatasync()會導致數據損壞,因此InnoDB開發者決定用 fsync()來代替 fdatasync()

fsync()的缺點是操作系統會在自己的緩存中緩衝一些數據,理論上雙重緩衝是浪費的,因爲InnoDB自己會管理緩衝,而且比操作系統更加智能。但如果文件系統能有更智能的I/O調度和批量操作,雙重緩衝也並不一定是壞事:

  • 有的文件系統和os可以累積寫操作後合併執行,通過對I/O的重排序來提升效率、或者併發寫入多個設備

  • 有的還可以做預讀優化,比如連續請求幾個順序的塊,它會通知硬盤預讀下一個塊

這些優化在特定的場景下才會起作用, fdatasyncinnodb-flush-method的默認值。

0_DIRCET

這個設置不影響日誌文件並且不是所有的類Unix系統都有效,但至少在Linux、FreeBSD以及Solaris是支持的。這個設置依然使用fsync來刷新文件到磁盤,但是它完全關閉了操作系統緩存,並且是所有的讀和寫都直接通過存儲設置,避免了雙重緩衝。如果存儲設備支持寫緩衝或預讀,那麼這個選項並不會影響到設備的設置,比如RAID卡。

0_DSYNC

這個選項使得所有的寫同步,即只有數據寫到磁盤後寫操作才返回,但它隻影響日誌文件,而不影響數據文件。

說完了每個配置的作用,最後是一些建議:如果使用類Unix操作系統並且RAID控制器帶有電池保護的寫緩存,建議使用0DIRECT,如果不是,默認值或者0DIRECT都可能是最好的選擇。

innodb-file-per-table

最後一個配置,說說InnoDB表空間,InnoDB把數據保存在表空間內,它本質上是一個由一個或者多個磁盤文件組成的虛擬文件系統。InnoDB表空間並不只是存儲表和索引,它還保存了回滾日誌、插入緩衝、雙寫緩衝以及其他內部數據結構,除此之外,表空間還實現了很多其它的功能。可以通過innodb-data-file-path配置項定製表空間文件, innodb-data-home-dir配置表空間文件存放的位置,比如:

innodb-data-home-dir = /var/lib/mysql 
innodb-data-file-path = ibdata1:1G;ibdata2:1G;ibdata3:1G

這裏在3個文件中創建了3G表空間,爲了允許表空間在超過了分配的空間時還能增長,可以像這樣配置最後一個文件自動擴展

innodb-data-file-path =ibdata1:1G;ibdata2:1G;ibdata3:1G:autoextend

innodb-file-per-table選項讓InnoDB爲每張表使用一個文件,這使得在刪除一張表時回收空間容易很多,而且特別容易管理,並且可以通過查看文件大小來確定表大小,所以這裏建議打開這個配置。

總結

MySQL有太多的配置項,這裏沒有辦法一一列舉,重要的是瞭解每個配置的工作原理,從一個基礎配置文件開始,設置符合服務器軟硬件環境與工作負載的基本選項。

參考資料

[1] Baron Scbwartz 等著;寧海元 周振興等譯;高性能MySQL(第三版); 電子工業出版社, 2013

本文已經同步更新到微信公衆號:輕描淡寫CODE  >>  我必須得告訴你的MySQL優化原理3

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章