mysql 主從同步原理

Replication 線程
   Mysql的 Replication 是一個異步的複製過程,從一個 Mysql instace(我們稱之爲 Master)複製到另一個 Mysql instance(我們稱之 Slave)。在 Master 與 Slave 之間的實現整個複製過程主要由三個線程來完成,其中兩個線程(Sql線程和IO線程)在 Slave 端,另外一個線程(IO線程)在 Master 端。
  要實現 MySQL 的 Replication ,首先必須打開 Master 端的Binary Log(mysql-bin.xxxxxx)功能,否則無法實現。因爲整個複製過程實際上就是Slave從Master端獲取該日誌然後再在自己身上完全 順序的執行日誌中所記錄的各種操作。打開 MySQL 的 Binary Log 可以通過在啓動 MySQL Server 的過程中使用 “—log-bin” 參數選項,或者在 my.cnf 配置文件中的 mysqld 參數組([mysqld]標識後的參數部分)增加 “log-bin” 參數項。
  MySQL 複製的基本過程如下:
  1. Slave 上面的IO線程連接上 Master,並請求從指定日誌文件的指定位置(或者從最開始的日誌)之後的日誌內容;
   2. Master 接收到來自 Slave 的 IO 線程的請求後,通過負責複製的 IO 線程根據請求信息讀取指定日誌指定位置之後的日誌信息,返回給 Slave 端的 IO 線程。返回信息中除了日誌所包含的信息之外,還包括本次返回的信息在 Master 端的 Binary Log 文件的名稱以及在 Binary Log 中的位置;
  3. Slave 的 IO 線程接收到信息後,將接收到的日誌內容依次寫入到 Slave 端的Relay Log文件(mysql-relay-bin.xxxxxx)的最末端,並將讀取到的Master端的bin-log的文件名和位置記錄到master- info文件中,以便在下一次讀取的時候能夠清楚的高速Master“我需要從某個bin-log的哪個位置開始往後的日誌內容,請發給我”
   4. Slave 的 SQL 線程檢測到 Relay Log 中新增加了內容後,會馬上解析該 Log 文件中的內容成爲在 Master 端真實執行時候的那些可執行的 Query 語句,並在自身執行這些 Query。這樣,實際上就是在 Master 端和 Slave 端執行了同樣的 Query,所以兩端的數據是完全一樣的。
  實際上,在老版本中,MySQL 的複製實現在 Slave 端並不是由 SQL 線程和 IO 線程這兩個線程共同協作而完成的,而是由單獨的一個線程來完成所有的工作。但是 MySQL 的工程師們很快發現,這樣做存在很大的風險和性能問題,主要如下:
   首先,如果通過一個單一的線程來獨立實現這個工作的話,就使複製 Master 端的,Binary Log日誌,以及解析這些日誌,然後再在自身執行的這個過程成爲一個串行的過程,性能自然會受到較大的限制,這種架構下的 Replication 的延遲自然就比較長了。
   其次,Slave 端的這個複製線程從 Master 端獲取 Binary Log 過來之後,需要接着解析這些內容,還原成 Master 端所執行的原始 Query,然後在自身執行。在這個過程中,Master端很可能又已經產生了大量的變化並生成了大量的 Binary Log 信息。如果在這個階段 Master 端的存儲系統出現了無法修復的故障,那麼在這個階段所產生的所有變更都將永遠的丟失,無法再找回來。這種潛在風險在Slave 端壓力比較大的時候尤其突出,因爲如果 Slave 壓力比較大,解析日誌以及應用這些日誌所花費的時間自然就會更長一些,可能丟失的數據也就會更多。
   所以,在後期的改造中,新版本的 MySQL 爲了儘量減小這個風險,並提高複製的性能,將 Slave 端的複製改爲兩個線程來完成,也就是前面所提到的 SQL 線程和 IO 線程。最早提出這個改進方案的是Yahoo!的一位工程師“Jeremy Zawodny”。通過這樣的改造,這樣既在很大程度上解決了性能問題,縮短了異步的延時時間,同時也減少了潛在的數據丟失量。
  當然,即使是換成了現在這樣兩個線程來協作處理之後,同樣也還是存在 Slave 數據延時以及數據丟失的可能性的,畢竟這個複製是異步的。只要數據的更改不是在一個事務中,這些問題都是存在的。
  如果要完全避免這些問題,就只能用 MySQL 的 Cluster 來解決了。不過 MySQL的 Cluster 知道筆者寫這部分內容的時候,仍然還是一個內存數 據庫的解決方案,也就是需要將所有數據包括索引全部都 Load 到內存中,這樣就對內存的要求就非常大的大,對於一般的大衆化應用來說可實施性並不是太大。當然,在之前與 MySQL 的 CTO David 交流的時候得知,MySQL 現在正在不斷改進其 Cluster 的實現,其中非常大的一個改動就是允許數據不用全部 Load 到內存中,而僅僅只是索引全部 Load 到內存中,我想信在完成該項改造之後的 MySQL Cluster 將會更加受人歡迎,可實施性也會更大。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章