mysql 主從同步原理

Replication 線程

　　Mysql的 Replication 是一個異步的複製過程，從一個 Mysql instace(我們稱之爲 Master)複製到另一個 Mysql instance(我們稱之 Slave)。在 Master 與 Slave 之間的實現整個複製過程主要由三個線程來完成，其中兩個線程(Sql線程和IO線程)在 Slave 端，另外一個線程(IO線程)在 Master 端。

　　要實現 MySQL 的 Replication ，首先必須打開 Master 端的Binary Log(mysql-bin.xxxxxx)功能，否則無法實現。因爲整個複製過程實際上就是Slave從Master端獲取該日誌然後再在自己身上完全順序的執行日誌中所記錄的各種操作。打開 MySQL 的 Binary Log 可以通過在啓動 MySQL Server 的過程中使用 “—log-bin” 參數選項，或者在 my.cnf 配置文件中的 mysqld 參數組([mysqld]標識後的參數部分)增加 “log-bin” 參數項。

　　MySQL 複製的基本過程如下：

　　1. Slave 上面的IO線程連接上 Master，並請求從指定日誌文件的指定位置(或者從最開始的日誌)之後的日誌內容;

　　2. Master 接收到來自 Slave 的 IO 線程的請求後，通過負責複製的 IO 線程根據請求信息讀取指定日誌指定位置之後的日誌信息，返回給 Slave 端的 IO 線程。返回信息中除了日誌所包含的信息之外，還包括本次返回的信息在 Master 端的 Binary Log 文件的名稱以及在 Binary Log 中的位置;

　　3. Slave 的 IO 線程接收到信息後，將接收到的日誌內容依次寫入到 Slave 端的Relay Log文件(mysql-relay-bin.xxxxxx)的最末端，並將讀取到的Master端的bin-log的文件名和位置記錄到master- info文件中，以便在下一次讀取的時候能夠清楚的高速Master“我需要從某個bin-log的哪個位置開始往後的日誌內容，請發給我”

　　4. Slave 的 SQL 線程檢測到 Relay Log 中新增加了內容後，會馬上解析該 Log 文件中的內容成爲在 Master 端真實執行時候的那些可執行的 Query 語句，並在自身執行這些 Query。這樣，實際上就是在 Master 端和 Slave 端執行了同樣的 Query，所以兩端的數據是完全一樣的。

　　實際上，在老版本中，MySQL 的複製實現在 Slave 端並不是由 SQL 線程和 IO 線程這兩個線程共同協作而完成的，而是由單獨的一個線程來完成所有的工作。但是 MySQL 的工程師們很快發現，這樣做存在很大的風險和性能問題，主要如下：

　　首先，如果通過一個單一的線程來獨立實現這個工作的話，就使複製 Master 端的，Binary Log日誌，以及解析這些日誌，然後再在自身執行的這個過程成爲一個串行的過程，性能自然會受到較大的限制，這種架構下的 Replication 的延遲自然就比較長了。

　　其次，Slave 端的這個複製線程從 Master 端獲取 Binary Log 過來之後，需要接着解析這些內容，還原成 Master 端所執行的原始 Query，然後在自身執行。在這個過程中，Master端很可能又已經產生了大量的變化並生成了大量的 Binary Log 信息。如果在這個階段 Master 端的存儲系統出現了無法修復的故障，那麼在這個階段所產生的所有變更都將永遠的丟失，無法再找回來。這種潛在風險在Slave 端壓力比較大的時候尤其突出，因爲如果 Slave 壓力比較大，解析日誌以及應用這些日誌所花費的時間自然就會更長一些，可能丟失的數據也就會更多。

　　所以，在後期的改造中，新版本的 MySQL 爲了儘量減小這個風險，並提高複製的性能，將 Slave 端的複製改爲兩個線程來完成，也就是前面所提到的 SQL 線程和 IO 線程。最早提出這個改進方案的是Yahoo!的一位工程師“Jeremy Zawodny”。通過這樣的改造，這樣既在很大程度上解決了性能問題，縮短了異步的延時時間，同時也減少了潛在的數據丟失量。

　　當然，即使是換成了現在這樣兩個線程來協作處理之後，同樣也還是存在 Slave 數據延時以及數據丟失的可能性的，畢竟這個複製是異步的。只要數據的更改不是在一個事務中，這些問題都是存在的。

　　如果要完全避免這些問題，就只能用 MySQL 的 Cluster 來解決了。不過 MySQL的 Cluster 知道筆者寫這部分內容的時候，仍然還是一個內存數據庫的解決方案，也就是需要將所有數據包括索引全部都 Load 到內存中，這樣就對內存的要求就非常大的大，對於一般的大衆化應用來說可實施性並不是太大。當然，在之前與 MySQL 的 CTO David 交流的時候得知，MySQL 現在正在不斷改進其 Cluster 的實現，其中非常大的一個改動就是允許數據不用全部 Load 到內存中，而僅僅只是索引全部 Load 到內存中，我想信在完成該項改造之後的 MySQL Cluster 將會更加受人歡迎，可實施性也會更大。

mysql 主從同步原理

Python 爬蟲：Spring Boot 反爬蟲的成功案例

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

Squid集羣做CDN全網加速

iostat 輸出解析

我的友情鏈接

keepalive

python升級

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結