前面我們介紹了一下zookeeper的一些基本的知識，知道了他是一個樹形結構的文件系統，同時外加通知機制的這麼一個東西。那麼今天我們就來探究一下它的根源，一些內部的運行原理。

一、基礎知識

1、角色

2、工作模式

Zookeeper分爲2個部分：服務器端和客戶端，客戶端只連接到整個ZooKeeper服務的某個服務器上。客戶端使用並維護一個TCP連接，通過這個連接發送請求、接受響應、獲取觀察的事件以及發送心跳。如果這個TCP連接中斷，客戶端將嘗試連接到另外的ZooKeeper服務器。客戶端第一次連接到ZooKeeper服務時，接受這個連接的 ZooKeeper服務器會爲這個客戶端建立一個會話。當這個客戶端連接到另外的服務器時，這個會話會被新的服務器重新建立。

3、集羣

zookeeper的工作集羣可以簡單分成兩類，一個是Leader，唯一一個，其餘的都是follower，如何確定Leader是通過內部選舉確定的。

Leader和各個follower是互相通信的，對於zk系統的數據都是保存在內存裏面的，同樣也會備份一份在磁盤上。對於每個zk節點而言，可以看做每個zk節點的命名空間是一樣的，也就是有同樣的數據（下面的樹結構）

如果Leader掛了，zk集羣會重新選舉，在毫秒級別就會重新選舉出一個Leaer

集羣中除非有一半以上的zk節點掛了，zk service纔不可用

4、讀寫過程

寫數據，但一個客戶端進行寫數據請求時，會指定zk集羣中節點，如果是follower接收到寫請求，就會把請求轉發給Leader，Leader通過內部的Zab協議進行原子廣播，直到所有zk節點都成功寫了數據後（內存同步以及磁盤更新），這次寫請求算是完成，然後zk service就會給client發回響應

讀數據，因爲集羣中所有的zk節點都呈現一個同樣的命名空間視圖（就是結構數據），上面的寫請求已經保證了寫一次數據必須保證集羣所有的zk節點都是同步命名空間的，所以讀的時候可以在任意一臺zk節點上

ps:

其實寫數據的時候不是要保證所有zk節點都寫完才響應，而是保證一半以上的節點寫完了就把這次變更更新到內存，並且當做最新命名空間的應用。所以在讀數據的時候可能會讀到不是最新的zk節點，這時候只能通過sync()解決。這裏先不考慮了，假設整個zk service都是同步meta信息的。

二、service工作流程

Zookeeper的核心是原子廣播，這個機制保證了各個Server之間的同步。實現這個機制的協議叫做Zab協議。Zab協議有兩種模式，它們分別是恢復模式（選主）和廣播模式（同步）。當服務啓動或者在領導者崩潰後，Zab就進入了恢復模式，當領導者被選舉出來，且大多數Server完成了和 leader的狀態同步以後，恢復模式就結束了。狀態同步保證了leader和Server具有相同的系統狀態。

爲了保證事務的順序一致性，zookeeper採用了遞增的事務id號（zxid）來標識事務。所有的提議（proposal）都在被提出的時候加上了zxid。實現中zxid是一個64位的數字，它高32位是epoch用來標識leader關係是否改變，每次一個leader被選出來，它都會有一個新的epoch，標識當前屬於那個leader的統治時期。低32位用於遞增計數。

每個Server在工作過程中有三種狀態：

LOOKING：當前Server不知道leader是誰，正在搜尋

LEADING：當前Server即爲選舉出來的leader

FOLLOWING：leader已經選舉出來，當前Server與之同步

1 選主流程

當leader崩潰或者leader失去大多數的follower，這時候zk進入恢復模式，恢復模式需要重新選舉出一個新的leader，讓所有的 Server都恢復到一個正確的狀態。Zk的選舉算法有兩種：一種是基於basic paxos實現的，另外一種是基於fast paxos算法實現的。系統默認的選舉算法爲fast paxos。

（1）basic paxos流程：

選舉線程由當前Server發起選舉的線程擔任，其主要功能是對投票結果進行統計，並選出推薦的Server；

選舉線程首先向所有Server發起一次詢問(包括自己)；

選舉線程收到回覆後，驗證是否是自己發起的詢問(驗證zxid是否一致)，
然後獲取對方的id(myid)，並存儲到當前詢問對象列表中，
最後獲取對方提議的leader相關信息(id,zxid)，並將這些信息存儲到當次選舉的投票記錄表中；

收到所有Server回覆以後，就計算出zxid最大的那個Server，並將這個Server相關信息設置成下一次要投票的Server；

線程將當前zxid最大的Server設置爲當前Server要推薦的Leader，
如果此時獲勝的Server獲得n/2 + 1的Server票數， 設置當前推薦的leader爲獲勝的Server，將根據獲勝的Server相關信息設置自己的狀態，
否則，繼續這個過程，直到leader被選舉出來。

通過流程分析我們可以得出：要使Leader獲得多數Server的支持，則Server總數必須是奇數2n+1，且存活的Server的數目不得少於n+1.

每個Server啓動後都會重複以上流程。在恢復模式下，如果是剛從崩潰狀態恢復的或者剛啓動的server還會從磁盤快照中恢復數據和會話信息，zk會記錄事務日誌並定期進行快照，方便在恢復時進行狀態恢復。

選主的具體流程圖如下所示：

（2）fast paxos流程

在選舉過程中，某Server首先向所有Server提議自己要成爲leader，當其它Server收到提議以後，解決epoch和 zxid的衝突，並接受對方的提議，然後向對方發送接受提議完成的消息，重複這個流程，最後一定能選舉出Leader。

其流程圖如下所示：

2 同步流程

選完leader以後，zk就進入狀態同步過程。

leader等待server連接；

Follower連接leader，將最大的zxid發送給leader；

Leader根據follower的zxid確定同步點；

完成同步後通知follower 已經成爲uptodate狀態；

Follower收到uptodate消息後，又可以重新接受client的請求進行服務了。

流程圖如下所示：

3. Leader工作流程

Leader主要有三個功能：

恢復數據；

維持與Learner的心跳，接收Learner請求並判斷Learner的請求消息類型；

Learner的消息類型主要有PING消息、REQUEST消息、ACK消息、REVALIDATE消息，根據不同的消息類型，進行不同的處理。

PING消息是指Learner的心跳信息；REQUEST消息是Follower發送的提議信息，包括寫請求及同步請求；ACK消息是 Follower的對提議的回覆，超過半數的Follower通過，則commit該提議；REVALIDATE消息是用來延長SESSION有效時間。

Leader的工作流程簡圖如下所示，在實際實現中，流程要比下圖複雜得多，啓動了三個線程來實現功能。

Follower工作流程

Follower主要有四個功能：

向Leader發送請求（PING消息、REQUEST消息、ACK消息、REVALIDATE消息）；

接收Leader消息並進行處理；

接收Client的請求，如果爲寫請求，發送給Leader進行投票；

返回Client結果。

Follower的消息循環處理如下幾種來自Leader的消息：

PING消息： 心跳消息；

PROPOSAL消息：Leader發起的提案，要求Follower投票；

COMMIT消息：服務器端最新一次提案的信息；

UPTODATE消息：表明同步完成；

REVALIDATE消息：根據Leader的REVALIDATE結果，關閉待revalidate的session還是允許其接受消息；

SYNC消息：返回SYNC結果到客戶端，這個消息最初由客戶端發起，用來強制得到最新的更新。

Follower的工作流程簡圖如下所示，在實際實現中，Follower是通過5個線程來實現功能的。

總結：

至此，我們知道了zookeeper一些運行時的流程，知道了它在集羣中的工作方式，不過還有很多東西值得我們繼續去探索，這裏不再一一介紹，以後有機會我們繼續分享。

阿里架構之旅（四）——zookeeper的原理

一、基礎知識

1、角色

2、工作模式

3、集羣

4、讀寫過程

二、service工作流程

1 選主流程

2 同步流程

3. Leader工作流程

Follower工作流程

總結：

【SQL進階】CASE語句的使用

大數據時代的到來

春風襲來之——揮去的2015

阿里架構之旅（三）——動物園管理者zookeeper

Linux學習總結——實踐

從零開始學Hadoop----淺析HDFS（三）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結