1. ETCD是什麼
ETCD是用於共享配置和服務發現的分佈式,一致性的KV存儲系統。該項目目前最新穩定版本爲2.3.0. 具體信息請參考[項目首頁]和[Github]。ETCD是CoreOS公司發起的一個開源項目,授權協議爲Apache。
提供配置共享和服務發現的系統比較多,其中最爲大家熟知的是[Zookeeper](後文簡稱ZK),而ETCD可以算得上是後起之秀了。在項目實現,一致性協議易理解性,運維,安全等多個維度上,ETCD相比Zookeeper都佔據優勢。
2. ETCD vs ZK
本文選取ZK作爲典型代表與ETCD進行比較,而不考慮[Consul]項目作爲比較對象,原因爲Consul的可靠性和穩定性還需要時間來驗證(項目發起方自身服務並未使用Consul, 自己都不用)。
- 一致性協議: ETCD使用[Raft]協議, ZK使用ZAB(類PAXOS協議),前者容易理解,方便工程實現;
- 運維方面:ETCD方便運維,ZK難以運維;
- 項目活躍度:ETCD社區與開發活躍,ZK已經快死了;
- API:ETCD提供HTTP+JSON, gRPC接口,跨平臺跨語言,ZK需要使用其客戶端;
- 訪問安全方面:ETCD支持HTTPS訪問,ZK在這方面缺失;
3. ETCD的使用場景
和ZK類似,ETCD有很多使用場景,包括:
- 配置管理
- 服務註冊於發現
- 選主
- 應用調度
- 分佈式隊列
- 分佈式鎖
4. ETCD讀寫性能
按照官網給出的[Benchmark], 在2CPU,1.8G內存,SSD磁盤這樣的配置下,單節點的寫性能可以達到16K QPS, 而先寫後讀也能達到12K QPS。這個性能還是相當可觀的。
5. ETCD工作原理
ETCD使用Raft協議來維護集羣內各個節點狀態的一致性。簡單說,ETCD集羣是一個分佈式系統,由多個節點相互通信構成整體對外服務,每個節點都存儲了完整的數據,並且通過Raft協議保證每個節點維護的數據是一致的。
如圖所示,每個ETCD節點都維護了一個狀態機,並且,任意時刻至多存在一個有效的主節點。主節點處理所有來自客戶端寫操作,通過Raft協議保證寫操作對狀態機的改動會可靠的同步到其他節點。
ETCD工作原理核心部分在於Raft協議。本節接下來將簡要介紹Raft協議,具體細節請參考其[論文]。
Raft協議正如論文所述,確實方便理解。主要分爲三個部分:選主,日誌複製,安全性。
5.1 選主
Raft協議是用於維護一組服務節點數據一致性的協議。這一組服務節點構成一個集羣,並且有一個主節點來對外提供服務。當集羣初始化,或者主節點掛掉後,面臨一個選主問題。集羣中每個節點,任意時刻處於Leader, Follower, Candidate這三個角色之一。選舉特點如下:
- 當集羣初始化時候,每個節點都是Follower角色;
- 集羣中存在至多1個有效的主節點,通過心跳與其他節點同步數據;
- 當Follower在一定時間內沒有收到來自主節點的心跳,會將自己角色改變爲Candidate,併發起一次選主投票;當收到包括自己在內超過半數節點贊成後,選舉成功;當收到票數不足半數選舉失敗,或者選舉超時。若本輪未選出主節點,將進行下一輪選舉(出現這種情況,是由於多個節點同時選舉,所有節點均爲獲得過半選票)。
-
Candidate節點收到來自主節點的信息後,會立即終止選舉過程,進入Follower角色。
爲了避免陷入選主失敗循環,每個節點未收到心跳發起選舉的時間是一定範圍內的隨機值,這樣能夠避免2個節點同時發起選主。
5.2 日誌複製
所謂日誌複製,是指主節點將每次操作形成日誌條目,並持久化到本地磁盤,然後通過網絡IO發送給其他節點。其他節點根據日誌的邏輯時鐘(TERM)和日誌編號(INDEX)來判斷是否將該日誌記錄持久化到本地。當主節點收到包括自己在內超過半數節點成功返回,那麼認爲該日誌是可提交的(committed),並將日誌輸入到狀態機,將結果返回給客戶端。
這裏需要注意的是,每次選主都會形成一個唯一的TERM編號,相當於邏輯時鐘。每一條日誌都有全局唯一的編號。
主節點通過網絡IO向其他節點追加日誌。若某節點收到日誌追加的消息,首先判斷該日誌的TERM是否過期,以及該日誌條目的INDEX是否比當前以及提交的日誌的INDEX跟早。若已過期,或者比提交的日誌更早,那麼就拒絕追加,並返回該節點當前的已提交的日誌的編號。否則,將日誌追加,並返回成功。
當主節點收到其他節點關於日誌追加的回覆後,若發現有拒絕,則根據該節點返回的已提交日誌編號,發生其編號下一條日誌。
主節點像其他節點同步日誌,還作了擁塞控制。具體地說,主節點發現日誌複製的目標節點拒絕了某次日誌追加消息,將進入日誌探測階段,一條一條發送日誌,直到目標節點接受日誌,然後進入快速複製階段,可進行批量日誌追加。
按照日誌複製的邏輯,我們可以看到,集羣中慢節點不影響整個集羣的性能。另外一個特點是,數據只從主節點複製到Follower節點,這樣大大簡化了邏輯流程。
5.3 安全性
截止此刻,選主以及日誌複製並不能保證節點間數據一致。試想,當一個某個節點掛掉了,一段時間後再次重啓,並當選爲主節點。而在其掛掉這段時間內,集羣若有超過半數節點存活,集羣會正常工作,那麼會有日誌提交。這些提交的日誌無法傳遞給掛掉的節點。當掛掉的節點再次當選主節點,它將缺失部分已提交的日誌。在這樣場景下,按Raft協議,它將自己日誌複製給其他節點,會將集羣已經提交的日誌給覆蓋掉。
這顯然是不可接受的。
其他協議解決這個問題的辦法是,新當選的主節點會詢問其他節點,和自己數據對比,確定出集羣已提交數據,然後將缺失的數據同步過來。這個方案有明顯缺陷,增加了集羣恢復服務的時間(集羣在選舉階段不可服務),並且增加了協議的複雜度。
Raft解決的辦法是,在選主邏輯中,對能夠成爲主的節點加以限制,確保選出的節點已定包含了集羣已經提交的所有日誌。如果新選出的主節點已經包含了集羣所有提交的日誌,那就不需要從和其他節點比對數據了。簡化了流程,縮短了集羣恢復服務的時間。
這裏存在一個問題,加以這樣限制之後,還能否選出主呢?答案是:只要仍然有超過半數節點存活,這樣的主一定能夠選出。因爲已經提交的日誌必然被集羣中超過半數節點持久化,顯然前一個主節點提交的最後一條日誌也被集羣中大部分節點持久化。當主節點掛掉後,集羣中仍有大部分節點存活,那這存活的節點中一定存在一個節點包含了已經提交的日誌了。
至此,關於Raft協議的簡介就全部結束了。
6. ETCD使用案例
據公開資料顯示,至少有CoreOS, Google Kubernetes, Cloud Foundry, 以及在Github上超過500個項目在使用ETCD。
7. ETCD接口
ETCD提供HTTP協議,在最新版本中支持Google gRPC方式訪問。具體支持接口情況如下:
- ETCD是一個高可靠的KV存儲系統,支持PUT/GET/DELETE接口;
- 爲了支持服務註冊與發現,支持WATCH接口(通過http long poll實現);
- 支持KEY持有TTL屬性;
- CAS(compare and swap)操作;
- 支持多key的事務操作;
- 支持目錄操作
8. 結束
本文對ETCD作了一個簡單的介紹,希望對你有幫助。