RedLock究竟是不是Redis分佈式鎖分佈式環境下的銀彈?

一、概述

在這個技術不斷更新迭代的情況下,分佈式這個概念,在企業中的權重越來越高!談及分佈式時,不可避免一定會提到分佈式鎖,現階段分佈式鎖的實現方式主流的有三種實現方式,ZookeeperDBRedis,我們本篇文章以Redis爲例!

從我們的角度來看,這三個屬性是有效使用分佈式鎖所需的最低保證。

  1. 安全特性:互斥。在任何給定時刻,只有一個客戶端可以持有鎖。
  2. 活力屬性:無死鎖。最終,即使鎖定資源的客戶端崩潰或分區,也始終可以獲得鎖。
  3. 活動性:容錯能力。只要大多數Redis節點都處於運行狀態,客戶端就可以獲取和釋放鎖。

二、redis多節點實現分佈式鎖帶來的挑戰

我們使用Redis鎖定資源的最簡單方法是:

  1. 在實例中創建鎖。
  2. 鎖通常使用Redis過期功能在有限時間存在,因此最終將被釋放,最終超過給定期限會被刪除。
  3. 當客戶端需要釋放資源時,它將刪除鎖。

乍一看,似乎並沒有什麼問題。但是不妨我們深究一下,這種實現方案在redis單機環境下似乎並沒有什麼問題!但是如果節點宕了呢?好吧,那麼讓我們添加一個slave節點!如果主服務器宕機了,就使用這個節點!但是我們不妨來看看她真的能保證可用嗎?

在談論這個的致命缺陷時,我們需要了解一個知識點,Redis複製是異步的。

  1. 客戶端A獲取主服務器中的鎖。
  2. 在將鎖複製傳輸到從機之前,主機崩潰。
  3. slave晉升爲master
  4. 客戶端B獲取鎖,因爲從機並沒有該鎖的對象,獲取成功!

顯然,這樣是不對的,主節點因爲沒來得及同步數據就宕機了,所以從節點沒有該數據,從而造成分佈式鎖的失效,那麼作者antirez的觀點是如何解決這個呢?

三、Redlock算法

作者認爲,我們應該使用多個Redis,這些節點是完全獨立的,不需要使用複製或者任何協調數據的系統,多個redis系統獲取鎖的過程就變成了如下步驟:

  1. 以毫秒爲單位獲取當前的服務器時間
  2. 嘗試使用相同的key和隨機值來獲取鎖,對每一個機器獲取鎖時都應該有一個超時時間,比如鎖的過期時間爲10s那麼獲取單個節點鎖的超時時間就應該爲5到50毫秒左右,他這樣做的目的是爲了保證客戶端與故障的機器連接,耗費多餘的時間!超時間時間內未獲取數據就放棄該節點,從而去下一個節點獲取,直至將所有節點全部獲取一遍!
  3. 獲取完成後,獲取當前時間減去步驟一獲取的時間,當且僅當客戶端半數以上獲取成功且獲取鎖的時間小於鎖額超時時間,則證明該鎖生效!
  4. 獲取鎖之後,鎖的超時時間等於設置的有效時間-獲取鎖花費的時間
  5. 如果 獲取鎖的機器不滿足半數以上,或者鎖的超時時間計算完畢後爲負數 等異常操作,則系統會嘗試解鎖所有實例,即使有些實例沒有獲取鎖成功,依舊會被嘗試解鎖!
  6. 釋放鎖,只需在所有實例中釋放鎖,無論客戶端是否認爲它能夠成功鎖定給定的實例。

四、但是Redlock真能夠解決問題嗎?

Martin Kleppmann發表文章任務,Redlock並不能保證該鎖的安全性!

他認爲鎖的用途無非兩種

  1. 提升效率,用鎖來保證一個任務沒有必要被執行兩次。比如(很昂貴的計算)
  2. 保證正確,使用鎖來保證任務按照正常的步驟執行,防止兩個節點同時操作一份數據,造成文件衝突,數據丟失。

對於第一種原因,我們對鎖是有一定寬容度的,就算髮生了兩個節點同時工作,對系統的影響也僅僅是多付出了一些計算的成本,沒什麼額外的影響。這個時候 使用單點的 Redis 就能很好的解決問題,沒有必要使用RedLock,維護那麼多的Redis實例,提升系統的維護成本。

1.分佈式鎖的超時性,所帶來的缺點

但是對於第二種場景來說,就比較慎重了,因爲很可能涉及到一些金錢交易,如果鎖定失敗,並且兩個節點同時處理同一數據,則結果將導致文件損壞,數據丟失,永久性不一致,或者金錢方面的損失!

我們假設一種場景,我們有兩個客戶端,每一個客戶端必須拿到鎖之後才能去保存數據到數據庫,我們使用RedLock算法實現會出現什麼問題呢?RedLock中,爲了防止死鎖,鎖是具有過期時間的,但是Martin認爲這是不安全的!該流程圖類似於這樣!

客戶端1獲取到鎖成功後,開始執行,執行到一半系統發生Full GC ,系統服務被掛起,過段時間鎖超時了。

客戶端2等待客戶端1的鎖超時後,成功的獲取到鎖,開始執行入庫操作,完成後,客戶端1完成了Full GC,又做了一次入庫操作!這是不安全的!如何解決呢?

Martin提出來一種類似樂觀鎖的實現機制,示例圖如下:

客戶端1長時間被掛起後,客戶端2獲取到鎖,開始寫庫操作,同時攜帶令牌 34,寫庫完成後,客戶端1甦醒,開始進行入庫操作,但是因爲攜帶的令牌爲33 小於最新令牌,該次提交就被拒絕!

這個想法聽起來似乎時很完備的思路,這樣即使系統因爲某些原因被掛起,數據也能夠被正確的處理。但是仔細想一下:

  • 如果僅當您的令牌大於所有過去的令牌時,數據存儲區才能始終接受寫入,則它是可線性化的存儲區,相當與使用數據庫來實現一個 分佈式鎖系統,那麼RedLock的作用就變的微乎其微!甚至不在需要使用redis保證分佈式鎖!

2.RedLock對於系統時鐘強依賴

回想一下Redlock算法獲取鎖的幾個步驟,你會發現鎖的有效性是與當前的系統時鐘強依賴,我們假設:

我們有,A B C D E 五個redis節點:

  1. 客戶端1獲取節點A,B,C的鎖定。由於網絡問題,無法訪問D和E。
  2. 節點C上的時鐘向前跳,導致鎖過期。
  3. 客戶端2獲取節點C,D,E的鎖定。由於網絡問題,無法訪問A和B。
  4. 現在,客戶1和2都認爲他們持有該鎖。

如果C在將鎖持久保存到磁盤之前崩潰並立即重新啓動,則可能會發生類似的問題。

Martin認爲系統時間的階躍主要來自兩個方面(以及作者給出的解決方案):

  1. 人爲修改。
    • 對於人爲修改,能說啥呢?人要搞破壞沒辦法避免。
  2. 從NTP服務收到了一個跳躍時時鐘更新。
    • NTP受到一個階躍時鐘更新,對於這個問題,需要通過運維來保證。需要將階躍的時間更新到服務器的時候,應當採取小步快跑的方式。多次修改,每次更新時間儘量小。

3.基於程序語言彌補分佈式鎖的超時性所帶來的缺點

我們回顧 1 觀點,深究抽象出現這個缺陷的根本原因,就是爲了解決由於系統宕機帶來的鎖失效而給鎖強加了一個失效時間,異常情況下,程序(業務)執行的時間大於鎖失效時間從而造成的一系列的問題,我們能否從這方面去考慮,從而用程序來解決這個樣一個死局 呢?

既然是因爲鎖的失效時間小於業務時間,那麼我們想辦法保證業務程序執行時間絕對小於鎖超時時間不久解決了?

java語言中redisson實現了一種保證鎖失效時間絕對大於業務程序執行時間的機制。官方叫做看門狗機制(Watchdog),他的主要原理是,在程序成功獲取鎖之後,會fork一條子線程去不斷的給該鎖續期,直至該鎖釋放爲止!他的原理圖大概如下所示:

redisson使用守護線程來進行鎖的續期,(守護線程的作用:當主線程銷燬,會和主線程一起銷燬。)防止程序宕機後,線程依舊不斷續命,造成死鎖!

另外,Redisson還實現並且優化了 RedLock算法、公平鎖、可重入鎖、連鎖等操作,使Redis分佈式鎖的實現方式更加簡便高效!


才疏學淺,如果文章中理解有誤,歡迎大佬們私聊指正!歡迎關注作者的公衆號,一起進步,一起學習!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章