微服務架構之「容錯隔離」

我們知道，在單體應用的架構下一旦程序發生了故障，那麼整個應用可能就沒法使用了，所以我們要把單體應用拆分成具有多個服務的微服務架構，來減少故障的影響範圍。但是在微服務架構下，有一個新的問題就是，由於服務數變多了，假設單個服務的故障率是不變的，那麼整體微服務系統的故障率其實是提高了的。

比如：假設單個服務的故障率是0.01%，也就是可用性是99.99%，如果我們總共有10個微服務，那麼我們整體的可用性就是99.99%的十次方，得到的就是99.90%的可用性（也就是故障率爲0.1%）。可見，相對於之前的單體應用，整個系統可能發生故障的風險大幅提升。

那麼在這種情況下，我們應該怎麼去保證微服務架構的可用性呢？

其實我們參考造船行業對船艙進水風險的隔離方法，如上圖。

造船行業有一個專業術語叫做「艙壁隔離」，利用艙壁將不同的船艙隔離起來，如果某一個船艙進了水，那麼就可以立即封閉艙門，形成艙壁隔離，只損失那一個船艙，其他船艙不受影響，整個船隻還是可以正常航行。

對應到微服務架構中，我們要做的就是最大限度的隔離單個服務的風險，也就是「容錯隔離」的方法。

一、微服務架構中可用性風險有哪些？

在聊「容錯隔離」方法之前，我們先來看一下微服務架構中，常見的可用性風險到底有哪些吧，知道了有哪些風險我們才知道該如何去規避、去隔離風險。

我們可以從項目部署規模的角度去分析風險：

單機可用性風險：
這個很好理解，就是微服務部署所在的某一臺機器出現了故障，造成的可用性風險。這種風險發生率很高，因爲單機器在運維中本身就容易發生各種故障，例如硬盤壞了、機器電源故障等等，這些都是時有發生的事情。不過雖然這種風險發生率高，但危害有限，因爲我們大多數服務並不只部署在一臺機器上，可能多臺都有，因此只需要做好監控，發現故障之後，及時的將這臺故障機器從服務集羣中剔除即可，等修復了再重新上線到集羣裏。
單機房可用性風險：
這種風險的概率比單機器的要低很多，但是也不是完全不可能發生，在實際情況中，還是有一定概率的。比如最爲常見的就是通往機房的光纖被挖斷了，前段時間支付寶所在機房不是就發生過光纖被挖麼。
咱們全國大小城市都在瘋狂的進行基建，修橋修路修房子，GDP就這麼搞起來了，地下的光纖挖斷幾根不是再正常不過的事情了麼，哈哈。
如果我們的服務全部都部署在單個機房，而機房又出故障了，那就沒轍了。好在，現在大多數中大型項目都會採用多機房部署的方案，比如同城雙活、異地多活等。一旦某個機房出現了故障不可用了，咱們立即採用切換路由的方式，把這個機房的流量切到其它機房裏。
跨機房集羣可用性風險：
既然都跨機房集羣了，可用性理論上應該沒啥問題啊。但要知道這是在物理層面沒有問題了，如果咱們的代碼有坑，或者因爲特殊原因用戶流量激增，導致我們的服務扛不住了，那在跨機房集羣的情況下一樣會不可用。但如果我們提前做好了「容錯隔離」的一些方案，比如限流、熔斷等等，用上這些方法還是可以保證一部分服務或者一部分用戶的訪問是正常。
二、「容錯隔離」的方法有哪些？

好了，上面講了微服務架構中可能遇到這麼多的可用性風險，並且也知道了「容錯隔離」的重要性，下面我們再來看看常見的「容錯隔離」方法有哪些：

超時：
這也是簡單的容錯方式。就是指在服務之間調用時，設置一個主動超時時間，超過了這個時間閾值後，如果“被依賴的服務”還沒有返回數據的話，“調用者”就主動放棄，防止因“被依賴的服務”的故障所影響。
限流
顧名思義，就是限制最大流量。系統能提供的最大併發有限，同時來的請求又太多，服務不過來啊，就只好排隊限流了，就跟去景點排隊買票、去商場吃飯排隊等號的道理一樣一樣兒的。
降級
這個與限流類似，一樣是流量太多，系統服務不過來。這個時候可以可將不是那麼重要的功能模塊進行降級處理，停止服務，這樣可以釋放出更多的資源供給核心功能的去用。同時還可以對用戶分層處理，優先處理重要用戶的請求，比如VIP收費用戶等。
延遲處理
這個方式是指設置一個流量緩衝池，所有的請求先進入這個緩衝池等待處理，真正的服務處理方按順序從這個緩衝池中取出請求依次處理，這種方式可以減輕後端服務的壓力，但是對用戶來說體驗上有延遲。
熔斷
可以理解成就像電閘的保險絲一樣，當流量過大或者錯誤率過大的時候，保險絲就熔斷了，鏈路就斷開了，不提供服務了。當流量恢復正常，或者後端服務穩定了，保險絲會自動街上（熔斷閉合），服務又可以正常提供了。這是一種很好的保護後端微服務的一種方式。
熔斷技術中有個很重要的概念就是：斷路器，可以參考下圖：

斷路器其實就是一個狀態機原理，有三種狀態：Closed（閉合狀態，也就是正常狀態）、Open（開啓狀態，也就是當後端服務出故障後鏈路斷開，不提供服務的狀態）、Half-Open(半閉合狀態，就是允許一小部分流量進行嘗試，嘗試後發現服務正常就轉爲Closed狀態，服務依舊不正常就轉爲Open狀態)。
三、「容錯隔離」的應用？

在容錯隔離或者說熔斷技術方面做得最出名的框架就是 Hystrix 了。Hystrix是由Netflix開源，在業內應用非常廣泛。

下面是Hystrix的原理流程圖：

這是新版流程，比之前舊版本又複雜很多，如果不講解一下，估計很多人都不容易看懂。

圖中標註了數字1-9，可以按照這個數字順序去理解這個流程。

當我們使用了Hystrix之後，請求會被封裝到HystrixCommand中，這也就是第一步。然後第二步就是開始執行請求，Hystrix支持同步執行(圖中.execute方法)、異步執行(圖中.queue方法)和響應式執行(圖中.observer)。然後第三步判斷緩存，如果存在與緩存中，則直接返回緩存結果。如果不在緩存中，則走第四步，判斷斷路器的狀態是否是開啓的，如果是開啓狀態，也就是短路了，那就進行失敗返回，跳到第八步，第八步需要對失敗返回的處理也需要再做一次判斷，要麼正常失敗返回，返回相應信息，要麼根本沒有實現失敗返回的處理邏輯，就直接報錯。如果斷路器不是開啓狀態，那請求就繼續走，進行第五步，判斷線程/隊列是否滿了，如果滿了，那麼同樣跳到第八步，如果線程沒滿，則走到第六步，執行遠程調用邏輯，然後判斷遠程調用是否成功，調用發生異常了就挑到第八步，調用正常就挑到第九步正常返回信息。

圖中的第七步，非常牛逼的一個模塊，是來收集Hystrix流程中的各種信息來對系統做監控判斷的。

另外，Hystrix的斷路器實現原理也很關鍵，下面就是Hystrix斷路器的原理圖：

Hystrix通過滑動時間窗口算法來實現斷路器的，是以秒爲單位的滑桶式統計，它總共包含10個桶，每秒鐘一個生成一個新的桶，往前推移，舊的桶就廢棄掉。

每一個桶中記錄了所有服務調用的狀態，調用次數、是否成功等信息，斷路器的開關就是把這10個桶進行聚合計算後，來判斷當前是應該開啓還是閉合的。

以上，就是對微服務架構中「容錯隔離」的一些思考。

在微服務架構的系列文章中，前面已經通過文章介紹過了「服務註冊」、「服務網關」、「配置中心」、「監控系統」、「調用鏈監控」，大家可以翻閱歷史文章查看。

寫在最後：

碼字不易看到最後了，那就點個關注唄，只收藏不點關注的都是在耍流氓！

關注並私信我“架構”，免費送一些Java架構資料，先到先得！

微服務架構之「容錯隔離」

詐騙（殺豬盤）網站進行滲透測試

Python 潮流週刊#50：我最喜歡的 Python 3.13 新特性！

【Python】保存gym截圖

【譯】使用 GitHub Copilot 作爲你的編碼 GPS

Linux 服務器配置-安裝portainer-ce社區版

外行也能讀懂的網絡硬件設備功能原理速成

安裝Auto-GPT

一個簡單的管理系統 Springmvc 一不留神就躺坑

《Kafka的權威指南》——寫數據

面試中的 ThreadLocal 原理和使用場景你遇到過嗎

Kafka查看topic、consumer group狀態命令，你也是這樣的嗎

「面試」如果把線程當作一個人來對待，所有問題都瞬間明白了，你懂嗎

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

微服務架構之「 容錯隔離 」

微服務架構之「容錯隔離」