ESXI網卡組故障切換、故障恢復或 vMotion 導致網絡連接丟失

ESXI中,當利用網卡組配置且組中的某個網絡適配器發生故障時,進行故障切換或故障恢復後虛擬交換機上的所有端口組的網絡連接都將丟失。在 vMotion 至其他 ESX/ESXi 主機後,虛擬機上的網絡連接丟失。造成該類現象的原因是:故障切換順序中位居收尾的物理網卡遇到間歇性故障,故障恢復策略可能導致平凡更換使用的網卡,上層物理交換機MAC表地址頻繁更改,造成網絡丟失。該丟失問題官方具體解決辦法爲:官方解決辦法
同時,vSphere官方DOC也給出了此類情況及建議,見下圖:官方DOC
但是本人根據官方文檔進行操作,並未取得很好效果,於是繼續研究該問題和官方DOC。
本次環境爲:單臺物理主機存在兩張網卡,同時將網卡劃分爲活動和備用,如下圖:
在這裏插入圖片描述經過多次測試,發現,若關閉活動適配器vmnic3對應交換機端口,會自動切爲備用適配器vmnic0,查看交換機ARP表,ARP端口已經更改爲備用適配器所連接交換機端口,但對應的MAC地址依舊爲vmnic3。
活動適配器端口
備用適配器端口
接着,交換機開啓活動適配器端口,此時會網絡會出現丟失,再次查看ARP映射表,發現映射的交換機端口依舊爲備用適配器,根據官方DOC解釋:
在這裏插入圖片描述
故障恢復機制默認爲是,則當活動適配器對應交換機端口被打開後,立即停止備用適配器,切換所有流量至活動適配器。由於此時交換機ARP對應的端口依舊爲備用適配器,即交換機依舊把所有流量轉發至備用適配器,所以造成網絡丟失。

綜上,原因在於ESXI主機和交換機使用適配器不同步問題,ESXI主機默認使用活動適配器,故障恢復時,主機會自動切換爲活動適配器,而交換機因備用適配器一直處於端口UP狀態,所以ARP表會在1200秒後老化,但不一定切換爲活動適配器。究其原因,還是ESXI主機對活、備適配器的管理機制問題,主備的切換僅針對是否接受網卡流量,而不是關閉網卡。

所以,有個簡單的解決辦法,就是修改故障恢復狀態爲否,即活動適配器故障恢復後不會切換,主機依舊使用備用適配器,當備用適配器故障後再切換爲活動適配器,這樣形成一個良性循環,符合交換機的邏輯,虛擬交換機和VMkernel適配器都可以進行配置(VMkernel適配器無法直接通過vSphere直接修改,需登錄具體主機修改)。
在這裏插入圖片描述
或者也可以選擇負載均衡爲基於原MAC哈希的路由,同時將兩張網卡都切換爲活動適配器。
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章