目 錄
3.2.1. 檢測BIG-IP的CPU和內存使用狀況... 5
1.前言
爲規範F5負載均衡設備維護工作,提供設備維護標準,提高維護技術水平,特編寫了本文檔。
在文檔中詳細說明負載均衡設備日常網管監控辦法,日誌信息保存,日常統計報表輸出,以及日常問題處理辦法、標準故障診斷流程、故障現場環境信息保存和各種應急備份方案等內容。
2.日常物理檢查
根據設備檢查需要,可以進行設備物理檢查,觀察設備面板指示燈,分析設備運行狀態。
2.1. F5BigIP設備面板結構
10/100 interface 多個10/100 M 自適應的網絡接口
Gigabit fiber interface 多個1000M多模光纖接口
Serial console port 一個串口命令行管理端口
Failover port 一個串口冗餘狀態判斷端口
Mgmt interface 一個10/100M 管理端口
2.2. 狀態燈判斷
BigIP 在正常工作時可以通過端口狀態顯示燈判斷工作狀態:
10/100 M 端口連接狀態燈 綠色爲100M 連接正常, 橙色爲10M 連接正常
10/100 M 端口數據通訊狀態燈 停止爲無流量, 閃爍爲正在進行數據通訊
1000 M 端口連接狀態燈 綠色爲1000M 連接正常
1000 M 端口數據通訊狀態燈 停止爲無流量, 閃爍爲正在進行數據通訊
可以通過系統面板右側系統狀態燈,檢查系統運行狀態:
System 正常情況下爲綠色, 爲系統工作正常
Status 正常情況下的Active 設備爲綠色, 而Backup設備爲橙色
Activity 在有數據流量通過時閃爍, 無數據流量時定時閃
Alarm 健康檢查報警, 系統發現有服務節點處於“不健康”狀態時提示報警
3.日常運行監控
3.1. 檢測各臺BIG-IP設備的主備工作狀態
在命令行輸入 b failover show
確認SLB51MO3-1工作在active狀態,SLB51MO3-2工作在standby狀態
這是系統默認狀態,如果有變化且非人爲設定,則代表系統切換過,需細查原因。
3.2. 檢測F5設備負載狀況
通常情況下,我們可以通過在命令行輸入如下命令,分別獲取相關的F5設備信息:
3.2.1.檢測BIG-IP的CPU和內存使用狀況
使用命令行:top
如果需要將top執行的結果保存在文件裏,可執行以下命令
top –d 5 |tee/var/tmp/topresults.txt
其中的5表示連續輸出5次結果。
3.2.2.檢測客戶連接數量
檢測當前BIG-IP上的連接數量,以及每個對外服務的虛擬服務器的用戶連接數量,使用命令行:bigtop
平時應觀察正常工作時,BIG-IP上的用戶請求數量,並針對各個時間段作記錄,以便於當遭受***時可以判定。
3.3. 查看服務器節點狀態
通過進入F5管理界面,登陸下面界面,我們可以清楚地看到,所有服務器節點所處的狀態:上半部分顯示針對節點服務器的地址健康測試結果(ping),下半部分顯示各服務器池(pool)中各節點的L4 或者 L7的健康檢查結果。
上圖中Node Address 欄表示服務器是否能Ping通,如果服務器能Ping通,則箭頭爲向上的綠色,如果不能ping通,則箭頭爲向下的紅色。
Virtual Servers and Nodes欄表示使用Monitor Service檢測對服務器的檢查結果,在本例中如果BIGIP對服務器的兩個端口8210和8001進行TCP端口檢查都通的時候,則箭頭爲向上的綠色。如果某臺服務器只要有一個端口TCP檢查不通則箭頭爲向下的紅色。
補充說明:如果在上圖健康狀態監視中,只要有一項不能通過,在F5 BIG-IP的前面板的第四個指示燈 Alarm 會變黃。
3.4. 查看當前建立的所有連接
通過在Bigpipe 菜單中輸入命令“conn”,就可以顯示當前所有的客戶端與各服務器建立的所有連接:
3.5. 備份日誌
每週應至少備份一次F5的BIG-IP上的日誌。F5的所有日誌保存在FLASH卡上的/var/log目錄下,且每天保存爲一個文件,最多保存7天(即7個文件),所以如果要備份所有的日誌,必須每週至少備份一次/var/log目錄。管理員可以通過FTP將日誌備份到日誌服務器上。
3.6. 查看LOG列表
在左側點擊Log Files 菜單可查看BIGIP當天的LOG記錄。
下圖是關於BIG-IP設備本身的LOG記錄:
下圖是關於各服務器健康檢查的LOG記錄:
4.變更操作
4.1.F5 BIG-IP設備的變更操作
在進行參數變更,修改系統配置時,建議在ACTIVE設備上進行操作。
確認冗餘系統的設備是否處於ACTIVE狀態,方法爲:看下圖第二行中顯示的本機的狀態;或看BIG-IP的前面板的第二個指示燈 Status,綠色代表ACTIVE,***代表Standby。
在ACTIVE設備上做完配置之後,如果確認無誤,點擊如下“SynchronizeConfiguration”按鈕,即可把本機上的新配置文件同步到對端,如果對端設備故障,更換新設備之後,也可以通過這種方法自動地在對端新設備上生成全套配置。
如果想對BIG-IP ACTIVE設備做停機維護,可以首先點擊如下“Force to Standby”按鈕,手動把本機設置爲Standby 狀態,然後再退出系統。
根據廠家資料,在F5 BIG-IP冗餘系統中,ACTIVE設備的會話連接表會實時地複製到Standby設備之上,冗餘系統中的任何一臺設備宕機,連接會在200ms內切換到另一個正常的設備。
4.2.服務器的變更維護管理
如果想對服務器做變更維護,由於有BIG-IP設備對服務器池做HA,所以不必非要等到夜間用戶連接很少的時候才退出運行,進行變更操作。
在F5 BIG-IP管理界面中中打開對應的節點的窗口,在第一行的“Enable Sessions”中的對勾去掉,並Apply保存配置,該接點就處於“Disble”狀態,此時,F5停止向該服務器發送新的流量。
當管理員通過下圖監視到對應的服務器上現存的連接數逐漸下降爲0時,就可以安全地把該服務器退出運行,開始變更、停機等維護工作。
5.系統管理
5.1.用戶管理
用戶管理,我們可以自行增加、編輯、刪除BIG-IP的管理員帳號,並設置其各自的權限:只讀/讀寫,管理CLI/WEB等等。
系統默認管理員爲admin,該用戶不能刪除,只可以修改口令。推薦新建一個Web Read Only權限的用戶,作爲日常維護管理員使用,可以避免因誤操作導致系統故障。
5.2. SNMP管理
SNMP管理,我們可以設置通過SNMP把相關信息自動發送到網管工作站上, 包括SNMP管理和SNMP Trap的使用, BigIP支持MIB I, MIB II, Private MIB 。
6.標準故障診斷流程
1.故障發生時,首先保存現場故障信息,並將信息保存,以備以後檢查。
收集系統TechSupport信息,在命令行輸入:qkview
2.檢測各臺BIG-IP設備的主備工作狀態
在命令行輸入: b failover show
確認兩臺主備負載均衡器工作狀態,確認當前工作在active狀態的負載均衡器,另一臺應工作在standby狀態。
3.檢查用戶請求數量
根據平時收集的正常狀態用戶請求數量,分析當前是否遇到***。
4.檢測各臺BIG-IP設備上的日誌
請參見3.6章通過圖形界面檢查當天的BIG-IP日誌,其中System記錄了系統硬件相關信息,BIG-IP Log則記錄了所有BIG-IP配置變更信息,而Monitor Log則記錄了對服務器檢查的情況。通常,可以通過觀察Monitor日誌可以確認所有服務器是否發生過異常。如果需要檢查前7天內的日誌,則必須使用命令行方式,進入/var/log目錄檢索所查當日的記錄。
5.檢測F5設備的狀況
通常情況下,我們可以通過在命令行輸入如下命令,分別獲取相關的F5設備信息:
top 檢測BIG-IP的CPU和內存使用狀況
如果需要將top執行的結果保存在文件裏,可執行以下命令
top –d 5 |tee /var/tmp/topresults.txt
其中的5表示連續輸出5次結果。
bigtop 檢測當前BIG-IP上的連接數量,以及每個對外服務的虛擬服務器的用戶連接數量
b pool show 檢查當前BIG-IP上的服務器組的連接狀況
b virtual show 檢查當前virtual server 虛擬服務器的連接狀況
b node monitor show,用於觀察Monitor 對Node點的檢查狀態
7.系統配置備份及恢復
F5的設備配置可以保存爲一個後綴爲.ucs的文件,以便今後必要時進行系統恢復。該系統配置ucs文件是一個二進制文件,並不能閱讀,如果用戶只是想了解F5的配置內容,可以通過閱讀/config目錄下的bigip_base.conf和bigip.conf兩個文件。其中,bigip_base.conf保存的是有關係統的網絡配置(二/三層配置),而bigip.conf保存的是有關係統的業務配置內容(四/七層配置)。因此,爲方便今後的維護,可以要求管理員同時備份當前配置的ucs文件和bigip_base.conf、bigip.conf文件。具體操作步驟如下:(下文以負載均衡器SLB51MO3-1舉例,其ip爲10.16.24.241)
7.1. 系統配置的備份
7.1.1.命令行方式(推薦)
首先採用SSH通過網絡連接BIG-IP和配置終端(管理員工作站需安裝FTP服務器),假設管理員的工作站的ip地址爲83.12.147.1。推薦在執行本任務時採用BIG-IP的self-ip 172.168.10.252而非share-ip 172.168.10.254進行連接,以避免連接到另一臺BIG-IP上。具體操作如下:
紅色爲管理員輸入命令,黑色爲系統顯示內容 | |
SLB51MO3-1:~# | 確認連接到的是SLB51MO3-1這臺BIG-IP設備 |
SLB51MO3-1:~# b config save SLB51MO3-1_200302201025.ucs Saving active configuration... Creating UCS for config save request... | 備份當前配置到SLB51MO3-1_200302201025.ucs這個文件中(文件名由管理員確定) 文件名推薦採用機器名_日期.ucs的形式 |
SLB51MO3-1:~# cd /usr/local/ucs SLB51MO3-1:/usr/local/ucs# ls SLB51MO3-1_200302201025.ucs cs_backup.ucs.1 cs_backup.ucs last_boot.ucs | 所有系統配置備份的ucs文件均保存在/usr/local/ucs目錄下
請再次確認上一步驟的確產生了SLB51MO3-1_200302201025.ucs這個文件 |
SLB51MO3-1:/usr/local/ucs# ftp 83.12.147.1 Trying 172.168.10.99.21... Connected to 172.168.10.99. 220 raymond Microsoft FTP Service (Version 5.0). Name (83.12.147.1:root): ftp 331 Anonymous access allowed, send identity (e-mail name) as password. Password: 230 Anonymous user logged in. Remote system type is Windows_NT. ftp> bin 200 Type set to I. ftp> hash Hash mark printing on (1024 bytes/hash mark). ftp> put SLB51MO3-1_200302201025.ucs local: SLB51MO3-1_200302201025.ucs remote: SLB51MO3-1_200302201025.ucs 227 Entering Passive Mode (SLB51MO3-1_200302201025.ucs). 125 Data connection already open; Transfer starting. ############################################## 226 Transfer complete. 274511 bytes sent in 0.0194 seconds (14139118 bytes/s) ftp> lcd /config Local directory now /config ftp> put bigip.conf ftp> put bigip_base.conf ftp> bye 221 SLB51MO3-1:/usr/local/ucs# | 採用FTP連接到管理員的工作站(本例爲83.12.147.1)
採用二進制傳輸文件(BIN格式)
顯示傳輸進程 (hash 爲on)
傳送系統配置ucs文件到管理員工作站 (前提是以進入本地的/usr/local/ucs目錄,否則的話請先用lcd /usr/local/ucs切換到該目錄再傳送)
從/usr/local/ucs目錄切換到/config目錄
備份bigip.conf文件 備份bigip_base.conf文件 退出ftp進程 |
7.1.2.圖形界面方式
如上圖,採用HTTPS方式連接BIG-IP和管理員工作站,在system adminàconfiguration managemetàSaveCurrent Configuration 下輸入備份系統配置ucs文件並按保存即可
然後,同上採用FTP方式傳送文件到管理員工作站。
7.2. 系統配置的恢復
7.2.1.命令行方式(推薦)
同上,管理員工作站採用網絡連接到BIG-IP上,同時管理員工作站必須配置有FTP服務器。具體操作如下:
紅色爲管理員輸入命令,黑色爲系統顯示內容 | |
SLB51MO3-1:~# | 確認連接到的是SLB51MO3-1這臺BIG-IP設備 |
SLB51MO3-1:~# cd /var SLB51MO3-1:/var# cd /tmp SLB51MO3-1:/var/tmp# | 進入/var/tmp目錄以避免直接傳送ucs文件到/usr/local/ucs目錄覆蓋本地的系統ucs文件 |
SLB51MO3-1:/var/tmp# ftp 83.12.147.1 Trying 83.12.147.1... Connected to 172.168.10.99. 220 raymond Microsoft FTP Service (Version 5.0). Name (172.168.10.99:root): ftp 331 Anonymous access allowed, send identity (e-mail name) as password. Password: 230 Anonymous user logged in. Remote system type is Windows_NT. ftp> ls 227 Entering Passive Mode (172.168.10.99,4,55). 125 Data connection already open; Transfer starting. 02-19-04 10:24AM 274511 SLB51MO3-1_200302201025.ucs 02-19-04 10:27AM 274482 SLB51MO3-1_200302200930.ucs 226 Transfer complete. ftp> bin 200 Type set to I. ftp> hash Hash mark printing on (1024 bytes/hash mark). ftp> get SLB51MO3-1_200302201025.ucs local: SLB51MO3-1_200302201025.ucs remote: SLB51MO3-1_200302201025.ucs 227 Entering Passive Mode (172,168,10,99,4,56). 125 Data connection already open; Transfer starting. ###################################################### 226 Transfer complete. 274511 bytes received in 0.058 seconds (4734744 bytes/s) ftp> bye | 使用FTP連接管理員工作站
查看目錄並確認存在備份系統配置ucs文件SLB51MO3-1_200302201025.ucs
採用二進制傳輸文件(BIN格式)
顯示傳輸進程 (hash 爲on)
從管理員工作站傳送系統配置ucs文件
|
SLB51MO3-1:/var/tmp# ls SLB51MO3-1_200302201025.ucs finish.log vi.recover/ SLB51MO3-1:/tmp# b config install SLB51MO3-1_200302201025.ucs Installing full configuration on host SLB51MO3-1.zxme.com Saving active configuration... Creating UCS for config save request... Passwords restored. Loaded base configuration from /config/bigip_base.conf. Loading base monitors from /etc/base_monitors.ha. Loading the default classes from /etc/default_classes.txt. Loaded main configuration from /config/bigip.conf. | 確認已取到系統配置ucs文件
使用SLB51MO3-1_200302201025.ucs恢復系統配置
注意 管理員口令也同時恢復 切記 !!!! |
7.2.2.圖形界面方式
首先,採用同上步驟一樣的方式,從管理員工作站上下載以前的系統配置ucs文件,仍然推薦下載到/var/tmp目錄下,當然也可以直接下載到/usr/local/ucs目錄下。後者在圖形界面中可以直接從下拉框中選取下載的系統配置ucs文件,而前者則必須輸入全路徑/var/tmp/SLB51MO3-1_200302201025.ucs纔可以
再次提醒,系統配置ucs文件是包涵系統用戶的口令一起備份的,所以當系統恢復時聯繫統用戶的口令一同恢復,很可能與現有用戶口令不同,切記!!!如果用戶口令有變更,切記在logout當前用戶前先使用config工具修改用戶口令!
8.基本錯誤處理流程
故障現象通常爲Virtual Server無法訪問,此時可依次進行以下工作,基本判斷故障點,並排除故障,如果無法解決,則進入應急處理流程。
1、 通過圖形界面登陸BIGIP,觀察System-〉Network Map的狀態,是否其中有節點處於不正常狀態。如果存在節點旁的指示爲向下的紅色箭頭,則表示BIGIP檢測該節點故障。此時應當首先檢查直接訪問節點服務器是否能正常訪問。
2、 通過命令行界面登陸BIGIP,執行以下命令:
b virtual show觀察是否有節點故障
bigtop觀察各節點當前連接數狀態
top觀察BIGIP內存和CPU佔用狀態
ping和BIGIP直接相連的各臺網絡設備(包括服務器),判斷是否有網絡故障
9.應急處理
故障現象:
判斷應急處理程序條件:
從外網無法訪問VIP上的所有服務
從外網無法ping通VIP或F5 BIGIP VLAN Self IP
無法Telnet 其中一臺BIGIP
9.1.系統訪問異常,但Telnet(ssh)或Console可以連接上F5 Active設備
步驟:
1.如果telnet或Console能連接上F5 Active設備,則依次執行以下命令
df –k |tee /var/data/diskusage.txt
top –d 5 |tee/var/data/topresult.txt
bconn |tee /var/data/sessiondump.txt
bnode monitor show | tee /var/data/nodemonitor.txt
qkview/var/data/qkview.tech.out
等待qkview執行完成後。可以在/var/tmp目錄中發現一個.out文件,將該文件拷貝到/var/data目錄下。
執行以下命令:
cp /var/tmp/*.out /var/data
然後執行命令
b failover standby。強制F5設備切換到另外一臺設備。
根據實際情況,可以將本機關電或者移除其上的所有網線。將設備下線進行分析。
通過console或telnet 連接備份設備,執行命令:
b failover show,觀察本機是否已經切換到active狀態。
b conn,觀察是否有用戶已經連接上系統。
與應用部聯繫或通過客戶端檢查應用系統是否已經正常運行。
Active設備下線後,可將/var/data目錄下的所有文件ftp到管理機上。作爲分析用。
9.2.系統訪問異常,切Telnet(ssh)和Console均無法連接主設備。
步驟:
直接將Active設備關電,此時兩臺F5設備會發生切換,請耐心等待40-60秒SpanningTree 切換時間。
通過console或telnet 連接備份設備10.16.24.242,執行命令:
b failover show,觀察本機是否已經切換到active狀態。
b conn,觀察是否有用戶已經連接上系統。
於應用部聯繫或通過客戶端檢查應用系統是否已經正常運行。
10. 附錄
10.1. 運維工作基本連接方式介紹
在發現系統工作不正常的情況下, 一般建議通過GUI的WEB界面進行進一步的故障判斷和排除。
基於Web配置BIG-IP 的準備
l 安裝Windows操作系統的PC一臺
l IE 5或者更高的版本
l 一根網絡線, 連接PC和BigIP的管理端口(Port 3.1)
基於Web配置BIG-IP
1.當沒有對BIG-IP進行任何配置的時候,BIG-IP會把它的管理端口的IP地址設置爲192.168.1.245,當這個地址與其他主機地址有衝突時,BIG-IP會試着把IP地址192.168.245.245分配給管理端口。
我們配置客戶端主機的IP地址爲192.168.1.x,使我們的客戶端主機與BIG-IP的管理端口在同一個網段上,由於BIG-IP使用SSL加密的HTTP,所以我們在IE的地址欄內輸入:https://192.168.1.241;在目前安裝的所有Bigip 設備中的管理地址都依照以下原則:
SLB51WO3-1 192.168.1.241;
SLB51WO3-2 192.168.1.242;
active bigip 192.168.1.241
注意,在系統投入運行後可通過BIGIP的可管理端口的SelfIP,在文中,模擬通過internal VLAN的selfIP來進行管理。具體IP如下:
SLB51WO3-1 10.16.24.241;
SLB51WO3-2 10.16.24.242;
2.回車後,出現安全警告信息,缺省爲No,爲了配置BIG-IP選擇Yes
3.然後系統提示輸入基於WEB配置的用戶名和密碼,
默認的用戶名是admin 密碼: admin
4.單擊OK,進入BIG-IP的WEB頁面,單擊超級鏈接Configure your BIG-IP(R) Controller using the Configure Utility
10.2. 常用命令
b failover show | 檢測各臺BIG-IP設備的主備工作狀態 |
b failover standby | 將當前主設備強制切換爲備份設備,對端設備切換爲主設備 |
b node monitor show | 用於觀察Monitor 對Node點的檢查狀態 |
b virtual show | 檢查當前virtual server 虛擬服務器的連接狀況 |
b pool show | 檢查當前BIG-IP上的服務器組的連接狀況 |
b interface show | 察看系統每個物理端口的統計狀態 |
bigtop | 檢測當前BIG-IP上的連接數量,以及每個對外服務的虛擬服務器的用戶連接數量 |
conn | 在Bigpipe 菜單中輸入,顯示當前所有的客戶端與各服務器建立的所有連接 |
b conn | 在命令行中輸入,顯示當前所有的客戶端與各服務器建立的所有連接,該命令可用grep來過濾其他信息,如:b conn |grep 10.10.10.1 則表示顯示所有連接信息中和10.10.10.1相關的地址 |
qkview | 收集系統Tech Support信息 |
top | 檢測BIG-IP的CPU和內存使用狀況 |
b config save 文件名 | 保存當前的配置文件 |
b config install 文件名 | 從文件中恢復配置(注意,不同設備的配置文件不能混用) |
b config sync | 同步兩臺設備的配置,從當前設備同步到對端設備 |