負載均衡設備維護標準文檔

目     錄

1.     前言... 4

2.     日常物理檢查... 4

2.1.       F5BigIP設備面板結構... 4

2.2.       狀態燈判斷... 4

3.     日常運行監控... 5

3.1.       檢測各臺BIG-IP設備的主備工作狀態... 5

3.2.       檢測F5設備負載狀況... 5

3.2.1.    檢測BIG-IPCPU和內存使用狀況... 5

3.2.2.    檢測客戶連接數量... 6

3.3.       查看服務器節點狀態... 6

3.4.       查看當前建立的所有連接... 7

3.5.       備份日誌... 8

3.6.       查看LOG列表... 8

4.     變更操作... 9

4.1.     F5 BIG-IP設備的變更操作... 9

4.2.     服務器的變更維護管理... 9

5.     系統管理... 11

5.1.     用戶管理... 11

5.2.     SNMP管理... 11

6.     標準故障診斷流程... 12

7.     系統配置備份及恢復... 14

7.1.       系統配置的備份... 14

7.1.1.    命令行方式(推薦)... 14

7.1.2.    圖形界面方式... 16

7.2.       系統配置的恢復... 16

7.2.1.    命令行方式(推薦)... 16

7.2.2.    圖形界面方式... 18

8.     附錄... 18

8.1.     運維工作基本連接方式介紹... 18

8.2.     常用命令... 20


1.前言

爲規範F5負載均衡設備維護工作,提供設備維護標準,提高維護技術水平,特編寫了本文檔。

在文檔中詳細說明負載均衡設備日常網管監控辦法,日誌信息保存,日常統計報表輸出,以及日常問題處理辦法、標準故障診斷流程、故障現場環境信息保存和各種應急備份方案等內容。

 

2.日常物理檢查

根據設備檢查需要,可以進行設備物理檢查,觀察設備面板指示燈,分析設備運行狀態。

2.1.      F5BigIP設備面板結構

spacer.gif

10/100 interface        多個10/100 M 自適應的網絡接口

Gigabit fiber interface 多個1000M多模光纖接口

Serial console port     一個串口命令行管理端口

Failover port           一個串口冗餘狀態判斷端口

Mgmt interface          一個10/100M 管理端口

2.2.      狀態燈判斷





spacer.gif



BigIP 在正常工作時可以通過端口狀態顯示燈判斷工作狀態:

10/100 M 端口連接狀態燈      綠色爲100M 連接正常, 橙色爲10M 連接正常

10/100 M 端口數據通訊狀態燈  停止爲無流量, 閃爍爲正在進行數據通訊

1000 M 端口連接狀態燈        綠色爲1000M 連接正常

1000 M 端口數據通訊狀態燈    停止爲無流量, 閃爍爲正在進行數據通訊

可以通過系統面板右側系統狀態燈,檢查系統運行狀態:

System   正常情況下爲綠色, 爲系統工作正常

Status   正常情況下的Active 設備爲綠色, 而Backup設備爲橙色

Activity 在有數據流量通過時閃爍, 無數據流量時定時閃

Alarm    健康檢查報警, 系統發現有服務節點處於“不健康”狀態時提示報警

3.日常運行監控

3.1.       檢測各臺BIG-IP設備的主備工作狀態

在命令行輸入 b failover show

確認SLB51MO3-1工作在active狀態,SLB51MO3-2工作在standby狀態

這是系統默認狀態,如果有變化且非人爲設定,則代表系統切換過,需細查原因。

3.2.       檢測F5設備負載狀況

通常情況下,我們可以通過在命令行輸入如下命令,分別獲取相關的F5設備信息:

3.2.1.檢測BIG-IPCPU和內存使用狀況

使用命令行:top

spacer.gif

spacer.gif如果需要將top執行的結果保存在文件裏,可執行以下命令

top –d 5 |tee/var/tmp/topresults.txt

其中的5表示連續輸出5次結果。

3.2.2.檢測客戶連接數量

檢測當前BIG-IP上的連接數量,以及每個對外服務的虛擬服務器的用戶連接數量,使用命令行:bigtop

spacer.gifspacer.gif

平時應觀察正常工作時,BIG-IP上的用戶請求數量,並針對各個時間段作記錄,以便於當遭受***時可以判定。

3.3.       查看服務器節點狀態

通過進入F5管理界面,登陸下面界面,我們可以清楚地看到,所有服務器節點所處的狀態:上半部分顯示針對節點服務器的地址健康測試結果(ping),下半部分顯示各服務器池(pool)中各節點的L4 或者 L7的健康檢查結果。

spacer.gifspacer.gifspacer.gif

上圖中Node Address 欄表示服務器是否能Ping通,如果服務器能Ping通,則箭頭爲向上的綠色,如果不能ping通,則箭頭爲向下的紅色。

Virtual Servers and Nodes欄表示使用Monitor Service檢測對服務器的檢查結果,在本例中如果BIGIP對服務器的兩個端口82108001進行TCP端口檢查都通的時候,則箭頭爲向上的綠色。如果某臺服務器只要有一個端口TCP檢查不通則箭頭爲向下的紅色。

補充說明:如果在上圖健康狀態監視中,只要有一項不能通過,在F5 BIG-IP的前面板的第四個指示燈 Alarm 會變黃。

3.4.      查看當前建立的所有連接

       通過在Bigpipe 菜單中輸入命令“conn”,就可以顯示當前所有的客戶端與各服務器建立的所有連接:

spacer.gif

3.5.      備份日誌

每週應至少備份一次F5BIG-IP上的日誌。F5的所有日誌保存在FLASH卡上的/var/log目錄下,且每天保存爲一個文件,最多保存7天(即7個文件),所以如果要備份所有的日誌,必須每週至少備份一次/var/log目錄。管理員可以通過FTP將日誌備份到日誌服務器上。

3.6.       查看LOG列表

在左側點擊Log Files 菜單可查看BIGIP當天的LOG記錄。

       下圖是關於BIG-IP設備本身的LOG記錄:

spacer.gif

 

       下圖是關於各服務器健康檢查的LOG記錄:

spacer.gif

4.變更操作

4.1.F5 BIG-IP設備的變更操作

在進行參數變更,修改系統配置時,建議在ACTIVE設備上進行操作。

確認冗餘系統的設備是否處於ACTIVE狀態,方法爲:看下圖第二行中顯示的本機的狀態;或看BIG-IP的前面板的第二個指示燈 Status,綠色代表ACTIVE,***代表Standby

spacer.gifspacer.gif

       ACTIVE設備上做完配置之後,如果確認無誤,點擊如下“SynchronizeConfiguration”按鈕,即可把本機上的新配置文件同步到對端,如果對端設備故障,更換新設備之後,也可以通過這種方法自動地在對端新設備上生成全套配置。

       如果想對BIG-IP ACTIVE設備做停機維護,可以首先點擊如下“Force to Standby”按鈕,手動把本機設置爲Standby 狀態,然後再退出系統。

       根據廠家資料,在F5 BIG-IP冗餘系統中,ACTIVE設備的會話連接表會實時地複製到Standby設備之上,冗餘系統中的任何一臺設備宕機,連接會在200ms內切換到另一個正常的設備。

4.2.服務器的變更維護管理

       如果想對服務器做變更維護,由於有BIG-IP設備對服務器池做HA,所以不必非要等到夜間用戶連接很少的時候才退出運行,進行變更操作。

F5 BIG-IP管理界面中中打開對應的節點的窗口,在第一行的“Enable Sessions”中的對勾去掉,並Apply保存配置,該接點就處於“Disble”狀態,此時,F5停止向該服務器發送新的流量。

spacer.gifspacer.gif

 

spacer.gif當管理員通過下圖監視到對應的服務器上現存的連接數逐漸下降爲0時,就可以安全地把該服務器退出運行,開始變更、停機等維護工作。spacer.gif

5.系統管理

5.1.用戶管理

用戶管理,我們可以自行增加、編輯、刪除BIG-IP的管理員帳號,並設置其各自的權限:只讀/讀寫,管理CLI/WEB等等。

系統默認管理員爲admin,該用戶不能刪除,只可以修改口令。推薦新建一個Web Read Only權限的用戶,作爲日常維護管理員使用,可以避免因誤操作導致系統故障。

spacer.gif

 

5.2.  SNMP管理

SNMP管理,我們可以設置通過SNMP把相關信息自動發送到網管工作站上, 包括SNMP管理和SNMP Trap的使用, BigIP支持MIB I, MIB II, Private MIB

spacer.gif

6.標準故障診斷流程

1.故障發生時,首先保存現場故障信息,並將信息保存,以備以後檢查。

收集系統TechSupport信息,在命令行輸入:qkview

2.檢測各臺BIG-IP設備的主備工作狀態

在命令行輸入: b failover show

確認兩臺主備負載均衡器工作狀態,確認當前工作在active狀態的負載均衡器,另一臺應工作在standby狀態。

3.檢查用戶請求數量

根據平時收集的正常狀態用戶請求數量,分析當前是否遇到***。

4.檢測各臺BIG-IP設備上的日誌

請參見3.6章通過圖形界面檢查當天的BIG-IP日誌,其中System記錄了系統硬件相關信息,BIG-IP Log則記錄了所有BIG-IP配置變更信息,而Monitor Log則記錄了對服務器檢查的情況。通常,可以通過觀察Monitor日誌可以確認所有服務器是否發生過異常。如果需要檢查前7天內的日誌,則必須使用命令行方式,進入/var/log目錄檢索所查當日的記錄。

5.檢測F5設備的狀況

通常情況下,我們可以通過在命令行輸入如下命令,分別獲取相關的F5設備信息:

top    檢測BIG-IPCPU和內存使用狀況

spacer.gif

spacer.gif如果需要將top執行的結果保存在文件裏,可執行以下命令

top –d 5 |tee /var/tmp/topresults.txt

其中的5表示連續輸出5次結果。

bigtop 檢測當前BIG-IP上的連接數量,以及每個對外服務的虛擬服務器的用戶連接數量

spacer.gifspacer.gif

b pool show 檢查當前BIG-IP上的服務器組的連接狀況

spacer.gif

b virtual show  檢查當前virtual server 虛擬服務器的連接狀況

spacer.gif

 

b node monitor show,用於觀察Monitor Node點的檢查狀態

 

7.系統配置備份及恢復

      F5的設備配置可以保存爲一個後綴爲.ucs的文件,以便今後必要時進行系統恢復。該系統配置ucs文件是一個二進制文件,並不能閱讀,如果用戶只是想了解F5的配置內容,可以通過閱讀/config目錄下的bigip_base.confbigip.conf兩個文件。其中,bigip_base.conf保存的是有關係統的網絡配置(二/三層配置),而bigip.conf保存的是有關係統的業務配置內容(四/七層配置)。因此,爲方便今後的維護,可以要求管理員同時備份當前配置的ucs文件和bigip_base.confbigip.conf文件。具體操作步驟如下:(下文以負載均衡器SLB51MO3-1舉例,其ip10.16.24.241

7.1.      系統配置的備份

7.1.1.命令行方式(推薦)

首先採用SSH通過網絡連接BIG-IP和配置終端(管理員工作站需安裝FTP服務器),假設管理員的工作站的ip地址爲83.12.147.1。推薦在執行本任務時採用BIG-IPself-ip 172.168.10.252而非share-ip 172.168.10.254進行連接,以避免連接到另一臺BIG-IP上。具體操作如下:

紅色爲管理員輸入命令,黑色爲系統顯示內容

SLB51MO3-1:~#

確認連接到的是SLB51MO3-1這臺BIG-IP設備

SLB51MO3-1:~#     b config save SLB51MO3-1_200302201025.ucs

Saving  active configuration...

Creating  UCS for config save request...

備份當前配置到SLB51MO3-1_200302201025.ucs這個文件中(文件名由管理員確定)

文件名推薦採用機器名_日期.ucs的形式

SLB51MO3-1:~#    cd /usr/local/ucs

SLB51MO3-1:/usr/local/ucs#     ls

SLB51MO3-1_200302201025.ucs 

cs_backup.ucs.1       

cs_backup.ucs         

last_boot.ucs        

所有系統配置備份的ucs文件均保存在/usr/local/ucs目錄下

 

請再次確認上一步驟的確產生了SLB51MO3-1_200302201025.ucs這個文件

SLB51MO3-1:/usr/local/ucs#     ftp 83.12.147.1

Trying  172.168.10.99.21...

Connected  to 172.168.10.99.

220  raymond Microsoft FTP Service (Version 5.0).

Name  (83.12.147.1:root): ftp

331  Anonymous access allowed, send identity (e-mail name) as password.

Password:

230  Anonymous user logged in.

Remote  system type is Windows_NT.

ftp> bin

200  Type set to I.

ftp> hash

Hash  mark printing on (1024 bytes/hash mark).

ftp> put SLB51MO3-1_200302201025.ucs

local:  SLB51MO3-1_200302201025.ucs remote:  SLB51MO3-1_200302201025.ucs

227  Entering Passive Mode (SLB51MO3-1_200302201025.ucs).

125  Data connection already open; Transfer starting.

##############################################

226  Transfer complete.

274511  bytes sent in 0.0194 seconds (14139118 bytes/s)

ftp>  lcd /config

Local  directory now /config

ftp>  put bigip.conf

ftp>  put bigip_base.conf

ftp>  bye

221 

SLB51MO3-1:/usr/local/ucs#

採用FTP連接到管理員的工作站(本例爲83.12.147.1

 

 

 

 

 

 

 

採用二進制傳輸文件(BIN格式)

 

 

顯示傳輸進程   hash on

 

傳送系統配置ucs文件到管理員工作站

(前提是以進入本地的/usr/local/ucs目錄,否則的話請先用lcd /usr/local/ucs切換到該目錄再傳送)

 

 

 

 

 

 

/usr/local/ucs目錄切換到/config目錄

 

備份bigip.conf文件

備份bigip_base.conf文件

退出ftp進程

7.1.2.圖形界面方式

spacer.gifspacer.gif

 

如上圖,採用HTTPS方式連接BIG-IP和管理員工作站,在system adminàconfiguration managemetàSaveCurrent Configuration 下輸入備份系統配置ucs文件並按保存即可

然後,同上採用FTP方式傳送文件到管理員工作站。

7.2.      系統配置的恢復

7.2.1.命令行方式(推薦)

同上,管理員工作站採用網絡連接到BIG-IP上,同時管理員工作站必須配置有FTP服務器。具體操作如下:

紅色爲管理員輸入命令,黑色爲系統顯示內容

SLB51MO3-1:~#

確認連接到的是SLB51MO3-1這臺BIG-IP設備

SLB51MO3-1:~#  cd /var

SLB51MO3-1:/var#    cd /tmp

SLB51MO3-1:/var/tmp#       

進入/var/tmp目錄以避免直接傳送ucs文件到/usr/local/ucs目錄覆蓋本地的系統ucs文件

SLB51MO3-1:/var/tmp#   ftp  83.12.147.1

Trying   83.12.147.1...

Connected  to 172.168.10.99.

220  raymond Microsoft FTP Service (Version 5.0).

Name  (172.168.10.99:root): ftp

331  Anonymous access allowed, send identity (e-mail name) as password.

Password:

230  Anonymous user logged in.

Remote  system type is Windows_NT.

ftp>  ls

227  Entering Passive Mode (172.168.10.99,4,55).

125  Data connection already open; Transfer starting.

02-19-04  10:24AM               274511  SLB51MO3-1_200302201025.ucs

02-19-04  10:27AM               274482 SLB51MO3-1_200302200930.ucs

226  Transfer complete.

ftp>  bin

200  Type set to I.

ftp>  hash

Hash  mark printing on (1024 bytes/hash mark).

ftp>  get  SLB51MO3-1_200302201025.ucs

local:  SLB51MO3-1_200302201025.ucs remote: SLB51MO3-1_200302201025.ucs

227  Entering Passive Mode (172,168,10,99,4,56).

125  Data connection already open; Transfer starting.

######################################################

226  Transfer complete.

274511  bytes received in 0.058 seconds (4734744 bytes/s)

ftp>  bye

使用FTP連接管理員工作站

 

 

 

 

 

 

 

 

 

查看目錄並確認存在備份系統配置ucs文件SLB51MO3-1_200302201025.ucs

 

 

 

採用二進制傳輸文件(BIN格式)

 

 

顯示傳輸進程   hash on

 

從管理員工作站傳送系統配置ucs文件

 

SLB51MO3-1:/var/tmp#  ls

SLB51MO3-1_200302201025.ucs

finish.log

vi.recover/

SLB51MO3-1:/tmp#    b config install  SLB51MO3-1_200302201025.ucs

Installing  full configuration on host SLB51MO3-1.zxme.com

Saving  active configuration...

Creating  UCS for config save request...

Passwords  restored.

Loaded  base configuration from /config/bigip_base.conf.

Loading  base monitors from /etc/base_monitors.ha.

Loading  the default classes from /etc/default_classes.txt.

Loaded  main configuration from /config/bigip.conf.

確認已取到系統配置ucs文件

 

 

 

使用SLB51MO3-1_200302201025.ucs恢復系統配置

 

注意    管理員口令也同時恢復

切記  !!!!

 

7.2.2.圖形界面方式

首先,採用同上步驟一樣的方式,從管理員工作站上下載以前的系統配置ucs文件,仍然推薦下載到/var/tmp目錄下,當然也可以直接下載到/usr/local/ucs目錄下。後者在圖形界面中可以直接從下拉框中選取下載的系統配置ucs文件,而前者則必須輸入全路徑/var/tmp/SLB51MO3-1_200302201025.ucs纔可以

spacer.gifspacer.gif

 

再次提醒,系統配置ucs文件是包涵系統用戶的口令一起備份的,所以當系統恢復時聯繫統用戶的口令一同恢復,很可能與現有用戶口令不同,切記!!!如果用戶口令有變更,切記在logout當前用戶前先使用config工具修改用戶口令!

 

8.基本錯誤處理流程

故障現象通常爲Virtual Server無法訪問,此時可依次進行以下工作,基本判斷故障點,並排除故障,如果無法解決,則進入應急處理流程。

 

1、             通過圖形界面登陸BIGIP,觀察System-Network Map的狀態,是否其中有節點處於不正常狀態。如果存在節點旁的指示爲向下的紅色箭頭,則表示BIGIP檢測該節點故障。此時應當首先檢查直接訪問節點服務器是否能正常訪問。

2、             通過命令行界面登陸BIGIP,執行以下命令:

b virtual show觀察是否有節點故障

bigtop觀察各節點當前連接數狀態

top觀察BIGIP內存和CPU佔用狀態

pingBIGIP直接相連的各臺網絡設備(包括服務器),判斷是否有網絡故障 

9.應急處理

故障現象:

       判斷應急處理程序條件:

       從外網無法訪問VIP上的所有服務

       從外網無法pingVIPF5 BIGIP VLAN Self IP

       無法Telnet 其中一臺BIGIP

      

      

9.1.系統訪問異常,但Telnet(ssh)或Console可以連接上F5 Active設備

步驟:

1.如果telnetConsole能連接上F5 Active設備,則依次執行以下命令

df –k |tee /var/data/diskusage.txt

top –d 5 |tee/var/data/topresult.txt

       bconn |tee /var/data/sessiondump.txt

       bnode monitor show | tee /var/data/nodemonitor.txt

qkview/var/data/qkview.tech.out

等待qkview執行完成後。可以在/var/tmp目錄中發現一個.out文件,將該文件拷貝到/var/data目錄下。

執行以下命令:

cp /var/tmp/*.out /var/data

然後執行命令

b failover standby。強制F5設備切換到另外一臺設備。

根據實際情況,可以將本機關電或者移除其上的所有網線。將設備下線進行分析。

通過consoletelnet 連接備份設備,執行命令:

b failover show,觀察本機是否已經切換到active狀態。

b conn,觀察是否有用戶已經連接上系統。

與應用部聯繫或通過客戶端檢查應用系統是否已經正常運行。

Active設備下線後,可將/var/data目錄下的所有文件ftp到管理機上。作爲分析用。

 

9.2.系統訪問異常,切Telnet(ssh)和Console均無法連接主設備。

步驟:

       直接將Active設備關電,此時兩臺F5設備會發生切換,請耐心等待4060SpanningTree 切換時間。

通過consoletelnet 連接備份設備10.16.24.242,執行命令:

b failover show,觀察本機是否已經切換到active狀態。

b conn,觀察是否有用戶已經連接上系統。

於應用部聯繫或通過客戶端檢查應用系統是否已經正常運行。

 

10.    附錄

10.1.  運維工作基本連接方式介紹

在發現系統工作不正常的情況下, 一般建議通過GUIWEB界面進行進一步的故障判斷和排除。

基於Web配置BIG-IP 的準備

l 安裝Windows操作系統的PC一臺

l IE 5或者更高的版本

l 一根網絡線, 連接PCBigIP的管理端口(Port 3.1

 

基於Web配置BIG-IP  

1當沒有對BIG-IP進行任何配置的時候,BIG-IP會把它的管理端口的IP地址設置爲192.168.1.245,當這個地址與其他主機地址有衝突時,BIG-IP會試着把IP地址192.168.245.245分配給管理端口。

矩形標註: https://192.168.1.241/2spacer.gif

 

我們配置客戶端主機的IP地址爲192.168.1.x,使我們的客戶端主機與BIG-IP的管理端口在同一個網段上,由於BIG-IP使用SSL加密的HTTP,所以我們在IE的地址欄內輸入:https://192.168.1.241;在目前安裝的所有Bigip 設備中的管理地址都依照以下原則:

SLB51WO3-1 192.168.1.241;

SLB51WO3-2 192.168.1.242;

active bigip 192.168.1.241

 

注意,在系統投入運行後可通過BIGIP的可管理端口的SelfIP,在文中,模擬通過internal VLANselfIP來進行管理。具體IP如下:

SLB51WO3-1 10.16.24.241;

SLB51WO3-2 10.16.24.242;

 

2回車後,出現安全警告信息,缺省爲No,爲了配置BIG-IP選擇Yes

spacer.gif

 

3然後系統提示輸入基於WEB配置的用戶名和密碼,

spacer.gif

默認的用戶名是admin 密碼: admin

 

4單擊OK,進入BIG-IPWEB頁面,單擊超級鏈接Configure your BIG-IP(R) Controller using the Configure Utility

圓角矩形標註: 單擊這裏spacer.gif

 

10.2.  常用命令

 

b failover show

檢測各臺BIG-IP設備的主備工作狀態

b failover  standby

將當前主設備強制切換爲備份設備,對端設備切換爲主設備

b node monitor  show

用於觀察Monitor Node點的檢查狀態

b virtual show

檢查當前virtual server 虛擬服務器的連接狀況

b pool show

檢查當前BIG-IP上的服務器組的連接狀況

b interface show

察看系統每個物理端口的統計狀態

bigtop

檢測當前BIG-IP上的連接數量,以及每個對外服務的虛擬服務器的用戶連接數量

conn

Bigpipe 菜單中輸入,顯示當前所有的客戶端與各服務器建立的所有連接

b conn

在命令行中輸入,顯示當前所有的客戶端與各服務器建立的所有連接,該命令可用grep來過濾其他信息,如:b conn  |grep 10.10.10.1 則表示顯示所有連接信息中和10.10.10.1相關的地址

qkview

收集系統Tech  Support信息

top

檢測BIG-IPCPU和內存使用狀況

b config save 文件名

保存當前的配置文件

b config install 文件名

從文件中恢復配置(注意,不同設備的配置文件不能混用)

b config sync

同步兩臺設備的配置,從當前設備同步到對端設備













 


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章