IT基礎架構運維規劃

這是之前規劃設計的IT基礎架構運維規劃方案,總結自己一段時間的運維經驗
相關敏感信息已經去除
學無止境啊

XX運維工作架構規劃

從2016年10月XX的運維工作到現在已經有兩年多了,期間進行了很多調整,部署了很多業務系統,從一開始的混亂無序,到現在算是小有成效了。現在我們需要進一步完善現有運維工作,規劃完整的架構,方便日後進行調整,保證能夠科學而又高效的完成運維工作,提高客戶滿意度。

1.整體架構設計

IT基礎架構運維規劃

整體架自下而上分爲兩個部分,基礎環境和上層業務應用。
基礎環境主要是提供的基礎虛擬機化環境和存儲支持,同時包括各種網絡基礎環境。
上層應用由客戶業務、運維支撐和第三方業務系統構成,主要是基於虛擬機的應用軟件和解決方案。
廣電的基礎環境主要構建是基於kvm虛擬化解決方案的超融合nutanix環境和基於vmware的vsphere虛擬化解決方案環境組成,兩者爲不同的異構的虛擬化,中間底層網絡全部連通,相互共享網絡資源和存儲資源,爲整體的架構提供一個虛擬化層從而支撐上層其他業務系統。值得說明的是,目前我們無法兩種不同的虛擬化環境進行統一管理和調度,雖然他們都可以提供完整的虛擬機生命週期管理。

1.1. nutanix的虛擬化環境

Nutanix的虛擬化環境組網如下所示:
IT基礎架構運維規劃

這是一個穩定的組網架構,從2017年3月部署後,基本沒有變更過,運行可靠,可用性高,性能強悍,主要的上層業務都是運行在其中,並且推薦這樣做,因爲它是我們唯一通過商業途徑獲取的商業化解決方案。
對於該環境,並無太多需要調整和規劃,但是是基於kvm,運維簡單,但是一旦故障,需要聯繫原廠技術支持解決。
以下爲建議和需要規避的問題:
1、計算網絡存儲融合,無法直接通過第三方存儲來擴容,只能另購同樣的機器來進行橫向擴展
2、不建議將nutanix的存儲能力提供給其他平臺或系統
3、若要將其他虛擬化平臺虛擬機遷移到nutanix,需要原廠軟件和技術支持,風險較高,不建議直接遷移,若有需要,可以考慮重搭建虛擬機
4、kvm對linux系統天生支持較好,windows系統會有bug,如藍屏io驅動錯誤等,推薦nutanix部署linux操作系統的虛擬機
5、kvm無法模擬非x86架構的操作系統,定製化的虛擬機,如路由器,交換機,防火牆等操作系統,不能在nutanix上運行
6、Nutanix 上無法導出虛擬機,虛擬機備份容災極度依賴快照功能,重要業務虛擬機需要開啓數據保護
7、Nutanix 上可以直接對處於運行狀態的虛擬機進行刪除動作,極度危險,一旦刪除,不通過技術支持無法恢復,需要加強操作管理

1.2.vsphere的虛擬化環境

vsphere的虛擬化化境採用客戶老舊的x86服務器實現服務器虛擬化和使用兼容服務器搭建的開源存儲功能構建的。最早使用vps-here 5.5,在2017年7月完成升級到 vsphere6.5,採用註冊機破解許可。
整體組網架構比較複雜,可靠性很低,提供的虛擬機的能力極度依賴共享存儲,性能不高,非常容易故障。基本上只有一些測試業務在上面運行,整理利用率較低。
vsphere的組網架構如下:
IT基礎架構運維規劃

架構簡單說明:
1、所謂前端交換機提供vps-here管理和虛擬機業務網絡
2、所謂後端交換機提供存儲網絡管理和存儲
3、兩臺存儲都是以NFS 協議的 NAS方式提供存儲能力,目前兩臺存儲分別是使用不同的開源解決方案,兩者無法關聯
4、爲了提升後端存儲網絡帶寬,後端網絡上特地使用了鏈路聚合技術
使用vsphere的虛擬化環境,有着以下優勢:
1、全虛擬化,可以模擬任何x86和一般的硬件,成熟穩定
2、商業化組件很多,滿足全套解決方案所需要的各種特性,可擴展性好
3、運維管理功能健全

雖然vsphere有着很多優點,但是在我們目前的環境中,主要因爲物理服務器的不穩定和性能低下,造成很多問題:
1、故障率高
2、輕微調整則會影響整體穩定
3、特別是存儲,因爲搭建存儲的物理服務器故障,導致整體平臺已經出現了多次異常
4、無有效的存儲備份手段,也無法對虛擬機進行容災管理
根據以上理由,對於vsphere的虛擬化環境使用有着如下建議:
1、儘可能的使用全新的物理服務器代替老舊的服務器
2、儘可能的使用商業存儲服務器,推薦使用存儲備份一體機
3、若無條件更換商業存儲, 可以使用兩臺開源freenas實現存儲備份
4、在完成vsphere環境硬件調整之前,最好不要將生產業務虛擬機放在上運行

1.3.上層業務應用

目前我們的上層業務應用,主要是基於虛擬機的提供服務器資源,然後由服務器搭建的各種業務系統。主要根據各個功能劃分,分爲客戶業務、運維支撐和第三方業務系統。
客戶的業務虛擬機包括上線交付的業務系統和相關關聯的其他虛擬機,如OA系統,性能監控,專線監控等。
運維支撐,是我方運維人員搭建的各種運維工具軟件等,支持各項運維管理工作。
第三方業務系統,指客戶要求其他業務部署,非本公司產品,需要利用現有虛擬化環境的,如XX通,動環監控服務器。
相關建議:
1、客戶業務需要保持穩定,這也是運維工作的重點
2、第三方業務非客戶提出,不要干預
3、運維支撐的應用,是重中之重,需要運維人員重點關注
關於運維支持應用,會在後面重點闡明

1.4.虛擬機清理

有很多虛擬機是處於測試目的的而使用的,有一些虛擬機是處於異常或者停止使用狀態的,這些虛擬機的使用會消耗資源,所以對這些虛擬機需要進行清理。關於虛擬機的統計,見附件《虛擬機統計20190121》,這裏只是提出需要清理的虛擬機。
需要清理刪除的虛擬機如下表所示:

(略)

2.運維工作內容

爲了方便和明確運維工作內容,需要明確運維工作內容,指導運維人員工作。
關於XX運維工作的內容,如下所示:
IT基礎架構運維規劃

詳細運維工作見文件《XX運維工作梳理》
關於運維人員,技能要求不光需要懂網絡,同時需要熟悉虛擬機存儲操作系統和監控,技能要求較高。
對於運維工作內容有者如下要求:
1、每個工作內容都需要有對應的文檔,包括操作,記錄等等
2、對於日常解決的故障內容需要記錄
3、重大操作需要通知客戶
運維工作極度依賴制度,和運維人員的職業操守。

3.運維支撐架構

在上層業務應用重,運維支撐是運維技術人員重點需要關注的,對於運維工具的理解和使用,可以極大的提升效率,同時可以及時響應故障,解決問題。

IT基礎架構運維規劃

首先,在功能上,將XX的各個上層應用區分爲基礎環境、生產環境、測試環境三個類別。
基礎環境:構建運維架構中實現基礎功能的虛擬機與應用,包括爲提供時間同步的NTP服務器,提供yum加速安裝的yum倉庫服務,收集日誌的日誌服務器等。
生產環境:提供給客戶業務的虛擬機上層應用,包括專線監控平臺,zabbix監控等。
測試環境:運維人員進行測試使用的虛擬機,主要目的是測試各種開源工具運用等,一旦測試結果爲有用,可以轉化爲運維工作管理的重要工具。
在整體運維支撐架構中,最核心底層的主要是由運維管理平臺opsmange支持,它實現CMDB資產配置管理,自動化運維等,方便運維人員對整體進行快速調整,快速部署。
jumperserver堡壘機,主要實現運維工作的整體入口,運維人員通過堡壘機能夠進行登陸各個虛擬機,做到集中登陸和審計。

3.1.opsmanage運維管理平臺

opsmangege運維管理平臺是完全的開源軟件,簡單易用,比較與其他商業軟件,更加適合XX運維工作。
登陸地址:
管理員賬號:
密碼:

主要功能模塊如下圖所示:
IT基礎架構運維規劃

詳細的操作見公司wiki:

對於我們而言,目前側重的資產管理和自動化運維

資產管理

IT基礎架構運維規劃

任務管理

IT基礎架構運維規劃

批量腳本運行模塊

IT基礎架構運維規劃

說明:
1、該平臺可以批量對linux主機進行配置管理,無法對windows主機進行批量管理
2、很多功能可以挖掘使用
3、開源版本目前沒有完善的操作手冊

3.2.基礎環境

3.2.1.專線業務交換機日誌收集-loganlyzier

地址:
管理員:
密碼:
該日誌平臺只做收集交換機等網絡設備日誌,不能收集系統日誌,

IT基礎架構運維規劃

如若有更好的商業日誌收集軟件,則可以選擇替代

3.2.2.專線業務radius服務器-ciso acs 5.2

目前,所有的專線業務,包括XX各個網絡的華爲系列的交換機,都配置了radius認證,所有登陸賬號都會被集中授權和管理。
地址:
賬號:
密碼:
設備記錄
IT基礎架構運維規劃

認證記錄
IT基礎架構運維規劃

目前radius 認證服務器採用破解版部署,穩定性一般,需要注意,所有的網絡設備交換機配置3A認證時,優先採用本地認證,其次纔是radius認證,即使沒有radius認證服務器,所有的網絡設備也可以正常登陸使用,推薦日後採用專業的商業radius服務器解決方案,來滿足等級保護要求。

3.2.3.業務日誌收集-graylog

graylog 是一個用來將系統日誌syslog保存到MongoDB中的工具。 包括一個用Java編寫的服務器,可接收來自TCP和UDP的syslog信息,Web接口使用Ruby編寫,基於 Rails 框架,可用來查看日誌信息。
Wiki 地址:

地址:
管理員:
密碼:

日誌收集效果
IT基礎架構運維規劃

可以簡單使用,但是高級功能和可視化,告警等功能需要研究一段時間

3.2.4.機房資產管理-racktables

Racktables 是一個用來管理機房資產的開源工具,可以用來管理成百上千臺的服務器及更多的 IP 和 MAC 地址。適用於機房和數據中心的服務器管理。
公司wiki地址:

地址:
管理員:
密碼:

主要功能截圖如下:

IT基礎架構運維規劃

此套開源軟件,使用最爲簡單,同時操作手冊也最爲詳盡。

3.2.5.運維堡壘機-jumperserver

堡壘機作爲運維人員登陸入口,提供集中登陸和集中日誌審計功能。
地址:
管理賬號:
密碼:

推薦運維人員主要通過堡壘機對單個運維主機進行登陸管理。

3.3.生產環境

生產環境,就是對面對客戶的重要業務,由研發主導交付,運維人員需要持續關注,保證環境穩定。

3.3.1.XX業務系統

目前XX業務系統,包括已經交付使用的資源管理門戶(OA),傳輸網性能監控平臺,和處於試用階段的文檔管理平臺和流程管理平臺,前兩者運行在nutanix平臺之中,後兩者運行在vsphere平臺之中。
關於XX業務系統,公司wiki上有詳細的操作指南。每個業務系統都是部署在windows操作系統之上,web服務器使用tomcat +jdk,數據庫使用mysql,開發語言使用php和java,運維人員需要對這些方面有所瞭解。
平常運維時需要關注狀態,接受故障處理反饋。
平常故障主要集中在幾點:
1、tomcat服務啓動失敗
2、mysql服務啓動失敗
3、虛擬機存儲空間不夠
4、網絡問題導致客戶不能訪問業務
5、windows操作系統異常需要排查

3.3.2.備份容災

四臺業務服務器,都採用數據庫備份的計劃任務,保證數據級別備份;
備份的數據庫集中保存在共享NFS文件目錄中;
依靠nutanix數據保護功能進行虛擬機級別的備份容災
依靠nutanix的副本機制,實現主機存儲級別的備份容災。
針對重要業務的虛擬機和數據的備份容災,大致如下圖所示:

IT基礎架構運維規劃

說明:
1、除了傳輸網性能監控平臺採用第三方數據庫備份之外,其他的業務虛擬機數據庫備份採用mydump 腳本形式,採用計劃任務形式,自動執行
2、除了傳輸網性能監控平臺將數據庫導出備份到虛擬機本地磁盤之外,其他業務虛擬機都是講數據庫導出備份到NFS共享目錄服務器。
3、在nutanix平臺上,開啓數據保護,對重要業務虛擬機進行每月一次的定時快照備份
4、在nutanix平臺上,開啓副本機制,平臺上的所有的虛擬機都會都會三副本的機制保存在三個節點上,實現存儲級別的容災
Vsphere 平臺上沒有使用任何虛擬機保護機制

針對vsphere的平臺,實現容災備份建議如下:
1、使用存儲的複製技術,實現容災備份
2、部署vpshere data protection 組件實現虛擬機級別的備份容災
3、如有條件,更換商業版本的備份存儲一體機,實現整體存儲級別的備份容災。

3.3.3.xxx系統

目前XXxxx主要是作爲接入xxx使用,滿足客戶和運維人員遠程接入光XX內網環境進行辦公和調試需求。xxx服務器採用開源的SSL xxx的OPENxxx解決方案,使用二層隧道模式接入XX內網環境。登陸上採用域名解析實現多xxx服務器分配保證可靠性,規劃大致下所示:

IT基礎架構運維規劃

說明:
1、XX一共擁有四臺xxx服務器,vpshere上兩臺,nutanix平臺上兩臺,互爲冷備關係
2、主域名xxx.xxx.xxx,備域名xxx.xxx.xxx,使用阿里雲的域名解析服務
3、使用域名+端口號區分主用xxx和備用xxx環境,如客戶使用xxx.xxx.xxx:xxx登陸主用xxx服務器,而使用xxx.xxx.xxx:xxxx登陸備用xxx服務器。
4、阿里雲DNS服務,會跟根據用戶的實際網絡運營商環境,將域名解析爲XX不同的公網地址,如用戶使用電信網絡登陸xxx,DNS解析爲xxx.xxx.xxx.xx,如果用戶使用聯通的網絡登陸xxx,DNS解析爲xxx.xxx.xxx.xxx
5、公網地址xx.xx.xx.xx是由XX集團平臺公司cdn網絡提供,因爲核心網絡對接關係,處於聯通運營商網絡的用戶,無法正常訪問,此時需要訪問備用公網地址,所以此時需要阿里雲DNS系統來進行智能區分
6、每個平臺上的xxx服務器使用冷備,一旦主要xxx服務器不能及時恢復,可以切換到冷備服務器上,保證用戶的使用。

對於運維人員來說,除了需要關注xxx服務器的狀態,賬號登陸情況,還需要檢測域名情況,一旦域名解析故障,失效,會導致xxx服務器的訪問異常。

3.3.4.XX域名轉發-nginx

因爲XX內網環境的特殊性,所以無法直接部署內網域名服務器,重要業務無法使用域名直接訪問,所以採用阿里雲域名解析+NGINX域名轉發+keepalived高可用實現。

IT基礎架構運維規劃

1、在阿里雲DNS解析上做好了域名解析綁定,如xxx.xxx.xxx.xx,全部解析到xxx.xxx.xx.xx
2、兩臺nginx使用keepalived使用類似vrrp協議的方式實現高可用,對外提供vip
3、兩臺nginx實現雙機熱備的高可用,配置一樣,實現域名轉發到指定內網服務器。

域名轉發已經是實際上客戶訪問業務的重要手段,它能夠解決XX內網無域名解析服務器的問題,同時可以做到保證用戶使用域名方式業務
運維人員需要重點關注,按照以下幾點進行運維
1、保證阿里雲DNS解析服務能夠正常
2、保證nginx服務以及域名轉發配置正常
3、保證keepalived服務器進程正常,不能處於腦裂狀態
4、保證防火牆策略正常,vlan101網段可以訪問vlan102網段,保證nginx網絡上轉發正常。

3.3.5.跳板機安全-360企業版

目前XX環境下,有很多跳板機,除了作爲內網接入跳板提供給客戶和運維人員使用之外,還作爲一條屏障,阻隔外部網絡病毒影響和***行爲,主要是依靠360安全衛士進行。

運維人員,需要關注360安全服務器,保證能夠穩定正常。

IT基礎架構運維規劃

3.3.6.報警監控體系

運維工作中,有很多情況,是需要進行設置告警的,在出現問題之後,能夠及時知曉並進行處理。

IT基礎架構運維規劃

運維人員需要及時配置相應系統的告警配置,包括nutanix平臺,vsphere平臺和基礎環境。

3.4.運維工作流程

IT基礎架構運維規劃IT基礎架構運維規劃

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章