【262期門診集錦】IT運維自動化的進階體驗

  技術門診是51CTO社區品牌欄目,每週邀請一位客座專家,爲廣大技術網友解答疑問。從熱門技術到前沿知識,從技術答疑到職業規劃。每期一個主題,站在最新最熱的技術前沿爲你引航!

    本期特邀H3C管理軟件產品總工,系統架構師郭曉徵,針對IT運維自動化領域的相關知識和經驗技巧進行解答,歡迎網友積極提問,與專家一起討論!

查看本期門診精彩實錄:http://doctor.51cto.com/develop-276.html

精選本期網友提問與專家解答,以供網友學習參考。

 

Q: 郭工:

      您好,一直在IT運維這塊有個疑問不知所措,前些年公司規模較小,IT這塊可以說是很簡單,近幾年隨着公司快速發展,公司IT這塊運維已經跟不上公司發展的速度,在公司發展期間網絡這塊一直也未進行大的變革,始終抱着一種”能用即可“得態度,所以導致現網絡支撐很弱,並且存在很大的隱患,很多網絡故障均是不可控,可以說IT到了一個瓶頸的程度,我初步設想是藉着公司上EAS項目的機會進行整改,郭工根據您的經驗不知是否可行,還有就是網絡改到什麼程度,系統架構、產品選型不是很清晰。

A: 您好,您的這個問題實際上能反映的兩個現狀,第一,公司業務促發了IT的快速增長,第二,領導沒有重視IT運維的重要性,以爲原有的IT運維就可以跟上現在的發展情況。

我給您的建議有二:

第一,不要從IT的角度看待IT運維,要從業務的角度來看IT運維。這句話說白了,單位的其他部門員工不關心你怎麼維護服務器或者交換機,他們關心的是自己所面對的業務系統是否穩定。所以,首先請拆分自己單位的業務模式,哪些是重要系統,那就優先管控相關的IT支撐基礎。網絡改造、系統架構、產品選型等工作,最終目的還是支撐業務系統,如果你做到了關鍵業務優先運維,那麼你的領導和同事對你的認可度也會提高。

第二,不要僅把IT運維繫統侷限在NSM層面,這方面我真的希望您關注一下iMC的“端到端”的概念,如果做到了端到端,很多問題立刻可以迎刃而解,如果沒做到的話,也會給你很多的思路和方法。

 

Q: 您好工程師:一直以來單位的運維方面都比較混亂,從最初的簡單局域網到現在,每年都在增加設備,除了網絡設備、系統服務器還有機房環境設備,在網絡這一塊今年纔在我的強烈要求下增加了個北塔網絡運維管理軟件,但是要做好自動運維還是有很多無法做到的,主要感覺是工作分塊比較多,很難有個設備或者軟件能夠全部管理過來,只能網絡找個軟件、設備找個軟件,報警再找個硬件發信息,請問一般在規劃自動運維的話主要從哪些方面入手會比較好,在管理設備及軟件的選擇上不知道行業內是不是有什麼成熟的品牌和設備?

A: 您的問題跟一樓的朋友很類似,一部分請參見我對jdk521的回覆,另外,我要額外說一下,很多開源的系統有很好的功能,但是請注意,您一定感覺到了,開源的系統很難有效的呼應結合,即便你用了很多類似流量管理、設備管理的第三方開源系統,但是從根本上來講,頭疼醫頭,腳疼醫腳的現象沒有改變,你依然是個救火隊員,只不過你的裝備從滅火器變成了高壓水槍。自動化運維的入手,第一方面是要拆分剝離你們單位的業務,首先做到關鍵業務優先,如果重要業務很多,請參見iMC的端到端解決思路。

 

Q: 郭工,你好:

        對於IT運維自動化這個領域關注了很久,介於工作性質,我們經常是用腳本結合應用程序的方法來實現自動化,但是仍然少不了人工,譬如故障後關鍵日誌的排查、故障範圍的確認、故障解除後是否業務可以正常啓動等等。現在我想了解一些其他平臺上的運維自動化的相關案例,譬如嵌入式等等。在某些特定環境下,IT運維自動化的優化思路該遵循什麼原則呢?

A: 呵呵,首先,再好的自動化運維也少不了相關的IT人員,畢竟運維繫統也是需要人來用的。所以,在任何工作中,人是最關鍵的,而相關的系統只是輔助的工具。IT運維自動化的優化思路還是要根據公司的業務來進行優先。這點我在之前的兩個問題中都說到了。IT運維人員的通病就是只看到了自己面對的IT層面的東西,忽視了相關業務的支撐。須知,任何IT層面的東西,歸其根本,是爲了支撐上層的業務,弄清了自己所在單位的業務,對應了相關業務所需要的應用系統,你的思路自然會清晰。我記得正德人壽的CIO裴老師說過:“CIO的第一工作是弄清業務,只有弄清業務,才能知道哪些東西優先做,哪些東西可以先放一放,畢竟,你的預算就那麼多”,這句話我覺得非常正確。

 

Q: 郭工,您好:

      對於IT運維自動化這個概念聽過很長時間了,但是到現在還是沒有一個感覺清晰的理解。像公司希望我們進行自動化運維,通過這個在網上找了很多資料,像現在的WebistranoCapistranoCrontrolTierpuppet等說都是自動化運維軟件,真正嘗試了,其實都是我們寫下固定的shell腳本通過web界面來運行腳本,因爲是既定的shell腳本,肯定只能完成一些固定化的工作,並不能完全實現自動化運維,所以問下,實現運維自動化達到何種目的算是成功?或者說是應該怎麼走?謝謝!

A: 腳本是一個關鍵,但是僅有腳本肯定不夠。自動化IT運維的根本衡量標準是看實施之後,其他部門的員工是否感受到了IT運維,當他們感受不到的時候,那纔是成功。自動化IT運維的實施過程,首先應該剝離業務,把每個關鍵業務的IT支撐搞清楚,然後再看看相關的自動化運維方案所提到的方式方法能否把這些關鍵的IT支撐點管理好,在這個基礎上,很重要的一點是吧眼光放大,放到IT和業務結合的全局角度來看,這樣的一套自動化運維繫統能否在至少三年內,滿足企業對於業務穩定的要求。站在業務層面看IT,這點太重要了

 

Q: 郭工,您好,我是一名在校大學生,我有幾個問題想要請教。1、信息化是否等同於自動化;2、信息化的實現需要藉助於哪些東西;3、運維在未來的信息化時代裏會起到多大的作用;4、對於一個信息專業的學生,您能否給一些建議,好讓我們明確未來的發展方向。謝謝

A: 信息化不同於自動化,否則爲什麼會有自動化專業和信息化專業的劃分呢?呵呵。信息化粗曠的看需要三個層面,第一,底層的硬件支撐,第二,中間的操作系統、數據庫、虛擬化等技術的搭建,第三,上層業務系統的實現,這三方面缺一不可,除了這些必要的基礎,還需要相應的運維工作保證信息化的安全穩定。運維在今後的發展中將會越來越重要。如果你瞭解雲計算的話,你應該知道,雲計算對於企業而言,是一個數據大集中的工作,而在這個工作中,運維能否隨之發展,是雲計算能否成功的一個充要條件。您未來的發展方向其實很多,開發、網絡、系統、虛擬化、架構設計等等,都是方向,關鍵要看你的興趣點了。

 

Q: 您好:

       從大陸現有網管軟件上來看,imc應該算是業界功能最齊全的網管軟件。至今還沒有任何企業將該軟件的所有功能全部運用到。

請問是否後期的網管平臺可以看作一個完全自動操作的智能化平臺,只需要設置某些筏值後,管理平臺都會自動進行。如:設備軟件版本損壞後down機,根據前期在平臺的設置,平臺會自動識別該設備軟件版本損壞,對該設備進行自動重新灌輸軟件版本及根據前期配置的備份對配置進行導入?

A: 您說的很對,iMC強調的是跟隨企業的成長而輔助其運維工作的成長。不過在金融、電信等大型行業中,iMC的絕大多數功能都已經順利的實施了。後期的自動化運維平臺肯定是智能平臺,但是是否能完全自動操作,這個我還沒見過有哪個系統敢說自己可以完全自動操作。否則的話,IT運維工程師這個職業就不存在了。您所舉的這個例子是可以自動化操作的,但是我也舉個例子,比如說由於突發的停電,導致了某服務器在UPS所支撐的時間內沒有實現完全的備份,或者直接硬盤壞掉了,這個時候還是需要人工操作的。

 

Q: 郭老師你好,我們公司因爲IT部門分工過細,網絡,系統,維護都是分開的,各組只是負責自己的業務,如果實現運維自動化,如何去有效的在原有的分工明確的基礎上更好的工作。還有運維自動化如何有效的解決像我們公司這種系統,網絡分工明確的工作方式。

A: 其實,IT部門分工這個理念我並不反對,針對IT細分後的專人專管是一個很好的工作模式。怕的是出現了問題之後,每個人都在推卸責任,比方說一個簡單問題,財務部門的系統無法訪問了,然後找原因的時候,網絡部門說網絡通暢,系統部門說服務器運轉正常,安全部門說沒有遭受***,結果扯了半天皮,問題沒有絲毫的解決。如果實現了IT運維自動化,一方面,通過權限劃分,讓不同分工的IT管理者都能夠更加及時有效的掌控自己所面對的工作範圍,另一方面,由於問題定位非常準確,可以有效的杜絕出現問題後的扯皮現象。另外,雖然IT部門進行了分工,但是不得不說,還是有些工作會出現交集。比方說,安全部門的人覺得路由器不夠安全,處於安全性考慮,他去做一個策略調整,這個貌似不過分,但是對於網絡部門的人來說,很容易出現問題,因爲他不知道安全部門的人調整了路由策略,如果實現了運維自動化,通過變更流程管理以及相應的留痕功能,這類問題就可以有效地解決。

 

Q: 郭工您好,我想請教一下您關於網絡日常運行維護中間需要注重檢查哪些方面,有些問題很簡單,但一個簡單的網線不通就影響整個樓的通信,這是不是我這裏的管理不到位,還是運維沒有做好?還有一個問題是,單位的設備是H3C的,需不需要學習H3C的認證,還是學習思科的東西?這些也是我迷茫的一個地方。謝謝!

A: 先說第一個問題,其實傳統人工運維的日常工作由幾個,第一,對於網絡設備的維護、第二,對於服務器以及操作系統(包括虛擬化、數據庫等方面)的維和,第三,對於安全方面的維護,第四,對於終端的維護。但是,對於很多問題,人工運維是無法解決的。我曾經遇見過一個客戶,出現網絡問題,最後排查出來的原因是因爲網線被老鼠磕斷了,這樣的問題雖然看上去很好笑,但是實際工作中這個問題他們用了幾乎兩天的時間才找到根源。這樣的問題不屬於人員工作沒到位,而是人工運維無法來預防並且解決這樣的問題。另外,第二個問題,我當然希望您學習H3C的認證,這個認證能夠幫助你提升您的工作技能和技術水平。但是,我還要說回來,其實網絡相關的知識和技巧,萬變不離其宗,關鍵看你能否融會貫通,最後形成自己的理論和經驗。

Q: 郭老師,您好!我想諮詢下,運維自動化具體能幫助我們這些一線的管理員做些什麼。比如我們分別負責國內幾個地方的網絡和服務器,但是一旦***存在故障或者其他硬件故障,遠程管理員沒有辦法獲取更加詳實的信息的情況下。自動化管理能幫助我們解決這些問題嗎?

A: 當然可以了,iMC是基於B/S結構的自動化管理,它能做到的事情很多,從底層的IT基礎來看,他可以實現的功能就包括服務器的監控、網絡設備的監控、以及***信道的監控等等對於目前市面上所能見到的所有底層IT基礎設施的實施監控。對於您所問的問題,有了這些底層的實時監控,通過預設的閥值,您可以做到有效的預故障處理,如果出現了突發故障,您也可以馬上定位故障根源,而不用等到問題爆發,再去找故障問題根源等等。您所說到的詳實信息,它都會完整的提交給你。但是,iMC的功能特性遠不止這些,它爲用戶提供的是一個端到端的整體解決方案,能夠幫助用戶站在業務的角度看待IT,將IT管理者從一個單位內部的技術人員轉化成相關的決策人員,這些同樣也是iMC能夠幫助IT管理者達到的目的。

 

Q: 郭老師您好,

每個公司都搞IT運維,而且運維人員技術水平不齊,對公司來講是很大的風險,同時浪費大量人力物力等。因此IT運維長期看外包是最佳方式?

A: 運維人員水平參差不齊,有一些比較牛的運維人員離開了單位,又沒有留下充足的運維經驗,對於公司來講不僅是風險,而且是損失。IT運維外包是一個好方法,但是對於一些單位而言,IT運維外包是不容許的,比方說金融行業、政府行業等等,還有很多單位,不喜歡IT運維外包的理由是他們覺得這樣不安全,因爲現在的IT已經不是簡單的支持業務了,信息化已經成爲了核心業務的承載平臺。所以這個時候,很多人開始考慮IT運維自動化。IT運維自動化對於公司IT運維人員水平不一的現象有着非常大的幫助,因爲它有一個非常好的知識庫功能,在這個知識庫中,會有很多常見問題的解決方法,當問題出現時,IT運維自動化系統一方面會向IT管理者進行告警,另一方面會從知識庫中尋找相匹配的問題解決方式方法進行推薦。同時,這個知識庫是隨着IT運維人員的工作而成長的,如果某次IT故障出現後,知識庫中並沒有相匹配的解決方法,那麼IT管理者可以像記錄工作日誌一樣把此次故障的現象和解決方法錄入知識庫,以便下次出現類似問題,相關的IT管理者可以及時解決問題。這樣一來,公司的IT運維經驗會一直傳承下去,不會因爲人員流失而導致IT運維工作出現各類問題。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章