讓IT自動化

從手工賬簿到財務軟件,從櫃檯長龍到電子銀行,從紙質流程到移動辦公,IT讓業務越來越自動化,越來越高效;但IT自身爲什麼不能更自動化些?

什麼時候網絡管理員能擺脫四處救火的消防員形象?什麼時候數據庫管理員能夠從容應對海量數據的監控、管理?什麼時候系統管理員能夠吃着火鍋、唱着歌,就能確保系統正常運行呢?

自動化 必須的

2010年5月份,第三方研究公司Coleman Parkes Research的調查研究結果顯示,企業的IT支出呈現出 70/30 規則,即與新的IT計劃相比,企業70%的錢都花了現有系統的運維上。而IT運維人員70%的精力和時間都花在了日常巡檢、系統發佈、配置等基礎運維工作上。

的確是如此。在4月9日舉行的“自動化:IT的未來——惠普軟件IT自動化用戶研討會”上,一位不願透露姓名的某國有大型銀行技術經理以其數據中心爲例向記者介紹,複雜的架構、繁雜的工作、嚴格的流程、紛繁的系統、衆多的管理團隊和離散的操作,讓系統運維工作佔用了大量的資金和人力成本,但實際效果卻不怎麼樣。

因爲集中複雜的服務器、網絡和存儲部署與多點分佈的業務應用之間存在大量的相互依賴的關係,在複雜的架構下,“要手工做持續的大量變更非常容易出錯,且前後不一致;而在運維組、調度組、安全組等不同的團隊及系統之間的調度和協作也因缺乏標準化控制而凌亂;在各自獨立的系統視圖下對網絡、服務器、存儲等基礎設施豎井式的分離管理也讓運維工作不能體現出整體效應。”這位技術經理感慨地說。

一方面,企業既需要用自動化工具替代手工操作,把IT人員從繁瑣的日常運維工作中解放出來,使其不再做重複勞動,可以有更多的時間去做更具創新、更有價值的事情;另一方面自動化也能解決一旦系統出現問題後,各個崗位互相扯皮、責任不清的問題。

“無論是從人工成本還是系統效率還是支撐業務創新的角度看,IT自動化都是必然的趨勢。”中國工商銀行數據中心安全部副總經理敦宏程肯定地對記者說。

光大銀行運行管理處項目經理張憲鐸也對記者說,“各銀行具體環境不太一樣,得根據銀行自己實際情況綜合考慮,在風險可控的前提原則下,自動化應該是個大方向。

業務導向的運維

“現在很多監控、管理工作是孤立的,網絡、服務器、數據庫、業務之間不相互關聯。一旦業務出現問題,沒有一個統一、簡單、可控的監控與管理,不能自動化,無法高效地解決問題。” 惠普全球運維管理資深專家Jonathan研討會上以美國大型醫療藥品供應商麥克森(McKesson)的數據中心自動化運維爲例,介紹了當前IT運維的現狀和難點和自動化IT的價值。

當然,IT自動化的價值不只是在於保障系統本身的正常運行,降低運行成本,提高運行效率,更重要的是要高效、靈活地實現IT對業務的支撐,應對加速變化的業務流程,與業務融爲一體,不斷創新。

惠普軟件技術總監於志偉用醫院急診的例子介紹了瞬捷企業對IT自動化需求的必要性。“一名昏迷的病人被送進急診室搶救,掃描一下,這名病人的病史、過敏史等所有信息就都展現在了醫生面前,醫生就可以對症採取急救措施了。在醫院,時間就是生命。試想如果沒有自動化的IT手段收集、快速查詢、傳輸這些信息,搶救情況會多麼糟糕,而單靠人工是不可能做到的。”

另外,他也說,現在企業對CIO的期望,不再只是保證系統的可靠性和可用率,而是得面向業務,更加敏捷、高效地去適應業務流程,通過IT獲取更多的業務機會、增長利潤、體現競爭優勢。而通常情況下,要實現這些CIO不得不還得面臨的一個“殘忍”現實是並沒有增加新的IT預算。還是原來那些錢,但卻要做更多事,那麼CIO就必須簡化IT,通過IT自動化實現創新的目標。

在於志偉看來,IT自動化分爲三個階段:第一個階段是單個任務自動化,用自動化工具取代日常手工作業,比如服務器自動巡檢、自動化測試應用上線等,這樣可以解放IT人力等資源投入到其他創新項目,這個階段是目前大多企業都可以做到的;第二階段是自動化IT流程,依據ITIL等標準化的最佳實踐,實現配置、變更、事件等管理的自動化,將過去要用2-3個小時做的事情現在用幾秒鐘完成,這階段是IT應用相對成熟的金融、電信等行業用戶正在做的;而第三個階段就是要實現服務自動化,比如上線一個ERP系統、CRM系統,過去可能需要5個月,而通過自動化,通過雲服務就可以2個小時完成。於志偉說,怒目前很多企業都是已經實現了服務器、網絡、存儲等基礎設施的自動化,而面向業務的流程和服務自動化則是大勢所趨。

Jonathan則針對目前IT運維的現狀,提出企業先要整合網絡、存儲、服務器等各自的監控管理平臺成一個平臺,然後從業務出發,看業務需要落實什麼,再將業務與IT緊密關聯,並通過恰當的支持體系實現整個運維過程的自動化。

在會上,惠普軟件自動化專家陳禾也向與會嘉賓介紹了惠普針對數據庫和中間件自動化的DMA解決方案。他認爲,針對數據庫和中間件自動化的DMA是基礎架構到應用之間的一個連接紐帶,是一個非常重要的連接點。

關鍵是基礎腳本庫和流程庫

已經有兩年數據中心自動化建設經驗的某大型銀行數據中心負責人向記者介紹了他們的經驗。

“我們當時做自動化建設的起因是運維工作面臨着三大困難:一是隨着數據中心的業務發展,運維的規模不斷膨脹,管理體系不斷增加,但人手卻沒有增加,有限的人手怎樣面對複雜的運維環境是當時最突出的矛盾。第二個困難就是在配置管理部分,因爲從系統安裝到後期運維的整個運維生命週期內,配置管理信息非常多。作爲普通的系統管理員,面對海量的配置要求,如何能一次性地、準確地獎信息輸入電腦非常關鍵。第三就是在數據中心的日常項目管理方面,相關軟件的部署和運維不能100%覆蓋整個系統,總會有5%部分的系統是沒有覆蓋到的。這是因爲今天的數據中心已經涵蓋包括軟件、傳輸、ITM監控等非常多的產品,普通的系統管理員很難全部掌握全部產品的運維知識和技能。”這位負責人說。

如何解決這些困難呢?自動化是非常好的方法。從2009年開始,該行開始了自動化建設一期的建設。立項之初,項目就設立了三大目標,第一是做什麼,就是要建立跨平臺、面向服務的自動化運維管理體系。第二是怎麼做,核心環節是什麼,就是要發展不完善的基礎腳本庫和基礎流程庫,這兩樣是其整個自動化運維的核心關鍵。“只有把腳本庫和流程庫很規範地建設好後,才能在複雜的環境中推進自動化運維,否則雖然自動化在某些情況下能提高工作效率,還是會帶來負面的風險。” 他說。

第三就是組織架構,數據中心怎樣協調系統部、應用部、運維部、調度部、安全部等各個技術水平不一的部門共同實施自動化,必須得有方法、有制度。“我們不斷將自動化的知識、理念、平臺的使用方法等做知識轉移,讓像系統部、應用部等技術能力較強的部門接受自動化工具,同時也協調一些流程管理部門,像安全部、調度部等,讓他們的日常工作也越來越自動化。”

經過兩年的努力,該負責人介紹,該行已經實現了系統運維的自動化,包括配置信息的收集、系統日常健康檢查等,把日常重複、簡單、可控的工作,納入自動化範疇;其次就是實現了一些操作的自動化,比如數據中心網上批量處理的自動化;還有災備切換的自動化。

他以系統健康檢查自動化爲例,向記者介紹他們的具體做法就是將健康檢查的標準、規範的前提形成一些腳本,通過自動化運維平臺定時地調用這些腳本,生成的報表可以快速地反饋到運維人員的信箱。“當時我們就是每天晚上大概三四點鐘的時候,定時執行這個自動化任務。每天早上九點鐘,系統管理員上班打開電腦就可以從他的郵箱裏面看到昨天晚上整個系統的運維情況。他就不用再花時間到不同的平臺上去檢查這些參數,只要對這些報表進行瀏覽,再對他覺得有疑點的地方做正式的檢查和排查。通過這種方式,在節省時間和人力成本的同時,確保了系統的可用性,降低了發生問題的風險。”

在於志偉看來,IT自動化分爲三個階段:第一個階段是單個任務自動化,用自動化工具取代日常手工作業,比如服務器自動巡檢、自動化測試應用上線等,這樣可以解放IT人力等資源投入到其他創新項目,這個階段是目前大多企業都可以做到的;第二階段是自動化IT流程,依據ITIL等標準化的最佳實踐,實現配置、變更、事件等管理的自動化,將過去要用2-3個小時做的事情現在用幾秒鐘完成,這階段是IT應用相對成熟的金融、電信等行業用戶正在做的;而第三個階段就是要實現服務自動化,比如上線一個ERP系統、CRM系統,過去可能需要5個月,而通過自動化,通過雲服務就可以2個小時完成。於志偉說,怒目前很多企業都是已經實現了服務器、網絡、存儲等基礎設施的自動化,而面向業務的流程和服務自動化則是大勢所趨。

Jonathan則針對目前IT運維的現狀,提出企業先要整合網絡、存儲、服務器等各自的監控管理平臺成一個平臺,然後從業務出發,看業務需要落實什麼,再將業務與IT緊密關聯,並通過恰當的支持體系實現整個運維過程的自動化。

在會上,惠普軟件自動化專家陳禾也向與會嘉賓介紹了惠普針對數據庫和中間件自動化的DMA解決方案。他認爲,針對數據庫和中間件自動化的DMA是基礎架構到應用之間的一個連接紐帶,是一個非常重要的連接點。

關鍵是基礎腳本庫和流程庫

已經有兩年數據中心自動化建設經驗的某大型銀行數據中心負責人向記者介紹了他們的經驗。

“我們當時做自動化建設的起因是運維工作面臨着三大困難:一是隨着數據中心的業務發展,運維的規模不斷膨脹,管理體系不斷增加,但人手卻沒有增加,有限的人手怎樣面對複雜的運維環境是當時最突出的矛盾。第二個困難就是在配置管理部分,因爲從系統安裝到後期運維的整個運維生命週期內,配置管理信息非常多。作爲普通的系統管理員,面對海量的配置要求,如何能一次性地、準確地獎信息輸入電腦非常關鍵。第三就是在數據中心的日常項目管理方面,相關軟件的部署和運維不能100%覆蓋整個系統,總會有5%部分的系統是沒有覆蓋到的。這是因爲今天的數據中心已經涵蓋包括軟件、傳輸、ITM監控等非常多的產品,普通的系統管理員很難全部掌握全部產品的運維知識和技能。”這位負責人說。

如何解決這些困難呢?自動化是非常好的方法。從2009年開始,該行開始了自動化建設一期的建設。立項之初,項目就設立了三大目標,第一是做什麼,就是要建立跨平臺、面向服務的自動化運維管理體系。第二是怎麼做,核心環節是什麼,就是要發展不完善的基礎腳本庫和基礎流程庫,這兩樣是其整個自動化運維的核心關鍵。“只有把腳本庫和流程庫很規範地建設好後,才能在複雜的環境中推進自動化運維,否則雖然自動化在某些情況下能提高工作效率,還是會帶來負面的風險。” 他說。

第三就是組織架構,數據中心怎樣協調系統部、應用部、運維部、調度部、安全部等各個技術水平不一的部門共同實施自動化,必須得有方法、有制度。“我們不斷將自動化的知識、理念、平臺的使用方法等做知識轉移,讓像系統部、應用部等技術能力較強的部門接受自動化工具,同時也協調一些流程管理部門,像安全部、調度部等,讓他們的日常工作也越來越自動化。”

經過兩年的努力,該負責人介紹,該行已經實現了系統運維的自動化,包括配置信息的收集、系統日常健康檢查等,把日常重複、簡單、可控的工作,納入自動化範疇;其次就是實現了一些操作的自動化,比如數據中心網上批量處理的自動化;還有災備切換的自動化。

他以系統健康檢查自動化爲例,向記者介紹他們的具體做法就是將健康檢查的標準、規範的前提形成一些腳本,通過自動化運維平臺定時地調用這些腳本,生成的報表可以快速地反饋到運維人員的信箱。“當時我們就是每天晚上大概三四點鐘的時候,定時執行這個自動化任務。每天早上九點鐘,系統管理員上班打開電腦就可以從他的郵箱裏面看到昨天晚上整個系統的運維情況。他就不用再花時間到不同的平臺上去檢查這些參數,只要對這些報表進行瀏覽,再對他覺得有疑點的地方做正式的檢查和排查。通過這種方式,在節省時間和人力成本的同時,確保了系統的可用性,降低了發生問題的風險。”

 

自動化的前提是風險可控

自動化雖是大勢所趨,但記者採訪發現,用戶對於自動化還是非常謹慎的。敦宏程認爲其實銀行有些流程環節是必須要有人介入的,不能什麼事都自動化。敦宏程認爲,要推進自動化,供應商產品的成熟度也是他們要考慮琢磨的重中之重。因爲曾經他們遭遇尷尬的自動化事件,有個項目中,他們需要部署幾百臺某其他品牌服務器,預備採取自動化部署方案,預留的部署時間就很短,結果在在第二天要投產之前發現自動化部署有問題,他們不得不把所有人集中在機房,一人幾臺機器趴在地板上連夜手工裝機器。“可控性是我們考慮的第一要素。”

北京京東方光電科技有限公司自動化部部長邢明海也表示,出於安全的考慮,需要從效率和控制兩方面均衡考慮配比自動化和手工兩種方式。

張憲鐸認爲自動化和手工會有慢慢轉化的過程,就像複雜和簡單之間也是在慢慢轉化一樣。他說,目前對光大銀行來說,可以自動化的還是那些常規性、重複性的簡單操作,他們現在主要做的還是把相當於眼睛和耳朵的監控工作做到位,通過對基礎設施和業務的監控,及時發現問題,保障系統和業務的可用性和連續性。推進自動化的最終原則就是風險可控,風險可控的前提下把繁瑣操作自動化提高效率是好事,但如果風險不一定可控,就不能冒冒失失地推進自動化。

飯要一口一口吃,路要一步一步走。企業的IT自動化之旅,得按部就班、循序漸進。

案例鏈接:

麥克森的自動化故事

麥克森是美國的一家大型醫療藥品供應商,在全球500強排名34,在財富500強的美國公司中排名第14,年營業額1060億美元,是美國醫療藥品批發領域的頭一把交椅,有超過4萬家的藥店,同時它還是醫療流程系統提供商,像醫療記錄、藥方的合規審計等領域的軟件都是由麥克森提供的。

麥克森的問題有兩個,一是它基礎設施和業務應用的監控相互獨立,一旦業務出現問題,無法定位問題源於何處;二是其系統的應用可靠性和性能非常重要,因爲系統宕機一小時,麥克森就損失上百萬美元,而在線銷售藥品的部分,頁面反饋時間超過8秒,消費者就會離它而去。

麥克森現在採用了一套IT基礎設施監控軟件,但是系統沒有集成,應用組件、存儲、網絡和監控軟件之間完全孤立,流程全是通過手工來做,大量的事件無法處理。於是麥克森開始系統改造,業務部門和IT部門共同提出了項目需求:提升服務管理水平,縮短平均修復時間(MTTR),降低成本並提升流程一致性,提升業務服務可視性,集成監控並實現自動化。

經過比對篩選,麥克森最終選擇了惠普。項目目標就是要實現所有基礎設施監控與事件關聯,實現事件的處理和故障恢復的自動化。項目分爲兩期:第一期是採用惠普的一些監控工具和自動化的工具實行監控的自動化和故障採集的自動化;第二期是實現故障解決的自動化。

項目共需要管理麥克森的3000臺服務器。第一期項目中,他們着重對事件進行關注,用自動化的方式定位事件的根源;然後注意在流程處理過程中保持測試的準確性,保持處理策略的一致性,用很多即插即用的插件實現監控的標準化管理。

項目一期實現了自動化的從事件發生到處理到結束的閉環事件處理流程。項目4億美元的投入不到半年就收回成本了。通過自動化,麥克森節省了大量的工作時間,SLA水平也得到了顯著提升。

而麥克森自動化的經驗就是先把自動化門戶建起來,用一些自動化工具去解決流程,但是這並不意味着直接用自動化,而是先手工運行一段時間,流程穩定的時候再讓它自動去實現。如此下來,所有事件都能很好地解決。接下來麥克森還會利用惠普的新平臺做業務與基礎設施關聯的實時互動模型等。

 

(責任編輯:洪蕾)

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章