智能運維項目引入的“負熵”衝擊波

文/牛文燦

多年前,任正非在《華爲之熵》之中提到:企業運作和管理是一個走向“熵增”乃至“熵死”的過程,若想保持基業長青,就需要打造耗散結構來抵禦“熵增”,激發企業活力並不斷提升企業發展勢能。這套華爲活力引擎模型(即耗散結構)後來奠定了華爲發展理念的基石,那麼何爲“熵增”?如何減緩“熵增”甚至觸發“負熵”衝擊波?

量子物理學奠基人薛定諤曾對“熵”有過這樣的定義:“自然萬物都趨向從有序到無序,即熵值增加。而生命需要通過不斷抵消其生活中產生的正熵,使自己維持在一個穩定而低的熵水平上。生命以負熵爲生。”
在這裏插入圖片描述
事實上,“熵”源於熱力學第二定律,主要用來度量一個系統內的混亂程度。對於一個封閉的系統,如果沒有外界能量注入的話,最終的演化趨勢是熵增越來越大。日常生活中有很多這樣的例子,比如屋子不收拾會變亂、手機性能會越來越卡頓、熱水會慢慢變涼甚至是頭髮會變得越來越少。

可是“熵增定律”和我們的日常工作有什麼關係呢?

其實我們所在的企業、組織也可以理解爲一個封閉的系統。在這個系統內,熵每天都在增加,而只有持續引入負熵才能減緩熵增的趨勢。引入負熵,可以理解爲引入外部資源、外部智慧來推動內部的變革,從而使內部的混亂變得有序。這裏的“有序”,可以理解爲溝通更順暢,行動更高效,業績提升水到渠成。

對於長年奔波在不同項目上的人來說,每一個項目就像是引入“負熵”減緩“熵增”的過程,即通過引入外部優秀資源,推動內部革新,使得項目效能得以提升,並間接促進企業高效長久的發展。以下,以經手的一個智能運維項目爲例,簡單闡述如何做到減緩“熵增”甚至觸發“負熵”衝擊波效果。
在這裏插入圖片描述
項目的主要目標是解決某中型銀行客戶(以下簡稱“A行”:一家位於中國南部的股份制銀行)日常運維中存在的告警風暴問題。A行主要運維痛點是告警風暴頻發,系統日增告警量達5000多條。在這種情況下運維人員根本無法及時處理告警事件,系統問題更無法及時得到修復,勢必會引發用戶頻繁投訴。A行迫切需要引入智能化的運維方案來解決橫亙已久的問題,破除告警風暴難題,提高告警處理能力。

在實地瞭解到客戶的現狀和痛點後,我方諮詢專家給出的方案是通過實施告警信息豐富、告警智能壓縮、告警智能關聯、精準推薦告警優先級等功能,幫助運維人員逐步實現少做事、做重要的事、更高效地做事等三級目標。這些核心功能,最終要依賴擎創的智能運維產品——告警辨析中心來實現。

這些功能的實現邏輯如下:
1、告警信息豐富:原始告警信息關聯CMDB配置信息,做如下內容豐富;
在這裏插入圖片描述
2、告警智能壓縮:利用智能算法將相同或者相似的告警進行合併壓縮;
3、告警智能關聯:利用智能算法將可能是同一種根因產生的告警關聯在一起,方便用戶迅速查找問題癥結;
4、精準推薦告警優先級:智能算法推薦告警優先級,使告警級別標註更精準。
在這裏插入圖片描述
整個項目歷時3個月,投產後壓縮掉了82%的無效告警,並大大提高了運維人員的排障效率,客戶投訴量也降低了50%,真正達到了減緩“熵增”的過程。

此外,這個項目也引發了“負熵”衝擊波,了卻了客戶心中的難題。A銀行使用的監控平臺建設於2009年,雖然採用的是某知名國際軟件廠商的產品,但是產品的架構、功能和性能已經遠遠無法滿足當前業務需要。客戶3年前就表示希望更換監控平臺,但由於涉及部門過多,新監控平臺建設工作遲遲無法推進。

此次智能運維項目中發現客戶的指標數據採樣頻率和告警頻率都是5分鐘一次,已經無法反應系統的真實狀態,且會遺漏大量有價值的數據和信息。經過項目組向客戶多次彙報和反覆溝通,終於推動客戶下定決心升級監控平臺,目前該項目已經進入UAT測試階段。

《高效能人士的七個習慣》這本書告訴我們,能掌控的事情就盡力掌控,無法掌控的事情就儘量去影響。A銀行客戶更新監控平臺的決策可以說是“儘量影響”的結果。而這恰恰是智能運維項目的開展,外部資源(負熵)的引入,推動了新監控平臺項目的建設。這次“負熵”引發的衝擊波促成了客戶一直想做,卻一直未做的事情,可以認爲是一箭雙鵰了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章