AI和雲技術將會給運維帶來哪些變化?

根據IDC研究:2019年全球ICT市場規模已經達到5.1萬億美元,其中數字化轉型已經成爲了企業的核心戰略。數字化轉型推動第三平臺技術進入到第二篇章(第三平臺技術是指以雲、大數據和移動社交爲核心的技術)。

IDC中國企業級研究部助理副總裁周震剛

對企業來說,數字化轉型意味着決策模式創新、運營模式創新、生產模式創新、產品服務創新和盈利模式創新。如果具體到數字化應用,IDC中國企業級研究部助理副總裁周震剛表示:“2019年最重要的數字化應用包括:使用微服務和容器的雲平臺上的敏捷應用架構;基於數據管理、認知、人工智能和機器學習的智能核心;基於雲的應用程序接口策略,協調整個生態系統中的數據交換;完全支持面向客戶和生態系統的業務模式的新客戶體驗技術。”

無論應用發展產生了哪些開發和部署的新趨勢,都需要運維和監控模式去管理。20年前的PC時代,應用數量可能只有成千上萬個,可以用手工和人力管理,而到了移動互聯網時代,應用數量暴增至上百萬、上千萬之後,手工管理變得不現實了,更多新的運維工具開始出現,例如,利用人工智能技術來提前規劃IT資源、提前分析故障、預測未來趨勢等等。本文就從Dynatrace來看看新時代的運維監控工具到底有哪些變化。

AI 如何應用在運維領域?

Dynatrace全球銷售總裁Stephen Pace

說起AI、雲與運維的關係,Dynatrace全球銷售總裁Stephen Pace 曾在採訪中表示:“現在的應用交付主要通過雲的方式來進行,特別是在這個數據爆炸的時代,面對錯綜複雜的數據關係,AI正在迅速成爲唯一能夠爲企業提供所需支持的解決方案。Dynatrace 的整個產品線以AI爲核心,爲企業提供能判斷因果關係的分析,在複雜的雲環境下,梳理因果關係、找到根因,迅速定位問題發生的位置,帶來決策AI的效果。”

AI在運維領域中有很多種不同情況的應用場景,Dynatrace 全球技術副總裁Chuck Miller爲我們講述了AI在各個階段的應用:

Dynatrace 全球技術副總裁Chuck Miller

  • 數據收集階段:想要應用AI或者自動化,很重要的一點是要擁有高保真的數據,那麼這些數據從何而來呢?OneAgent技術可以在應用環境中自動地發現需要觀測、監控的數據,包括網絡、系統、容器以及微服務中的數據,收集完之後還可以把相關內容呈現出來。
  • 數據處理階段:收集到這些數據之後,AI引擎就可以深度處理數據。Dynatrace系統中還包括機器學習Built-in(內置)、自動Baselining(基線),結合AI引擎就可以分析得出某些結論。
  • 根因分析:當有異常問題發生的時候,AI引擎會自動去追蹤用戶的操作路徑,也就是追蹤服務訪問和調用的路徑,通過對各個不同層面監控對象的數據分析和關聯,比如主機、進程、服務以及應用的數據關聯,來自動分析出根因。

與傳統AI引擎不同,Dynatrace的AI引擎是爲了特定目的而構建的,可以做到實時因果關係輸出。傳統AI引擎實現的是關聯關係(Correlation)方式的分析,其缺點是無法實時輸出,需要花費時間去學習才能看到想要的數據,很多客戶可能無法接受這一缺點。

數據在Dynatrace平臺中的流轉其實是個閉環,平臺將數據提供給智能化(或自動化)工具,該工具根據數據做出反應操作之後,會把結果返回給平臺,得到新數據之後,可能又會觸發新的動作。以此循環往復,AI引擎的判斷會越來越準確,運維的動作也會越來越精確。

雲平臺下的運維技術如何發展?

企業上雲已經成爲了一種趨勢,甚至有些企業可能上的不止一朵雲,根據Kentik公司的一項調查表明,如今40%的組織認爲自己是多雲用戶,他們的組織擁有兩個或多個雲服務提供商提供的雲服務。那麼上雲之後的企業會面臨哪些挑戰?又會如何影響運維呢?

上雲之後,企業往往會遇到以下挑戰:

  • 環境複雜:公有云、私有云和混合雲難以互通;
  • 大規模:企業上雲以後,應用和數據規模都會暴增;
  • 應用動態變化:容器和微服務的技術都是動態變化的;
  • 部署頻率提升:採用 DevOps 提升了軟件部署和交付的效率;

Dynatrace在服務用戶的過程中,也同樣發現了用戶不願意只投資單一雲環境,而更傾向採用多雲平臺,這就要求應用監控方案可以實現跨雲的自動化服務。Dynatrace 引入了自主雲管理概念(Autonomous Cloud Management, ACM),以期解決IT複雜性難題。但ACM並不是一套做法就可以適用於所有用戶,而是每個客戶都有自己獨特的部分。

實現自主雲管理的第一步就是把監控自動化,將監控變成一個自主服務(self-serving)環境。其次,就是要和客戶溝通流程,這也是花費時間最多的部分。最後,Dynatrace有很多合作伙伴,他們會爲ACM的實現補充很多功能和技術。

其實,企業上雲並不單純是把計算放在雲上,有一個部分很重要,就是如何幫助企業使整個應用開發過程做得更快更好,如何優化交互,如何通過雲更快速地實現迴應的鏈路(feedback loop)。

據瞭解,金融行業是對ACM接受程度非常高的行業之一,大多數實施ACM的客戶來自銀行和保險公司。Chuck Miller 舉了美國KeyBank銀行的案例:以前KeyBank開發人員從寫完代碼到生產(包括中間過程的測試和挑戰),整個過程需要三週左右,而現在從整個代碼的開發到生產的時間可以“天”爲單位來計算。Dynatrace幫助他們解決了兩個問題:將定位和解決問題的時間從幾天縮短到幾個小時。另外,正如用戶希望每十分鐘可以發佈一個新版本那樣,目前Dynatrace 對部分問題的解決已經能達到這一標準。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章