獨家-BAT試用期工作心得(運維方向乾貨)

試用期間,不斷工作,不斷學習,能時刻保持很大的提升。

一、 主要工作:

試用期間,首先是繼續學習日常接觸的xxx系統知識,其次在接手xxx業務運營,日常處理xxx系統的相關問題,同時進行運營效率提升方面的開發工作。

a) 運營效率提升開發工作與提升:

i. 日報
ii. 巡檢告警,容災告警,機器缺漏模塊軟件每日掃描補裝,移動運維工具開發(python爲主)
iii. 運維繫統頁面開發(最好附上鍊接)
iv. 自動化運維工具,原由,出現,問題克服與處理,效率比原先提升多少,比預期提升多少,改進與提升等……

  • 其間,開發能力不僅在工作中得到提升(能均衡性能,空間),並且前端知識也在頁面開發工作中實現了從小白到入門的突破,且完整的實現了頁面各項需求。自動化工具以shell實現,也是將腳本能力得到極大提升,主要是能規避系統運行的各種坑,比如while中保留變量、等待read變量等。

b) 運維工作及提升:

i. 日常線上告警及運維相關問題的學習與處理(尤其是監控系統的學習,算是運維重中之重),由於在接業務初期,還會每日對業務增量及負載都進行excel記錄,能大致明白每天每個業務的增量情況(周內,週末,節日),並對日常容量及負載相關問題能及時處理,對業務方的各種需求也都進行跟進處理與記錄。

  • 其間,容量方面,最需要保持敬畏心。因爲存儲層面,最不能出錯的就是用戶上傳的成功率,所以及時擴容,時刻預留每個業務應有的buffer是最需要敏感的。另外對於監控的重要性與理解使用都更加深入,並且類似在處理xxx告警時,一定需要對每個維度所能表達的含義需要有明確的判斷,因爲不是一個頁面就能表達,而是系統間級聯,所以自上而下一步一步進行分析排查才能找到原因。

ii. 對業務過節期間容量預估報備(評估,分析,均衡計算,覈對,報備),在跟進中也極快的瞭解到名下業務的特性與各自的增長瓶頸與報備計算方式;

  • 其間,尤其在計算某具體業務時,什麼業務時瓶頸在請求,需要算上內外部cdn的命中率,什麼業務瓶頸在流量,計算時需要根據不同系統類型的運營流量值、上傳下載比例以及系統設定與運維的柔性容災等維度共同計算運營擴容量,需要對業務特性很深的理解。

iii. 底層運維會遇到的裁撤等相關問題,進行計劃制定,實施,不斷改進與效率提升;

  • 在小集羣運營下,時間推進會產生非常多死掉的機器,這時就需要人工將數據進行搬運。由於原本制定計劃從取數據到整合需要花費大量人工精力,故在制定中也通過開發工具使其變爲半自動化,後續更好是能用均衡算法進行自動定製。

iv. 運維工作涉及的方面很多,在底層時,不僅要理解架構,還需要對數據保持敏感,對系
統,環境,現狀都需要有很深的考慮,完善運維能力,才能將業務更加具有保障的運營

c) 相關wiki文檔梳理:(工具,日常問題,系統架構,新問題處理與思考等wiki總結,需要附上實際鏈接)

d) 學習分享:

i. PPT組內分享系統的架構(包含發展,演進,分類,特性,運營);
ii. 參加公開課:(架構師方向,運維方向,專業技術方向)

  • 文檔梳理與學習分享是對學習能力最大的提升,將聽到思想實時總結,思考,尤其在自己所屬環節的運維工作中,能明白每一步的意義與重要性,包括哪些問題應該用哪些思路處理,不僅學習的快,也能理解的深,從而誕生的很多優化的思想提給對應業務也會被更加重視。

二、 一些總結思想

  • a) 小集羣架構的海量運營方式:遇到異常情況,只要是出了問題不能馬上恢復,第一時間要隔離故障。隔離之後在跟進修復。先隔離再升級,儘量保存現場是必要的思想。
  • b) 機器一般按模塊劃分,處理模塊時,一定將模塊梳理清晰明瞭,這可能沒有當前瞬間的改變,但長期整體業務會規避掉非常多歷史遺留問題,也能更加方便運營,其實是提升效率的點、遇到問題,儘量將問題想透徹,以不同角度去理解運維與業務之間的聯繫,包括從着手眼前,到熟悉流程,最後還能提升到思考流程與架構,方便更好的運營。
  • c) 期間也遇到了一些感覺可優化的點,感覺還是需要有勇氣提出來,也非常nice的是同事大都不會規避,而是能對真正的良好的點進行配合,方便更好的協作。也其實在運維效率提升上面也是這樣,組內討論有哪些可以自動化的方向進行產出,運維效率提升非常大。

三、 不足與改進

  • a) 首先還是存在很多不足的地方,最多的就是經驗不足。感覺一定多接觸各項運維工作,才能見識到各種各樣的問題,也能具備處理的能力,更加熟悉運維的系統,也能更加理解業務的各方面問題。
  • b) 其次就是開始接手業務之後,還是有一些生疏,對很多問題能處理,但是要花費時間長,還是不熟悉不熟練。雖然慢慢已經有在改進,但加上日常的裁撤,等運維任務,就導致手上新的開發任務進行延後,後面還是需要在提升運維能力的同時,調整好開發與運維之間的工作比例,保障業務的同時,儘量有時間思考流程上的痛點,多輸出提升效率的工具,也更方便運維。
  • c) 後續對於新系統加強學習,有些公開課能讓自己理解大存儲集羣的架構思想,還是得配合實踐才能更深的運用到運維中。

這裏可能會有運營與運維的概念,其實在本人看來,運維工作保證業務穩定發展是唯一的訴求,沒有業務也就沒有運維。運營也在於對業務在技術層面的統籌,所以是有共通的。伴隨業務穩步增長,運維的體量,工作量,遇到的挑戰也會指數上升,但這樣技術的提升與總結,新鮮血液的加入與創新思想才顯得格外重要。海量運維之道,持續學習,共勉。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章