如何從運營角度保障DNS安全

衆所周知,DNS作爲一項互聯網基礎業務,對整個互聯網的正常運行起着至關重要的作用。當然,別有用心的***者也同樣明白這個道理,總是希望通過各種各樣的***手段破壞DNS解析服務的正常開展。

如何從不同層面綜合運營,保證DNS服務安全高效的運行,一直以來都是DNSPod每一位工程師不斷思索的問題。我們認爲,主要從應該從以下幾個方面入手:

狀態監控

DNS服務是一項實時性要求非常高的服務,準確全面的監控系統是整個DNS服務的運營基礎。爲此,我們設計了一整套的監控體系,包括網絡流量監控、服務器內核監控模塊、解析監控、服務器集羣監控等等。從不同層面不同角度對DNS解析服務進行監控,保證工程師能第一時間瞭解其運行狀態。在技術選型方面,我們一方面採用比較成熟的基於SNMP的nagios/cacti監控,一方面針對DNS的特點開發與解析服務緊密結合的監控模塊,滿足不同監控對象的需要。

信息告警

DNS服務運行過程中總會有各種各樣的情況發生,同一個事件需要通知到不同的負責人,每個人需要知道的信息也不盡相同。例如在捕獲到域名***事件後,會馬上向運維工程師發出告警,提示各種層面的流量數據。向技術支持人員發送***情況概要和受影響的程度,以便用戶詢問情況時能得到最新信息。針對VIP客戶,還會向相關的銷售人員發送***相關數據和處理情況,由銷售人員直接與客戶取得聯繫。特別重大的***事件,還會向市場人員、開發人員、技術負責人甚至總經理髮送,保證信息及時傳遞,事件能夠及時處理。爲了滿足多樣化的信息發送需求,我們建立了專門的通知系統平臺,提供了一致的API接口供各個程序調用,能夠提供郵件、微信、短信、語音等多種通知方式。

事件處理

爲了及時響應並處理各種事件,爲用戶提供持續的優質服務,我們實行24小時值班制度。任何時間都會有經驗豐富的技術人員準備應對突發情況。同時,爲了進一步加強響應效率,自動化運維處理必不可少。例如,我們對DNS***做了長期的研究,開發了域名封禁/解封、防護算法、流量引導等多種防護手段,根據DNS***的實際情況自動開啓,能在短時間內化解大流量的DNS***,將影響減到最小。

數據記錄

當然,事件處理完成並不代表着結束,還需要做好各種記錄,保證可以回顧分析。基本的數據包括交換機流量數據、網卡抓包數據、事件處理記錄等等,我們對這些數據都做了完整的記錄、備份、整理、歸檔,這樣不但任何問題都有據可查,也爲進一步的統計分析做好了準備。因爲數據量大、種類多,我們比較多的使用了Redis和MongoDB,其存NoSQL的特點特別適用於這個情況。

綜合運營數據分析

除了短時間的針對單個事件的應對策略,運營更需要長期的數據記錄與分析。我們每天的運營情況都會以報表的形式呈現出來,對域名解析量、用戶數量、***情況等數據更有長時間的追蹤和趨勢分析。如根據***趨勢的分析加強防***投入,根據用戶轉入/轉出情況聯繫銷售人員跟進。這裏我們使用了Graphite用於繪圖,D3.js在繪製報表方面也有很好的表現。

總的來說,DNS服務有其複雜性和特殊性,DNSPod長期專注於DNS解析業務,在此領域有豐富的經驗和深厚的積累,希望上述分享能給每一位關心DNS領域的朋友帶來益處,共同創造更美好的互聯網環境。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章