大促保障準備工作項

大促保障如何做,有哪些工作項,看這裏。

工作項    13    14    15    16    17    18    19    20    21    22    23    24    25    26    27    28    29    30
應用容量評估,測算PV、UV、一天內調用次數、峯值調用量    所有                                                                                     
數據容量評估,測算數據庫、REDIS等存儲容量,記錄數、磁盤佔用量    所有                                                                           
線下PRE環境性能壓測(詳細工作計劃)                                                                           
                               
                          
                                                        
線上購物鏈壓測                              
DB TOP SQL慢查詢巡檢及優化                        所有                                             
DB數據庫IO調度算法巡檢(DeadLine配置)                                  所有                                             
DB SQL超時設置                        所有                                                       
REDIS分片巡檢及優化(<32G)                        所有                                                       
ESB 巡檢(連接數8000限制、400W數據積壓限制、TPS4000限制、高可用配置)                        所有                                                       
RSF 版本巡檢(2.1.2)                        所有                                             
故障場景重點關注項                        所有                                                       
高可用(一主多從、冷備)、其他事項巡檢                        所有                                             
RSF超時、限流、SLA、告警設置                        所有                                             
ESB超時、限流、SLA、告警設置                        所有                                             
容錯設計檢查                                       所有                              
降級限流設計檢查                                       所有                              
全流程核心鏈路過載演練                                                       
系統監控、告警、人員設置檢查                                  所有                                             
宕機應急演練                                                                                     
創單功能生產壓測                                                                                     
DB\REDIS主備切換演練                                                                           
ZK故障演練                                                                           
應急預案         所有                                                                      
零點峯值應對         所有                                                                      
擴容交付進度                                                                                          
壓測不達標程序優化計劃                                                                                          
MQ遷移                                                                                
主備切換演練                                                                 
網絡參數、交換機高可用巡檢                        所有                                                            


雙11大促準備工作清單
                                    
分類    工作項    交付物    計劃開始時間    計劃完成時間    負責人    完成結果    備註
容量和性能評估                                   
1    應用容量評估,測算PV、UV、一天內調用次數、峯值調用量    評估報告              各系統技術經理    完成     
2    數據容量評估,測算數據庫、REDIS等存儲容量,記錄數、磁盤佔用量    2016/10/13    2016/10/15    各系統技術經理    完成     
系統性能壓測達標                                   
1    線下PRE環境性能壓測(詳細工作計劃)    壓測報告    2016/10/13    2016/10/30    各系統技術經理    進行中     
2    線上購物鏈壓測    2016/10/20    2016/10/30    技術經理    完成     
3    創單功能生產壓測    演練報告    2016/10/13    2016/10/25         完成     
4    全流程核心鏈路    演練報告    2016/10/17    2016/10/25    各系統技術經理    進行中     
巡檢自檢                                   
1    DB TOP SQL慢查詢巡檢及優化    巡檢自檢清單    2016/10/13    2016/10/25    各系統技術經理    完成     
2    DB數據庫IO調度算法巡檢(DeadLine配置)    2016/10/13    2016/10/25    各系統技術經理    完成     
3    DB SQL超時設置    2016/10/13    2016/10/25    各系統技術經理    完成     
4    REDIS分片巡檢及優化(<32G)    2016/10/13    2016/10/25    各系統技術經理    完成     
5    ESB 巡檢(連接數8000限制、400W數據積壓限制、TPS4000限制、高可用配置)    2016/10/13    2016/10/25    各系統技術經理    完成     
6    RSF 版本巡檢(2.1.2)    2016/10/13    2016/10/25    各系統技術經理    完成     
7    網絡參數、交換機高可用巡檢    2016/10/15    2016/10/17    各系統技術經理    完成     
8    故障場景重點關注項    2016/10/13    2016/10/25    各系統技術經理    完成     
9    高可用(一主多從、冷備)、其他事項巡檢    2016/10/13    2016/10/25    各系統技術經理    完成     
核心鏈路與服務SLA                                   
1    RSF超時、限流、SLA、告警設置    服務治理與調用鏈路    2016/10/13    2016/10/25    各系統技術經理    完成     
2    ESB超時、限流、SLA、告警設置    2016/10/13    2016/10/25    各系統技術經理    完成     
3    容錯設計    2016/10/13    2016/10/25    各系統技術經理    完成     
4    降級限流設計    2016/10/13    2016/10/25    各系統技術經理    完成     
系統監控與應急演練                                   
1    系統監控、告警、人員設置檢查    系統監控與應急處置手冊    2016/10/13    2016/10/25    各系統技術經理    完成     
2    宕機應急演練    演練報告    2016/10/13    2016/10/25         完成     
3    DB\REDIS主備切換演練    演練報告    2016/10/13    2016/10/25    各系統技術經理    完成     
4    ZK故障演練    演練報告    2016/10/13    2016/10/25    各系統技術經理    完成     
5    主備切換演練    應急預案    2016/10/13    2016/10/25         進行中     
6    應急預案    應急預案    2016/10/13    2016/10/15    各系統技術經理    完成     
7    零點峯值應對    應急預案    2016/10/13    2016/10/15    各系統技術經理    完成     
擴容或優化準備清單                                   
1    擴容交付進度    情況說明    2016/10/13    2016/10/25    各系統技術經理    完成     
2    壓測不達標程序優化計劃    計劃安排    2016/10/13    2016/10/25    各系統技術經理    進行中     
3                                   


巡檢清單
                                    
序號    分類    巡檢內容    處理方案
事前處置    監控告警    應急處置
防控手段    監控點    影響範圍    應急手段    恢復時長
一、系統應用程序         參數優化、安全鞏固、擴容、高可用    CPU、IO、TPS、QPS、單據量、健康檢測         降級、分流、限流     
1    系統參數配置    應用服務器配置:數據庫連接池設置,連接數、事務隔離級別,連接超時等    檢查    連接數監控    整個應用    前端限流    1分鐘
2    系統參數配置    應用服務器配置:線程池設置,工作線程、IO線程數設置,超時等    檢查    線程隊列監控    整個應用    前端限流,增大隊列長度    1分鐘
3    系統參數配置    ESB配置:是否配置預警閥值、新老平臺複用的接口URL配置是否一致    檢查                    
4    系統參數配置    UTS配置:檢查PRE與PRD環境是否配置一致    檢查                    
5    系統參數配置    SCM配置:檢查PRE與PRD環境是否配置一致    檢查                    
6    業務參數配置    業務配置數據:檢查PRE與PRD環境是否配置一致    檢查                    
7    業務參數配置    功能菜單是否可關閉、降級功能開關是否可用    檢查                    
8    業務參數配置    業務運行過程中需要的必要主數據、元數據是否正確設置    檢查                    
9    定時任務配置    23:50-00:10之間禁止啓動定時任務,23:50之前啓動的定時任務需要在23:55前運行完成。    檢查                    
10    定時任務配置    所有定時任務,儘量避免在整點觸發,選擇一個隨機的非整點時間來觸發啓動    檢查                    
11    RPC、REST接口異常    響應超時    優化程序,擴容    健康檢查,接口監控    關聯繫統    業務降級,前端限流    2分鐘
12    RPC、REST接口異常    無響應    優化程序,擴容    健康檢查,接口監控    關聯繫統    業務降級,前端限流    2分鐘
13    RPC、REST接口異常    QPS、TPS超出預估峯值    擴容、高可用    接口監控    關聯繫統    業務降級,前端限流    2分鐘
14    RPC、REST接口異常    成功率異常下降          接口監控    關聯繫統    前端限流、負載均衡    2分鐘
15    系統應用異常    不能正常運行    高可用    健康檢查    關聯繫統    負載均衡    1秒
16    系統應用異常    進程異常、假死    高可用    健康檢查    關聯繫統    負載均衡    1秒
17    系統應用異常    線程阻塞    高可用    健康檢查、線程監控    關聯繫統    負載均衡    1秒
18    系統應用異常    無法啓動    高可用    健康檢查    關聯繫統    負載均衡    1秒
19    系統應用異常    響應緩慢或無響應     高可用    健康檢查、超時檢查    關聯繫統    前端限流、業務降級、負載均衡    1秒
20    交易異常    流量異常下降         健康檢查、流量監控    關聯繫統          
21    交易異常    成功率異常下降          健康檢查、接口監控    整個應用          
22    交易異常    大量繁忙,交易時間延長    高可用    健康檢查、接口監控    整個應用    前端限流、業務降級、負載均衡    5秒
23    交易異常    交易異常報錯    高可用    健康檢查、接口監控    整個應用    負載均衡     
24    其他異常    應用服務隊列堵塞    高可用    健康檢查、接口監控    整個應用    前端限流、負載均衡    5秒
二、數據庫         參數優化、安全鞏固、擴容、高可用    CPU、IO、MEM、TPS、QPS、健康檢測         限流、主備切換     
25    物理損壞    數據庫崩潰    高可用    健康檢查    關聯繫統    主備切換    5分鐘
26    物理損壞    數據庫存儲損壞    高可用、熱備    磁盤、IO監控    關聯繫統    主備切換    5分鐘
27    物理損壞    邏輯日誌滿導致數據庫掛起    高可用    磁盤、IO監控    關聯繫統    主備切換    5分鐘
28    操作異常    數據庫無法正常處理請求    高可用    健康檢測    關聯繫統    前端限流、主備切換    5分鐘
29    操作異常    數據庫表死鎖         死鎖監控    整個應用    快速殺死進程    3分鐘
30    操作異常    數據庫表數據無法插入    存儲容量檢查    錯誤日誌監控    整個應用    讀寫分離,主備切換    5分鐘
31    操作異常    數據庫交易處理緩慢    慢SQL檢查    慢SQL監控    整個應用    前端限流     
32    操作異常    數據庫無法連接或無響應、假死         健康檢測    關聯繫統    主備切換    5分鐘
33    操作異常    數據庫性能極劇下降          連接數監控、IO監控    關聯繫統    前端限流    3分鐘
34    操作異常    數據庫實例出現大量等待事件         連接數監控、IO隊列監控    關聯繫統    前端限流    3分鐘
35    其他異常    數據庫短時間不可用         健康檢測    關聯繫統    前端限流、主備切換    3分鐘
36    其他異常    主從同步延遲    檢查    延遲監控         持續觀察     
37    其他異常    數據庫實例監聽宕掉    檢查    健康檢查         主備切換    5分鐘
三、中間件         參數優化、安全鞏固、擴容、高可用    CPU、IO、MEM、TPS、QPS、健康檢測         主備切換     
38    ESB中間件    實例異常或僵死    參數檢查,高可用    健康檢查、內存(>80%)、IO、CPU(>80%)    關聯繫統    切換    5分鐘
39    RSF中間件    實例異常或僵死    參數檢查,高可用    健康檢查、內存(>80%)、IO、CPU(>80%)    關聯繫統    客戶端負載均衡    1分鐘
40    REDIS中間件    實例異常或僵死    參數檢查,高可用    健康檢查、內存(>80%)、IO、CPU(>80%)    關聯繫統    自動重新選主    1分鐘
41    REDIS中間件    主從同步延遲    參數檢查,高可用    延遲監控    關聯繫統          
42    消息中間件    實例異常或僵死    參數檢查,高可用    健康檢查、內存(>80%)、IO、CPU(>80%)    關聯繫統    切換    5分鐘
43    消息中間件    消息堆積    參數檢查,高可用    消息堆積長度(>2000,結合RT、QPS)    關聯繫統    前端限流     
44    WAS中間件    實例異常或僵死    參數檢查,高可用    健康檢查、內存(>80%)、IO、CPU(>80%)    關聯繫統    前端負載均衡     
45    負載均衡中間件    NGINX實例異常或僵死    參數檢查,高可用    健康檢查、內存(>80%)、IO、CPU(>80%)    關聯繫統    主備切換    2分鐘
46    負載均衡中間件    IHS實例異常或僵死    參數檢查,高可用    健康檢查、內存(>80%)、IO、CPU(>80%)    關聯繫統    主備切換    2分鐘
47    文件圖片服務器    存儲失敗    參數檢查,高可用    健康檢查、內存(>80%)、IO、CPU(>80%)    關聯繫統    切換    5分鐘
48    其他依賴中間件    WAF攔截失敗    參數檢查,高可用、TOP 50 IP梳理    健康檢查、內存(>80%)、IO、CPU(>80%)    關聯繫統    切換     
四、操作系統    參數優化、安全鞏固、升級    LOAD、IOWAIT         切換     
49    異常或報錯    負載過高    檢查    負載監控    整個應用    前端限流    1分鐘
50    異常或報錯    無響應    檢查    健康檢查    整個應用    前端容錯    1分鐘
51    異常或報錯    文件數超出    檢查    系統日誌監控    整個應用    前端限流    1分鐘
52    異常或報錯    TIME_WAIT連接佔用嚴重    檢查    網絡日誌監控    整個應用    前端限流    1分鐘
53    異常或報錯    交換區頻繁換入換出    檢查    磁盤、IO監控    整個應用    前端限流    1分鐘
五、硬件及網絡    備份    存活檢測         切換     
54    網絡異常    網絡異常中斷         網絡監控    整個應用    切換     
55    網絡異常    AP與DB間網絡異常或不可用         網絡監控    整個應用    切換     
56    網絡異常    網絡端口流量異常升高/下降         網絡監控    整個應用    切換     
57    網絡異常    IP地址異常或出現衝突          網絡監控    整個應用    切換     
58    網絡異常    數據傳輸中出現異常丟包         網絡監控    整個應用    切換     
59    硬件異常    F5服務異常或報錯         網絡監控    整個應用    切換     
60    硬件異常    異常掉電          主機監控    整個應用    切換     
61    硬件異常    磁盤存儲損壞         磁盤、IO監控    整個應用    切換     


1.某些沒有經過充分壓測的接口 流量過大,拖死整個系統。 需要針對每個接口根據接口tps能力設置好流控值。
2.請求的數據穿透了緩存,如爬蟲爬了冷數據等,拖死數據庫。流控+監控應急封ip或封接口。
3.因爲外部服務響應慢,導致線程池被卡滿。需要做好超時設置,支持熔斷。
4.物理機故障,如宕機或響應慢。需要做好高可用,緊密監控、及時切換。
5.某個redis或數據庫分片出現故障,導致全局卡死。需要超時設置、對redis或數據庫分片需要支持熔斷能力。
6.依賴的外部服務故障,同時系統對外部非重要服務耦合過於緊,無法降級。
7.緩存沒有及時生效 或 數據傳輸出現延時。系統需要評估需要處理的數據量 及時長,確保數據能及時處理完成。
8.資源爭搶,特別是io資源爭用。 各重要系統請檢查 現有系統的io利用率和iops指標,如存在瓶頸,需要進行遷移或切ssd。
9.數據庫壞頁,核心鏈路系統需要做到一主兩從,出現疑似數據庫壞頁,儘快切換。
10.ddos或cc攻擊, 安全團隊需要做應對攻擊的應急預案,並加強演練,加快恢復速度。
11.網絡故障、網絡延時、基礎服務故障。網絡和基礎服務 必須保證 高可用和良好性能。
12.定時任務 停止服務 或 調度延遲,未能及時監控出來。加強對每個定時任務的監控和報警。


服務要有容錯設計,爲失敗設計,服務主要異常場景:
(1)服務內部出錯、異常;
(2)服務處理延遲;
(3)服務處理過載;
(4)網絡鏈路延遲或中斷;
(5)服務依賴鏈中部分依賴SLA不達標,造成整體服務不可用;
(6)服務鏈條過長,造成SLA整體不可控;
解決的思路:隔離(物理或邏輯)、自我保護、失效轉移或恢復、降級;
1、隔離手段:依據服務重要性分級或流量特點、用戶畫像等,從物理上隔離服 務。主要使用分流技術;將服務使用的資源(CPU、線程、IO等)隔離,主要使用艙壁模式;
2、自我保護手段:快速失敗(failfast)、流控、超時、熔斷;
3、失效轉移或恢復手段:失效檢測、重試、轉移(failover)、回退恢復(failback);
4、降級手段:依據依賴服務的重要性或依賴程度(強、弱),同步變異步,降級開關、拒絕部分服務等;
 
降級方案、限流方案設計說明:
1. 每個系統需要分析調用量前10的服務(URL、ESB、RSF服務),並綜合考慮其響應時間和耗時。原則上所有調用量大且降級後對銷售或作業不造成較大影響的服務,都需要考慮。    
2. 降級、限流的目的是保護系統,減少本系統的壓力、或降低對後端系統的壓力、或降低對網絡的壓力。 
3. 限流方案不能造成正常銷售或作業執行工作,降級後不能對銷售造成較大的影響,對銷售的較小影響是可以接受的。先限流,再降級。 
4. 需要有成熟可靠的降級、限流預案。
5. 降級手段有:功能禁用、增加功能的緩存時間、使用本地緩存而不是調用外部服務、減少某些業務特性以降低業務複雜度、不調用後端依賴服務、異常時採用默認數據或兜底數據,同步變異步調用,減少JOB執行頻率或變更業務峯值JOB觸發調用時間等;
6. 限流手段有:隨機拒絕請求、拒絕低優先級系統調用,拒絕低級別用戶調用,根據白名單或黑名單規則拒絕特定用戶請求調用,對失敗率高或響應超時系統調用拒絕調用,利用線程池隊列排隊處理調用,拒絕超出處理能力調用等。  
7. OLAP應用,如對OLTP系統的物理機器或網絡資源造成了爭用,同樣需要設計降級方案。    
 
超時設置方法:
1、核心鏈路方法,通過壓測獲取響應時間TP99/TP90。作業線方法通過拉取RSF\ESB報表獲取響應時間TP99/TP90.
2、要清楚響應時間的增加,不僅消耗資源(例如線程池、CPU、IO等),也會使TPS下降。嚴重時會耗盡連接,發生級聯現象,使相關係統受到影響。TPS=C/RT.
3、響應時間的增加,會使失敗率增加,異常會增加。如事務類接口在非冪等性設計情況下,造成重複生成數據。
4、原則上,作業線方法,可以通過查看TP99數據,設置2*TP99-5*T99。高併發核心鏈路接口,要不大於2*TP99.非核心作業方法,可以統一設置爲3秒,原則上不應大於5秒。
5、響應時間在2-5倍TP99之間的選擇,應結合是否事務方法、是否冪等,併發量,以及對業務的影響進行評估。併發量小的,事務方法,對業務影響大的,響應時間可設置大些;併發量大的,對業務影響小的,響應時間可設置小些。其他的,可以統一設置爲3*TP99.
6、報表類、JOB類方法,根據事務執行時間進行單獨設置。
 

RSF\ESB限流設置。兩者都是基於限制併發數來限制調用次數,從而達到限流目的。
1、根據壓測或歷史得知,你的總併發數;
2、基於分組分類的原則,設置線程池,RSF線程池沒有物理分開,是基於信號量區分不同的線程池;
3、根據業務,可以將接口劃分爲:核心對外服務接口,核心流程接口、關聯核心流程接口,其他非核心流程;
4、根據接口分類,建立不同的分組,例如核心對外服務接口設置併發200,核心流程接口100,關聯核心流程接口50,其他非核心流程40。
5、可以繼續設置分層,如劃分爲三層,1級、2級、3級。針對不同分類接口設置三層。例如核心對外服務接口設置併發三級,1級300,2級200,3級150.其他類似。統籌分類分層。
6、在接口上掛上分組。
————————————————
版權聲明:本文爲CSDN博主「老呂吐槽」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/lvxuwen/article/details/52957943

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章