京東商城技術架構部 | 我爲11.11保駕護航

集羣技術部

京東快速發展的同時,應用規模、數據中心以及機器的規模都同步倍增,在面對如此大規模的機器,應運而生了京東數據中心操作系統(JDOS,JingdongDatacenter OS)。歷經多年時間的技術沉澱與發展,JDOS不僅僅作爲京東數據中心操作管理資源,更作爲京東統一的PaaS平臺致力於支撐業務系統快速交付、穩定運行,基礎中間件託管提升基礎平臺敏捷交付。尤其是線上運行的阿基米德系列系統,將應用於實現京東商城數據中心資源智能調度,支撐在線業務系統與大數據計算混合部署融合計算,並節約採購成本。而每一次的11.11都是對JDOS系統的一次檢驗和挑戰,經過無數次的緊張演練,問題排查,系統升級優化,服務應用快速交付;從容支撐大促高峯流量,保障了業務的高速發展。

全力保障雙十一,集羣平臺來助力。

腳踏實地,再創佳績。

統一調度,自由計算。

科技引領,正道成功。

▲集羣技術部-南京職場日常備戰

▲集羣技術部-北京職場日常備戰

系統保障部

隨着京東的快速發展,各業務系統的複雜度也同步倍增,每個系統的故障都可能會產生意想不到的影響。針對各業務系統可能出現的故障,我們的“故障演練系統”在11.11備戰期間爲多個0、1級系統做了故障演練,驗證各系統的穩定性,以及對已知故障是否具備足夠的冗餘度。同時也演練了各系統的研發和運維人員是否能夠及時發現故障並啓動應用響應預案。通過故障演練,各系統的研發和運維人員,查漏補缺,將所有可能薄弱點予以修復。最終將系統的風險點消滅於無形中,確保系統在遭遇各種故障時,都能夠具備較高的可用性、連續性。11.11備戰,資源準備也非常重要的一環,我們通過積極有效的系統資源調度,投入最少的資源、滿足了所有部門對容器、中間件、數據庫等的需求,充分保障了各系統的備戰工作。

隨着業務量的增長對系統的穩定性要求也將越高,呼叫中心主要對語音呼叫系統及網絡進行了11.11前的功能災備演練工作。語音系統此次主要針對呼叫中心的電話語音系統、錄音系統、辦公電話、電話會議等系統做了設備重啓,功能模塊災備,系統性能進行了演練壓測,保障各系統的穩定性。對業務60餘條400熱線進行應急流程開發以便應對11.11期間的話務高峯。對新上線網絡電話、語音導航進行重點監控及性能優化確保穩定性。網絡側主要對宿遷呼叫中心一期、二期、揚州職場的辦公互聯網及交換機設備進行保障演練,對一期機房、二期機房、聯通機房、揚州機房網絡進行演練巡檢,對各中心機房至成都、揚州、北京、聯通機房、IDC機房及全國102所校企網絡進行演練保障。監控中心重點監控內容接入smartcall自動外呼,確保重點告警及時率99.5%+,基礎監控語音提醒,人工外呼,3分鐘及時率99%+;2. 和ump開發團隊多次溝通,提升ump運營首解率,目前首解率90%+。系統、網絡、監控及桌面維護人員通力合作確保11.11各項備戰工作圓滿完成。

統籌資源,夯實基礎,

全力保障雙十一

在線存儲部

在電商場景下大量業務需要提供高負載、高併發能力,數據讀寫速度往往會成爲業務併發能力瓶頸,在線存儲部所提供的高速存儲能力很好的解決了用戶這一痛點,海量存儲容量、急速讀寫速度,對於數據存儲系統來說這些近乎苛刻的要求如今已成爲在線存儲部各種產品的標配,應用這些產品之後各業務線研發人員從此可以將精力主要集中到自己的業務邏輯,大大減輕了備戰壓力。

在線存儲部,爲您提供每天24小時的可靠存儲服務。

在線存儲部的備戰流程及相關準備:

1、 服務器巡檢,包含:服務器內存、swap、crc、磁盤;

2、 均衡服務器內存;

3、 將繁忙的實例提前擴容;

4、 提前指定預案;

5、 故障演練;

6、 重新梳理監控報警;

7、 重點業務集羣單端排查是否存在隱患。

▲備戰中

智能存儲部

智能存儲部負責京東圖片系統和對象存儲整體架構與維護,保障11.11大促期間圖片展示及整體存儲服務穩如泰山!智能存儲部參與前臺千人千面項目,提供APP首頁首焦廣告圖智能排版、各推薦位透底圖輸出等服務,保障11.11大促期間千人千面高效落地!

智能存儲,堅如磐石,

穩如泰山,無懈可擊!

智能存儲部負責了大促期間圖片系統和對象存儲等系統研發,加強各環節監控,保證系統穩定,並設置完備的應急預案,對緊急事件快速響應,保障大促順利平穩!

中間件平臺部

在各團隊的緊張而穩步的準備中,我們又迎來了全行業的現象級狂歡盛宴-11.11。整個11月,消費者翹首以盼,商家摩拳擦掌,友商蓄勢以待,一切都爲了那激情燃燒的狂歡。巨大的期待帶來的不僅僅是巨大的銷量,同樣也會給系統帶來巨大的壓力。在京東過去的十二年中,一次又一次輝煌的11.11勝績背後,是衆多研發兄弟們的不懈努力。今年預計又會迎來一個新的流量高峯。

從10月開始,本部門開始對和系統進行梳理檢查,繼續落實責任制,下游系統對上游系統提要求,並對服務提供方和調用方的服務能力進行梳理,以此推動服務的提供方和調用方充分溝通。隨後大家就各中間件系統JSF、MQ、ES和日誌監控等負責運維以及測試人員的各環節進行討論和探索,並且指定相關負責人,推動各項大爲促準備工作開展。

中間件一心,其利斷金

Team最近幾個月中間件做的備戰準備:

1、10月份開始我們就開始一個系統一個系統的梳理問題和需求,分享技術方案,仔細盤查可能的風險點,並做好容災的方案;

2、安排所有系統負責人基於梳理的結果做系統的優化和穩定性的完善;

3、基於所有系統都梳理過一遍,正式進入備戰階段,包括應用梳理、部署擴容、應急預案確認以及值班計劃;

4、各系統分別做功能測試,性能測試,壓力測試;

5、結合業務場景做切換演練。

數據庫技術部

數據庫技術部對數據庫系統進行優化和智能化改造,通過智能分析預測技術,在大促前對資源進行合理調度;通過對監控升級,在大促期間應對高峯及時預警;通過接入ContainerFS對備份系統升級,在事後災備方面做好切換及恢復的準備和方案,從事前、事中、事後對11.11大促進行全面保障,力爭做到防患未然,及時發現,最快處理,確保11.11數據庫安全、穩定、高效運行。

知識計算部

知識計算部基於大規模商品知識圖譜,對商品數據提供類目錯掛預測、山寨、違規商品治理等,累計下架近億SKU。對用戶社區的評價問答提供最後的防火線,違禁識別佔比99%。爲前臺提供情感理解、語義標籤、差異化京豆激勵等一系列服務,有效防止問題商品和低質評論進入京東生態,提升用戶體驗。

在備戰期間,知識計算部聯合業務團隊明確定製化的應急預案,對全鏈路進行多機房互備和軟硬件服務擴容,同時採用全流量壓測進行演練,能夠確保在11.11流量洪峯下平穩運行,另外,增加了全天候人工值守+短信異常報警等監控,保證在第一時間能夠發現問題,並採取有效應急措施對異常進行快速處理。

聚焦知識、強化計算

------------------END------------------

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章