容災切換時間減少 99%,“雲邊協同”如何提升影演服務效率與穩定性

沉寂三年後,線下演出市場正在迎來“報復性”復甦。對於一場期待已久的演唱會,驗票環節是否流暢、能否快速入場,直接影響着每一位觀衆對整場演出服務的體驗和評價,相信不少朋友都有着切身的感受。

阿里巴巴影業集團是以互聯網爲核心驅動的影視實業公司,擁有內容生產製作、互聯網宣傳發行、衍生品授權及綜合開發、院線票務管理及數據服務的全產業鏈娛樂平臺,是阿里巴巴文化娛樂集團重要的垂直業務縱隊。阿里影業一直在通過技術與架構的創新,引領行業全鏈路向數字化和智慧化變革。

行業流量爆發增長的同時,影演場景也在不斷得到延伸和豐富。在此背景下,爲了應對演出現場服務效率、系統穩定性、高可用性壓力帶來的嚴苛考驗,阿里影業基於阿里雲邊緣容器服務 ACK@Edge 實現了一套面向影演現場服務場景的雲邊端一體混合雲架構,通過對海量異構設備接入的支持,以及高可用、高穩定性、可擴展等性能提升,來滿足未來高時延敏感實操消息上下行和業務快速發展需求。值得一提的是,這是演出行業首例實現雲邊端一體、雲端服務與邊緣集羣雲原生協同的落地實踐,並於 2023 年 6 月獲得中國信通院“可信邊緣最佳實踐案例”。

人流大、環境複雜,影演現場服務挑戰催生雲邊協同訴求

阿里影業線下演出場景的服務人羣主要分爲三類,消費者、主辦方以及監管方。對於監管方要滿足安全、穩定的要求;對於消費者要保證覈驗準確、進場快速;對於主辦方,除了以上幾點,還需要儘量降低成本。

服務系統管理平臺作爲阿里影業的核心業務系統,在不同演出場地的基礎網絡設施參差不齊的條件下,結合現場人流量呈現短時併發增長的特性,業務系統對高度敏感的網絡資源需求依賴較大,導致業務健壯性無法保證。在演出現場服務規模高速發展的現狀下,已經出現嚴重的邊端業務發展瓶頸,如多邊端項目規則無法協同配置,多演出現場無法統一監控管理,海量異構設備無法統一運維調度,傳統雲到端以及端到端架構現狀無法繼續滿足實際邊端場景需求,需要面向海量異構設備接入的高可用、高穩定性、可擴展的雲邊端一體的混合雲架構,解決現有瓶頸與未來擴展問題:

  • 雲邊協同便捷:隨着雲計算、邊緣計算和物聯網等技術的快速發展,對於協同工作的需求也在不斷增長。雲邊協同可以充分利用這些先進技術,爲用戶提供更高效、便捷的協同體驗。
  • 高效數據處理:數據已成爲企業和組織最重要的資產之一。伴隨電影演出數據量呈現爆炸式增長,這使得對數據的存儲、處理和分析需求也隨之增。雲邊協同可以幫助用戶更好地管理和利用這些數據資源,雲邊協同可以跨越地域和時區的限制,提高工作效率。
  • 低時延:在電影演出現場,對數據處理和反饋的實時性要求非常高。雲邊協同可以通過邊緣計算技術,實現數據在本地設備的快速處理,降低延遲,滿足實時性需求。
  • 大幅降本:雲邊協同可以在本地設備上進行部分數據處理,減少數據在網絡中的傳輸量,從而降低網絡帶寬需求和通信成本,同時更合理地利用機器資源,降低硬件投入成本以及硬件運輸成本。

阿里影業基於 ACK@Edge 的雲邊協同 IoT 架構實踐

阿里影業邊緣 IoT 服務系統使用雲邊端協同的架構,是針對現場換驗業務場景的一種解決方案。整體思路主要以雲控邊、邊自治、端智能爲核心思想,以實現雲邊協同、多元化的方式爲現場提供高可用、高性能、高擴展的現場服務。

ACK@Edge 是阿里雲容器服務針對邊緣計算場景推出的雲邊一體化協同託管方案.面向大規模邊緣計算場景,ACK@Edge 擁有經中國信通院認證的“卓越級節點管理”產品能力,採用原生 Kubernetes 非侵入方式增強方式支持邊緣計算場景下的應用統一生命週期管理和統一資源調度,幫助企業專注於容器化應用的開發與管理。

圖1:阿里雲邊緣容器服務 ACK

在整體架構上採用雲邊端一體化協同託管方案,將雲計算的能力下沉到邊緣側、設備側,重點提供存儲、網絡、安全、監控、日誌等能力;在集羣管理方面,APIserver 和調度器內置了大量性能優化;在雲邊網絡方面,通過對網絡插件 Flannel 優化大幅度降低雲邊流量開銷;此外,考慮到邊緣資源的異構性、地域性以及網絡的複雜性等特點,ACK@Edge 提供了異構資源管理、邊緣自治、邊緣單元化、邊緣流量管理、輕量化、原生運維 API 支持等,以原生方式支持邊緣計算場景下的應用統一生命週期管理和統一資源調度,保障邊緣業務穩定性。

ACK@Edge 目前已經廣泛應用於 CDN、實時音視頻雲服務、在線教育、交通、智慧城市、智慧工業、IoT、物流、水利、能源、農業等場景。

阿里影業的現場換驗雲邊端協同架構使用 ACK@Edge 作爲底層雲原生邊緣基礎設施調度的託管底座,利用 ACK@Edge 提供的邊緣自治、邊緣管理、服務運維等能力來支撐雲控邊、邊自治的設計原則。

圖2:阿里影業雲邊協同解決方案整體架構

在實際業務場景中,現場的邊緣服務器是分散在各個現場的並且是不固定的,通常需要在邊緣服務器出廠時,便將邊緣節點添加到 ACK&Edge 的 master 節點上,再通過雲上自建設備監控平臺進行業務部署、運維管控等操作。利用 ACK&Edge 的邊緣自治能力保證現場節點在極端弱網、無網的情況下服務正常啓動,提供現場需要的換票、驗票等能力,以便現場能夠保證正常地進行驗票、換票等操作,此外,通過 ACK&Edge 的可觀測能力,對現場服務節點進行監控、告警等以提升現場服務問題的自我發現能力和保證現場服務的可用性。

2.1 高效的邊緣服務定製管理

圖3:邊緣服務編排

邊緣容器服務 ACK@Edge 提供的功能,通過更上層次的抽象,對多個 Deployment 進行統一管理,比如創建、更新和刪除等操作。提供一個模板來定義應用,將多個 Workload 部署到不同的區域,每個區域定義爲一個節點池。

目前單元化部署支持兩種類型的 Workload,StatefulSet 和 Deployment。控制器會根據單元化部署中節點池的配置創建子的 Workload 資源對象,每個資源對象都有一個期望的 Replicas Pod 數量。通過一個單元化部署實例就可以自動維護多個 Deployment 或者 Statefulset 資源,同時還能實現 Name、NodeSelectors 和 Replicas 等的差異化配置。

現場運維管理平臺提供邊緣設備服務發現、邊緣服務差異化配置服務,根據現場業務動態調整 Deployment 配置,依託 ACK@Edge 實現高效的邊緣服務定製、管理。

2.2 邊緣自治,節點任務無縫自動切換

大型和超大型演出現場驗票系統可靠性要高其他類型現場,對設備可靠性提出更高的要求,並且設備故障平均故障時間也要滿足全天候驗票要求,同時針對現場容災,可自動感知和服務切換,減少現場運維人員排除故障時間。針對現場驗票服務設備可靠性要達到 0.999 及其以上,並具備服務容災能力,實現多機運行,雲端一體的服務容災。

邊緣節點可以自主協商、決策和執行任務的能力;自治能力可以使邊緣節點更加智能化,能夠自動適應環境變化,保證系統的穩定性和可靠性。無縫自動切換是指在邊緣計算中,當某個節點故障或不可用時,系統可以自動將任務轉移到其他節點上,實現無縫的任務切換和容錯能力。通過邊緣自治和無縫自動切換的技術,邊緣計算可以更加靈活、高效地進行任務調度和資源利用,同時也能夠提高系統的可靠性和容錯性。

設備端連接邊緣和雲端提供換驗能力,設備通過自動決策 SDK,判斷網絡狀態、智能監測服務行爲自動進行決策,確定連接邊緣還是連接雲端服務。邊緣通過數據同步服務與雲端進行多通道數據交互,以確保雲端和邊緣數據一致性。

2.3 雲邊協同,確保現場規則一致

雲邊協同將雲計算和邊緣計算相結合,通過協同工作,實現更加高效、靈活和可靠的計算模式。現場規則一致多開是指在邊緣計算環境中,可以快速複製、部署和管理相同的應用程序和服務,以滿足現場多個節點的需求。通過雲邊協同和現場規則一致多開的技術,可以將計算資源和應用程序更好地分佈到邊緣節點上,提高系統的響應速度和性能,同時也能夠滿足現場多樣化的需求。

具體來說,雲控制整體中心雲與邊緣雲部署,主動協同邊緣,推送邊緣數據實時協同,雲端項目與邊緣項目共享現場規則,雲邊配置整體協同與迴流,現場規則雲邊一體一致多開協同,雲端管控高速觸達邊緣,做到“雲控端,邊回雲,一致協同”。

圖4:現場規則一致

2.4 服務安全,智能體檢

服務安全邊緣計算環境下,需要保護數據和服務不受攻擊和濫用的技術和策略。邊緣計算場景下,由於數據傳輸路徑較長、網絡拓撲結構複雜,安全風險較高,因此保障服務安全顯得尤爲重要。同時,智能體檢是對邊緣設備、網絡環境和服務進行全面的安全體檢和分析,及時發現和排查安全隱患,保證系統的安全性和穩定性。通過服務安全和智能體檢的技術,可以提高邊緣計算系統的安全性和可靠性,保障數據和服務的安全和可用性。阿里影業 IoT 雲邊端充分考慮服務安全和智能體檢,以保障系統的安全性和可靠性。

邊緣服務自動智能檢測邊緣服務各個系統指標,自動上傳系統體檢指標數據,自動化檢測、修復、引導等進行現場系統告警修復,並將檢測數據實時上傳雲端,以便對現場所有邊緣服務器進行早知道、早修復、早處理。

圖5:智能體檢

ACK@Edge 助力阿里影業 IoT 雲邊協同、增效降本

通過將 ACK@Edge 平臺作爲 IoT 雲邊端架構整體基座,阿里影業在影演現場服務場景打通了現有云上 Paas 平臺與邊緣端服務配置管理能力,將雲原生的能力擴展到了邊緣側, 能夠滿足邊端的高響應、低時延、大連接的強訴求的雲管邊的整體協同能力。

目前,該架構已經很好的應用於現場服務中,在超過 200 場次的各類項目中驗票總數近十萬張,帶來業務結果在諸多方面的提升:

  1. 將服務置於容器中,解決了原始資源不隔離帶來的穩定性差的問題,統一設備操作系統與配置環境,降低現場 98% 的設備兼容問題,現場人員部署速度提升 45% 以上,降低活動人員成本;
  2. 利用邊緣容災完成局域集羣負載均衡,無需人工監控與操縱,減少 99% 的切換時間,實現主機與備用機的平滑無感切換,大大增強現場服務容災能力,在保證服務穩定性的同時,提升了驗票環節的用戶體驗,1 秒完成驗票,人均驗票時間減少 70%;
  3. 機器資源合理利用,實現多節點一臺機器,使硬件的投入和部署成本整低降低 50%。
  4. 邊緣設備管理實現了邊緣設備鏡像發佈、回滾以及升級,監控數據以及服務發現,實現遠程對所有節點的統一管控,同步所有節點版本發佈,減少因版本不一致或版本未更新造成的入場問題。

通過落地基於 ACK@Edge 的雲邊一體協同架構,阿里影業拓展了更多的演出行業場景,整體服務穩定性與高可用度得到提升,並且大幅提升主辦方對阿里影業信任與消費者滿意度,形成了幫助阿里影業在現場服務領域處於領先的重要支撐。

未來,阿里影業將繼續秉持“內容+科技”的雙輪驅動發展戰略,加速上游內容佈局,加長科技板塊優勢,不斷優化運營效能,推動業務多元化發展。阿里雲容器服務也將始終與客戶業務同行,助力阿里影業爲廣大用戶、市場和行業提供豐富、滿意的文娛消費體驗。

點擊立即免費試用雲產品 開啓雲上實踐之旅!

原文鏈接

本文爲阿里雲原創內容,未經允許不得轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章