阿里雙11淘系技術掌門人:一場不亞於移動化的變革已經發生

2019 年 11 月 11 日,這是阿里巴巴所有技術人經歷的第 11 次技術大考。這一年,阿里巴巴實現了核心交易系統 100% 上雲,總銷售額達 2684 億元。在 QCon 全球軟件開發大會(北京站)2020 即將召開之際,InfoQ 採訪到了阿里巴巴副總裁、2019 年雙 11 淘系技術掌門人湯興(花名:平疇),本文分享了這場意義非凡的變革以及阿里新零售的技術方向。

從愛奇藝 CTO 到淘系技術掌門人

2019 年,湯興正式加入阿里巴巴集團,任職阿里巴巴集團副總裁,花名平疇。整體負責包括淘寶技術、天貓技術、農村淘寶技術、閒魚、躺平 等多個團隊組成的新零售技術事業羣淘系技術部。

翻開平疇的履歷,他擁有超過十年全球 TOP IT 公司研發及管理方面的工作經驗。加入阿里之前,平疇最近的一份工作經歷是任職愛奇藝 CTO,他帶領愛奇藝技術團隊建立起全球首個基於視頻數據理解人類行爲的視頻大腦——愛奇藝大腦,讓機器能夠理解視頻內容,並領導在視頻社交領域推出愛奇藝泡泡,開創了視頻社交先河。

雙 11 現場的平疇

雙 11 之前,阿里宣佈由平疇擔任本屆雙 11 淘系技術團長,從視頻領域到新零售領域,角色轉變的同時,還要帶領技術團隊面對雙 11 流量高峯的挑戰,壓力可想而知,但平疇很快就適應了這種變化。

看懂兩者之間的內在聯繫與差異,就很容易在兩個領域切換和適應。

採訪中,平疇表示,視頻是內容行業,本質上是內容虛擬商品的供給與需求匹配。阿里是電商行業,主要是實物商品的供給與需求匹配,兩者既有相同之處也有不同之處,比如一個沒有庫存,一個有庫存;一個通過線下物流履約,一個通過線上數字媒體傳送;一個側重營銷交易活動運營,一個側重主題運營活動等。無論是虛擬數字經濟還是實物經濟,都脫離不了零售的本質,供給與需求的有效匹配,而技術體系的框架也基本類似。

第 11 個“雙 11”:一場堪比無線化的變革

2019 年,雙 11 直播已成爲淘寶內容生態里程碑式的節點,其意義可對標當年的無線化變革。

回憶起 2019 年的 11 月 11 日,平疇表示,淘寶經歷了一場意義完全不亞於無線化的變革,那就是直播。

如今,不知還有多少人對淘寶當年的那場無線化變革印象深刻。

2013 年,移動化的浪潮來了,所有人都感受到了移動化即將帶來的鉅變。阿里集團一聲令下,正式宣佈“ALL IN 無線”戰略,很多人被從原有部門放到戰場最前線,有人不適應走掉了,後續的再補上,就這樣不斷調整和優化。

2016 年,現任阿里巴巴 CEO 張勇正式向外宣佈淘寶網與無線淘寶合併,淘寶成功從 PC 時代轉型爲移動時代。事後證明,如果不是這場變革,我們很難見到如今的淘寶。

業務形態在變,技術必須跟上

“在雲原生的大潮下,新一代的技術變更可能纔剛剛開始,核心交易系統百分百上雲可以說是整個基礎設施最大的變化以及技術突破。但是,在基礎設施的變化之外,整個業務形態也發生了巨大改變。”

平疇在採訪中對 InfoQ 表示,這種業務形態的改變指的就是直播。淘寶從 2015 年就開始做直播,短短四年打造了一個年成交千億的行業。

2019 年,雙 11 直播已成爲淘寶內容生態里程碑式的節點,其意義可對標 2015 年的淘寶無線化。當天,淘寶直播成交近 200 億(2019 年雙 11 總交易額爲 2684 億元),超過 50% 的品牌商家通過直播獲得增長。

如今,直播已經成爲天貓雙 11 商家的標配,直播的內容形式與圖文截然不同,更強調實時互動和流暢的觀看體驗,而這些特點對消息通道、網絡和 CDN 等軟硬件資源提出了苛刻的要求。

既要保證用戶體驗,又要追求技術上的最低成本,包括最小帶寬消耗、最大機型覆蓋等。平疇帶領的技術團隊遇到了很大挑戰。

爲了解決直播中可能遇到的問題,淘寶直播技術團隊自研音視頻實時通信引擎,採用去中心化的設計方式,支持橫向級聯,實現大規模低延時直播,時延從原先的 5 到 7 秒降低至 1 秒內,並在弱網下有更好的表現。

雖然做足了準備,但平疇回想起當下,坦言還是有些擔心:“很怕發生預期外的問題,尤其是新場景、新用戶動線和新架構。”

實踐證明,歷年雙 11 期間產生的相對嚴重問題,往往都不是我們預先最擔心的問題,甚至絕大多數可能不在預期內。

道理很簡單,無論項目的挑戰或風險有多大,只要在雙 11 前能預想到,技術側就一定會做好預案應對最差情況,並且做好演練工作。對於預期外的問題,往往是沒有準備預案或者預案有效性沒有經過驗證,遇到這種情況就非常挑戰整個技術團隊應急解決問題的能力了。不過,這也是雙 11 的魅力所在:

我們永遠沒有辦法對所有問題做好預案,永遠有未知的挑戰在前方等待,而我們唯有通過技術升級去不斷地逼近那個能夠做到的最好的極限。

所以,對技術人來說,雙 11 永遠沒有做的最好,只有做的更好。

提前一年,決定上雲

今年雙 11,我們把“最要命”的系統全都放在雲上。

這是阿里巴巴集團 CTO、阿里雲智能總裁行癲在雙 11 當晚說的一句話。如開篇所言,2019 年雙 11,阿里實現了核心交易系統 100% 上雲,而這個決定早在一年前就做出了。

“每年雙 11 結束,全集團都會進行一次全面的技術覆盤,除了覆盤在整個雙 11 過程中的得與失,更重要的是,確定下一年雙 11 技術的整體方向。2018 年雙 11 覆盤時,集團就整體確定了將核心電商搬到雲上的大策略。”

2019 年 1 月份,上雲項目正式啓動,這個項目在阿里內部被稱爲“雲創未來”。電商核心鏈路全面上雲意味着沒有云下的資源做切換與互備,平疇表示,這涉及到阿里電商數百個核心應用,上萬臺物理機臺,總核數過百萬核。可想而知,這其中的挑戰有多大。

分步遷移:Q3 季度進入大規模應用開發

爲了實現這個目標,從機房到軟件部署、網絡拓撲、中間件等一系列基礎設施都要先行準備並且在更早一些的大促,比如 618 大促中驗證有效性。平疇透露,除基礎設施外,每年上半年是業務上各類技術平臺與框架升級迭代的黃金期,等到 7、8 月份,再結合雙 11 業務的具體玩法逐步進入業務應用的大規模開發期間。

按階段來看,平疇表示,雙 11 上雲在技術層面可以分爲如下三個部分:

  1. 平穩遷移上雲;
  2. 穩定使用雲服務;
  3. 結合雲技術探索新的高效研發方式。

第一階段:應用遷移上雲。

平疇表示,在這個過程中,最大的風險來源於雲上基礎設施和中間件等產品的變化,應用需要配合這些變化進行改造和升級。

梳理清楚這些變化後,技術團隊纔有依據判斷需要進行哪些相關的應用改造與升級工作,來規避重大風險。在這個過程中,淘系技術推動了中間件二方庫升級、版本檢測、日誌異步化改造、緩存集羣遷移等工作,建立了一套應用升級檢測的自動化機制和升級流程管理,確保所有應用升級到位,並在雲上佈署最小業務集羣,能夠通過自動化業務功能迴歸來驗證遷移後的業務功能一致性。

其次,遷移過程必須有很強的可控性,具備快速容災能力。平疇表示,淘系技術會通過線上流量的複製進行壓測,全量回歸雲上的應用確保不出現性能退化。壓測的同時,技術團隊準備好快速切流逃逸的方案,在原有的異地多活的容災基礎上把中心機房建立成 4 個邏輯機房, 實現一鍵在同城 4 個邏輯機房之間的容災逃逸能力,並經過多次驗證。在具體遷移的過程中,小步驟切流,同時加強雲上監控,避免突發性大面積問題出現。

第二個階段,建立上雲保障小組。

淘系內部將雲和電商相關的研發一起拉通,明確響應機制和負責人,打通兩邊的變更系統和告警系統,細化雲告警信息中明確關於電商應用相關的信息。通過不定時的模擬攻擊雲環境,推動兩邊對故障處理的應急能力提升。

新零售線專門成立了上雲、用雲項目組,阿里雲也有專門的項目成員進行對接。同時,我們有專業的 PMO 來保障跨團隊的項目合作,保障日常的周 / 月例會進行信息同步以及項目推進,針對演練中不同的線上問題有專門的應急機制,雙 11 項目的橫向拉通保障工作也隨着多年的技術升級而不斷沉澱經驗。

爲了保障雲上的容載能力,雙 11 技術項目組組織了多次雲上突襲演練,演練雲上單元機房不可用情況下的應急手段。通過持續迭代逐步將核心業務搬到雲上,過程中持續進行雲上回歸測試以及切流演練,在雙 11 前的幾次大促中也驗證了線上的用雲穩定性。

第三個階段,結合雲技術探索新的研發方式。

上雲的過程中,雲技術在向雲原生髮展。除了神龍服務器(阿里雲彈性裸金屬服務器)之外,新的 ASI 容器也大規模使用。爲了探索 Serverless 的價值,淘系技術結合雲技術構建了自己的函數平臺 FaaS,覆蓋淘寶互動、閒魚、導購、躺平等多個業務場景。這個平臺一方面大幅提升了研發效率,另一方面提供了雲端一體的輕量級研發方式。

(淘系自研雲端一體函數平臺 Gaia 架構圖)

在上雲的過程中,我們看到基礎設施變厚了,研發變得輕了,推動業務研發從 Procode 走向 Lowcode,進而聚焦業務研發,可以更大地釋放研發生產力。

端側 AI 決策 140 億次

上雲、做 AI,這是近兩年所有重視技術研發的科技公司的大主題。在上雲之前,阿里淘系就開始研發端側的智能應用,這也符合當下國人的消費習慣,大部分消費者習慣通過移動端進行交易。

2019 年,手淘大規模使用端上 AI 技術,在客戶端實現對用戶行爲的實時感知,應用深度神經網絡進行用戶意圖識別,並根據識別結果進行智能決策,做到推薦內容的實時更新,大幅提升個性化推薦效果和用戶體驗。

2019 年雙 11 當天,端側 AI 決策一共運行了 140 億次,對於信息流的個性化推薦、消息的智能投遞、直播的商品智能檢測,效果上都有非常大幅度的提升。平疇表示,淘系技術部的輕量級深度學習端側推理引擎 MNN 已經開源,這種有效利用雲與端的各自數據和計算優勢的方式一定是未來的發展趨勢。

除了端側的 AI 技術研發,阿里淘系也正在將深度學習、機器視覺和 3D 技術結合在一起,形成 3D AI 的方向,並將之應用於躺平家裝和家居領域。

最近五到十年,人工智能技術有了突飛猛進的進展,集中表現在深度學習,以及深度學習和人工智能問題的結合上,但是越來越多人對於人工智能技術是否可以再取得突破有所疑慮。平疇坦言,過去兩三年,業界對人工智能的作用有過度誇大。人工智能提升甚至創造新的場景需要和業務、產品、工程的深度結合,這需要較長的時間摸索。理想和現實的差距讓人們轉而認爲人工智能達到了瓶頸,這是缺少對技術到產品轉化規律的耐心和尊重的表現。

新的人工智能應用場景的出現不僅需要人工智能技術發展這單一的條件,更是依賴數據、業務和產品的發展。因此,開發人工智能新場景不僅僅是人工智能技術團隊的工作,也不是簡單的理論結合實際,而是需要打造基礎設施、新產品、新的數據的積累。有了這些條件,人工智能的新場景纔會源源不斷的孕育出來。

人工智能是戰術,核心還是具體場景的需求滿足,如何準確定義場景和相應的衡量體系纔是人工智能發揮所長的前提。

未來規劃

2019 年的雙 11 過後,阿里內部同樣召開了一場覆盤會。平疇透露,2019 年的雙 11 是技術歷史上消費者最順滑的一次,交易核心鏈路全面上雲,淘寶直播的同時在線人數也創了歷史新高。未來,阿里會持續不斷提升購物車、下單等核心鏈路的消費體驗,同時通過技術升級的手段大幅優化整體資源使用效率,降低大促過程中的技術資源使用成本。

接下來,阿里淘系的研發重點會聚焦在 5G 可能帶來的技術創新。平疇補充道,隨着 5G 的發展,網絡速度越來越快,視頻和直播的普及度越來越高。對於淘寶和阿里來說,傳統的電商是基於圖文和用戶進行交互,5G 會帶來新的購物方式。目前來看,直播是一種新的變化,5G 的部署可能會讓直播上出現 AR 互動,底層的低延時直播相關技術(編解碼、低延時通信)應該也會給消費者帶來新的消費體驗。

此外,AI、端計算、基於物理的 3D 渲染等技術在業務上的實施和應用也是十分值得關注的技術,將 AI 技術應用到智能家居、家裝領域,智能化、自動化地爲用戶提供專業設計師水準的軟硬裝設計方案,並且基於物理的 3D 渲染技術將設計師的設計方案渲染出照片級的逼真效果。同時,以全鏈路數字化改造爲基礎,以用戶定製化、場景化爲消費者提供服務,形成端到端的解決方案,這些技術的高度結合才能創造極致的用戶體驗。

採訪嘉賓:

湯興博士,現任阿里巴巴副總裁,領導包括淘寶技術、天貓技術、農村淘寶技術、閒魚、躺平 等多個團隊組成的新零售技術事業羣淘系技術部,致力於打造消費者和商家一體化的新零售智能商業平臺,開創場景化新賽道。湯興博士擁有超過十年全球 TOP IT 公司研發及管理方面的工作經驗,曾任谷歌上海研發中心技術總監,負責了 Google 視頻搜索業務及參與 YouTube 視頻搜索服務的研發,後加入愛奇藝擔任 CTO,全面推動了視頻行業產品技術用戶體驗的創新和發展。

即將到來的QCon北京2020策劃了人工智能、新零售、業務中臺、微服務、架構演進、未來計算等30多個熱門專題,甄選大量真實生產實踐案例,由一線專家親自講解,或許能給你帶來新的啓發,點擊瞭解詳情

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章