淘寶直播火爆的背後,阿里做了什麼?

簡介: 2020天貓雙11的直播間裏,平臺必須在1秒內將主播聲音、畫面和商品信息同步給分佈範圍極廣的百萬級消費者,確保後者獲得一致的、實時的、高水平的音視頻體驗,以及商品交易(尤其是秒殺)的可信度。爲了進一步優化消費者體驗,降低延時,阿里巴巴非常重視在音視頻技術領域的投入。本文從最新的國際視頻標準VVC(Versatile Video Coding,多功能影像編碼)講起,分享視頻直播行業的全景與阿里的創新,以及達摩院和淘寶團隊共同開發的VVC編解碼器相關工作。

image.png

image.png

國際視頻標準簡史

上圖顯示的是兩個重量級國際視頻標準組織:國際通信聯盟ITU-T以及國際標準化組織ISO/IEC MPEG。這兩個巨頭從30年前就開始做視頻標準,到現在已經是做到第6代了。其中這兩大巨頭聯合制定的幾款視頻標準對國際上視頻產業尤其有非常深遠的影響。比如MPEG2,它完美的幫助視頻產業完成從模擬電視到數字電視的重要轉型;H264對業界的貢獻就更是不言而喻,大家都知道無論什麼終端(電視、手機、電腦)和什麼服務(廣播,衛星,互聯網,視頻會議等)基本上全面支持這個標準;H265對高清超高清視頻和HDR視頻的普及做出了重要的貢獻。最新出爐的第6代標準VVC,除了服務現在已有的應用,降低帶寬成本提高用戶體驗,同時它也可以賦能5G下新興的視頻應用,像AR/VR、360度全景視頻以及超高清的4K、8K等。

爲什麼我們要這樣堅持不懈的做6代視頻標準?每次標準更新換代時,視頻產業鏈需要從服務端內容生產商一直到最後的消費者,包括中間每個環節上打通端到端的生態系統,每一個環節都要去做更新。因爲視頻標準更新換代需要付出這麼大的努力,所以我們對每一代新標準都會有一個基本的要求:相同的視頻質量下編碼效率翻倍,也就是說相比上一代,新標準的帶寬節省必須達到50%。

先來看一下VVC標準會經常碰到的一些詞:

  • VVC:Versatile Video Coding,Versatinle指靈活多功能的特性
  • VTM:測試模型參考軟件平臺
  • JVET:ITU-T和ISO/IEC MPEG的聯合委員會
  • H.266:VVC是兩個國際標準組織的雙標,H.266是VVC在ITU-T的標準編號

image.png

  • 歷時近3年的pre-standard技術開發及積累工作,JEM(Joint Exploration Model)參考軟件平臺。
  • 相同PSNR指標下,JEM-7.0相對HEVC的參考平臺HM達到34%的碼率節省,爲正式標準化提供了重要的技術支撐。
  • 同時,360Lib參考軟件平臺爲全景視頻的處理、壓縮和質量評估提供了全套完整的工作流程。

在VVC正式標準化還沒開始之前,國際標準組織和成員公司就進行了多年的技術預研和技術積累。從上圖可以看到,從2015年初開始,JVET經過了歷時兩年半的編碼技術預研,搭建並完善了JEM參考軟件平臺;到2017年中,在相同的PSNR的指標下,JEM相對HEVC已經可以達到34%的碼率節省,爲正式開始制定下一代視頻標準提供了有力的技術支撐和性能證明。

另外,在JVET積累下一代編碼技術的預研過程中,由於AR/VR等新興應用的影響,JVET也對360度全景視頻進行了充分研究。爲此,JVET建立了360Lib參考軟件平臺,和JEM相結合,爲全景視頻的處理,壓縮以及質量評估提供了一套完整的工作流程和性能分析的能力。2017年10月,VVC在JEM和360Lib基本上成熟時,ITU-T和ISO/IECMPEG這兩個標準組織發表了聯合技術徵集書,裏面包括3中主要視頻格式:標準動態SDR視頻(主流視頻格式)、高動態HDR視頻,以及360全景視頻。這也是6代標準以來第一個考慮到多種視頻格式的技術徵集書。

2018年4月,全世界一共有32個單位提交了23份徵求書的響應,在相同PSNR的情況下,最佳的響應提供了40%以上的碼率節省,從此VVC標準化正式啓程。2018年4月至2020年的7月,經過兩年多的努力,VVC的第一版正式定稿。

達摩院視頻標準團隊在2019年年初時候開始參與VVC的標準制定,歷時一年半,提交了很多技術提案被採納到VVC標準中,爲VVC標準的制定做出了重要的貢獻。

image.png

上面圖中的藍色部分代表VVC參考軟件平臺VTM-1.0到VTM-9.0的性能演進,以及VVC相對HEVC在高清超高清視頻上的性能增益。我們可以看到,VVC兩年多的標準化進程主要分成兩個階段:前半階段主要注重增加先進編碼工具來提高VVC的性能增益,因此在VVC標準化的第一年期間壓縮性能迅速上升;在後半階段,標準委員會JVET更加註重VVC標準設計上的細化工作,注重各個VVC編碼工具之間的設計融合,保證低功耗高效的軟硬件實現,因此在VVC標準化的第二年中,我們也可以看到VVC的性能增益逐漸趨於穩定。

另外上圖還提供了VVC參考軟件平臺VTM-1.0到VTM-9.0的複雜度演進過程。紅色線顯示的是編碼時間,大家可以看到,隨着編碼性能增益的提升,編碼複雜度的提升也很快。灰色線代表解碼器的複雜度,相比HEVC來說一直維持在兩倍不到,這說明VVC解碼器的複雜度是非常可接受的。如何做一個好的VVC實時編碼器,在最低複雜度的前提下拿到最高的性能,中間有很多技術和學問,這也是爲什麼後面手淘和達摩院要共同開發這個項目的重要原因。

image.png

上圖列舉了30多種VVC編碼工具,在混合視頻編碼的框架下,所有的功能模塊都增加了新的工具,用以提升VVC的壓縮性能。另外VVC主打靈活多功能的特點,因此在標準制定過程中也一直考慮到一些重要特定場景的視頻內容,比如針對屏幕內容以及360度全景視頻的編碼工具。

image.png

上圖顯示了VVC中各個編碼工具對性能增益以及複雜度的貢獻。在這個圖上,如果一個編碼工具落在圖的右上方,則說明它的壓縮性能好、同時複雜度低。但是我們可以看到其實沒有免費的午餐,實際數據顯示,編碼性能好的工具,複雜度也一般相對較高,比如ALF。因此,我們在開發實際商用編碼器的時候,如何合理選擇使用這些編碼工具,對編碼器的在複雜度和性能上的可行性至關重要。另外,從上圖我們可以看到在VVC的衆多編碼工具中,有8個性能增益可以超過1%,其他相對比較小。

image.png
上圖顯示了VVC在主流SDR視頻上的性能增益。對於高清、超高清視頻來說,在相同的PSNR指標下,VVC相對HEVC可以節省38.9%帶寬,對於圖片編碼來說,這個性能增益爲26.7%。

image.png

上面的表格中顯示的碼率節省並沒有達到50%,那麼VVC做爲新一代的標準,是否達到了效率翻倍的設計目標?因爲視頻質量評判最權威的依據是主觀質量,所以在每一代標準定稿前後,都會開展正式的主觀質量驗證工作,而每一代標準最後的帶寬節省也是在相同的主觀質量下來進行衡量。下面這個圖顯示了VVC主觀質量驗證工作在兩個超高清4K視頻通過非常嚴格的主觀質量評測方法得到的初步數據,我們可以看到,相同的主觀質量下,VVC相比HEVC的碼率節省超過50%。

image.png

主流HDR視頻序列,PQ & HLG,VTM-9.0 vs. HM16.18

image.png

360全景視頻,8K & 4K,VTM-8.0 / HM-16.20 + 360Lib

 

更強的codec(VVC) + 更先進的投影格式(GCMP)

VVC有多功能靈活的特性,上圖爲HDR視頻和360全景視頻的客觀性能。我們可以看到在相同客觀性能下,VVC在兩種主流HDR視頻(PQ和HLG)內容的碼率節省達到30%,在360全景視頻上的碼率節省達到32.5%。其中在360視頻上的增益主要從兩方面得到:一方面VVC代替HEVC,有更強大的編碼內核,另外一部分的性能增益是通過使用更加先進的投影格式得來的。另外,上面的數據只顯示了客觀性能下的碼率節省,針對HDR和360全景視頻的主觀評測工作也在有序開展,其中360全景視頻的主觀評測工作也由阿里標準團隊主要牽頭,預計明年初會有正式報告出爐。

達摩院視頻標準團隊參加VVC標準制定的過程中,在編碼技術方面,貢獻了和低延時實時通信、屏幕內容、無損壓縮、高動態範圍的壓縮、幀間預測、高層語法等方面相關的技術。

同時,我們團隊成員擔任JVET大會和分會的代理主持人、VCC性能驗收工作中全景視頻方面的負責人、測試模型算法描述文檔編輯、專題討論組(AHG)主席、也是若干核心實驗的負責人,爲阿里巴巴在國際視頻標準組織中建立了一定的影響力。

下面來看一下最新視頻業界趨勢以及VVC在這些視頻趨勢上的應用。

image.png

通過上面的行業報告對互聯網各種類型的數據量的預測可以看到,視頻將是永遠的帶寬大戶;相比去年的餅狀圖(左邊),5年後以後不光整體數據量會有5倍的增長,而且視頻在整體數據量的佔比也將持續快速增長。

視頻數據的持續快速增長主要有四個原因:一、視頻更加豐富,不論是電商(淘寶)、社交、娛樂(優酷)、還是新聞,包括智慧城市這些新興應用,視頻消費形式越來越多;二、大家越來越習慣隨時隨地,唾手可得的視頻消費;三、消費者對視頻的信號要求越來越高,由高清到超高清;最後,大家希望視頻形式更加新穎,因此基於浸入式視頻的AR/VR應用會快速興起。

拿淘寶直播來講,帶寬成本佔比很大。從日活和平均時長的角度來看,不到一年的時間增長非常迅速。月度帶寬成本,有數量級的增長,佔了整體業務成本中非常重要的一部分。現在的直播畫面也很複雜,運動也較多,大家對主播的清晰度要求也越來越高,對分辨率和幀率等方面的技術指標提高了要求。目前淘寶已經將很有挑戰性的視頻內容做到平均800Kpbs的帶寬,從H265編碼器的角度來看,已經做到極致壓縮。如果想要再顯著的降低帶寬成本,只能通過視頻標準的更新換代來做到。

阿里266項目的主要目標是服務淘寶直播,希望在明後年的雙11能夠做到淘寶直播實時編碼,同時相對阿里265來說壓縮性能有顯著的提升。

Fraunhofer HHI是一家非常有聲望的德國研究機構,做了很多代的視頻標準開發,對VVC標準開發也做出了很大的貢獻。在今年9月公佈了他們的開源VVC編解碼器。我們對這個開源VVC編解碼器做了一下實測,在淘寶直播的視頻上,編碼速度只能到達每秒0.5幀,和我們的實時編碼要求相距甚遠。而且對淘寶直播這樣的應用來說,在解碼器方面必須有最好的移動端優化。這些原因讓我們更加認識到,我們需要自己去做一流的編解碼器,能夠高效服務我們集團內部業務,這是一件非常重要的事情,也是阿里266項目的主要目標。

最後我們再看一下MPEG中其他相關的視頻標準,以及在其它視頻標準組織的工作。前面我們講了新穎的視頻是一個大家要關注的主要視頻趨勢之一,這個主要是指浸入式視頻。MPEG看到這個視頻業界的重要趨勢,除了制定VVC新一代視頻壓縮標準以外,還制定了一整套的MPEGImmersive浸入式媒體標準系列,其中包括點雲壓縮標準,六自由度視頻和音頻壓縮標準,以及一些浸入式媒體的文件格式標準。

image.png

在國際視頻標準組織之外,大家也都知道另外一個有影響力的視頻標準制定聯盟,Alliance for OpenMedia (AOM)。AOM從谷歌的VP8和VP9開始,2018年出臺第一代AOM標準AV1,同時最近AOM也開始籌劃開發下一代視頻標準AV2。從國內的標準組織來說,AVS經過了三代主要標準,現在在開發AVS3第二器。AVS3第一期和VVC的時間線非常吻合,也是在2017年底發佈技術徵求書,2018年開始收集徵求技術提案、徵集的響應,也發佈了HPM參考平臺。經過一段時間的迭代,2019年底定稿AVS3第一版。目前AVS正在繼續推進AVS3第二版的制定,目標是在明年年底定稿第二版,性能目標超過VVC。達摩院團隊也在積極參與AVS3第二版的制定,爲AVS3第二版的制定做出重要的技術貢獻。

image.png

最後跟大家分享國際視頻標準的未來會是什麼樣。我們在做視頻標準時,不會只是看現代,更不會只看着過去,還要去看將來。從技術的趨勢來說,基於深度學習的視頻編碼是一個給大家很多希望的技術方向。我們知道,過去6代國際視頻標準都是基於傳統的混合編碼框架,其中有很多功能模塊,但是做到今天這個框架已經差不多到了性能天花板。把DL技術引入編碼有兩條路線:一個是可以去和傳統的框架相結合,在各個功能模塊上增加DL的編碼工具,使性能變更好;另一種路線是做端到端的DL視頻編碼結構。這兩個方向,從技術趨勢來說都是非常值得去深究的。因此MPEG在今年4月份成立了DNNVC專題組,這個專題組想要做的事情是探索深度學習在視頻編碼上的應用,用以打破傳統框架的性能天花板,尋找視頻編解碼的未來方向。

image.png

最後和大家介紹一下達摩院視頻技術團隊主要負責的三部分工作:視頻標準團隊主攻VVC、AVS3、AV2、DL編碼、VCM、DCM等硬核技術。在視頻硬件實現上,我們團隊開發了一款超高清的實時265編碼器,在業界同類產品中壓縮性能領先,同時還提供全硬件化的高效視頻前處理的能力,目前服務於優酷直播業務。在視頻軟件實現上,我們的團隊除了主導剛纔所提到的阿里266項目,另外我們也和淘寶團隊深度合作,爲視頻會議提供基於H264和H265的軟硬件編碼優化方案,降低業務成本,提高用戶體驗。

 


原文鏈接
本文爲阿里雲原創內容,未經允許不得轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章