李松南:智能全真時代的多媒體技術——關於8K、沉浸式和人工智能的思考

點擊上方“LiveVideoStack”關注我們


視覺體驗在全真時代顯得越發重要,如何提高用戶的視覺體驗? 更好的編碼標準帶來的低碼率高畫質、超分等視頻處理手段帶來的畫質提升、三維視頻帶來深度感知、任意視點視頻或者VR360視頻帶來的用戶交互、擴展現實與虛擬現實帶來的超現實感; 另一方面,智能時代革新了音視頻技術,通過音視頻分析更好的理解數據與連接用戶、通過輔助創作讓音視頻內容極大豐富。 LiveVideoStack2021北京站邀請到騰訊多媒體實驗室視頻技術總監—李松南,帶領我們一起發掘在全真時代與智能時代裏多媒體技術的無限可能。

文/李松南
整理/LiveVideoStack


大家好,我叫李松南,來自騰訊多媒體實驗室,我報告的題目是《智能全真時代的多媒體技術》,副標題是《關於8K、沉浸式和人工智能的思考》。我將結合在騰訊多媒體實驗室的工作經驗,跟大家在宏觀維度上分享一下我個人對8K、沉浸式和人工智能的一點思考,不對的地方還請大家指正。

我的報告會分爲三個部分,首先簡單介紹一下多媒體實驗室,以及實驗室與騰訊雲之間的關係。第二個部分介紹一下我對全真的理解,以及我們是如何通過增加視覺信息的維度,來提升沉浸感。第三部分介紹一下在智能時代,深度學習技術如何幫助我們更好的理解和生產多媒體信息。


1.  騰訊多媒體實驗室

騰訊多媒體實驗室是騰訊雲與智慧產業事業羣下屬的一個實驗室,負責人是騰訊傑出科學家劉杉博士。實驗室的工作內容主要分爲兩大類,一類是是多媒體標準的制定,另外一類是對產品的技術支持。在這幅圖裏,左側是實驗室參與到的國際、國內各種標準組織以及工業論壇的圖標,這裏有一些可能是大家比較熟悉的,比如ITU、ISO/IEC、MPEG、開放媒體聯盟AOM,做編解碼的都比較熟悉;3GPP、IEFT,做通訊的都比較熟。右側是實驗室支持到的騰訊內外部產品的logo,其中就包括騰訊雲在內。騰訊雲是實驗室非常重要的合作伙伴,實驗室的很多技術,比如視頻編解碼、視頻處理、全景視頻、場景三維重建等,都在通過騰訊雲進行輸出。中間圓形的圖案說明實驗室在圍繞着標準建設的同時,在三個技術方向上爲產品提供服務,這三個方向分別是多媒體引擎壓縮與傳輸通信、互動沉浸式媒體,以及智慧融合媒體。多媒體引擎壓縮與傳輸通訊,最主要的研究方向是視頻編解碼;互動沉浸式媒體,研究內容包含全景視頻、自由視角視頻、物體和場景的三維重建等等;智慧融合媒體的研究內容主要是多媒體的處理、理解和生產,我個人主要負責智慧融合媒體部分。接下來我要介紹的內容主要來自我在實驗室這些年以來的工作經歷,以及平日的一些觀察和思考,希望對大家有所啓發。


2. 全真時代——從8K到沉浸式

繼PC互聯網、消費互聯網、產業互聯網之後,馬化騰先生又提出了全真互聯網的概念。每個人對全真的概念都有自己的解讀,我在這裏和大家分享一下我的思考。我會從連接、呈現與交互這幾個角度來解讀全真。從PC互聯網、消費互聯網、產業互聯網再到全真互聯網,從“連接”這個角度看,“連接”得變得越來越廣泛、越來越全面;從“呈現與交互”這個角度看,“呈現和交互”變得越來越自然、越來越真實。所以更全面的鏈接和更真實的呈現與交互,是我個人對“全真”的解讀。

從連接的角度看。PC互聯網、消費互聯網,連接的是人與信息,人與服務。我們可以在互聯網上搜索信息,購買商品,購買服務,這些都已經成爲我們日常生活的一部分。在產業互聯網裏,我們希望連接萬事萬物,我們希望真實世界的東西都可以通過互聯網進行訪問、進行操控,讓一切通過互聯網、通過AI變得數字化、智能化,比如智慧家居、智慧小區、智慧學校、智慧城市、智慧交通、智慧工業等等。這也逐漸在變爲現實。到了全真互聯網,我們希望可以把真實世界和虛擬世界進行連接,我們希望可以做數字孿生,創建元宇宙,把真實世界的東西複製到元宇宙,同時創造很多專屬於虛擬世界的東西,區塊鏈技術讓虛擬世界的東西也可以獨一無二,這樣就使得虛擬世界中的物品變得更有價值,可能會在全真時代、在元宇宙裏開啓很多全新的商業模式。


所以,從連接的角度,連接的範圍會越來越廣,連接的對象會越來越全。接下來,從“交互”這個維度來講,不管是人與機器之間的交互還是人與人之間的交互,都會變得越來越便捷,越來越真實。人與機器的交流越來越像人與人之間的交流。這裏給出了一個人機交互技術的發展路徑。人機交互從最早使用打孔卡,到今天仍然在使用的鼠標鍵盤,到移動互聯網時代的觸摸屏,再到智能時代的語音、動作,機器可以識別你講的話、你的手勢、你的目光,再到因爲Neuralink變得非常受人矚目的腦機接口,以及Meta (Facebook) 、蘋果爲他們的VR頭盔、AR眼鏡開發的肌電感知手環、肌電指環等等。大家都切身的體會到,人機交互變得越來越方便,越來越真實,越來越像人與人之間的交互,甚至做到超越。另外一方面,人與人之間的遠程交互也有變得越來越像面對面的交互。最開始我們只能通過信件的方式來跟遠方的朋友、親人通信,19世紀初有了電報,19世紀中後期又有了電話,現在有了互聯網、有了寬帶、有了5G,我們更習慣打開攝像頭,用視頻的方式和遠方的親友聊天、和同事開會、在手機和電視上看比賽直播等等,當網絡帶寬進一步提高,AR/VR普及以後,我們可能會帶着VR頭盔、AR眼鏡跟遠方的親人、朋友、同事溝通,感覺就像他們坐在我們對面一樣。光場顯示設備甚至可以讓我們不需要佩戴觀看設備實現6DoF的觀看體驗。所以交互,不管是人機交互還是人與人之間的遠程交互,都變的越來越真實。

除了“交互”以外,“呈現”也會變得越來越真實。今天我們在互聯網上消費的內容主要還是音視頻,依賴的是我們的視覺和聽覺。有些虛擬現實設備,比如VR手套、VR背心,還會給我一些觸覺的反饋。我也接觸過一些公司,他們的設備可以合成多種氣味,利用到的是我們的嗅覺。利用味覺的設備也有,大家可以在網上搜索一下。所以說,呈現的方式在全真時代會變的越來越豐富,越來越真實。從視覺和聽覺的角度講,我們已經有非常多的體會了。聲音上我們從單聲道、到立體聲、到環繞聲、再到全景音。視覺上,從2D到3D、到3DoF、再到我們可以在VR遊戲中體驗到的6DoF。我們可以切身的體會到,呈現的真實感在不斷的增強。這些就是我個人對全真的理解:“連接”體現出的全面以及“交互和呈現”體現出來的真實。因爲我在多媒體實驗室的工作內容主要與視覺相關,所以接下來我會更具體的講一講“視覺”這塊的內容,從2D到6DoF,我們可以用哪些技術來提升視覺的真實感、沉浸感。

我們在手機和電視上看到的主要還是2D的圖像或者視頻。如何提高2D視頻的真實感、沉浸感呢?最直接的方式是擴大視角、增加視頻的分辨率。在坐的很多人肯定都看過IMAX電影,可能有些家裏的電視是4K甚至8K的,當你坐在巨大的屏幕前面,滿眼充斥的都是視頻內容,你的沉浸感就會很強。爲了在大屏前播放視頻,屏幕和視頻分辨率要足夠大,否則視頻會有明顯的模糊感或者顆粒感。那麼如何在帶寬有限的前提下來提升視頻的分辨率呢,我們需要用到視頻編解碼。

爲了支持大分辨率、高動態範圍,我們通常會使用更新的編碼標準。比如編碼8K、HDR的視頻,我們不能用264,只能用265,如果266普及了,我們可能還會用266。最主要的原因是節省碼率,因爲每一代編碼標準都會比它的上一代節省幾乎一半的碼率。碼率降低以後延遲和卡頓也會相應的降低。除了主流的26X標準之外,還有兩個系列的標準實驗室也有參與,分別是谷歌、AOM的VP9、AV1、AV2,還有我們的國標AVS,從AVS,AVS+,AVS2,到AVS3。這些標準的共性之一是對大分辨率的視頻支持的越來越好,這一點從塊劃分方式上就可以看出來。比如,264只支持16x16的宏塊,265支持64x64的編碼樹單元,266支持128x128的編碼樹單元。所以編碼高分辨率的視頻,我們需要儘可能的利用新的編碼標準。當然採用哪種編碼標準除了考慮壓縮效率還需要考慮其他因素,比如硬件的支持、專利的風險等等。

除了使用更新的編碼標準之外,我們還可以考慮使用針對不同應用場景的特定編碼工具來提高編碼效率,也就是所謂的場景編碼。這裏給的一個場景編碼例子是屏幕內容編碼。屏幕內容編碼在很多標準中都有支持。屏幕內容和攝像頭拍攝的視頻內容有很大的不同。屏幕內容通常沒有噪聲、靜態居多、色調單一、邊界銳利,有很多平滑區域、圖像內部有很多重複等等。利用這些特點我們可以開發出具有針對性的編碼工具,比如幀內塊拷貝、調色板編碼等等。用這些技術可以極大的提高編碼效率,在碼率不變甚至碼率變少的情況下,可以提供更高的分辨率。

除了場景編碼以外,很多學者在嘗試使用深度學習來提升編碼效率。最左邊的圖是目前編解碼標準中普遍採用的混合編碼框架,結合了預測、變換、熵編碼等等一些傳統信號處理的工具。雖然編碼標準一直在不斷的迭代,但從H.261開始的混合編碼框架,一直沿用到現在。基於神經網絡來做視頻編碼最早可以追溯到八十年代,但那個時候的神經網絡只有兩、三層,所以效果不是很好。進入到深度學習時代以後,越來越多的學者開始使用更深的神經網絡來做編碼,比如,有些會使用像中間這幅圖展示的autoencoder自編碼器這樣的結構,有些還會沿用混合編碼框架,但用深度神經網絡提高部分模塊,比如環路濾波、幀間幀內預測、編碼模式決策等等。還有一些工作把混合編碼框架中所有的模塊全部用深度學習替代,實現了端到端的訓練,取得了優於傳統方法的壓縮效率。

這頁PPT中給出了四個實現了端到端編碼的例子,其中有些對運動向量的編碼方式進行了優化,有些使用了比較創新的幀間對齊方法,有些使用了多參考幀,有些使用了雙向參考幀以及層級參考。具體的技術細節就不在這裏討論了。總之已經有很多工作證明了,深度學習應用在視頻編解碼上是可以提高編碼效率的。目前也有很多標準組織在做這方面的規劃,比如JEPG AI、JVET NVCC、IEEE FVC等等,都在調研基於AI的編碼標準。目前把AI應用在編解碼的最大障礙在編解碼的複雜度,使用深度學習可能會使得編解碼的複雜度提升幾十倍、上百倍、甚至上千倍。同時傳統方法仍然有進一步的提升空間,所以AI在視頻編解碼中的應用可能還需要一段時間。

剛纔講到可以通過場景編碼、AI編碼來提高視頻畫質。除了畫質以外,另外兩個影響用戶體驗的重要因素是延遲和流暢度,或者延遲與卡頓程度。畫質好,延遲低、流暢無卡頓,這種視覺體驗讓我們更有沉浸感。有非常多的手段來減少延遲卡頓。有些是和網絡傳輸相關的,比如結合應用場景使用更適合的傳輸協議,使用前向糾錯減少丟包卡頓等等。有些是和編解碼相關的,使用一些編解碼工具也可以減少延時和卡頓。比如自適應參考幀技術,當解碼端發現有某個參考幀丟失,可以通知編碼端,不再用這個丟失的幀作爲後續幀的參考幀。再比如這裏介紹的可伸縮編碼技術。在直播和RTC等場景中,下行帶寬通常變化很大,比如像這個圖中展示的,有1Mbps的、2Mbps、4Mbps的不等。如果編碼端只考慮最高的下行帶寬,編碼4Mbps的碼率,那麼1Mbps和2Mbps的用戶,就會很卡。如果編碼端用1Mbps的,那麼2Mbps和4Mbps的客戶,他們的帶寬就沒有被充分利用,大家看到的畫面就都很糊。如果發送端同時提供1Mbps、2Mbps、4Mbps的碼流,又會造成發送端上行帶寬的增加,同時發送端的編碼計算量也會增加。還有一種方案是在服務器端做轉碼,但這樣會增加服務器的計算壓力,同時也會增加延遲。

在這種情況下,我們可以使用可伸縮視頻編碼技術SVC。編碼端編碼出一套分層的碼流,比如如圖所示的三層碼流,這裏我們用不同的顏色表示不同的層,紅色是layer0,藍色是layer1,綠色是layer2。解碼端可以根據它的帶寬情況,選擇只使用部分碼流,如果它網絡差的話,可以只使用layer0,如果網絡一般可以使用layer0和layer1,網絡好的話三層都可以用起來。這樣就避免了只傳輸一路碼流造成的解碼端的卡頓或者帶寬浪費,也避免了需要服務器進行轉碼造成的計算消耗以及引入的延時。

除了視頻編解碼以外,視頻的前後處理也可以幫我們提高視頻的畫質,讓老的視頻素材可以煥發新生。我們可以通過視頻增強來提高視頻的分辨率、動態範圍、幀率等等。讓標清、高清、SDR,30fps的視頻,變成4K、8K、HDR、60或者120fps的視頻,讓處理後的視屏更適合在大屏上播放。

除了視頻增強以外,我們還希望可以通過視頻修復來來去除視頻中存在的各種失真。這些失真是從視頻採集到播放的各個過程中帶來的。比如,在視頻採集的過程中不可避免的會帶來噪聲,視頻壓縮的過程會帶來壓縮失真,傳輸過程可能會有丟包帶來的失真,像膠片這樣的存儲介質老化、受損也會帶來色偏、劃痕、污漬這樣的失真。我們希望通過視頻修復算法來減弱甚至去除這些失真,同時儘可能的保留視頻內容。

視頻處理可以在終端實現,也可以在雲端實現,兩者的區別主要在於算力,雲端通常有比較充分的算力來使用深度學習技術,而終端雖然算力也在提升,但因爲功耗等原因,使用基於信號處理的傳統方法更多。實驗室從13年開始做視頻處理,目前已經積累了很多中視頻處理能力,其中有很多已經被集成到了騰訊雲上,有這方面需求的朋友可以直接在騰訊雲上體驗。

剛纔我介紹瞭如何通過視頻編碼、視頻處理技術來提高2D視頻的沉浸感。爲了進一步提高視頻的沉浸感,我們可以把2D的內容變爲3D的,增加立體感。視覺的立體感來自很多方面,比如近大遠小、遮擋、運動視差等等,但最重要的來源是兩眼的視差,如左邊的圖展示的,左右眼看到的畫面其實是稍有不同的,原因從中間的圖可以看出來,左右兩個攝像頭可以認爲是我們的兩隻眼睛,一個三維點P在左側畫面和右側畫面上的投影點是不一樣,投影點的差異代表的就是所謂的視差,因爲有視差,我們纔有了對深度的感知,纔有了立體感。相信在座的大部分朋友都在影院看過3D電影,看3D電影的時候我們需要戴眼鏡,戴眼鏡的目的就是爲了分離出帶有視差的兩幅畫面,分別送給左眼和右眼,讓我們有立體感。最早影院裏是用紅藍眼鏡來分離左眼和右眼畫面的,我上小學的時候看過一次這樣的電影,電影內容已經記不清楚了,印象比較深刻的是看完以後覺得特別暈。現在影院裏用的是偏振光的鏡片,很輕,左右眼的顏色、亮度都比較一致,所以現在在影院看到3D電影已經不會再感覺到不舒服了。

爲了生產3D視頻我們可以用雙目攝像頭進行拍攝,早期很多電影是用雙目攝像頭拍攝的,因爲和傳統的電影拍攝流程不通,所以拍攝成本可能有10倍以上的增加。所以現在很多的3D電影其實是通過2D轉3D技術生產出來的。將2D視頻轉換爲3D視頻,需要我們爲左眼和右眼生成兩路帶有視差的視頻。爲了正確的生成帶有視差的視頻,我們需要生成視頻中每幀圖像的深度圖作爲中間結果,輔助我們生成帶有視差的兩路視頻。有很多工作在結合多視圖幾何與深度學習來估計視頻的深度,這裏給出了幾個例子,感興趣的朋友可以搜索一下看看。

除了3D,我們還可以通過3DoF來提升沉浸感。3DoF是三自由度的縮寫,頭在圍繞XYZ三個方向的軸轉動的時候,畫面內容會跟着變。VR360視頻就是三自由度的,VR360視頻已經越來越普及了。目前最大的VR360平臺是Youtube,Youtube自己的VR官方賬號,Virtual Reality,已經有超過300萬的訂閱者。Youtube上目前觀看最多的VR影片是這個關於天使瀑布的短片,這個瀑布接近1000米,是世界上最高的瀑布,由於落差太大,水從瀑布上流下時,在落地之前會散開成雨狀,因此瀑布底部沒有水潭,是難得一見的景觀,這個視頻的觀看次數超過1千6百萬次。

剛纔介紹了3D和3DoF,是否可以把兩個結合起來實現立體的三自由度?是完全可以的,在網絡上也可以找很多這樣的視頻內容。那如何實現呢?是不是簡單的用兩個全景攝像頭,並排放在一起同時拍攝就可以了呢?左圖展示的是這用情況,紅色和藍色表示並排放置的兩個全景攝像頭拍攝到的內容,可以看到,拍攝攝像頭中心連線垂直方向可以有正確的視差,但在拍攝攝像頭中心連線方向的物體時,就完全沒有視差了,因此就體會不到立體效果。爲了實現立體三自由度我們需要採集非常多的全景畫面,就像中間這幅圖中展示的這樣,對於這些灰色的軌跡點,每一個點上都需要記錄左右眼看到的全景畫面,這樣需要記錄的數據量就非常大,也爲後續的傳輸、渲染過程造成很大的負擔。一種折中的方式是使用這種Omni-Directional Stereo(ODS)的方式進行記錄,這種方式只需要生成兩個全景視頻,除了數據生成過程之外,後續的傳輸、渲染都與普通的VR360視頻渲染過程差別不大。

除了3D、三自由度以外,還有一種可以增強沉浸感的技術是自由視角,今年的東京奧運會已經大量的使用了這個技術,明年的北京冬奧會也會使用這種技術。自由視角提供了一個子彈時間的體驗,讓大家可以從不同的角度欣賞視頻內容,而且不需要佩戴VR頭盔,普通顯示器上就可以播放。

最後我們來看一下6DoF,6自由度。剛纔講到3自由度是指頭部轉動,我們可以看到不同內容,但我們在空間從一個位置換到另外一個位置的時候畫面內容是不變的,這個我們在真實世界中的視覺體驗是不同的。而6自由度就和我們在真實世界中的視覺體驗是一致的,不管是你頭部轉動還是上下左右前後移動,看到的畫面內容都是隨着你的運動變化的。VR遊戲是6自由度的。現在的VR頭盔價格大幅下降,2000元左右就可以入手。顯示分辨率、用戶體驗有比較大的提升。出現了很多一體機產品,不需要外設對頭盔和手柄做定位,也不需要用有線的方式和PC機連在一起,使用起來更方便。VR內容上越來越豐富,出現了很多非常受歡迎的VR遊戲,比如這個遊戲叫《Beat saber》,用光劍來切方塊,開發這款遊戲的團隊只有三個人,是一款非常成功的VR小遊戲。3AVR大作目前最受認可的是《半條命Alyx》,有些人說玩VR遊戲不要一開始就玩《半條命Alyx》,否則會有“曾經滄海難爲水”的感覺,玩其他VR遊戲的時候會不自覺的對比,感覺其他VR遊戲體驗不夠好。

更極致的沉浸式體驗可以在VR主題公園中找到。比如這個視頻裏的是The Void娛樂中心。它可以讓四位玩家共同對戰敵人,每位玩家都需要穿上全套的VR裝備,包括一個頭戴顯示器、一個定製的高科技背心,和一杆金屬質感的槍械。進入遊戲場地以後,最大的感受就是所謂的MR沉浸感,比如說,你能觸摸和感覺到你所看到的牆和柵欄,當你看到一把椅子的時候,你也可以坐上去;另外,牆上的火把,你不但可以拿來照亮黑暗的走廊,還能夠感受到它的熱度。在劇情中,你能夠實實在在的感受到被槍擊中的衝擊力,可以感受到微風、震動和溫度的變化。


除了虛擬現實外,擴展現實的展現方式也是六自由度的。擴展現實是要把虛擬的物體添加到真實的場景中,比如這個例子是AR版的《超級馬里奧》。因爲透過眼鏡看到的現實場景是6自由度的,所以我們疊加到真實場景中的虛擬內容也必須是6自由度的,我們需要定位AR眼鏡在三維空間中的位置和角度,這個和VR頭盔是非常類似的。但AR眼鏡不能做的像VR頭盔那麼大,電池、電路板都要小很多。現在有很多AR眼鏡會做成分離式的,AR眼鏡和手機連在一起,計算都在手機上進行。

剛纔提到的ARVR遊戲,遊戲裏面的內容都是人造的,是通過三維建模、動畫軟件製作出來。如果我們希望可以將現實世界的東西製作成VR內容,用6自由度的方式觀看,通常有兩種方式,一種是做三維重建、三維渲染,另外一種方式是做光場採集、光場渲染。左面的圖是一個立體捕捉設備,可以用來重建一個小規模的動態三維場景。右面的視頻是個VR MV,可以在VR頭盔中播放,在VR頭盔裏你可以從不同角度觀察這個歌手的表演。

另外一種方式是光場採集,儘量多的捕捉從各個方向上打過來的光,再用他們來生成全新的視角。左邊的這個工作用到了46個攝像頭,這些攝像頭分佈在一個半球面上。把這些攝像頭捕捉到的畫面,送到深度模型中,可以用來生成多個層層嵌套的球面圖像,每個球面圖像除了有RGB信息外還有alpha通道,記錄了這些球面圖像的透明度信息。爲了實現數據傳輸,文章還提出了對這些層層嵌套的球面圖像進行壓縮的方法,以及如何對壓縮後生成的數據進行6自由度渲染的方法,對細節感興趣的朋友可以閱讀以下這篇文章。這是谷歌的工作,他們之前的工作是針對靜態場景做採集和渲染的,這個工作可以對動態場景做採集和渲染。右面的工作來自布朗大學和CMU,他們提出了一種方法可以將ODS視頻,也就是剛纔提到的立體三自由度視頻,轉換爲6自由度視頻的方法,同樣是用了深度模型,同樣使用了層層嵌套的球面圖像。因爲層層嵌套的球面容易讓人想起俄羅斯的套娃,所以這邊工作也用“套娃”來給自己命名。


3. 智能時代—從理解到創作


剛纔和大家分享了一些關於全真多媒體技術的思考,除了全真之外,我還想在這裏和大家分享一些關於智能多媒體技術的思考。

人工智能在每個行業都有很多用途,在多媒體領域也一樣。這個圖裏面給出了從媒體生產到消費的一個簡單流程,AI在很多環節都可以發揮作用,比如做剪輯,審覈、推薦、標籤,質量評價等等,這些環節都可以利用到AI。這裏有很多應用是和多媒體理解相關的,使用AI的目的是爲了讓我們可以更方便快速的理解多媒體數據中包含的語義信息,這些語義信息可以用來做審覈、認證、推薦、搜索等等應用。AI除了被用在做多媒體理解之外,會越來越多的被用來做多媒體內容的創作。

大家都知道多媒體內容包含各種各樣的形式,像視頻、圖片、聲音、文字,三維點雲、三維網格、光場信息等等。

按照算法的輸入輸出類型,我們可以把多媒體算法粗略的分爲兩大類,第一類算法如左圖所示,它的輸入是各種模態的多媒體數據,視頻、圖片、聲音、文字等等,輸出的是屬性信息。可能是一個屬性,也可能有多個屬性,可能是離散值,也可能是連續值,可能是針對整體的,也可能是針對部分的。比如對於一幅圖片,它可能代表圖片的場景信息、圖片中都有哪些物體,這些物體在什麼位置等等,或者描述圖片的質量,有沒有過曝或者欠曝,噪聲程度,美學程度等等。我們認爲這些算法是和理解相關的,是理解類的算法。兩外一類算法是和內容生產相關的,如右圖所示,涉及到的是不同模態數據之間的轉化,比如,輸入是一段文字描述,輸出是符合這段文字描述的一張圖片。或者輸入是一段視頻,輸出是這段視頻的文字描述,等等。當然這裏沒有體現的情況是,無中生有的輸出媒體內容。比如從一個噪聲信號生成一張人臉圖片。或者輸入是某種屬性,輸出是媒體內容,比如指定一個音樂風格,生成一首具有該風格的音樂等等。理解類的算法有非常多的應用場景,很多算法也非常成熟了。內容生產類的算法應用場景也非常多,但相對而言技術成熟度還不高,所以在內容生產領域,學術界和工業就都開始有越來越多的投入。接下來我給出幾個理解類和內容生產類算法的具體例子。

首先是理解類的算法。這頁中給出的是圖片的例子,包括圖片分類、檢測、分割,這些都是和理解相關的。分類是給整張圖一個屬性值。檢測是對圖片中的矩形框區域一些屬性值。分割輸出的是像素粒度的屬性標註。

這頁中給出的是關於文本的例子。可判斷一段文字的情感屬性,是正向的、中性的還是負面的,可以用來統計評論的情感傾向。再比如句法分析,判斷一句話的句法結構,區分名詞、動詞、介詞、動詞性短語、動詞性短語、介詞性短語等等。最後一個例子是實體關係抽取,給一段文字,提取其中的實體詞以及實體之間的關係,可以用來搭建知識圖譜。

最後一頁是和音樂理解相關的。比如音樂標籤,給定一段音樂,算法可以判斷這段音樂是否是純音樂還是有人聲的,可以給出情感、情緒、風格、強度這樣的屬性標籤。再比如節奏檢測,可以提取出音樂中的節拍位置,我們可以用這些節拍位置信息做視頻編輯,讓視頻轉場的位置與音樂節拍的位置匹配在一起,這樣製作出來的視頻會比較有節奏感。最右邊的例子是音樂結構分析,判斷一段音樂的主歌、副歌在一段歌曲中的的起止位置。

下面給幾個內容生產的例子,這裏我用視頻作爲算法的輸入模態。首先是視頻到視頻的轉化,輸入和輸出都是視頻。剛纔講到的視頻處理就是這樣一個例子,輸入是一段低質視頻,輸出是去除了失真、質量增強了的視頻。這頁PPT中還有其他三個例子。左邊的橫屏轉豎屏,通過裁剪的方式,把視頻中的顯著區域裁剪出來,與添加黑邊的方式相比,由於內容是全屏顯示的,因此更有沉浸感。中間的例子是視頻集錦,給一段90分鐘的足球視頻,我們可以分析出其中的精彩片段,像射門、進球這些通常可以認爲是精彩片段,把精彩的部分拼接在一起做成一個精彩集錦,快速的生成短視頻內容。右側的例子是視頻上色,輸入一段黑白視頻,輸出一段彩色視頻。

這頁裏的幾個例子是視頻到其他模態數據的轉換。比如視頻封面,給一段視頻找到最具代表性的視頻幀作爲封面來提升視頻點擊量,這個是視頻到圖片的轉換。左側第二個例子是爲視頻生成標題和彈幕,這個是視頻到文字的轉換。第三個例子是視頻配樂,我們可以到曲庫中找到與一段視頻最相襯的背景音樂。最右邊的例子是使用Structure from Motion進行三維重建,給一段視頻,生成視頻中拍攝對象的三維網格模型。

剛纔介紹的幾個和視頻相關的例子都來自於實驗室的智媒平臺。這頁左邊的圖是OpenAI的工作,給一段文字,可以生成對應段文字的圖片,比如這些圖片對應的文字是:一張穿着西服的皮卡丘在看電視的圖片,生成圖片的質量還是很不錯的。右側是實驗室爲2021年的迪拜世博會做的水墨畫小程序,用戶輸入山脈的線條,可以自動生成一幅水墨畫。你還可以輸出你的名字、暱稱、或者其他文字,算法會根據這些文字生成一首詩。算法還會從曲庫裏選擇一首合適的音樂作爲你創作的這副圖片的背景音樂。

有很多算法可以用無中生有的方式來創造內容。最有名的可能就是StyleGAN,可以把一段噪聲信號,轉化生成非常高清的人臉圖片。類似的,也可以生成一段音樂,感興趣的朋友可以搜索一下AIVA,一個AI作曲算法,網上有很多AIVA的作品。右側是實驗室的算法寫的歌詞,可以爲作詞者提供一些創作靈感。

好的,這就是我要分享的全部內容,感謝大家的聆聽!右側是剛纔介紹的水墨畫小程序,感興趣的朋友可以掃碼玩一玩。


講師招募

LiveVideoStackCon 2022 音視頻技術大會 上海站,正在面向社會公開招募講師,無論你所處的公司大小,title高低,老鳥還是菜鳥,只要你的內容對技術人有幫助,其他都是次要的。歡迎通過 [email protected] 提交個人資料及議題描述,我們將會在24小時內給予反饋。

喜歡我們的內容就點個“在看”吧!

本文分享自微信公衆號 - LiveVideoStack(livevideostack)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章