音視頻技術開發週刊 | 225

每週一期,縱覽音視頻技術領域的乾貨。

新聞投稿:[email protected]



李松南:智能全真時代的多媒體技術——關於8K、沉浸式和人工智能的思考

視覺體驗在全真時代顯得越發重要,如何提高用戶的視覺體驗?更好的編碼標準帶來的低碼率高畫質、超分等視頻處理手段帶來的畫質提升、三維視頻帶來深度感知、任意視點視頻或者VR360視頻帶來的用戶交互、擴展現實與虛擬現實帶來的超現實感;另一方面,智能時代革新了音視頻技術,通過音視頻分析更好的理解數據與連接用戶、通過輔助創作讓音視頻內容極大豐富。LiveVideoStack2021北京站邀請到騰訊多媒體實驗室視頻技術總監—李松南,帶領我們一起發掘在全真時代與智能時代裏多媒體技術的無限可能。



使用 MediaCodec 進行視頻的編碼和解碼

在Android中播放視頻很簡單,只要創建一個MediaPlayer實例,然後設置上DataSource和SurfaceView就可以了。但是播放視頻還有一種方式就是使用Android提供的MediaCodec,它可以用於編碼和解碼。另外如果要播放使用Android Widevine加密的視頻則必須使用MediaCodec來完成解密和解碼的過程。



不僅僅是大量傳感器和攝像頭,谷歌Starline 3D視頻方案解析

近期,谷歌實驗室公佈了該項目背後的技術細節,包括採用的攝像頭、紅外傳感器等硬件,以及如何在測試過程中,通過精準的視覺模擬來欺騙用戶的觀感。簡單來講,Starline可以看做是一種專爲面對面會議設計的雙向3D電話亭,它可以實時掃描使用者的3D形象,然後在另一端的光場顯示器上實時呈現立體的視頻圖像,這種立體視頻裸眼可觀看,無需額外的頭顯。此外,聲音也以3D空間音頻形式呈現,通話者的注視點也會實時追蹤和更新,看起來足夠真實。

使用 JPEG XS 和 AWS CDI 的雲端實時視頻
本次演講主題爲使用 JPEG XS 和 AWS CDI 的雲端實時視頻,主講人爲來自亞馬遜雲科技專門從事廣播的首席解決方案架構師 Thomas Edwards。他從 JPEG XS 和 AWS CDI 兩個方法分別進行了介紹。


從直播硬件出發,淺析直播技術到物聯網設備的智能化趨勢
直播有個人直播(泛娛樂直播)和企業直播(商業&商務直播)之分;個人直播的投入成本低,一部手機便可以隨時隨地開播,且各直播App有足夠多的直播輔助工具來協助開播,對增值服務需求不高;企業直播講究規範,有專門的直播間,投入的人力物力很大,直播影響面廣泛,對專業的直播硬件,PaaS,SaaS等軟件服務以及運營指導,售後服務等多種增值服務都有明確訴求,故本次分析基於TO B的企業直播業務展開。


視頻直播關鍵技術和趨勢
移動互聯網的興起爲人類信息傳播帶來了更便捷的通道、更立體的視角和更豐富的選擇。視頻直播等多媒體通信技術在新的時代背景下逐漸嶄露頭角並不斷滲入到人們的日常生活中,以提高人們的信息傳輸效率、降低信息傳輸成本。


無線聲學傳感網絡中的採樣率失配問題怎麼辦?
無線聲學傳感器網絡是一個集信息提供、感知、傳送和處理爲一體的有機整體,通常包括多個聲學傳感器節點。其中,每一個傳感節點都是具有一定感知、計算和無線通信能力的設備。這些節點通過自組織的形式形成無線聲學網絡系統,協作收集數據並進行處理。相比於我們熟知的傳統麥克風陣列,無線聲學傳感網絡的麥克風節點可以放置到更加靈活的位置,這也增加了聲源附近有多個麥克風存在的概率,可以收集到更高質量的信號。而且由於所有具有收發功能的記錄設備(如個人手機,電腦等)都可以作爲記錄節點,因此無線聲學傳感網絡的搭建相當容易,它在音頻採集和處理領域有着很好的應用前景。


技術實戰 —— 快速實現語聊房搭建
語音相比文字圖片更豐富,比視頻又更簡便,是天然的社交工具。以95後爲代表的Z世代用戶,在微信、QQ、微博等主流社交工具以外,更願意嘗試基於不同興趣相對小衆的社交工具。ZEGO 即構科技推出語聊房解決方案,幫助客戶快速搭建語聊房。本次分享,我們邀請到了 即構科技交付解決方案專家 JIN 。他向我們分享了線上社交以及語聊房的發展、玩法,並詳細解析如何快速搭建語聊房,提供穩定、低延時,高品質的線上互動體驗。


MIT、哈佛新研究:提速15000倍,藉助光場實現3D場景超高速渲染

在一篇 NeurIPS 2021 論文中,來自哈佛大學、麻省理工學院的研究人員提出了一種新方法,使從圖像中表徵 3D 場景比已有模型約快 15000 倍。該研究提出的光場網絡 (LFN) 可以在僅對圖像進行一次觀看後重建光場,並且能夠以實時幀率渲染 3D 場景。

視頻精修一幀要花2小時?美圖影像研究院的AI只要5.3毫秒!
圍繞用戶更具個性化的「變美」 需求,美圖影像研究院(MT Lab)自研基於深度學習的實時視頻美容方案。通過設計輕量的神經網絡生成式模型,結合強大的美圖AI推理框架(Manis)和千萬級人像圖庫訓練優勢,實現對動態視頻人臉的瑕疵修復與暗沉祛除,同時最大程度地保留了皮膚的真實紋理細節。




人類駕駛,交通事故的最大Bug | 產學研聯合發佈自動駕駛汽車交通安全白皮書

商業落地,這是今年自動駕駛行的關鍵詞。年末曬成績之際,百度、中汽中心、同濟大學卻聯合公佈了這樣一份報告:《自動駕駛汽車交通安全白皮書》。這份聚焦自動駕駛道路交通安全的報告,還是產學研聯合出品,有車,有路,也有政策和技術。今年,自動駕駛公司各顯神通,商業化落地進展迅速。此時強調自動駕駛的安全,又有何深意?普通人對於自動駕駛最大的擔憂,《自動駕駛汽車交通安全白皮書》(下稱《白皮書》)又給出了哪些解答?




閱讀推薦


什麼是閉合GOP和開放GOP?
在本文中,我們將瞭解閉合GOP和開放GOP的概念。這兩種類型的GOP在視頻流化中非常常見,並會影響視頻壓縮效率、錯誤恢復以及ABR的切換能力。

爲什麼直播時要用CDN?
你在直播時遇到緩衝、延遲、視頻中斷或其他故障嗎?想要確保這些問題不會發生,使用CDN絕對是一個好方法。CDN已經存在有一段時間了,隨着時間的推移,CDN會變得更加流行,對於直播也會更加重要。在本文中,我們將會討論:你爲什麼應該在下一場直播中使用CDN,以及它是如何影響終端用戶體驗的。


2021 Bitmovin 視頻開發者報告
本文譯自 "2021 Bitmovin Video Developer Report",報告了 2021 年 Bitmovin 的調查結果,反映了音視頻行業的發展情況。



活動推薦


【城市沙龍】LiveVideoStack Meet | 南京:

互聯網沙漠的音視頻發展



2021年LiveVideoStack Meet已成功在北京、蘇州、杭州、成都、西安、合肥與上海落地。這一路我們分享對於行業內卷的看法,探討技術發展方向,也瞭解到更多二線城市的音視頻環境。2022年第一站,將於1月8日南京與大家見面,本次分享內容涵蓋人工智能、實時音視頻、直播全鏈路監控、雲遊戲實踐等多方面,快來現場與嘉賓面對面交流吧。


活動時間:2022.01.08 14:00-16:00

活動地點:南京市雨花臺區鳳信路6號 南京金證科技園3棟1樓路演廳


報名地址:

https://8392623630544.huodongxing.com/event/5628086056100





插圖源自Pexels


本文分享自微信公衆號 - LiveVideoStack(livevideostack)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章