即構聯合創始人:5G+AI將是音視頻的下一突破點 | 視頻

隨着5G時代的來臨,更低的延遲、更大的帶寬,給蓬勃發展中的音視頻技術帶來了更大的機遇。5G的邊緣雲計算適於大數據量的轉發,而音視頻本身就是實時數據的轉發,可以說,音視頻技術與5G的場景非常契合。成立以來,即構自研的語音視頻引擎在語音的前處理、網絡自適應和跨平臺兼容性等方面達到了國際頂尖水平,目前已鏈接了全球5億+的終端用戶,端對端的超低延遲達到80毫秒。

站在5G的時間節點上,作爲行業的先行者,即構如何看待這一機遇與挑戰?又是如何規劃的?在 QCon 2019 全球軟件開發大會(上海站)上,InfoQ 有幸採訪到了即構科技聯合創始人兼技術負責人蔣寧波,就音視頻的當下與未來進行了深入探討。以下是視頻採訪的全部內容,爲方便讀者查看,視頻下方文字爲主要採訪內容。

InfoQ:蔣老師,您好!您可以介紹一下您的工作經歷,以及聯合創立即構的原因嗎?
蔣寧波:在2015年成立即構之前,我在騰訊工作,當時主要負責QQ底層的基礎建設,還有安全工作,包括輸出安全能力服務給外部企業。成立即構的原因是,我們原先的團隊在騰訊就是做QQ音視頻的,當時我們看到,音視頻行業的應用越來越廣泛,很多交流方式都變成音視頻的方式,外面很多企業也有音視頻的需求。而當時國內提供音視頻服務的服務商非常少,更別說專業的服務商了。我們也在想,我們有這麼多年的經驗積累,怎麼樣去把它平臺化、服務更多的企業,這就是我們當時成立即構的原因。

InfoQ:您所在的團隊主要負責哪一領域?
蔣寧波:我在即構主要負責SDK的研發、售前架構,以及技術支持,主要是SDK的設計與封裝,包括如何考慮到易用性,從售前架構而言更多的是對創新方案的設計,還有技術支持的工作,就是對接客戶的接入等等。總的來說,整個團隊就是讓客戶更快速、更方便地接入即構的音視頻能力,得到專業的音視頻技術。

InfoQ:據您的觀察,目前國內的音視頻技術已經進入到哪一發展階段?可以詳細講解一下它的發展過程嗎?
蔣寧波:從最近這麼多年我們做音視頻的經驗來看,音視頻技術現在已經處於廣泛應用的階段,這主要和整體環境、科技的提升有很大的關係。像硬件設備、網絡的提升,甚至是生活環境、工作環境都發生了變化,對音視頻的互動需求越來越強。從我們近幾年服務的客戶來看,音視頻在政企政務、高校、金融、泛娛樂甚至是在線醫療、在線教育、IoT這些行業都有很深的融合。

說到發展過程,可以從兩個方面來看。從技術上講,這幾年,音視頻信號基本上是(經歷)從模擬向數字化發展、協議分層的過程。早期,音視頻的信號都是模擬信號,經過一個數字化的過程,到現在,家用的數字電視基本上都已經是數字信號了。最近幾年,互聯網高速發展,一些新技術、新標準出現,像協議、容器,甚至Codec都出現了分層,都有很嚴格的邊界,技術路線大概是這樣一個思路。從應用場景來看,更早以前,音視頻應用的領域非常少,都是一些很專業的領域,比如電臺、視頻會議。而近幾年,它與各行各業都做了比較深的融合,就像我前面說的,跟泛娛樂、在線教育、醫療(融合)基本上已經深入到生活中的點點滴滴,跟水和電差不多。我們現在看到的很多都應用了音視頻,就像我們現在的拍攝其實也是跟音視頻相關。基本上,可以從這兩個方面來看它的發展過程。

InfoQ:近幾年,大衆對社交娛樂的需求增長很快,即時通信有了很多新形態。就即構而言,2016年推出了全球首創的直播連麥技術。2017年,即構又在全球首推了32路視頻通話等。在業務邏輯和技術實現上來講,即構的技術和傳統音視頻技術的差異在哪?存在哪些技術難點?
蔣寧波:傳統音視頻技術主要針對一些固定的應用場景,比如傳統會議的廠商。它是針對固定的場景,而且它對設備有固定的要求,比如固定的麥克風、音箱之類的,甚至有更嚴格的要求,比如說會議間,可能連房間都有固定的聲學設計,甚至於網絡方面,爲了網絡保障要拉專線,這是傳統廠商(的做法)。而即構做的是音視頻的雲服務,我們要適配不同的場景、不同的網絡、不同的設備,這正是我們要應對的難點。比如,在不同的使用場景,像實時通話場景或娛樂場景,對音質、延遲的要求都不一樣,這就要求我們的SDK要具有適配不同場景的能力。再比如國內外的通話,我們也不可能全部拉專線來保障,這需要調度和路由,這要求我們要有非常好的路由的一些算法,這裏面有好多技術難點。

InfoQ:目前,即構已經鏈接了全球5億+的終端用戶,端對端的超低延遲是80毫秒。即構是如何保證音視頻互動的低時效、高清流暢的?又是如何應對海量高併發的?
蔣寧波:低時效就是低延遲,低延遲和高清總的來說是一個系統的工程,它不是一個點,不是說某項技術做得好就OK了。音視頻的整個鏈條從採集、前處理、編碼、傳輸、解碼、後處理、渲染……在整個過程中,我們經常是每個細節都要一點一點地摳。只有把每個細節都做到極致,才能保證整個鏈條上,延遲做到最低,數據採集做到最好。比如說一些數據的前處理,你要減少內存跟顯存的來回拷貝,每一個細節都要摳。不同的場景,你的路由也要不同地去做選擇,甚至說網絡高峯和網絡低峯的時候,同樣的兩個人,在深圳和上海做一個視頻通話,可能路由都會有很大的差別。

InfoQ:我們瞭解到,即構自研的語音視頻引擎在語音的前處理、網絡自適應和跨平臺兼容性等方面已經達到了國際頂尖水平,這項技術給用戶帶來了哪些好處?
蔣寧波:這要分開來講,用戶有兩種類型,一種是終端用戶,也就是通常意義上真正使用音視頻的用戶,也可以說是C端用戶;另一種是我們服務的企業客戶。二者的體驗需求是不一樣的。對終端用戶來說,他們希望使用音視頻時能夠很流暢、很高清。總的來說,用得爽就是最好的體驗。這是從C端用戶去考慮,當然,你的技術做得好,就能得到更高質量的音視頻(體驗)。對企業客戶來說,除了說你可以提供好的技術讓他去保障他的用戶能得到好的體驗以外,企業也是希望我們提供的服務是穩定、方便、容易接入的。那麼,對於我們本身而言,除了做好我們的技術,我們SDK的設計就要足夠簡單,整個系統接入要足夠好,系統的監控也要足夠好。即構的整套系統都是從0開始自研做起的,我們對整個系統有較強的把控性,這也是爲什麼我們能快速響應客戶需求,首創出許多場景的原因,包括我們對新需求的響應和新場景的創新,這也是我們的一個技術優勢。

InfoQ:一項技術火了以後會引來一些新的入局者。那麼,即構在這其中的核心競爭力是什麼?
蔣寧波:我們公司一直以來的定位是提供專業的音視頻服務,本身也是以技術爲本,以專業的技術服務全球客戶,讓整個行業、各個領域都能用到真正專業的音視頻技術,這是我們的立足之本。說到有更多的入局者,其實也說明了這個領域是有前景的,只要競爭是良性的,我們覺得就是好的,就能推動這個行業的發展,推動技術的更新迭代。這也是我們會經常和從業者,包括競爭對手進行技術交流的原因,我們希望整個競爭是良性的競爭,希望和所有從業者一起推動整個音視頻往更大的方向發展,讓更多的領域得到音視頻的能力。

InfoQ:即構是如何構建自己的音視頻技術生態的?
蔣寧波:目前,我們也在考慮做一個類似於“X+音視頻”的生態。我們也在找上下游的各種合作商,去打通音視頻的能力。未來希望大家一起把這個生態做大,服務更多的企業和用戶。

InfoQ:除了應用場景的迭代,音視頻技術的下一個突破點是什麼?
蔣寧波:從我們的經驗來判斷,下一個突破點可能會是5G與AI的結合方面。5G這種邊緣雲的計算很適合大數據量的轉發,而音視頻本身就是做這種數據量的轉發,就是實時數據的轉發。它很契合5G的場景,包括5G的更低延遲、更大帶寬,可能會給音視頻帶來更多的應用。再加上AI的進入,可能會引入更多新玩法、新場景,或者一些互動方式,包括我們現在也做了類似音視頻+AI的審覈能力。只要接入即構一家,就會自動帶上音視頻傳輸和AI審覈的能力。

InfoQ:未來三到五年,即構還會關注哪些領域?
蔣寧波:近期三到五年內,我們將會關注出海、在線醫療,甚至5G,這些領域都會去看。

InfoQ:您如何看待5G對音視頻的影響,它將帶來哪些機遇和挑戰?
蔣寧波:我們是很看好5G的,我們公司在5G也投入了很多。5G會提供更低的延遲,更大的帶寬,它的應用場景,比如說更大的帶寬能支持4K、8K低延遲的數據傳輸,甚至是AR、VR的數據傳輸。比如更低延遲,就會針對一些需要更低延遲的視頻互動這種場景的需求,像遠程手術的延遲一定要極低的,你的每一個動作可能那邊都要立即給你視頻反饋,這種就能夠在5G場景下去落地,這是5G帶來的機遇。

說到挑戰,不只是音視頻,整個互聯網行業都一樣。在5G上,包括針對4K、8K的視頻,首先要有技術儲備。因爲一旦5G的邊緣節點、基站全部鋪開以後,相信肯定會有很多人創業,很多新的玩法、需求都會立即上來,這時候你的技術儲備要快速地應對這些需求。我們公司在這方面投入也很大,我們建立了自己的5G實驗室。在高清視頻方面,比如4K視頻,車載、360度的情景視頻的傳輸上,現在都有實例demo,都已經很成熟地在線上跑了。

更多國內外一線技術大咖分享請持續關注QCon全球軟件開發大會,訪問官網與技術大咖面對面交流實踐心得。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章