“AI+視頻”落地實踐探索,愛奇藝的經驗有何值得借鑑之處?

AI 技術在娛樂行業應用的新聞已經屢見不鮮,與視頻結合的領域也是近年來的熱點方向。作爲視頻平臺,愛奇藝一直致力於人工智能與視頻、娛樂產業的結合,並陸續推出了針對內容創作、用戶推薦等方面的智能產品。在互動視頻等新方向出現之後,愛奇藝也踏上了追趕新技術的浪潮,接連推出了優質的互動視頻。 爲了進一步探祕愛奇藝在“AI+娛樂”方向的進展,InfoQ對愛奇藝副總裁謝丹銘進行了獨家專訪。

InfoQ:AI與視頻的結合已經不算新鮮,但是面對行業的競爭壓力,如何做出區分度還是十分重要的,首先我們希望請您介紹一下愛奇藝在AI領域佈局的概況,在您看來,愛奇藝在與AI結合的探索中最大的優勢是什麼?有哪些技術是比較有代表性的?

謝丹銘:愛奇藝在AI方面的戰略佈局主要是AI+娛樂,重點在內容、用戶和合作方三個方面進行AI的輸出,目前比較有代表性的技術主要有:ZoomAI智能增強技術(以下簡稱ZoomAI)、人臉識別、臺詞分析、精彩度&美學分析、虛擬形象等。具體來說:

  1. 在內容方面,在籌備內容的前期,通過NLP技術分析文學、劇本的內容、挖掘有潛在價值的IP;利用CV、大數據等技術輔助導演選角,製片方與海量藝人數據進行高效精準的 AI 匹配,提高娛樂生態的運轉效率;在內容製作後期,通過畫面、語音識別等 AI 技術,實現視頻內容的精準剪輯和加工;在內容播放環節,通過AI 的人臉識別、物體識別、OCR及ZoomAI等技術,提升畫面質量,爲內容提供更多周邊附加信息,提升用戶的觀看體驗。
  2. 在理解用戶方面,愛奇藝通過知識圖譜與深度學習等 AI 技術,優化了用戶視頻推薦模型。這些功能中的推薦算法並非傳統的標籤匹配,而是通過識別視頻中的人和內容,讓觀衆可以快速找到相關內容。
  3. 在合作方方面,愛奇藝爲廣告主提供創可貼廣告,Video-In、智能前情提要、智能跳過、智能中插等多種形式的廣告,在爲用戶提供優質體驗的同時,提高廣告主的變現效率。

InfoQ:作爲一家視頻網站,內容創作是非常重要的部分,能否請您介紹下在內容創作上,人工智能發揮了哪些作用?

謝丹銘:內容是視頻網站的核心競爭力,除了版權採購之外,內容原創和掌握IP是視頻網站的重要戰略。爲此,愛奇藝在基於AI的內容創作上做了大量的佈局,使得愛奇藝在內容創作上達到了出精品、降成本、提人效、擴產出的目標。

(1)出精品

對於長視頻的製作,愛奇藝的愛創媒資系統可以在多機位合版、精準鏡頭搜索、自動唱詞等方面提供智能高效的幫助。比如精準鏡頭搜索,一檔大型綜藝節目的錄製和製作時間是非常緊張的,如何根據導演的思路快速、精準地找到合適的鏡頭,是非常困難的事情,以往要花費數十分鐘甚至數小時才能找到的鏡頭,愛奇藝依託AI技術,可以通過人臉、表情、動作、聲紋等識別,以秒級的速度就能搜索到導演腦海中的鏡頭,從而幫助導演和編導們製作出精品。

對於短視頻的製作,愛奇藝的智能創系統可以分析過往的影片,根據明星、劇情、體育、新聞等不同角度進行拆分和形成素材,並打上各種多維度標籤,方便編輯人員進行宣發和熱點短視頻的製作。

(2)降成本

AI可以有效地降低很多製作環節的成本。比如愛奇藝基於AI技術開發了多語種的字幕翻譯系統,有效地支持了愛奇藝的海外拓展,基於AI的翻譯成本不到人工翻譯的萬分之三,極大地降低了內容的生產成本;同時在開發針對動漫領域的創作系統,動漫內容創作中有大量的重複性人工勞動(比如顏色校對、逐幀上色等),這部分工作不但費時而且費用不菲,將耗時費力的重複性工作交給AI來完成,既提高了產出又降低了成本;

(3)提人效

AI在內容創作上可以有效地輔助人工,提高人效。愛奇藝自有的內容編輯系統–樂高採用了大量的AI技術。

以新聞類短視頻生產爲例,這類短視頻必須講究時效性,必須在電視新聞播出後極短時間內完成拆分和分發,才能獲得較大的播放量,如果由純人工來做則需要大量的人力來支持,我們的編輯系統採用了AI技術,可去除廣告、檢測片段點位、識別標題、內容分類、去重等,基於音頻相似性的智能合板技術,將後期製作中的合板時間從天級別做到了分鐘級別;

(4)擴產出

愛奇藝也基於實際的應用場景,在不同的垂類佈局了基於AI的內容創作技術,有效地提高了內容產出。我們開發了針對體育場景的SportsWorks,利用AI來對各種體育賽事進行深度理解,可在直播過程中快速高效地生產出大量不同類型的集錦視頻,有效地擴充了優質內容;ZoomAI採用超分辨、插幀等AI技術,大量高效地將低分辨率、低幀率的內容製作成1080p,4K的優質內容,有效地提高了用戶體驗;

AI的發展可以將腦力負擔轉化爲機器運算負擔,機器運算負擔相對人力負擔來講更加容易解決,相信隨着愛奇藝AI的不斷髮展,將更好地賦能內容創作。

InfoQ:從用戶角度來說,內容的搜索推薦至關重要,愛奇藝在搜索推薦系統上進行了哪些優化?是否有數據或者案例來說明優化的效果?

謝丹銘:

主要有如下兩個方面:

  • 標籤化搜索:搜索中有很多時候用戶不是找具體某個視頻,而是某種類型的視頻,如“剿匪電視劇”、“愛情電影”等,這種單獨做文本的匹配是不合理的,我們會通過NLP語義理解識別出用戶背後的真實意圖,然後通過相應的標籤召回結果。這些標籤既有視頻標題簡介中提取出來的標籤,也有通過知識圖譜技術擴展出來的相關聯的標籤,還有更多的是通過對於視頻的畫面內容、音頻等內容進行理解,獲得的更詳細的內容標籤,從而豐富整個搜索推薦的體系。
  • 基於視頻內容理解的搜索方式(支持站內有版權視頻):除了在傳統的文本搜索方面,不斷研發新技術提升用戶體驗外,愛奇藝還在視頻內容搜索的領域進行了很多創新的嘗試。我們通過對於視頻中內嵌字幕的識別以及索引,提供了臺詞搜劇功能,賦能用戶對於視頻中的經典臺詞內容進行搜索,我們也提供了對於影視劇的以圖搜劇功能,當用戶看到感興趣的視頻畫面的時候,無需知道這個場景屬於哪個視頻的哪個時間位置,只需提供視頻截圖就可以實現,感興趣視頻點位的快速搜索和定位。

在內容推薦方面,除了傳統的推薦模型上的持續迭代外,我們還在內容組織和呈現維度上做了創新:

  • 內容組織:結合之前的搜索策略,愛奇藝通過大量用戶行爲日誌機型分析,發現用戶對題材相似的正片內容有較強的偏好,如搜索“我的兄弟叫順溜”,會有很多用戶點擊觀看“我的團長我的團”、“士兵突擊”的劇,對此我們根據用戶的行爲和知識圖譜,去挖掘文本不匹配但內容題材上用戶喜歡的內容,上線了相關視頻的產品樣式,在搜索結果頁精確匹配結果之後展現這些內容。這個樣式上線後,消費指標提升明顯。我們按照內容的演員,題材等特點把長視頻內容組織成一些集合,通過個性化的方式進行流式分發(形式如下),讓沒有明確觀影目的的用戶有逛起來的意願,在電影頻道頁這種形式的推薦能夠達到40%以上uctr。
  • 內容呈現:我們嘗試了個性化的海報圖,對同一內容生產不同的海報,通過算法進行分發。從海報的維度來看,我們自動化生成的海報的點擊率可以相比於默認海報翻倍,算法會根據用戶反饋選出適合他們的海報。使用個性化海報圖後,內容的點擊率平均而言可以提高25-80%左右。在排序算法方面,我們在個性化推薦中引入深度學習模型排序算法,在實際的場景中實驗,相對於淺層模型點擊率指標得到了明顯提高,可以提高8%左右。

InfoQ:在AI+視頻結合的過程中,多模態一直是備受關注的技術,甚至有觀點認爲:多模態理解做不到位註定要掉隊。能否請您談談愛奇藝目前在多模態技術上的探索?在您看來,目前該技術還有哪些短板需要補齊?愛奇藝在多模態領域未來的規劃是怎樣的?

謝丹銘:愛奇藝很早就開始了在多模態技術上的探索。

從2016年開始,愛奇藝在多模態上有了實質性的研究成果,比如在EmotioW2016國際情感識別競賽上取得了第一名。

愛奇藝已經成功把諸多研究成果,轉化爲實際生產力。

愛奇藝的智能製作愛創媒資系統,就綜合運用了人臉識別、說話人識別等多種模態技術,比如視頻說話人身份識別成功實現了“誰說了什麼話”的精準定位,就使用了人臉、臺詞、聲紋來精確判斷哪句臺詞是誰說的,這是視頻理解當中的一個最核心問題。

在AIWorks智能創作系統中也採用了多模態技術,比如視頻中的表情包的自動提取及配文案,小視頻創作中的自動配樂、音樂卡點、畫面風格匹配等,以及明星精彩片段自動切分等,來實現明星的視頻混剪,都取得了非常好的效果。

多模態身份識別面臨的難點在於各種模態的原始分析結果參差不齊。比如人臉模糊、背景聲干擾等場景經常出現。如何充分挖掘有效的信息、去除噪聲干擾,是多模態身份識別成功的關鍵。另外,由於涉及到多種底層算法,如何對他們進行有效的整合,提高整體運行效率,也是工程應用上必須解決的問題。

InfoQ:Netflix曾推出過一集互動版《黑鏡》,自那以後互動視頻似乎成爲了全球視頻網站探索的新風向,能否談談愛奇藝在互動視頻領域的佈局?這其中是否有AI技術的加持?在主流視頻網站都開始嘗試的情況下,愛奇藝如何做出特色?

謝丹銘:互動視頻確實是視頻網站的一個探索熱點。

愛奇藝在做的不僅是互動內容本身,核心是通過標準和工具降低創作門檻,提升用戶體驗的標準化能力。爲了能夠加速互動視頻的普及,愛奇藝推出了 《互動視頻標準》(IVG)和協助互動視頻生產的互動視頻平臺(IVP),幫助廣大內容創作者更容易的創作互動視頻。此後,對外發布IVP互動視頻製作插件(IVP插件),這是業界首個直接與非線性編輯軟件深度融合的互動視頻製作工具。IVP插件與視頻剪輯流程深度結合,支持創作者直接在非編軟件中創建、編輯、預覽和導出互動視頻,實現“零門檻”編輯互動視頻。在觀看端,我們還推出了跨平臺的互動視頻引擎(IVE),使我們的觀衆在手機、PC端都有良好的觀影體驗。

如何讓互動發揮更大價值,愛奇藝發佈了《互動視頻廣告白皮書》,規範並提供互動視頻廣告創作指南,旨在幫助品牌方打造更強沉浸感、參與感的互動視頻廣告。目前,愛奇藝已經開創性地將互動視頻標準應用在影視創作、豎短片、電影預告片、綜藝、廣告產品等多種內容形態中。

互動視頻帶給創作者的一個巨大的挑戰,視頻拍攝和後期製作的工作量和成本隨着分支環節的增加而成倍增加。愛奇藝有愛創媒資系統的加持,能夠在後期製作環節顯著的降低剪輯師的工作量,提升內容創作的質量和速度。比如利用廢片識別算法可以在分鐘級別的時間裏,把無用的素材識別出來,節省剪輯師的時間。素材檢索功能,可以幫助剪輯師快速檢索到角色的特定鏡頭、表情、動作等素材,將原來通常幾小時的工作降低到分鐘級。此外通過對用戶的行爲進行分析,可以更好的爲用戶推薦情節,增加互動的趣味性。

InfoQ:您曾經說過:“AI會成爲視頻行業的壁壘,隨着壁壘的增大,用戶的馬太效應會越發明顯。”這句話應該如何理解?是否代表積累較少的後來者很難有機會再尋求突破?

謝丹銘:這裏的壁壘更多指的是技術發展的馬太效應,是針對AI在視頻行業應用的整體情況而言,而不是單指某個具體方向的技術壁壘。因爲AI的發展還有很大空間,所以各種技術都還在不斷突破。但在視頻行業這樣的工業界,作爲後來者要提供面向行業的AI解決方案,或者做AI驅動的大衆視頻服務,確實會面臨更大挑戰。

因爲從工業界來看,AI的發展是一個“多維滾雪球”模式,即算法、業務、數據、資源、人才這幾個方面,互爲推動。一開始可能是幾個人拿公開數據集做個簡單算法,找個簡單業務部署幾臺服務器就上線。一旦上線,會獲得更多數據,從而獲得更好的算法效果,並落地到更多業務場景,自然也會增加資源並吸引人才。這是一個正反饋過程,而像愛奇藝這樣的幾家大型視頻公司,很早就開始重視AI並大力投入,經過多年實踐積累,確實也形成了一定行業壁壘。當然,對於後來者,只要找到某些具體的方向發力,凸顯垂直領域的AI技術或應用優勢,也還有很多可挖掘的空間。

InfoQ:隨着5G成爲熱度越來越高的話題,AI+5G也成爲了不少技術公司的目標,在您看來,5G與AI能夠給彼此帶來哪些突破?對於視頻領域,這兩者的結合又可以創造出什麼樣的亮點?

謝丹銘:5G相比4G在許多方面都有非常大的改進:帶寬大幅提升、延時大大壓縮、設備連接數密度大幅增加等等。5G的帶寬可達Gbit/s,4K甚至8K清晰度的視頻將逐步在移動端推廣開。愛奇藝提供的ZoomAI就有提升視頻分辨率至4K以上的能力,5G的到來將使愛奇藝的用戶可以無拘無束地在各種場合下體驗到ZoomAI帶來的高清逼真的視頻體驗。

目前AI可用於進行各種虛擬形象虛擬內容的生產,比如愛奇藝就開發了許多的虛擬偶像、虛擬主播等虛擬形象。5G時代下,遠程服務器生產的內容幾乎可以以零延時方式呈現在用戶眼前。這將大大推進用戶對虛擬視頻,尤其是對AI生產的交互性的虛擬視頻的需求得到極大提升。

InfoQ:在您看來,AI+視頻的發展目前還存在哪些問題需要解決?愛奇藝在這些問題上是否有合適的解決方案或者探索方向?

謝丹銘:AI+視頻,目前全行業都仍處於探索初期,AI能實現的價值、要解決的問題非常多。從視頻行業看,可以將全鏈條簡單提取出幾塊核心環節:創作,分發和變現。每個環節,都可以提出極具挑戰性的AI目標。比如:AI是否可以自動化生成創意或內容?AI是否能讓用戶看到當前最合適的內容?AI如何極大提升視頻場景的商業化效率?

在每個環節,愛奇藝都在積極探索,並且已經有一定應用。面向上述幾大問題,愛奇藝仍在持續探索,不斷落地和升級AI應用,讓AI在行業中發揮越發重要的作用。

採訪嘉賓簡介

謝丹銘,愛奇藝副總裁。畢業於復旦大學,曾任職英特爾並在 P2P 網絡、人機交互、視覺計算等方面主導了諸多創新工作,擁有多年的一線技術研發和大型團隊管理經驗,在人工智能,雲計算,安全和創新等領域有深入的研究,就職於愛奇藝後主要聚焦於AI,雲服務和創新應用孵化。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章