AI在愛奇藝視頻內容個性化生產與分發中的運用

AI技術正在變革着網絡視頻內容的生產和傳播方式。以愛奇藝爲例，其每天產生的視頻數量規模從幾萬量級到上百萬量級不等，愛奇藝構建的智能推薦系統利用搜索推薦、深度學習等技術，讓這些海量內容得到了個性化分發的同時也滿足了用戶的體驗。此外，愛奇藝還在探索利用AI技術根據用戶的興趣去定製化生產抓住用戶興趣、增強用戶粘性的內容。在11月21-22日召開的AICon全球軟件開發大會（北京站）2019 現場，InfoQ有幸採訪到了愛奇藝研究員楊紫陌，她詳細介紹了AI技術在愛奇藝的視頻內容、個性化海報圖及推薦語的生產分發運用。

以下爲InfoQ與楊紫陌對話全文，有刪減

InfoQ：首先請您做一下自我介紹，您自何時加入愛奇藝，以及目前主要負責的工作？

楊紫陌：我加入愛奇藝快兩年時間，現在主要負責愛奇藝APP的推薦算法。具體來說主要有視頻內容推薦、個性化海報圖及推薦語的生產分發、流量中控等項目。

InfoQ：愛奇藝APP每天大概產生的視頻數規模有多少？

楊紫陌：每天產生的視頻數量級不太一樣。愛奇藝主頁的電影、電視劇，綜藝，兒童，動漫等優質頻道的內容，大概是幾百上千數量級。如果加上游戲、主播、體育等偏PGC（專業內容製作）的視頻內容，數量大概在上萬數量級。如果要加上UGC（用戶自己製作的視頻內容），數量規模甚至有可能上百萬。

InfoQ：推薦系統對於海量內容的傳播至關重要，愛奇藝的視頻推薦系統整體架構是什麼樣子的，主要運用到了哪些AI技術？

楊紫陌：推薦系統是AI算法最早看到商業價值的領域之一，所以業界推薦系統的整體架構都比較通用成熟了。一般來說，推薦系統分成這樣幾個階段：

首先是生成推薦池。整個視頻庫的量級非常大，可能是千萬或億量級。先從視頻庫裏選出一些可以被推薦的內容，我們稱爲推薦池，大概會有百萬量級的內容可以進這個推薦池。這一階段核心是，根據內容特徵篩選掉一些低質或者違規的內容，比如低畫質、年代久遠、涉及到政治敏感、黃色暴力的內容。

第二階段是召回，召回思路一般會根據用戶的觀看歷史記錄、搜索記錄、偏好類目選擇一些用戶可能喜歡的內容，召回策略主要包含協同過濾，意圖預測，偏好召回和向量召回等。這一階段的核心定位是，對每一個用戶根據其偏好和行爲，對所有的內容進行一次初篩。

第三階段是排序。排序環節，會對內個用戶召回的內容進行打分，獲取分數最高的少量結果，分數計算的規則是通過用戶上億次的線上點擊行爲學習出來的。分數值會參考的特徵也是很豐富的，包括內容的特徵（如熱度、題材、時效性、外部輿情），用戶特徵（如用戶偏好、瀏覽記錄、登錄頻率、是否會員），以及環境特徵（如wifi、gps、時間）等。

最後會有一個規則層，通過降權過濾等手段，處理一些算法無法顧及的用戶體驗的問題，比如不再推薦用戶已經看過的視頻、儘量向用戶多樣化展示視頻內容等。

InfoQ：針對長短不一的不同視頻內容，算法是如何做分類並分發推薦的？

楊紫陌：首先用戶對於長視頻、短視頻的需求不同。用戶觀看短視頻的意圖和行爲多表現爲簡單“刷一刷”，打發閒散時間。而消費長視頻，大部分用戶需要一段相對完整的時間，所以消費長視頻的心理門檻也較高。例如，晚上是長視頻的高峯期，上下班路上則是短視頻的高峯期。基於上述規律性的差異，我們會對用戶的意圖和行爲進行預測，預測用戶是更傾向於是看長視頻還是看短視頻。

用戶在一個視頻上觀看的時長，可以很大程度上反映用戶對這個視頻的喜好程度，所以在做混合推時，我們也會對長短視頻的樣本做一些處理。最開始我們的樣本是用“觀看時長”來決定樣本權重，但這樣長視頻明顯有優勢。後來我們考慮用“完成度”來衡量，但這樣對短視頻有優勢，用戶很容易就看完了，甚至有時候用戶不喜歡也懶得跳過。最終我們採用的是一個相對摺中的方案，用當前行爲相比於“平均觀看時長”（指所有用戶觀看這個視頻內容的平均時長）這個指標來衡量用戶對該內容的喜歡程度，如果用戶觀看該內容的時長超出平均時長，我們就認爲，相對於其他用戶，他更喜歡這個內容。這個策略讓排序服務的精度提升非常明顯，它可以更好的平滑長短視頻之間的打分差異，使得模型打分更注重於真實相關性。

InfoQ：所謂“個性化”，判定標準可能千差萬別，機器根據用戶的行爲去推薦給他可能感興趣的行爲，但很多時候，用戶可能並不真正感興趣，如何來做界定？

楊紫陌：判斷一個用戶是否真的喜歡某一個視頻內容，這很大程度上是通過用戶觀看內容的時長來衡量的。對用戶在該視頻內容上的停留時間、是否倍速播放、是否托拉拽、是否有二刷等觀看行爲做綜合分析，來判斷用戶對該內容是否真正感興趣。

InfoQ：有時候，算法推薦的可能並不是用戶想要的，算法往往推薦給用戶大量相似內容，這反而會給用戶帶來困擾，您怎麼看？

楊紫陌：在做推薦分發時，爲照顧用戶體驗，針對用戶行爲較豐富的用戶，在“規則”層會做打散。但如果用戶在平臺上的行爲非常少，他/她只看了某一類內容，那麼確實有更大的可能會發生被推薦類似內容的情況。對於這類低粘性用戶，我們會給一個相對大的概率去出各頻道的優質內容，更多的去探索用戶的興趣，幫助他發現平臺上更多樣性的內容。

InfoQ：個性化海報的生產和分發具體是如何操作的？

楊紫陌：有很多視頻內容，單單通過一個海報者展示，用戶可能很難真正理解到這個內容吸引人的地方。我們希望通過改變內容本身的分發形式，來提升內容對用戶的吸引力。而相對人工生產/分發，機器製作具有自動高效、可複用、千人千面等特點。

個性化海報的生產主要有三種途徑：一是，通過官方運營海報本身的二次加工或者預告片、外部數據生成海報。二是，通過視頻內容本身出發，對優質畫面進行截幀，對劇照進行再加工。三是，運用模版組合方式，通過素材縮放和位置移動等形成不同模版、尺寸。

海報分發環節，我們會根據用戶偏好的標籤，匹配出用戶最有可能能感興趣的海報。並且建立退場機制，將一些質量不高的，用戶點擊率不高的海報從內容推薦池去掉。在人工審覈時，運營也會結合畫面評分，和用戶的線上反饋情況（ctr）進行綜合的判斷。

InfoQ：在海報分發和生產過程中都用到了哪些AI技術？效果如何？

楊紫陌：在海報生產方面，會用到圖像增強、目標檢測，圖像分割等技術。在生成演員特徵時會用到人臉、動作、場景的識別、以及對於海報有沒程度的打分。在智能檢查時也會用到AI，比如如何避免在智能裁剪時避開人臉、避開文字等。此外，在對一些老影視劇做重塑時會運用到圖像增強技術，將以前模糊的、分辨率低的海報變得更清晰。相較於傳統的海報生成，個性化海報上線效果提升明顯，線上分發效率（ctr）提高了10%左右。

InfoQ：在海報標籤語的製作上，是怎樣做的？

楊紫陌：推薦語的生成主要運用到了NLP技術。針對同一個內容生成推薦語，需要考慮的因素比較多，如情節、主題、用戶喜好、召回方式、內容彈幕等。

InfoQ：AI參與內容創作目前還在探索階段，愛奇藝在這方面做了哪些嘗試？

楊紫陌：AI爲傳統的內容製作行業提供工具。如，前面提到的利用圖像增強技術對經典內容的重塑、在原有內容基礎上做智能剪輯、拼接等均屬於再創作。在一些影視劇、綜藝節目的後期製作環節，在渲染、剪輯、對鏡等操作中也會廣泛運用到AI技術。

嘉賓介紹

楊紫陌，愛奇藝研究員，負責視頻內容的個性化分發、個性化海報圖推薦語的生產分發、流量中控等項目。2013年阿里星，在阿里集團負責精準營銷、商品推薦、支付寶智能運營等項目。曾獲全美數學建模特等獎、最佳組織獎、最佳創意獎。發表SCI期刊論文十餘篇，其中一篇入選ESI全球高引用論文。

AI在愛奇藝視頻內容個性化生產與分發中的運用

C#開源的兩款功能強大的錄屏神器

認知提升的方法

螞蟻面試：Springcloud核心組件的底層原理，你知道多少？

斷網保平安？俄羅斯成功完成斷開全球互聯網測試

金融大數據公司接連被查，爬蟲到底犯法嗎？

Facebook正在自研操作系統，欲取代Android，硬件之夢有望重燃？

如視300萬套VR房源背後的技術硬實力揭祕

蘋果起訴前iPhone芯片金牌設計師，當事人反訴其非法監視行爲侵犯隱私

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結