視頻質量機器過濾技術淺析(一):系統與算法概述

短視頻信息流產品是目前最炙手可熱的互聯網產品之一,每天會有海量的UGC與PGC視頻被生產出來。如何平衡人工成本,高效地審覈視頻質量,挑出真正好的視頻?基於AI算法準確識別視頻質量並進行機器過濾,可以提高視頻生產效率和生產質量,並最終提升用戶體驗。本專題具體介紹阿里文娛基於視頻封面、標題、內容等多個維度的質量評價算法、系統與平臺架構,以及業務落地與應用結果等。本文是專題的第一篇文章。

1 技術背景:爲什麼需要機器過濾?

在優酷,每天有大量的新增短視頻產生,經過預處理或基礎過濾後,仍有數十萬量級的短視頻進入視頻質量審覈鏈路,更是有海量的存量視頻,而每日人工審覈資源是有限的,如何平衡人工成本,高效地審覈視頻質量,挑出真正“好”的視頻並呈現給終端用戶?。

我們將結合阿里文娛摩酷實驗室的實踐,將AI進行海量視頻篩選與低質視頻機器過濾工作進行總結,希望對視頻質量多維評價算法方向有啓發,提升視頻質量審覈效率。

2 機器過濾概述:基於算法進行視頻多維度的質量評價

視頻審覈是一條複雜鏈路,但基本可以簡化爲紅線審覈、機器過濾和人工審覈等主要步驟。如下圖所示,每個步驟都可能涉及到視頻安全的審覈和視頻質量的審覈(廣義來講,視頻安全也是視頻質量的一部分),人工審覈過程也可能包含有基於不同業務要求或分類場景下的精細化機器審覈等前置流程。

圖1: 視頻審覈鏈路簡化流程

機器過濾通常包含基於規則的基礎過濾部分,如:時長、時效、播控狀態、清晰度、橫豎版等,以及基於AI算法進行視頻標題、封面、內容等維度的質量評價的質量過濾部分。本文將着重於機器過濾環節中的視頻質量維度過濾部分,也即基於算法進行視頻多維度的質量評價,根據各業務場景不同的過濾要求,對增量(送審/建倉)與存量(建倉)視頻進行質量維度的低質視頻機器過濾,實現人審提效、精品化建倉並形成運營抓手。

3 如何用AI進行視頻質量評價?

視頻質量評價通常分爲主觀質量評價和客觀質量評價。

主觀質量評價:依靠大量人力,並需要制定一套詳細的標準,保證儘可能少的由於人爲因素的不確定性對最終視頻的評估產生影響。

客觀質量評價:利用特定的評估模型來自動計算視頻質量,可分爲三類:全參考、部分參考和無參考質量評價方法。依託優酷智能視頻分析平臺,我們開發了一套基於優酷短視頻數據的質量算法框架,構建了從視頻標題、封面和內容多個維度進行評價的質量評估模型,在算法模型的訓練和優化的過程中,輸入批量的人工主觀質量評價的視頻數據。

從視頻標題、封面和內容幾個維度,短視頻的主要低質問題包含以下幾個方面:

  1. 視頻標題質量:標題過於簡單,字數過少,有特殊符號,含社交信息、敏感詞、廣告,有錯別字,標題黨,句子不通順等;
  2. 視頻封面質量:構圖不佳,主題不突出,模糊,黑邊,含logo、二維碼,變形,過暗,人體不全,背景雜亂等;
  3. 視頻內容質量:視頻無意義,不清晰,含logo,黑屏、花屏,有廣告,音視頻不同步等。

基於此,我們構建了基於端到端深度學習模型的視頻標題、封面、內容綜合質量評估模型,以及標題規則/特徵檢測、圖像基礎檢測和封面特徵識別等多維度的質量分析模型。如下圖所示,我們的視頻質量服務算法框架主要包含:

  1. 基礎設施層:計算平臺,數據平臺,標註平臺,算法訓練平臺等;
  2. 算法能力層:圖像算法,圖像基礎檢測,文本算法,視頻理解算法以及對外提供的算法服務接口等;
  3. 業務應用層:視頻質量算法的應用場景,主要是服務於視頻送審,內容池建倉,產品運營管理等;
  4. 數據與反饋系統:對線上業務相關的算法指標進行監控,提供算法Bad Case自動迴流與數據分析,爲算法模型迭代和優化提供數據輸入。

圖2: 視頻質量算法服務框架

3.1 智能視頻封面挑選

封面質量評價是視頻質量機器過濾中最爲直觀和關鍵的環節。

關於封面質量標準,優酷視覺設計團隊提供了數十項客觀指標,如人物個數,圖像質量,封面特徵,標題安全區等。從這些指標出發,我們構建了多模態的圖像綜合質量評價、封面特徵識別與圖像基礎檢測模型。

1) 圖像質量模型

我們的圖像綜合質量評估主要採用了深度學習模型,構建了美學回歸模型(偏重美學指標:失焦,三分構圖,主題突出,過曝光/過暗等),內容分類模型(側重⼈物關係、人體等),圖像清晰度模型,人臉模型,以及字幕、標題區檢測等基於弱監督的多模態模型,最終輸出圖像綜合質量打分。

圖3: 圖像綜合質量評價模型

2) 封面特徵識別

根據我們實際抽查和人工審覈數據統計,低質封面中含logo、二維碼、黑邊、蒙版圖片等特徵的比例比較高,所以對低質封面顯著特徵的識別是低質封面機器過濾的一個重要的維度。

圖4: 低質封面特徵示例

爲此,我們對這些顯著封面低質特徵分別構建了獨立的兼顧效率與性能的特徵識別或檢測模型: logo與二維碼識別模型,黑邊檢測模型,蒙版圖片識別模型等。通過封面這些低質特徵的識別模型,可以快速高精度地識別出一大批低質封面的視頻。

3) 圖像基礎檢測:

一些圖像基礎物理統計屬性的檢測也有助於我們對封面質量的評估,爲此我們也構建了圖像基礎檢測模塊,檢測圖像的客觀亮度、顏色和分辨率等參數,提供的檢測模型有:亮度/對比度檢測模型,用於過濾過暗或過曝的低質封面;偏色檢測模型,用於過濾偏色嚴重的比如綠屏等低質封面;分辨率檢測,用於判斷封面是否分辨率異常、拉伸變形;以及圖像色彩檢測、分屏檢測等。

圖5: 圖像基礎屬性檢測示例

圖像基礎檢測主要是基於圖像物理屬性的統計模型,是一種客觀評價方法,以此爲基礎可以過濾掉一些物理屬性值異常的低質圖像,但由於沒有充分考慮人眼視覺特性,因此會造成客觀評價結果和實際視覺效果的不一致,容易導致誤判,比如圖5中的示例4。

因此,在特定業務場景下,需要結合其他方法進行判斷,達到主客觀一致可用。如何基於特定場景和條件有效地使用圖像基礎檢測的客觀結果,是一個在實際應用中需要反覆討論與衡量的問題。

3.2 優質視頻標題過濾

依據產品、運營、審覈等業務方提供的標題質量的客觀標準,我們構建了基於文本分類的深度學習模型,用於標題文本的綜合質量評價,以及基於文本統計特徵的標題特徵檢測模型:

  1. 標題綜合質量模型:基於文本分類的深度學習融合模型;
  2. 標題特徵檢測:敏感詞/關鍵詞檢測,社交信息檢測,錯別字檢測,標題語言,標題字數,標題形態檢測等。

圖6: 標題綜合質量評價模型

圖7: 典型低質標題示例

3.3 視頻內容質量分析

視頻內容質量評價通常需要結合音畫、圖像、文本等多個維度的分析進行質量評價,同時需要對視頻進行內容理解,包括人物、劇情、情節、有無看點、畫質等,這是一項比較困難也是富有挑戰的工作。

追求大而全的算法模型來解決上述所有內容質量問題,是不現實的;而建立多個細而精的模型,逐步解決多個局部場景的內容質量問題,是一個有潛力和值得探究的實踐方向。在工程上,需要建立視頻抽幀表示、光流表示、音頻表示等多個質量模型對整個視頻系列進行分析,對算力資源也有較高需求。

針對業務上主要的視頻內容低質問題,我們分別構建了獨立的算法模型,包括:視頻畫質分析(不清晰、模糊等),視頻logo(競品logo等),視頻畫面異常(黑屏等),音畫分析(音質差、不同步等)等。

圖8: 視頻級內容質量算法建模

上圖是典型的視頻內容級質量算法建模流程,對原始視頻進行抽幀後得到音、畫的幀信息,然後基於深度模型分別提取幀級圖片RGB特徵、視頻級RGB特徵、時間序列上光流表示、音頻特徵等,進而根據不同維度特徵建立多模態融合的分類/識別模型,綜合判斷給出內容質量分析結果。

隨着業務的深入和發展,內容維度的低質特徵也會不斷呈現出分佈或形式上的變化,所以線上的算法模型需要週期性迭代和更新,根據最新數據進行優化與調整。

4 應用及結果

如前所述,短視頻信息流產品通常在視頻質量方面會面臨着多方面的挑戰:

  1. 盤貨建倉的挑戰:每日新增大量的短視頻,而人工審覈帶寬是有限的;而且存在海量的存量視頻,有些場景的內容底倉沒有經過人工審覈,導致分發給用戶的視頻質量無法得到保證;
  2. 產品運營的挑戰:沒有形成有效的產品運營抓手,爲產品運營同學提供在不同業務場景和標準下,進行質量維度規則選品以及送審過濾;
  3. 視頻質量算法的挑戰:不同的業務場景,需要針對性的設計開發質量算法模型,並不斷地根據線上運行情況進行迭代調優;而且需要一套規範的工程化與上線流程。

爲應對這些問題,我們構建了基於優酷智能視頻分析平臺的質量算法服務框架,目前已經爲優酷短視頻信息流產品部分場景提供機器過濾服務。我們遵循如下的算法工程化與上線流程,涉及到多個合作團隊,其中多個環節可能需要多次反覆迭代,才能進入下一個上線環節。

圖9: 算法上線與工程化流程

質量算法服務框架:算法上線與工程化流程

  1. 審覈提效

我們機器過濾模型上線後,初期經過評測,總體人審得貨率提升了5-6個百分點。經過多輪算法迭代與優化後,機濾後視頻低質率(錯誤率)已經由模型上線前15%左右降低到3%以內,誤報率也在比較低的水平,起到了較大程度審覈提效的作用,結合更多其他封面、標題、內容維度特徵識別後,低質率與誤報率會進一步降低。

  1. 精品化建倉

針對有些短視頻分發場,底倉裏有大量的視頻人工審覈無法覆蓋,爲保證分發視頻的基本質量和用戶體驗,採用機器過濾進行標題、封面、內容維度篩選建倉是必需的一步。

  1. 運營抓手

基於對增量、存量視頻的各個維度的質量打標結果,我們提供給短視頻運營中臺從各個維度進行質量過濾的能力,可以在運營中臺過規則或字段靈活配置,滿足不同業務場景對質量標準的不同要求,進行建倉選品或送審過濾,從而形成有效的視頻質量上產品運營抓手。

5 問題與展望

機器過濾算法結果和標籤作爲一項視頻基礎信息服務,不僅可以在生產側鏈路輔助人工進行提效,而且在視頻分發/消費側鏈路上可以協同推薦、搜索算法一起更好地賦能視頻業務。

機器過濾技術的相關工作還包括:視頻內容深度理解,視頻自動分類打標,視頻安全識別算法,視頻精細化機審等等,這些都是我們未來會繼續深入的方向。另外,視頻質量與安全審覈標準也在不斷的更新與變化中,不同審覈人員對標準理解與執行結果不完全一致,這也是機器過濾技術面臨的挑戰之一。

參考文獻

[1] NIMA: Neural Image Assessment. Hossein T, Peyman M. arXiv:1709.05424 [cs.CV], 2018.

[2] Convolutional Neural Networks for Sentence Classification. Yoon K, arXiv:1408.5882v2 [cs.CL], 2014.

[3] Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm. Bjarke F, Alan M, Anders S, et al. arXiv:1708.00524v2 [stat.ML], 2017.

[4] AVA: A Large-Scale Database for Aesthetic Visual Analysis. Naila M, Luca M, Florent P. IEEE on CVPR, 2012.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章