NeurIPS 2019 Spotlight論文：商湯最新插幀算法讓視頻顯示更加平滑

自從相機發明以來，人們對高質量視頻的追求從未停止過。

分辨率從480p，720p，到1080p，現在是2K，4K；幀速率從25FPS到60FPS，到240FPS，960FPS甚至更高.

如果僅依靠相機的硬件迭代來增加幀速率，則會有限制，因爲相機傳感器在單位時間內捕獲的光有限制。而且，相機硬件迭代週期長，成本高。

最近，商湯算法團隊提出了一種二次視頻內插算法，可以感知視頻中運動的加速度。打破了以往幀內插法的線性模型，預測了二次光流。與深卷積網絡融合，使您的視頻平滑。

這種方法有多強大？對比一下：

如果放慢視頻速度，可以明顯感覺到沒有幀內插的慢動作視頻（左）會明顯凍結，而商湯二次（二次）視頻幀內插方法（右）處理的視頻播放流暢。

二次插值與傳統線性插值

以往的視頻幀插值方法（包括相、DVF、SepConv和SuperSloMo等）假設相鄰幀之間的運動是均勻的，即沿直線勻速運動。然而，真實場景中的運動往往是複雜的、非線性的，傳統的線性模型會導致幀內插結果不準確。

以投擲橄欖球運動視頻爲例（見下圖1）。實際運動的軌跡是拋物線。如果在第0幀和第1幀之間插入一個幀，線性模型方法會將該軌跡模擬爲線性軌跡（從右數第二個），這與實際的運動軌跡（右三）完全不同。

圖1：開發用於加速感知視頻插值的二次模型。最左側的子圖顯示了視頻中的四個連續幀，描述了足球的彈丸運動。其他三個子圖通過不同的算法顯示幀0和1之間的插值結果。請注意，我們將這些結果重疊以更好地可視化插值軌跡。由於線性模型[31]假設兩個框架之間的運動均勻，因此它無法很好地逼近現實世界中的運動。相比之下，我們的二次方方法可以利用來自四個相鄰幀的加速度信息，並在視頻幀之間生成更準確的視頻。

二次插值幀是如何“細化”的？

上堂研究團隊建立了一個能夠感知視頻運動加速度的網絡模型。與傳統的線性幀插值模型使用兩幀輸入不同，它使用四個相鄰的圖像幀來預測從輸入幀到中間幀的光流。簡單流程圖如下：

圖2：二次視頻插值算法概述。我們首先使用現成的模型來估計輸入幀的流場。然後，我們引入二次流預測和逆流層來估計ft→0和ft→1。我們在本文中詳細描述了ft→0的估計過程，並且可以類似地計算ft→1。最後，我們通過將輸入幀與ft→0和ft→1扭曲和融合來合成中間幀。

、、和是輸入視頻連續的四幀。給定任意時刻t（0<t<1），該模型將最終生成t時刻的中間幀。而要得到，就需要更深入瞭解其中的兩個關鍵技術：二次方光流預測和光流逆轉。

其中，二次光流預測是尋找中學常提到的勻速變速運動位移的過程：假設在時間[-1，1]處的運動是勻速加速度，則可以利用位移來推斷時間0的速度和加速度，即，可計算從時間0到任意時間t的位移：

圖3：視頻中物體運動的示意圖,,,分別表示物體,,, 中的位置

通過上述方法，我們可以進行對稱計算。在這一點上，我們得到了加速度信息和。

爲了得到高質量的中間幀，需要求出反向光流和。

爲此，上堂課題組提出了一種可微的“光流反轉層”來預測和。以下轉換公式可用於有效地將和轉換爲和，但它可能在反向光流的移動邊界處引起強烈的振鈴效應（見圖4）。

爲了消除這些強振盪部分，上堂研究團隊提出了一種基於深度神經網絡的自適應反向光流採樣濾波器（Adaptive flow filter）。

實驗表明，自適應濾波器（ada）能有效地降低光流反轉引起的振鈴效應，從而提高最終合成幀的質量。

自適應流過濾可減少（a）中的僞影，並生成更高質量的圖像（d）。

實驗結果

研究團隊對GOPRO、Adobe240、UCF101和DAVIS四種知名視頻數據集進行了評估，並與業界領先的幀內插方法Phase、DVF、SepConv和SuperSloMo進行了比較。在每個數據集上，商湯二級視頻PIN方法明顯超過現有的方法（見表1和2）。

表1.上堂提出的方法與業界領先的GOPRO和Adobe240數據集方法的比較

表2：GOPRO數據集上的ASFP。

表3：商湯方法與UCF101和DAVIS數據集上的行業領先方法的比較

此外，上堂研究團隊還對各種方法生成的中間幀的關鍵點進行了跟蹤和可視化。從圖5中兩種情況下的視頻運動軌跡可以看出，真實慢動作相機採集到的中間幀（GT）軌跡是彎曲的。由線性模型（SepConv、SuperSloMo、Oursw/o qua）生成的中間幀的運動軌跡均爲直線。相反，上湯模型能更準確地預測非線性軌跡，得到更好的幀內插結果。

圖5：GOPRO數據集上的定性結果。每個示例的第一行顯示了插值中心框架和地面真相的重疊。重疊的圖像越清晰，表示插值結果越準確。每個示例的第二行通過特徵點跟蹤顯示了所有7個插值幀的插值軌跡。

總結

論文地址或源碼下載地址：關注“圖像算法”wx公衆號回覆"商湯插值"，商湯算法團隊提出了一種可以合成高質量中間幀的二次視頻插值算法，此方法將視頻的相鄰幀的加速度信息用於非線性視頻幀插值，並有助於端到端訓練。與在不同視頻數據集上的現有線性模型相比，該方法能夠更準確地對現實世界中的複雜運動進行建模，併產生更令人滿意的結果。雖然我們在這項工作中專注於二次函數，但提出的公式是通用的，可以擴展到甚至更高階的插值方法，例如三次模型。我們還希望該框架能夠應用於其他相關任務，例如多幀光學流程和新穎的視圖合成。

綜上所述，商湯提出的幀內插法能夠較好地預測視頻中的運動加速度，可以比現有的線性幀內插算法更好地預測中間幀。

NeurIPS 2019 Spotlight論文：商湯最新插幀算法讓視頻顯示更加平滑

谷歌開源：使用MediaPipe在移動設備上進行實時3D對象檢測

南洋理工大學最新發布開源圖神經網絡基準

Github熱門源碼：藉助TensorFlow.js讓你在視頻中瞬間消失

Python機器學習：數據科學，機器學習和人工智能的主要發展技術趨勢概述

CVPR2020:上交大讓合成圖像更真實，提出了通過域驗證進行深度圖像協調(開源)

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結