【人臉識別】視頻幀聚合:Discriminative Aggregation Network

paper:Learning Discriminative Aggregation Network for Video-based Face Recognition

論文鏈接:Learning_Discriminative_Aggregation_ICCV_2017


同樣是2017 ICCV的paper,文章提出了一個DAN(discriminative aggregation network)網絡,希望從視頻流的前端整合信息。主要是GAN+metric learning,用GAN做聚合,用metric增強判別信息。

主要亮點:

結合metric learning 和 adversarial learning。
對於多幀圖像,作者選擇用GAN來生成有辨別信息的一幀。
對於前期的視頻圖像處理,有很多學習和探索的空間。

 

Idea

首先,在特徵提取之前做聚合過程有以下幾個好處。首先能夠明顯的加快識別過程,其次能夠降低一些低質量圖片的污染。

做圖像聚合,可以利用GAN的思想:輸入一個視頻流,然後重建出一張人臉。

但是,GAN生成的問題:GAN只是爲了獲得一個視覺上更好更接近原圖的圖片,但是其判別力不足。

作者因此引入了metric的方法,把樣本映射到一個特徵空間,以提升判別能力。

這篇文章的主要思想就是把GAN和metric learning結合起來。

Approach

目標函數

image


包含m幀的視頻V聚合成n張的圖片X。m遠大於n。
F表示特徵提取網絡,Dis用以評估正負樣本的discriminative ability。

網絡結構:
 

image

DAN的主要網絡結構如上圖所示。主要由聚合網絡G,判別網絡D和特徵提取網絡F構成。
首先視頻流通過聚合網絡合成一張或多張圖。D模塊用來判斷圖像是G生成的還是由原視頻選擇的。圖像同時進入F提取feature,並且希望這個feature是discriminative的。
訓練過程中F是fix住的。

Loss:

image


整體loss由三部分構成。

image


對於重建loss,做了以下對比:
image 像素級別的mse距離
image 重建和原圖間的feature map差異
上面兩種loss可以保證視覺特性,但不保證語義信息和判別力。 DAN是將重建loss應用於feature embedding,如下

image

 

image

Experiment

loss的對比實驗

image


DAN精度:

image


速度:

image

 

 


 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章