paper:Learning Discriminative Aggregation Network for Video-based Face Recognition
論文鏈接:Learning_Discriminative_Aggregation_ICCV_2017
同樣是2017 ICCV的paper,文章提出了一個DAN(discriminative aggregation network)網絡,希望從視頻流的前端整合信息。主要是GAN+metric learning,用GAN做聚合,用metric增強判別信息。
主要亮點:
結合metric learning 和 adversarial learning。
對於多幀圖像,作者選擇用GAN來生成有辨別信息的一幀。
對於前期的視頻圖像處理,有很多學習和探索的空間。
Idea
首先,在特徵提取之前做聚合過程有以下幾個好處。首先能夠明顯的加快識別過程,其次能夠降低一些低質量圖片的污染。
做圖像聚合,可以利用GAN的思想:輸入一個視頻流,然後重建出一張人臉。
但是,GAN生成的問題:GAN只是爲了獲得一個視覺上更好更接近原圖的圖片,但是其判別力不足。
作者因此引入了metric的方法,把樣本映射到一個特徵空間,以提升判別能力。
這篇文章的主要思想就是把GAN和metric learning結合起來。
Approach
目標函數
包含m幀的視頻V聚合成n張的圖片X。m遠大於n。
F表示特徵提取網絡,Dis用以評估正負樣本的discriminative ability。
網絡結構:
DAN的主要網絡結構如上圖所示。主要由聚合網絡G,判別網絡D和特徵提取網絡F構成。
首先視頻流通過聚合網絡合成一張或多張圖。D模塊用來判斷圖像是G生成的還是由原視頻選擇的。圖像同時進入F提取feature,並且希望這個feature是discriminative的。
訓練過程中F是fix住的。
Loss:
整體loss由三部分構成。
對於重建loss,做了以下對比:
像素級別的mse距離
重建和原圖間的feature map差異
上面兩種loss可以保證視覺特性,但不保證語義信息和判別力。 DAN是將重建loss應用於feature embedding,如下
Experiment
loss的對比實驗
DAN精度:
速度: