【人臉識別】視頻幀聚合：Discriminative Aggregation Network

原創

2020-06-29 02:55

paper：Learning Discriminative Aggregation Network for Video-based Face Recognition

同樣是2017 ICCV的paper，文章提出了一個DAN（discriminative aggregation network）網絡，希望從視頻流的前端整合信息。主要是GAN+metric learning，用GAN做聚合，用metric增強判別信息。

主要亮點：

結合metric learning 和 adversarial learning。
對於多幀圖像，作者選擇用GAN來生成有辨別信息的一幀。
對於前期的視頻圖像處理，有很多學習和探索的空間。

首先，在特徵提取之前做聚合過程有以下幾個好處。首先能夠明顯的加快識別過程，其次能夠降低一些低質量圖片的污染。

做圖像聚合，可以利用GAN的思想：輸入一個視頻流，然後重建出一張人臉。

但是，GAN生成的問題：GAN只是爲了獲得一個視覺上更好更接近原圖的圖片，但是其判別力不足。

作者因此引入了metric的方法，把樣本映射到一個特徵空間，以提升判別能力。

這篇文章的主要思想就是把GAN和metric learning結合起來。

目標函數

包含m幀的視頻V聚合成n張的圖片X。m遠大於n。
F表示特徵提取網絡，Dis用以評估正負樣本的discriminative ability。

網絡結構：

DAN的主要網絡結構如上圖所示。主要由聚合網絡G，判別網絡D和特徵提取網絡F構成。
首先視頻流通過聚合網絡合成一張或多張圖。D模塊用來判斷圖像是G生成的還是由原視頻選擇的。圖像同時進入F提取feature，並且希望這個feature是discriminative的。
訓練過程中F是fix住的。

Loss：

整體loss由三部分構成。

對於重建loss，做了以下對比：
像素級別的mse距離
重建和原圖間的feature map差異
上面兩種loss可以保證視覺特性，但不保證語義信息和判別力。 DAN是將重建loss應用於feature embedding，如下

loss的對比實驗

DAN精度：

速度：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.