Paper Reading Note
URL:
https://arxiv.org/pdf/1904.03349.pdf
TL;DR
cvpr2019的一篇文章,提出了一種基於attention的圖像生成方法,處理在reid數據量不足的問題有參考價值。
Algorithm
下圖是本篇論文的生成圖像的結構:
- 模型通過condition pose和target pose對人體的骨架進行提取,在定義的pose-attentional transfer network上將其加到原始的圖像中,相當於添加了attention。
- 每一層在更新圖像feature map的同時更新pose feature map,一直穿到最後一層。
- 訓練模型採用了兩個判別器,appearance discriminator和shape discriminator,在圖片的表現和骨骼形狀作判別,公式如下:
- 同時,作者還加入了pixel-wise的L1 loss和放入傳統網絡中得到的feature map的L1 loss:
把這個損失和pixel-wise的L1損失加權相加。
最後把損失按比相加:
就可以得到圖1所示的生成模型。
Experiment Detail
作者在Deep Fashion和Market 1501數據集上都得到了很不錯的效果,上圖是作者的方法與原始圖形以及一些其他的生成方法比較,可視化效果都十分逼真。
最後作者把數據放到inception和resnet中比較添加了generator和未添加或其他generator作比較,發現該方法能夠在reid工作上提高效果。
Thoughts
- 還是GAN的思想,只是增加了pose的attention項,使網絡能夠關注於這些姿態特徵,這種思想用於reid可以解決關於姿態的問題。
- 可以復現一下,放到我們的basic中跑。