Paper Reading Note
URL:
https://arxiv.org/pdf/1901.10172.pdf
TL;DR
ICIP2019年的文章,在DeepFashion數據集的屬性分類任務上做到了很高的水平。採用的方法是一個簡單的雙通道模型,通過對fashion landmark座標的預測點作爲attention map輔助分類模型,達到了一個多任務模型互相協作的效果。
Model
landmark detection
模型上層是對landmark的預測,採用的是做pose estimation的沙漏網絡:
文章中選用了四個sub-hourglass模塊和一個bottlenect就在沒有任何輔助的情況下達到了最優。
Boundary Awareness
這一層使用landmark中heatmap的結果,通過每一個邊緣點的連接,能夠形成一個類似於目標邊緣的邊界線。通過對該邊界線的編輯並加入高斯模糊,最後能夠形成一層attention map,以重新編輯目標圖片使之能夠更關注於服裝本身。最後可視化的attention map如下所示(左圖爲benchmark):
Structure Awareness
將landmark detection network的feature map和屬性分類網絡中中間層的feature map直接連接。作者在這裏簡單解釋了一下爲什麼要用中間層:較上層包含了豐富的結構信息,不適合在上層加;在中間層加上後能夠方便下層也能夠結合這些信息共同學習。
Results
在三個任務上同時超過了所有SOTA的方法。
定性分析發現單添加Boundary Awareness效果提升微乎其微,但是兩個都添加會相互促進。
Thoughts
- 用landmark模型去幫助分類模型有一定借鑑意義,有點像parsing輔助作attention。但是爲什麼不用訓好的模型而是兩個一起訓?
- 本文的模型比較簡單,而點數似乎有點虛高,這個baseline ResNet50按道理應該沒這麼高,可能是用了一些tricks沒有說,後面有時間可以復現一下。