paper reading: TWO-STREAM MULTI-TASK NETWORK FOR FASHION RECOGNITION

Paper Reading Note

URL:
https://arxiv.org/pdf/1901.10172.pdf

TL;DR

ICIP2019年的文章,在DeepFashion數據集的屬性分類任務上做到了很高的水平。採用的方法是一個簡單的雙通道模型,通過對fashion landmark座標的預測點作爲attention map輔助分類模型,達到了一個多任務模型互相協作的效果。

Model

在這裏插入圖片描述

landmark detection

模型上層是對landmark的預測,採用的是做pose estimation的沙漏網絡:
在這裏插入圖片描述
文章中選用了四個sub-hourglass模塊和一個bottlenect就在沒有任何輔助的情況下達到了最優。

Boundary Awareness

這一層使用landmark中heatmap的結果,通過每一個邊緣點的連接,能夠形成一個類似於目標邊緣的邊界線。通過對該邊界線的編輯並加入高斯模糊,最後能夠形成一層attention map,以重新編輯目標圖片使之能夠更關注於服裝本身。最後可視化的attention map如下所示(左圖爲benchmark):
在這裏插入圖片描述

Structure Awareness

將landmark detection network的feature map和屬性分類網絡中中間層的feature map直接連接。作者在這裏簡單解釋了一下爲什麼要用中間層:較上層包含了豐富的結構信息,不適合在上層加;在中間層加上後能夠方便下層也能夠結合這些信息共同學習。

Results

在這裏插入圖片描述
在三個任務上同時超過了所有SOTA的方法。
在這裏插入圖片描述
定性分析發現單添加Boundary Awareness效果提升微乎其微,但是兩個都添加會相互促進。

Thoughts

  1. 用landmark模型去幫助分類模型有一定借鑑意義,有點像parsing輔助作attention。但是爲什麼不用訓好的模型而是兩個一起訓?
  2. 本文的模型比較簡單,而點數似乎有點虛高,這個baseline ResNet50按道理應該沒這麼高,可能是用了一些tricks沒有說,後面有時間可以復現一下。
發佈了67 篇原創文章 · 獲贊 94 · 訪問量 39萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章