街拍衣飾搜索

又是好久沒更新博客,許是我變的懶惰了,不過近期會趁閒暇多更新一些,下個月就不會這麼幸運有那麼多時間了。

問題定義

衣飾搜索這塊,萬能的淘寶一定會做出來,因爲有市場,但就是不知道爲何被UNC的這個團隊領先發表在ICCV上,可能這就是學術界和工業界的區別,學術界辛辛苦苦爬下來數據然後做出成果發表在論文上,但工業界悶聲發大財,自帶數據buff做出更加實用的效果卻不想發表。我覺得這是其中的原因之一。

原因之二在於,工業界裏的評測標準一般比較亂,就是如何定義出來一張圖片是街拍圖片,而又如何評測呢?我猜測可能會找一些人標註出來一個數據集,然後自己做結果自己玩。所以在科學性上,也不如學術界的正統。但這又有什麼關係呢,掙錢的可是工業界。

所以此文章的亮點就是它終於把衣飾搜索這個命題提交給學術界,並收集了數據,做出了基本的效果。

說了那麼多,問題定義如下,就是街拍圖片到商店圖片的品牌精準搜索。

雨石君腦補了應用場景:某人逛街玩耍,見一對情侶飄然而過,容顏靚麗,鮮衣怒馬,包包也似是極好的上品,於是欲求此品牌而不好意思問,剛要嘆息一聲就此作罷,猛醒得有淘寶神器,於是潛伏樹後,偷拍一圖,搜之得品牌名,於是產生出圖像搜索,得之可得天下的氣概……(待續)

所以,精準的品牌搜索是有意義的。

難點

  • 街拍圖像的質量問題。線上商店中的照片大都是由專業人士在特定場景下拍出來的,效果一般較好。
  • 街拍圖像則是由不專業人士在任意場景下拍出來的。質量較差。

方法

基礎

我一直覺得,要想分析一個機器學習領域的問題,需要明確數據格式,算法流程和評測指標三點。

  • 數據格式
    街拍圖像以及其對應的同品牌商店圖像的pair對
  • 算法流程
Created with Raphaël 2.1.0query圖像識別衣裝區域抽取特徵相似度計算返回結果
  • 評測指標
    既然是評判pair圖像是否匹配,那麼就是二分類問題了。

算法組合

論文中評判了多種方法的組合,爲何說是組合呢?是因爲可選的方法在抽取特徵和相似度計算兩個方面。

  1. 抽取特徵
    • 在全局圖片上抽取特徵
    • 在某些特定區域上抽取特徵
  2. 相似度計算
    • 使用餘弦距離
    • 使用自適應距離

其中,特定區域上抽取特徵是指,首先對圖片中的衣裝位置進行標定,標定出來可能會有很多區域,讀者可能會問爲什麼說很多區域而不是隻有兩三件衣服呢?物體探測中都會遇到,一個物體可能用不同大小的框去標定都可以把它圈出來,而這個框偏移幾個像素後可能還能把它圈出來。

其實不怎麼思考也能想得到,特定區域上抽取特徵會比全局特徵要好,自適應距離要比餘弦距離要好。特定區域由於有很多,所以導致運算性能變得很低,所以論文中還採用了使用餘弦距離先過濾,然後再使用自適應距離重新計算的方法。

自適應距離與類別獨立

其實很簡單,就是一個pair對圖像抽出來的特徵拼到一起,然後學習出來一個NN兩類分類器,分類器的最高層使用邏輯斯蒂迴歸模型。

而所謂的類別獨立就是指先把所有圖像都放到一起訓練得到初步參數,然後對於每個類別,再用該類別的圖像對參數進行細粒度的調整。

效果

各個類別的效果如下,感覺空間還有很大,若有調參狗,不妨一試。

提升的一些想法

  • 抽取特徵的模型是用的已經訓練好的AlexNet,可以使用衣裝數據對參數進行重新微調
  • 自適應的距離度量方式中,歸一化、對pair對進行篩選,使用hard sample去訓練網絡。

參考文獻

[1]. Hadi Kiapour M, Han X, Lazebnik S, et al. Where to Buy It: Matching Street Clothing Photos in Online Shops[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 3343-3351.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章