弱監督目標檢測論文閱讀(一)

最近打算持續更新一些關於弱監督目標檢測的論文隨筆,歡迎有研究相關方向的各位來相互交流,有提一些建議的就更歡迎了。
(下面的介紹有很多都是概括,並非翻譯)
(文中提到的參考文獻請前往原文查找,此處不做額外附加)

Generative Adversarial Learning Towards Fast Weakly Supervised Detection

摘要

弱監督目標檢測近期備受關注,但是和全監督的一步檢測算法相比,在計算速度上有很大差距。這篇論文創建了一個一步檢測器,在保證檢測速度的同時檢測效果也很好

介紹

弱監督目標檢測不需要大量全部標記的目標框,而是需要圖像級別的標定,這些在網絡上十分容易獲得。爲了利用那些只有圖像級標籤的數據,之前的大多弱監督方法都採用了MIL(Multiple Instance Learning)結構。在這種結構中,一張圖像的目標建議被認爲是一個包中的實例,與之對應的標籤來自相應的圖像級標籤。隨後,Objective將估計實例中包含給定,目標的可能性。

相關工作

相關的工作主要分爲弱監督檢測(WSD)和快速目標檢測兩部分。
就以往的WSD算法而言,大多是兩步或多步網絡結構;如文中提到的有目標建議生成、特徵提取和建議分類組成的網絡。在研究歷史中,有大量的算法被不斷提出,詳見論文。在提出的方法中也有很多端到端的網絡。

GAN

GAN同樣存在着很多相關工作,包括提升網絡穩定性,圖像生成,representation learning,風格遷移和圖像超分辨率。同樣,也有少量一些與目標檢測結合的網絡

提出的方法

Generative Adversarial Learning for FastWSD

典型的快速一步檢測器學習如何適配,目標的gt bbox。當轉向WSD時,目標的bbox標籤無法獲得,只能獲得圖像級標籤。對於快速WSD而言,通常的解決方案是訓練檢測器去擬合估計的gt。儘管如此,損失函數仍是按照非估計gt設計的。受到使用GAN設計的估計生成模型的影響,引入了對抗損失使檢測器只需要圖像級別的標定。

訓練時:
1 discriminator D用於區分生成的bbox和估計的bbox
2 generator 更新以獲得更多高質量的bbox以模仿Pb的分佈
同時引入更多的損失函數設計(見原文)

文章中設計了F以估計準確的建議
G是單獨的檢測器,無需其他部分輔助
F和G在訓練過程中都會得到加強

Model Architecture

Generator G

G用於估計目標位置和屬於各類別的概率,屬於一步網絡。兩步網絡因RPN或其他目標選擇網絡不能採用。之前的設計中,有提取器和檢測器聯合檢測,結構複雜。
在一步檢測器中, 多個特徵圖譜將被用於預測,而不同的層則具有不同的感受野,可以用於檢測尺寸不同的圖片。特徵圖譜上的每個小塊都會防止各種尺寸和比例的默認bbox。檢測器預測每個默認框的各類別可能性,而回歸器負責使bbox更貼近實例。

Discriminator D

D被設計用於提供高質量的引導以監督G。直覺上講,D的輸入是圖像和bbox。細節上,利用VGG16提取特徵,原有的fc層以feature map,normalized coordinates和bbox的概率作爲輸入並輸出一個entry(此處entry的意思未知),並跟隨一個sigmoid層用於預測bbox是一個良好bbox的概率。D利用隨機梯度下降進行反向傳播。

Surrogator F

(這部分可能存在理解錯誤和紕漏,僅供參考,希望)
我們使用目標感知空間信息來調整建議,是方法[8]的變種。如圖三所示,F是一個三分支(three-stream)的網絡。由SPP層產生的建議特徵分流進入兩個分支,分類分支和檢測分支。假設我們共C個類別和R個目標建議,那麼以上兩個分支將產生兩個分數矩陣 xcxd,矩陣尺寸R*C,由兩個全連接層產生,兩個矩陣都經過softmax層進行歸一化。隨後,元素選擇產出的結果是:
xs=σ(xc).σ(xd) x^s=\sigma(x^c) .\sigma(x^d)
爲了獲得圖像級別的分類打分,一個求和池化被應用:
yk=r=1Rxrks y_k=\sum_{r=1} ^{R}x^s_{rk}
以上公式用於估計圖像中的是否存在目標並且屬於哪一類,公式中累加了各建議對應各類別的分數,最終得到屬於各類的打分。注意xs是根據每個獨立的建議的定位信息進行計算的。因此,來自同一圖像的不同建議之間的關係被否定,學習過程可能收斂到不希望的局部最小值。

未完待續

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章