《Relation Networks for Object Detection》筆記

Introduction

上下文信息或對象之間的關係有助於對象識別。該論文提出了一個對象關係模塊，類似於自然語言處理的注意力機制。該對象關係模塊使用對象的外貌特徵和幾何特徵。後者模擬對象之間的空間關係，僅考慮它們之間的相對幾何關係，使模塊具有平移不變性——對象識別的理想屬性。該對象關係模塊對對象的外貌特徵和幾何特徵進行加權操作得到新的特徵，提高了目標檢測的預測精度。同時，對象關係模塊可以用來替換NMS，把NMS的去掉重複bounding box的操作定義成二分類問題——bounding box是正確的還是重複的。

Object Relation Module

該論文受到自然語言處理的注意力機制的啓發。論文參考的注意力機制模型"Scaled Dot-Product Attention"的輸入包括queries， $d_k$ 維的keys和 $d_v$ 維的values。對query和keys進行點乘來獲取它們的相似度。給定一個query $q$ ，所有keys (組成矩陣 $K$ )和values (組成矩陣 $V$ )，輸出爲
$v^{out} = softmax (\frac{qK^t}{\sqrt{d_k}})V \tag{1}$

對象關係模塊類似於公式(1)。一個對象包含幾何特徵 $\mathbf{f}_G$ 和外貌特徵 $\mathbf{f}_A$ 。幾何特徵是簡單的4維的對象bounding box，外貌特徵是指神經網絡的激活值特徵。給定N個對象的輸入集 $\{ (\mathbf{f}_{A}^n, \mathbf{f}_G^n) \}_{n=1}^N$ ，第n個對象的關係特徵 $\mathbf{f}_R(n)$ 爲
$\mathbf{f}_R(n) = \sum_{m} w^{mn} \cdot (W_V \cdot \mathbf{f}_A^m)$
即把第n個對象與其他對象(m)的關係定義成外貌特徵的加權和。首先對外貌特徵進行線性變換 $W_V \cdot \mathbf{f}_A^m$ ，然後使用關係權重 $w^{mn}$ 對變換後的特徵進行加權和。

關係權重 $w^{mn}$ 的計算公式是
$w^{mn} = \frac{w_G^{mn} \cdot \exp (w_A^{mn})}{\sum_k w_{G}^{kn} \cdot \exp (w_A^{kn})}$
先算出對象m對對象n的重要性，然後normalize。

外貌權重 $w_A^{mn}$ 通過點乘操作得到，具體如下
$w_A^{mn} = \frac{dot(W_K \mathbf{f}_A^m, W_Q \mathbf{f}_A^n)}{\sqrt{d_k}}$
其中矩陣 $W_K$ 和 $W_Q$ 類似公式(1)的K和q，把原來的特徵 $\mathbf{f}_A^n$ 和 $\mathbf{f}_A^m$ 映射到子空間中，然後點乘操作衡量他們之間的匹配程度。映射之後的特徵維度是 $d_k$ 。

幾何權重 $w_G^{mn}$ 的計算公式爲
$w_G^{mn} = \max \{0, W_G \cdot \varepsilon_G(\mathbf{f}_G^m, \mathbf{f}_G^n)\}$
幾何特徵是相對幾何特徵 $(\log(\frac{|x_m - x_n|}{w_m}), \log(\frac{|y_m - y_n|}{h_m}), \log (\frac{w_n}{w_m}), \log(\frac{h_n}{h_m}))$ ，然後把特徵嵌入到高維空間中 $\varepsilon_G(\mathbf{f}_G^m, \mathbf{f}_G^n)$ ，維度是 $d_g$ ，然後用 $W_G$ 進行變換，最後通過ReLU函數。

上面說了怎麼計算對象n與其他對象的關係特徵 $\mathbf{f}_R(n)$ ，這只是一種關係，對象n與其他對象可能有多種關係，作者設對象n與其他對象一共有 $N_r$ 種關係。作者把對象n與其他對象的 $N_r$ 種關係特徵組合起來
$\mathbf{f}_A^n = \mathbf{f}_A^n + Concat[\mathbf{f}_R^1(n), \cdots, \mathbf{f}_R^1(N_r)], \text{for all n}$
爲了匹配channel維度，每個 $W_V^r$ 的維度是 $\frac{1}{N_r}$ 。作者設置這些參數爲 $N_r=16,d_k=64,d_g=64$ 。

整個對象關係模塊的結構是

對象關係模塊可以嵌入到目標檢測的流程中，如下圖

對象關係模塊既可以嵌入到全連接層之間，還可以用於刪除重複bounding box的duplicate removal network。

嵌入到全連接層的對象關係模型可以表示成

$r_1$ 和 $r_2$ 表示對象關係模塊重複的次數，作者默認使用 $r_1=1,r_2=1$ 。

Duplicate removal network

Duplicate removal network目的是爲了替換NMS，因爲NMS沒有考慮對象之間的關係信息。Duplicate removal 是一個二分類問題，對於每個ground truth對象，只有一個檢測到的匹配對象記爲correct，其它匹配的對象記爲duplicate。

Duplicate removal network的結構如上圖所示。該網絡有3個輸入，分別是對象的分類分數、1024維的對象特徵和bounding box。對象分類分數有助於分類，先把分類分數變成降序排列的序號，然後把它嵌入到128維的高維空間。同樣把對象特徵映射到128維，和對象分類分數組合成新的外貌特徵。外貌特徵和bounding box進入對象關係模塊，然後經過簡單的線性變化和sigmoid函數，得到分數 $s_1$ 。最後分類分數 $s_0$ 和 $s_1$ 相乘得到最終結果。

Experiment

下面列一些對比實驗結果

從上圖可以發現網絡加了對象關係模塊後效果都得到提升。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

《Relation Networks for Object Detection》筆記

Introduction

Object Relation Module

Duplicate removal network

Experiment

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

nodejs學習06——小案例

評估統計算法在銀行僞造鈔票檢測中的價值

C# Xmlserializer 程序集內存泄露

《Relation Networks for Object Detection》筆記

《Deformable part-based fully convolutional network for object detection》筆記

《Semi-Supervised Pedestrian Instance Synthesis and Detection with Mutual Reinforcement》筆記

《Adapting Object Detectors via Selective Cross-Domain Alignment》筆記

《Focal loss for dense object detection》筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結