【SSN】:Spatial Shortcut Network for Human Pose Estimation

1.概述

現有的基於姿態估計的方式,是通過逐像素分類實現的,這種方式是考慮不到大範圍的空間信息的。舉例來說:在左圖中,由於肘關節的外觀與膝關節非常相似,對於一個感受野僅能覆蓋肘關節本身的小特徵提取器,很難將兩者區分開來。但如果感受野能同時看到附近的手腕或肩膀,那麼將其歸類爲肘部就容易得多。同樣,在中間的圖像中,要確定身體的某個部位是左還是右,人的頭部和手的方向是重要的信息,但這需要較大的感受野。在涉及單人姿態估計的方法中,需要抑制非主要人體部位的檢測。如右圖所示,利用周圍人和圖像邊界的信息,特徵提取器可以抑制非主要人體部位的肩膀檢測,同樣的較大的感受野是必須的。

對卷積網絡而言,只要將網絡變的更深,或者增大卷積核,就能夠促進空間信息流動,我們就可以增加最終特徵的感受野。感受野增加了,上述提到的三種情況都能夠被較好的解決。然後不論是大卷積核還是深網絡,這對計算和訓練都帶來了較大的挑戰。

爲了空間信息能夠低成本的流動,本文提出了一種針對於姿態估計任務的空間連接網絡,使信息在空間上的流動更容易。本文提出的網絡爲spatial shortcut network (SSN)。該網絡將特徵映射移動和注意機制結合在一個稱爲特徵移動模塊feature shifting module(FSM)中。

本文的主要貢獻有:
1.提出了一種基於特徵變換的空間通道快速移動模型(FSM)。通過對其特徵映射移位、信道解耦和注意機制的研究,提出了一種窗口優化、高效靈活的卷積層結構。
2.對上述提到 的FSM模塊進行了詳細的分析。證明了該算法在空間依賴關係建模、關鍵點檢測與偏移量關係建模等方面的能力。
3.結果表明,該模型能夠在較小的結構下取得較好的甚至更好的效果。本文還提出了一種具有競爭性能的輕量級網絡,允許在資源有限的設備上應用。

Deformable CNN用分數值對每個通道和每個空間位置的卷積核偏移量進行迴歸。Active CNN使用可優化的核偏移量而不進行迴歸,偏移量值在空間位置上是一致的。本文提出的方法也可以看作是學習核偏移量,但是它比可變形卷積和主動卷積更有效,我們將在3.1節中介紹。雖然也有人使用分數可學習偏移量來移動每個通道,但在本文的方法中,通道的解耦和注意力機制的引入使的學習的偏移量能夠更專注於建模空間長期依賴關係。

2.feature shifting module(FSM)

本文最核心的部分是特徵轉移模塊(FSM)。該模塊在參數數量和計算成本上都與普通卷積層一樣輕量,並可以插入到網絡的任何部分來補充空間信息。該模塊主要分爲兩個部分,如下圖所示,主模塊(main)和注意力機制模塊(correlation attention)。
在這裏插入圖片描述

一.main模塊

該模塊輸入爲C個通道的特徵P,首先通過1*1的卷積變換爲K個通道的特徵。然後對K個通道的特徵,作逐通道的shift操作,該過程中需要 K對偏置參數。shift操作後的特徵和CA模塊的輸出,作逐元素相乘。再利用1*1的卷積將通道數變換爲C個。最後在和模塊的輸入特徵P做短連接逐元素相加,經過BN和Relu後輸出。整個過程中,最重要的shift操作如下。


如上圖所示,若K通道的特徵中,K等於3,則對每個通道而言都會有一對可學習的參數(x,y)。該參數對用於作對應通道的特徵偏移。爲了訓練的便利,該可學習參數爲實數值,而且在偏移前對特徵圖作了雙線性差值。


上述公式展示了shift過程的計算,星號表示對原始的輸入C通道特徵圖作線性差值,第二個公式表示對K通道特徵圖進行可學習偏移。因此,整個FSM模塊的公式如下:
在這裏插入圖片描述

二.CA模塊(Correlation attention)

文章引入相關注意模塊(CA),根據輸入數據來調節FSM在何處以及如何有效。如果沒有它,FSM將在每個空間位置上不加區別地進行卷積,在沒有空間依賴性的位置上產生噪聲,或者可能發生過擬合現象。CA模塊會在每個空間位置預測空間依賴是否存在,或者說移位特徵是否與局部特徵相關。爲了預測相關置信度,理想情況下,我們應該同時使用移位前和移位後的特徵作爲輸入源,但是實驗表明,這與僅使用移位前的特徵具有類似的性能,因此本文中僅使用移位前的特徵作爲CA模塊的輸入。具體公式如下:

三.窗口定義

本文中接下來要講的窗口不是傳統的網格形狀,例如3 *3卷積中的3* 3個網格,而是由所有K個偏移量進行偏移後定義的形狀。在這個卷積視圖下,我們將輸入映射中的卷積位置稱爲窗口位置,如下圖中的橙色/藍色/綠色點所示。

四.通道解耦

我們在shift操作前後添加1個1*1卷積的原因是爲了解耦輸入通道和shift後的通道。首先,如果直接在輸入通道上進行shift,並不是每個通道都需要移位,而且無法通過多個不同的偏移量來shift通道。其次,需要shift的通道數量並不僅僅取決於輸入通道的數量。shift的目標是將空間相關的位置對齊,因此所需的偏移量也應取決於特徵的空間分佈。第三,我們希望FSM能夠爲主幹提供補充信息,並且我們的方法中的主幹也在ImageNet上進行了不使用FSM的預訓練。採用解耦的方式,使得插入FSM後可以防止骨幹訓練受到根本干擾,從而提高訓練性能。而且FSM在參數上更有效。FSM的輸入通道和輸出通道的數量都是C,並且覆蓋了K個窗口位置,所以FSM的參數總共是3KC +2K。對於有源卷積和可變形卷積,爲了覆蓋窗口位置,參數個數分別爲KC2 + 2K和KC2 + 2KC。FSM的另一個優點在於,它並不像前兩者將每個輸入通道與所有K個窗口位置進行卷積,如下圖中左邊所示。但是並非所有通道都需要每個窗口位置,特別是在一個大k的卷積層中。通過對輸入和shift通道進行解耦,FSM等價於在每個輸入通道中只選擇一個窗口位置子集進行卷積,而這個子集在不同的通道中是不同的。下圖的中間顯示了這一點。我們認爲FSM是更有效的,因爲具有長期空間依賴性的特徵可能很少同時存在於單一輸入通道中。而右圖中,表示使用CA情況下,根據每個位置的輸入數據,可以在一個輸入通道的不同輸出位置形成不同的窗口形狀。

3.骨幹網絡和早期預測器

骨幹網絡整體SSN(spatial shortcut network)結構如圖所示,SSN結構如圖所示。使用U形網絡作爲骨幹網,類似於FPN,基於ResNet結構,上採樣層和它們之間的shotcut連接的組合。

作者認爲淺層的分類能力差主要是由於它們的感受野小。雖然較深的特徵可以覆蓋較大的圖像區域,但在空間上受到限制。因此,作者將FSMs插入ResNet的每個Bottleneck block之前,以擴大它們的感受野。由於感受野的提升,可以在網絡中進行更多的姿態估計和細化。由於淺層特徵中加入了FSM模塊,因此,在淺層上直接增加了更多的預測因子,被稱之爲早期預測因子early stage predictors(ESP)。

4.結論

本文提出了一種融合特徵轉移模塊和相關注意機制的空間鏈接網絡。該網絡通過建立遠程空間依賴關係模型,提高了淺層探測能力。我們演示了所提出的模塊如何對姿態估計任務做出貢獻,並以相似或更小的體系結構提供了更好的性能。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章