SemanticImage Segmentation with Task-Specific Edge Detection Using CNNs 翻譯

 

《SemanticImage Segmentation with Task-Specific Edge Detection Using CNNs anda Discriminatively Trained Domain Transform》因爲趕時間看,所以翻譯了部分重要的內容供參考。

 

3提出的模型

3.1模型概覽

(第二段)我們添加了第二個組件,我們稱之爲EdgeNet。EdgeNet通過利用DeepLab中間層的特性來預測邊緣。在級聯前,通過雙線性插值對特徵進行調整,使其具有相同的空間分辨率。採用一個1×1的卷積層和一個輸出通道進行邊緣預測。採用ReLU進行邊緣預測,使預測在零到無窮的範圍內。

我們系統中的第三個組件是域變換(DT),它是一個保持邊緣的filter,它可以通過行和列之間可分離的一維遞歸濾波器來實現非常有效的濾波。

雖然傳統上DT用於圖形應用[16],我們使用它來filter原始的cnn語義分割分數,以便更很好地與對象邊界對齊,並以EdgeNet生成的邊緣地圖爲指導。

3.2遞歸濾波域變換

域變換採用兩個輸入:(1)被過濾的原始輸入信號x,在我們的例子中它對應於網絡DCNN的分割分數;(2)一個正的“域變換密度”信號d,我們將在下面的章節中詳細討論它的選擇。DT的輸出是過濾的信號y。我們將使用DT的遞歸公式,因爲它的速度和高效,雖然濾波可以憑藉其他技術應用[16]。

對於長度爲N的一維信號,設置y1=x1,對於循環的i=2,.,N,我們可以計算輸出: 

其中σs是輸入空間域上濾波器內核的標準差。直觀地,域變換密度di≥0的強度通過控制原始輸入信號xi在計算當前位置的濾波信號值時對原位置y1的相對貢獻來確定擴散/平滑的量。wi∈(0,1)的值就像一個門,它控制有多少信息從像素i−1傳播到i。當di很小時,我們有充分的擴散,從而形成wi=1和yi=−1。另一方面,如果di很大,則wi=0,擴散停止,導致I=xi。用等式進行過濾,(1)是不對稱的,因爲當前輸出只依賴於以前的輸出。爲了克服這種不對稱,我我們過濾1-D信號兩次,第一次從左到右,然後從右到左輸出左到右。

對二維信號域變換的濾波以一種可分離的方式工作,沿每個信號維數依次使用一維濾波。也就是說,水平傳遞是沿着每行,然後是沿每一列的垂直傳遞(自上而下和自下而上)。在實踐中,當迭代中K>1,雙線程1-D濾波過程可以抑制由2-D信號產生的“條帶”僞跡[16,圖4]。對於每次迭代,我們減少了DT濾波器核的標準差,這個要求所有參數的和等於期望的方差。

如上公式(3),通過公式(2),在第k次迭代中,用σk代替σs計算權值。域轉換密度值di定義如下:

其中gi≥0是“參考邊”,σr是filter內核在參考邊緣映射範圍內的標準差。請注意,gi的值越大,模型就越認爲在像素i處存在強邊緣,從而抑制擴散(比如di→∞和wi=0)。標準DT[16]通常採用彩色圖像梯度

但接下來我們證明了用學習好的dcnn計算參考邊映射可以得到更好的結果。

3.3可訓練的域變換濾波

我們提出的方法的一個新方面是將DT輸出處的分割誤差通過DT反向傳播到它的兩個輸入上。這允許我們使用DT作爲CNN中的一層,從而使我們能夠共同學習DCNN,該DCNN計算x中的粗糙分割的分數映射和g中的參考邊緣映射。

我們在公式1中演示了DT反向傳播對一維濾波過程的影響,其前向傳播在圖3(A)中作爲計算樹示出。我們假設每一個節點yi不僅影響後續節點y(i+1)。而且提供了一個後續層,從而在反向傳播過程中也從該層接收到梯度貢獻∂L/∂YI。類似於時間上的標準反向傳播,我們展開公式1的遞歸。反過來對於i=N,.,2,如圖3(B)中對y導數值進行了更新,並計算了關於x和w的導數,

其中,∂L∂xi和∂L∂wi初始化爲0,而∂L∂yi最初被設置爲由後續層發送的值。請注意,所有濾波階段(即水平傳遞中的左到右/右到左,垂直通道內自上而下/自下而上)權值wi共享並且K在迭代,每一次迭代都會導致偏導數。

利用這些偏導數,我們可以產生相對於參考邊gi的導數。將公式(4)帶入方程(2)

然後,根據鏈規則,關於gi的導數是

然後將此梯度進一步傳播到深卷積神經網絡,該神經網絡生成用作DT輸入的邊緣預測。

3.4門控遞歸單元網絡

方程1 定義了DT濾波作爲遞推運算。與其他最近的RNN公式聯繫起來是很有趣的。在這裏,我們建立了一個精確的連接門控遞歸單元(GRU)RNN架構[8],最近提出的順序文本數據建模。GRU使用更新規則。

與公式1相比較。我們可以把GRU的“更新門”ZI和“候選激活”˜yi聯繫起來,其中DT的權重和原始輸入信號的定義如下:ZI=1−wi和˜Ii=xi。

GRU更新門Zi定義如下zi=σ(Fi),其中fi是激活信號和σ(T)=1/(1 e−t)。與公式(9)相比較,得出DT參考邊映射gi與GRU激活fi之間的直接對應關係:

  1. 實驗驗證

4.1實驗計劃

訓練

採用兩步訓練方法。我們對DeepLab組件進行了訓練,然後我們微調了整個模型。特別地,在第一階段,我們使用與[5]完全相同的設置來訓練deeplab。在第二階段,我們使用10−8的小學習率來進行微調,我們加入了零均值方差是10-5次方的高斯變量初始化EdgeNet的附加捲積層,因此一開始EdgeNet預測不出邊緣,隨後漸漸開始學習邊緣進行語義分割,訓練時長11.5小時。

4.2實驗結果

我們首先在提出的模型上對驗證集設置超參數,包括(1)EdgeNet的特徵,(2)域變換的超參數(即迭代次數、σs和σr)。我們還對不同的邊緣預測方法進行了實驗研究。在此基礎上,對模型進行了分析,並對官方測試集進行了驗證。

 

EdgeNet的特徵:我們利用了來自DeepLab的中間特性。我們首先研究了VGG-16

  1. 的哪些層在DT超參數上具有更好的性能。如表1所示,在Pascal VOC特徵,基線DeepLab獲得62.25%的Miou。我們開始開發卷積層3 3的特性,它具有大小40的感受野。該大小與通常用於邊緣檢測的貼片大小相似[11]。結果表明,該模型的性能比基線提高了65.64%,比基線提高了3.4%。當使用卷積層22、33、43的特徵時,性能可進一步提高到66.03%。但是,如果我們利用卷積層1 2或卷積層 5 3的特性,我們沒有觀察到任何提升的現象。在其餘涉及EdgeNet的實驗中,我們從卷積層22,卷積層33和卷積4 3中獲得了一些特徵。

 

DT域迭代次數:

域變換域轉換需要迭代多次雙進程一維濾波,以避免“條帶”效應[16,圖4]。我們對所提出的模型進行了域變換的K迭代訓練,並在測試過程中進行了相同的K迭代。由於有兩個超參數σs和σr(seq.(9),我們還改變了它們的值,以研究區域變換中K迭代的變化所帶來的影響。如圖4所示,在我們提出的模型中,使用K=3迭代來進行區域變換,可以獲得σs和σr的幾個不同值。

 

研究域變換σs、σr並且與其它檢測器比較:

我們研究了不同的σs和σr對域變換的影響。我們還比較了用於區域變換的生成邊緣預測的其他方法:(1)DT-Oracle,其中使用了地面目標邊界,這是我們方法的上界。(2)提出的DT-EdgeNet,其中邊是由EdgeNet產生的。(3)dT-SE,其中邊是由結構邊(SE)[11]發現的。(4)DT-梯度,其中圖像(顏色)梯度大小爲Eq。(5)用於標準域變換[16]。我們爲這些方法尋找最優的σs和σr。首先,我們設置σs=100,並在圖5(A)中改變σr。我們發現σr的不同值對DT-Oracle、DTSE和DT-梯度的性能有很大的影響,因爲它們是由其他“插入”模塊(不是聯合微調)生成的。我們還展示了使用密集CRF的基本DeepLab和DeepLab-CRF的性能.然後,我們設置我們找到的σr的最優值,並在圖5(B)中改變了σs。我們發現,只要σ的≥90,DT-EdgeNet、DT-SE和DT-梯度就表現的不是很重要,.在找到σr和σs的值後,我們將它們用於其餘的實驗。

我們進一步可視化了我們的DT-EdgeNet在圖6中學習到的邊緣。如第一行所示,當σr增加時,學習到的邊緣不僅包括對象邊緣,也包括了背景的紋理,這降低了我們方法的語義分割性能(即噪聲邊緣使相鄰像素之間的信息難以傳播)。如第二行所表示,隨着σ的變化,只要它的值足夠大(即≥90),它就不會很大的改變學習到的邊。

我們在表2中給出了每個方法在驗證集上的表現(σs和σr的最佳值)。dt-梯度方法比基線深度實驗室提高1.7%。雖然DTSE比DT梯度好0.9%,但是DT-EdgeNet進一步提高了性能(比基線提高了4.1%)。儘管DT-EdgeNet比DeepLab-CRF低1.2%,但它比我們稍後討論的速度快幾倍。此外,我們還發現,DT-EdgeNet和密集CRF相結合可以獲得最佳性能(比DeepLab-CRF提高0.8%)。在這個混合DT-EdgeNet +DenseCRF方案中,我們在一個額外的完全連接的CRF步驟中對DT濾波分數映射進行了後處理。

trimap:

與[23,26,5]相似,我們量化了目標邊界附近模型的精度。我們使用PascalVOC 2012驗證集上註釋的“void”標籤。註釋通常對應於對象邊界。我們計算位於“空”標籤的窄帶(稱爲trimap)內的像素的平均IOU,並改變波段的寬度,如圖7所示。

定性結果:我們在PASCALVOC2012驗證數據集上顯示了一些語義分割結果,如圖9所示。DT-EdgeNet視覺上的改進超過了基線DeepLab和DT-SE.此外,當比較結構化邊緣和我們的EdgeNet學習到的邊緣時,我們發現EdgeNet能夠更好地捕捉對象的外部邊界,並且對內部邊緣的響應小於SE。我們還在圖9的下兩行顯示了失敗案例。首先是因爲來自DeepLab的錯誤預測造成的,第二個原因是當背景雜亂時,定位目標邊界很困難。

測試集的結果:

在找到了最佳的超參數後,我們在測試集上對我們的模型進行了評估。如表4頂部所示。DT-SE比基本的deeplab提高2.7%,DT-EdgeNet可以將性能進一步提高到69.0%(比基線提高3.9%),比爲了平滑結果使用的完全連接的CRF後處理(即DeepLab-CRF)提高1.3%。然而,如果我們也加入一個完全連接的CRF作爲我們的模型的後處理,我們可以進一步提高到71.2%的性能。

 

使用MS-Coco預訓練的模型:

我們用[34]這一更強的基線進行了另一項實驗,這時的DeepLab使用MS-COCO 2014數據集進行了預訓練[29]。我們的目標是測試我們是否還能在所提議的方法上獲得改進,超過這個更強的基線。我們使用與以前相同的超參數的最優值,並在表3中報告驗證集的結果。.我們仍然觀察到DT-SE和DT-EdgeNet對基線的改善分別爲1.6%和2.7%.此外,在DT-EdgeNet中增加一個完全連接的CRF,還可以帶來1.8%的改進。然後我們在Tab底部的測試集上評估模型如表4。我們最好的模型DT-EdgeNet,提高了基線深度實驗室2.8%,而它比DeepLab-CRF低1.0%.當將DT-EdgeNet與完全連接的CRF相結合時,在測試集上達到了73.6%.注意,當使用更強的基本模型時,DT-EdgeNet和DeepLab-CRF之間的差距變得更小.

 

多尺度輸入:

在Pascal VOC 2012排行榜上的最好的模型通常採用多尺度特性(多尺度輸入[10,28,7]或來自DCNN中間層的特性[31,19,5])。在此基礎上,我們進一步將本文提出的判別訓練域變換和[7]模型相結合,在測試集上獲得76.3%的性能,落後於現有最佳模型[28]的1.5%,後者聯合訓練CRF和DCNN.

EdgeNet on BSDS500:

我們進一步預測了在BSDS 500測試集上的邊緣檢測性能[1]。我們採用標準指標來評估邊緣檢測的準確性:設置好的掃描輪廓閾值(ODS Fcore)、每幅圖像最佳閾值(ois F-得分)和平均精度。我們還將一種標準的非最大抑制技術應用於EdgeNet生成的邊緣映射以進行評估。我們的方法達到ODS=0.718,OIS=0.731,AP=0.685。如圖8所示,有趣的是,我們的EdgeNet產生了相當好的性能(僅比結構化邊緣[11]差3%),而我們的EdgeNet沒有在BSDS 500上進行培訓,在2012年Pascal VOC培訓期間也沒有邊緣監督。

 

與密集CRF相比:

採用全連通CRF是提高分割性能的有效方法。我們的在imageNet和coco數據集上預訓練的最佳模型(DT-EdgeNet)分別比DeepLab-CRF 在PASCALVOC 2012測試集上低1.3%和1.0%。然而,我們的方法在計算時間上要快很多倍。爲了量化這一點,我們在50 Pascal VOC 2012驗證數據集計算了推理時間。如表5所示。在CPU用時方面,在帶有Intel i7-4790K CPU的機器上,優化的密集CRF實現[26]的平均迭代次數爲10次,平均每次迭代時間爲每張圖片830 ms,雖然我們用K=3迭代來實現域轉換(每一次迭代由可分離的雙線程濾波交叉行和列組成)需要180 ms/映像(比圖像快4.6倍)。在NVIDIA Tesla K40 GPU上,我們的GPU實現了域轉換,進一步將平均計算時間減少到25 ms/圖像。在我們的GPU實現中,所提出的方法(EdgeNet DT)的總計算成本爲26.2 ms/映像,這與DeepLab所要求的145 ms/映像相比,開銷不大(約18%)。注目前還沒有可公開使用的密集CRF推斷的GPU實現。

 

5結論

我們提出了一種學習邊界映射的方法,該方法是適用語義圖像分割的一個統一的系統,該系統以端到端的方式進行鑑別訓練。該方法建立在區域變換的基礎上,這是一種傳統上用於圖形應用程序的保持邊緣的濾波。我們證明了通過域變換的反向傳播可以讓我們學習一個任務特定的邊緣映射優化的語義分割。對深度全卷積網絡生成的原始語義分割圖進行域變換過濾,提高了目標邊界附近的定位精度。由此產生的方案比以前用於這一目的完全連接的CRF快幾倍。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章