Title	PolyTransform: Deep Polygon Transformer for Instance Segmentation
標題	PolyTransform: 深度多邊形變換用於實例分割
pdf	https://arxiv.org/abs/1912.02801

摘要

在本文中，我們提出了一種新的實例分割算法PolyTransform，該算法結合了當前分割方法和現代基於多邊形的方法的優點，可以產生精確的、幾何保持的掩模。特別是，我們首先利用分割網絡來生成實例掩碼。然後，我們將遮罩轉換爲一組多邊形，然後將這些多邊形輸入變形網絡，變形網絡將這些多邊形轉換爲更適合物體邊界的形狀。我們在具有挑戰性的Cityscapes數據集上的實驗表明，我們的PolyTransform顯著提高了骨幹實例分割網絡的性能，並在Cityscapes測試集排名第一。我們還展示了交互註釋設置方面令人印象深刻的成果。

1.簡介

實例分割方法的目標是識別場景中所有可計數的對象，併爲每個對象生成一個遮罩。藉助實例分割，我們可以更好地理解場景[68]，設計能夠完成複雜操作任務[17]的機器人系統，改進自動駕駛汽車[44]的感知系統。然而，這項任務極具挑戰性。與傳統的語義分割任務推斷出圖像中每個像素的類別相比，實例分割還要求系統具有單個對象的額外概念，以便將每個像素與其中一個像素關聯起來。處理對象在尺度和外觀上的大變異性以及遮擋和運動模糊使這個問題變得非常困難。

爲了解決這些問題，大多數現代實例分割方法採用兩階段過程[21,63,42]，首先創建對象建議，然後在每個邊框內執行前景背景分割。在box的幫助下，他們可以更好地處理其他方法經常無法解決的情況(如咬合)。雖然這些方法在多個基準測試中都達到了最先進的性能(例如COCO [38]， Cityscapes[11])，但它們的輸出常常過於平滑，無法捕捉到細粒度的細節。

另一種工作解決了交互式註釋的問題[5,2,62,39]。這些技術是在循環中有一個註釋器的上下文中開發的，其中提供了一個ground truth邊界框。這些工作的目標是通過爲註釋器提供一個初始的多邊形來加速註釋工作，因爲從頭開始註釋是一個非常昂貴的過程。在這項工作中，方法利用多邊形來更好地捕捉物體的幾何形狀[5,2,39]，而不是把問題當作像素標記任務。這將導致更精確的蒙版和可能更快的註釋速度，因爲註釋器能夠通過移動頂點來簡單地修正多邊形。然而，這些方法在存在大的遮擋或當對象被分割成多個不相連的組件時會受到影響。

考慮到這些問題，在本文中，我們開發了一個新的模型，我們稱爲多邊形變換，並解決實例分割和交互註釋問題。我們的方法背後的想法是，分割掩模產生的常見分割方法可以視爲一個起點，以計算一組多邊形，然後可以細化。我們通過一個變形網絡來實現這種改進，該網絡可以預測每個多邊形的每個頂點的位移，並考慮到所有頂點的位置。通過變形每個多邊形，我們的模型能夠更好地捕捉物體的局部幾何形狀。與[5,2,39]不同，我們的模型對用於描述每個對象的多邊形數量沒有限制。這允許我們自然地處理由於遮擋而將物體分割成部分的情況。

我們首先在Cityscapes數據集上證明了我們方法的有效性[11]。在實例分割的任務上，我們的模型將驗證集的邊界度量標準的初始化提高了3.0 AP和10.3。重要的是，我們在測試集排行榜上排名第一，以3.7 AP領先於當前水平。我們將在一個新的自動駕駛數據集上進一步評估我們的模型。我們的模型通過邊界度量中的2.1 AP和5.6改進了初始化。在交互式註釋的上下文中，我們在邊界度量方面比現有技術水平[62]高出2.0％。最後，我們進行了一個實驗，其中衆包標籤器使用模型輸出的多邊形對對象實例進行註釋。我們證明這可以將註釋時間縮短35.

2.相關工作

在本節中，我們簡要回顧一下有關循環中實例分割和註釋的相關文獻。

2.1 基於提案的實例分割：

大多數現代實例分割模型採用兩階段流程。首先，識別出一組過於完整的分割提案，然後利用投票過程來確定保留哪個提案[8，14]，因爲顯式特徵提取過程[53]非常耗時[19，20]，戴等 [13，12]將特徵池集成到神經網絡中以提高效率。儘管與以前的方法相比，速度得到了極大的提高，但是由於這些方法受到傳統的基於檢測的管道的限制，因此速度仍然相對較低。考慮到這個問題，研究人員研究了直接在網絡中生成實例掩碼並將其視爲提案的方法[51，52]。基於這種思想，Mask R-CNN [21]引入了一種聯合方法來進行掩膜預測和識別。它在Faster R-CNN [54]的基礎上，除了用於邊界框識別的現有分支外，還添加了一個額外的並行頭以預測對象的蒙版。劉等 [42]提出了一種路徑匯聚網絡，以改善Mask R-CNN中的信息流並進一步提高性能。最近，Chen等 [6]將邊界框迴歸，掩碼迴歸和語義分割交織在一起以提高實例分割性能。徐等[64]通過讓網絡學習係數，將Chebyshev多項式擬合到實例，這允許實時實例分割。黃等[25]通過預測每個蒙版的IoU而不僅僅是分類得分來優化邊界框的評分。 Kuo等 [34]從邊界框開始，並使用形狀先驗優化它們。熊等 [63]和Kirillov等 [31]將Mask R-CNN擴展到全景分割任務。楊等[65]將Mask R-CNN擴展到視頻實例分割的任務。

2.2 無提案實例分割：

此研究線旨在在沒有顯式對象提案的情況下分割場景中的實例。張等。 [67，66]首先在提取的多尺度補丁中預測實例標籤，然後利用密集的條件隨機場[33]獲得完整圖像的一致標籤。在取得令人印象深刻的結果的同時，他們的方法需要大量的計算。 Bai和Urtasun [4]利用深層網絡預測分水嶺變換的能量，使每個盆地對應一個對象實例。通過一個簡單的切割，他們無需任何後處理即可獲得整個圖像的實例蒙版。同樣，[32]利用邊界預測來將同一語義類別中的實例分開。儘管速度更快，但在處理邊界不明確的遠小物體時，它們仍會受苦。爲了解決這個問題，Liu等人[41]提出了一種順序分組的方法，該方法採用神經網絡逐步地從較簡單的元素組成對象。它可以可靠地處理將單個實例拆分爲多個部分的情況。 Newell和Deng [49]通過讓模型預測每個像素的語義類別和標籤，將分組概念隱式編碼爲神經網絡。標籤是將每個像素彼此關聯的一維嵌入。肯德爾等。 [28]提出了一種方法，將像素分配給對象，使每個像素點都指向其對象的中心，以便可以對其進行分組。 Sofiiuk等。 [58]使用點提議網絡生成實例可以放置的點，然後由CNN處理以輸出每個位置的實例掩碼。 Neven等。 [48]提出了一種新的聚類損失，該聚類損失將屬於同一實例的像素的空間嵌入拉在一起，以實現實時實例分割，同時具有很高的準確性。高等。 [18]提出了一個單鏡頭實例分割網絡，該網絡輸出一個像素對親和力金字塔，以計算兩個像素是否屬於同一實例，然後將它們與預測的語義分割相結合，以輸出單個實例分割圖。

2.3 交互式註釋：

交互式註釋的任務也可以擺在尋找最適合對象邊界的多邊形或曲線上。實際上，使曲線變形以適合對象輪廓的概念可以追溯到80年代，當時主動輪廓模型首次被引入[27]。從那時起，已提出ACM [10、47、9]的變體以更好地捕獲形狀。最近，在循環分割中以人爲背景探討了利用多邊形表示實例的想法[5，2]。 Castrejon等文獻[5]採用RNN順序預測多邊形的頂點。 Acuna等 [2]通過合併圖神經網絡和增加圖像分辨率來擴展[5]。儘管這些方法在公共基準上顯示出令人鼓舞的結果[11]，但它們需要gt邊界框作爲輸入。 Ling等 [39]和董等人 [16]利用樣條曲線作爲替代參數。它們不是從頭開始繪製整個多邊形/曲線，而是從圓開始對其進行變形。 Wang等。但是，由於使用級別集[62]通過隱式曲線解決了該問題，因爲輸出不是多邊形，所以註釋器無法輕鬆地對其進行校正。在[46]中，Maninis等人。使用極限邊界作爲輸入而不是邊界框和Majumder等。 [45]使用用戶點擊來生成內容感知的指導圖；所有這些都有助於網絡學習更強的線索，以生成更準確的細分。但是，由於它們是逐個像素的蒙版，因此註釋者不容易修改它們。 Acuna等。 [1]開發了一種方法，該方法可通過與CNN和水平集公式共同對對象邊界進行推理來完善嘈雜的註釋。在離線地圖領域，Homayounfar等人的幾篇論文。和梁等。 [23，35，24，36]通過預測結構化的輸出（例如折線）解決了自動註釋人行橫道，道路邊界和車道的問題。

3. PolyTransform

我們的目標是設計一個魯棒的分割模型，該模型能夠爲每個單獨的對象生成精確的，保留幾何形狀的蒙版。爲了實現這一目標，我們開發了PolyTransform，這是一種新穎的深度架構，將流行的分割方法[21，63]與基於現代多邊形的方法[5，2]相結合。通過利用兩全其美的優勢，我們能夠在各種挑戰性場景下生成高質量的分割蒙版。

在本節中，我們將從描述用於特徵提取和多邊形初始化的主幹架構開始。接下來，我們介紹一種新穎的變形網絡，該網絡變形初始多邊形以更好地捕獲對象的局部幾何形狀。我們的方法概述如圖1所示。

3.1 實例初始化

我們的實例初始化模塊的目標是爲每個單獨的對象提供良好的多邊形初始化。爲此，我們首先利用模型爲場景中的每個實例生成一個蒙版。我們的實驗表明，我們的方法可以顯着提高各種分割模型的性能。如果分割模型輸出建議框，則使用它們裁剪圖像，否則，我們將邊界框安裝到蒙版上。裁剪後的圖像隨後被調整爲正方形，並饋入特徵網絡（在第3.2節中進行了描述），以獲得一組可靠的深層特徵。實際上，我們將裁剪後的圖像調整爲（Hc，Wc）=（512，512）。要初始化多邊形，我們使用[60]的邊界跟蹤算法從預測的蒙版中提取輪廓。通過在輪廓中每隔10 px的距離放置一個頂點，可以得到一組初始頂點。根據經驗，我們發現這種密集的頂點插值可以在性能和內存消耗之間提供良好的平衡。

3.2 特徵提取網絡

我們的特徵提取網絡的目標是學習強大的對象邊界特徵。這是必不可少的，因爲我們希望多邊形捕獲高曲率和複雜形狀。因此，我們採用特徵金字塔網絡（FPN）[37]來學習和利用多尺度特徵。該網絡將實例初始化階段獲得的（Hc，Wc）作物作爲輸入，並輸出處於不同金字塔等級的一組特徵。我們的骨幹網如圖2所示。

3.3 變形網絡

我們從圖像裁剪中計算了多邊形初始化和FPN的深層特徵。接下來，我們爲所有N個頂點構建特徵嵌入，並學習可有效預測每個頂點的偏移量的變形模型，從而使多邊形更好地捕捉到對象邊界。

3.3.1 頂點嵌入

我們基於從上一部分的主幹FPN網絡中提取的多尺度特徵來構建頂點表示。特別是，我們採用P2，P3，P4，P5和P6特徵圖，並對它們每個應用兩個橫向卷積層，以將特徵通道的數量從256個減少到64個。由於特徵圖是原始比例的1 / 4、1 / 8、1 / 16、1 / 32和1/64，因此我們對它們進行雙線性升採樣以恢復原始大小，並將它們連接起來以形成 $Hc \times Wc \times320$ 特徵張量。爲了給網絡一個關於每個頂點在哪裏的概念，我們進一步附加了一個2通道的CoordConv層[40]。通道代表相對於crop框架的x和y座標。最後，我們利用空間變換器網絡的雙線性插值操作[26]從特徵張量中採樣初始多邊形頂點座標處的特徵。我們將這樣的 $N \times（320 + 2）$ 嵌入表示爲 $z$ 。

3.3.2 變形網絡

在多邊形中移動頂點時，兩個附着的邊也將隨之移動。這些邊緣的移動取決於相鄰頂點的位置。因此，每個頂點都必須瞭解其鄰居，並且需要一種相互通信的方式，以減少不穩定和重疊的行爲。在這項工作中，我們利用自檢變壓器網絡[61]對這種複雜的依賴關係進行建模。我們利用注意力機制在頂點之間傳播信息並改善預測的偏移量。更正式地說，給定頂點嵌入 $z$ ，我們首先使用三個前饋神經網絡將其轉換爲Q（z），K（z），V（z），其中Q，K，V代表查詢，鍵和值。這種注意機制可以寫成：

其中dk是查詢和鍵的維數，用作防止極小的梯度的縮放比例。我們將相同的操作重複固定次數，在我們的實驗中爲6次。在最後一個Transformer層之後，我們將輸出反饋到另一個前饋網絡，該網絡會預測頂點的 $N \times 2$ 偏移。我們將偏移量添加到多邊形初始化中以變換多邊形的形狀。

3.4 學習

我們以端到端的方式訓練變形網絡和特徵提取網絡。具體來說，我們將兩個損失的加權總和最小化。首先，當頂點偏離地面真相時對模型進行懲罰。第二個規則化多邊形的邊緣，以防止頂點重疊和不穩定移動。

多邊形變換損失：我們使用類似於[23]的“倒角距離”損失，將我們預測的多邊形P的頂點移近gt多邊形Q。“倒角距離”損失的定義爲：

其中p和q是多邊形P和Q的柵格化邊緣像素。爲防止頂點不穩定移動，我們在頂點之間的邊 $e$ 的長度上增加了偏差損失。根據經驗，我們發現，如果沒有這一項，頂點會突然移位很大的距離，從而造成很大的損失並導致梯度爆炸。我們將標準偏差損失定義爲：

，
其中 $\overline{e}$ 表示邊的平均長度。

4.實驗我們在實例細分和交互式註釋設置的背景下評估模型。實驗設置：我們使用分佈式訓練框架Horovod [56]在8個Titan 1080 Ti GPU上訓練模型1天。我們使用1，ADAM [30]，1e-4學習率和1e-4權重衰減的批次大小。我們通過水平隨機翻轉圖像來增強數據。在訓練過程中，我們僅訓練其提議的框與地面真（GT）框的聯合交集（IoU）重疊超過0.5的實例進行訓練。我們對使用建議的盒子和GT盒子製作的實例進行訓練，以進一步增強數據。對於我們的實例細分實驗，我們在訓練和測試期間將框的大小增加了3％至+ 3％，框擴展了2％。對於我們的交互式註釋實驗，我們在每邊擴展5px的盒子上進行訓練和測試；僅當預測頂點與地面真實多邊形至少相距2px時，我們才計算倒角損失。在對損失進行加權時，我們發現確保損失值近似平衡可產生最佳結果。對於我們的PolyTransform FPN，我們使用ResNet50 [22]作爲主幹，並使用來自Cityscapes的UPSNet [63]的相同預訓練權重。對於我們的變形網絡，我們不使用預訓練的權重。

4.1 實例分割

4.1.1 數據集：

我們使用具有高質量像素級實例分割註釋的Cityscapes [11]。在27個城市中收集了1024 2048張圖像，並將它們分爲2975、500和1525張圖像進行火車/驗證/測試。有8個實例類：自行車，公共汽車，人，火車，卡車，摩托車，汽車和騎手。我們還將針對收集到的新數據集報告結果。它由10235/1139/1186的火車/停車/測試拆分圖像組成，並帶有10類註釋：汽車，卡車，公共汽車，火車，人，騎手，帶騎手的自行車，自行車，帶騎手的摩托車和摩托車。每個圖像的大小爲1200 1920。

4.1.2 指標：

對於我們的實例分割結果，我們報告了預測遮罩的平均精度（AP和AP50）。在這裏，AP是按照10個IoU重疊閾值計算的，範圍從0.5到0.95，以0.05的步長跟隨[11]。 AP50是重疊率爲50％的AP。我們還引入了關注邊界的新指標。特別是，我們使用類似於[62，50]的度量標準，其中爲每個蒙版計算精度，召回率和F1分數，如果預測在距地面真相的某個距離閾值內，則預測是正確的。我們使用1px的閾值，僅計算TP的指標。我們使用相同的10個IoU重疊閾值（範圍從0.5到0.95，步長爲0.05）來確定TP。計算完所有類別和閾值的F1分數後，我們將所有示例的平均值作爲AF。

4.1.3 實例初始化：

我們想要使用強大的實例初始化來表明我們仍然可以改善結果。我們採用公開可用的UPSNet [63]，並用WideResNet38 [55]替換其主幹，並添加PANet [42]的所有元素，但同步批處理歸一化（我們使用組歸一化）。然後，我們對COCO進行預訓練，並在主幹中使用可變形卷積（DCN）[15]。

4.1.4 與SOTA的比較：

如圖1所示，我們在“城市景觀”的val和測試集中的每個度量中均勝過所有基線。我們獲得了最新的40.1AP測試結果。在AP和AP50m中，這分別比PANet高出3.7和2.8點。在官方的Cityscapes排行榜上，它也排名第一。我們在表2中的新數據集上報告結果。在此排行榜中，我們獲得了最強的測試AP結果。我們看到，PANet提高了6.2點，與UPSNet相比，UPSNet提高了3.8點。

4.1.5 初始化的魯棒性

我們在Cityscapes的表3中報告了用於初始化的不同實例細分網絡的改進，這些結果顯示了所有模型中val AP的顯着且一致的改進。當我們在DWT [4]實例之上訓練模型時，我們看到AP和AF分別提高了+ 2.2，+ 5.8點。我們還將在原始論文的UPSNet結果以及帶有WRes38 + PANet的UPSNet的基礎上進行訓練，以重現PANet的當前SOTA val AP。我們的AP和AF表現爲+ 1.6，+ 4.9點的改善。最後，我們通過AP和AF中的+ 1.6，+ 4.2 AP點改進了最佳初始化。正如我們所看到的，我們的邊界指標在所有模型中的AF都有非常一致的4％10％的增益。這表明我們的方法大大改進了邊界處的實例。我們注意到，AP的大幅增長（從WRes38 + PANet到WRes38 + PANet + DCN）並不一定會轉化爲AF的大幅增長，但是，我們的模型將始終在該指標上提供顯着提高。我們還在表4中報告了針對新數據集的不同實例細分網絡上的驗證AP改進。我們看到我們可以在Mask RCNN [21]上將AP，AF中的+ 2.2，+ 5.6點改進。對於不同的UPSNet模型，我們在1.4-2.2 AP點之間對其進行了改進。再一次，我們的模型在所有初始化中都顯示出一致而強大的改進。我們還看到，所有模型的AF都非常一致地提高了3％6％。

4.1.6 註釋效率

我們進行了一項實驗，要求衆包標註者對新數據集中的150張圖像進行註釋，其中車輛的實例大於24x24px，行人/騎手的實例大於12x14px。我們執行了一個對照實驗，在該實驗中，實例完全從頭開始註釋（沒有使用我們的方法），在平行實驗中，我們使用模型輸出實例，以供他們修復以生成最終註釋。在完全手動的實驗中，註釋每個圖像平均需要60.3分鐘。當爲註釋器提供PolyTransform輸出以在其頂部進行註釋時，平均需要39.4分鐘來註釋每個圖像。因此減少了註釋圖像所需時間的35％。這樣可以節省大量成本。

4.1.7 幼稚的優化器

我們實現了兩個基準，這些基準在初始掩碼的頂部應用了語義分割網絡。 1）我們用DeepLabV3 [7]和PWC-Net [59]啓發的優化網絡替換了PolyTransform。它以相同的初始化蒙版，裁剪的RGB圖像和裁剪的特徵作爲輸入，並利用一系列卷積來完善二進制蒙版。 2）我們向UPSNet添加了一個額外的磁頭，其中初始化掩碼和裁剪的功能作爲輸入來優化二進制掩碼。頭的架構與語義頭的架構相似（即使用UPSNet的FPN中的功能）。爲了公平起見，兩個基線的參數數量與PolyTransform相似。如標籤所示。 5，我們的方法表現最好。

4.1.8時間

我們的模型需要575毫秒來處理Cityscapes上的每個圖像。可以通過增加GPU內存輕鬆地對此進行改進，因爲這將允許批處理所有實例。此外，可以調整FPN的隱藏尺寸以加快模型的速度。

4.1.9 定性結果

我們在圖3的驗證集上顯示了模型的定性結果。在實例細分輸出中，我們看到在很多情況下我們的模型都能夠處理遮擋。例如，在第3行中，我們看到模型可以捕獲紫色和藍色行人的腳，儘管他們的腳被擋住了。我們還在圖4的新數據集上顯示了定性結果。我們看到我們的模型能夠捕獲精確的邊界，從而能夠捕獲困難的形狀，例如汽車後視鏡和行人。失敗模式：當初始化不佳時，我們的模型可能會失敗（圖5的左圖）。儘管能夠處理遮擋，但如圖5右側所示，當遮擋複雜或模糊時，我們的模型仍然會失敗。這裏有一個半透明的圍欄擋住了汽車。

PolyTransform: Deep Polygon Transformer for Instance Segmentation論文閱讀

摘要