論文地址:Mask R-CNN
用於目標實例分割的框架,能夠有效地檢測圖像中的目標,同時還能爲每個實例生成一個高質量的分割掩碼。
主要特點:
-
Mask R-CNN 是 Faster R-CNN的擴展;
-
訓練簡單。
-
易於泛化到其他任務。
-
沒使用fine-tuning的情況下,Mask R-CNN的表現超越了在每個任務上已有的所有single-modle entries。
網絡結構:
其中:第一個分支是Faster R-CNN結構,用於分類和座標迴歸;第二個分支對每個ROI區域預測分割mask。
Mask R-CNN
Faster R-CNN:
1)、通過RPN網絡給出候選區域的bbox;
2)、通過RoIPooling, 在各個候選框中進行分類和bbox的迴歸。
Mask R-CNN:
1)、通過RPN網絡 給出候選區域的bbox;
2)、各個候選框的分類和bbox的迴歸;
3)、對每個RoI輸出binary mask(與步驟2)並行)。
-
損失函數:, mask分支對於每個RoI有Km2 維度的輸出。K個(類別數)分辨率爲m*m的二值mask。因此作者利用了a per-pixel sigmoid,並且定義 Lmask 爲平均二值交叉熵損失,對於一個屬於第k個類別的RoI, Lmask 僅僅考慮第k個mask。這樣的定義會允許對每個類別都會生成掩模,並且不會存在類間競爭。
RoIAlign: 對RoI Pooling的改進。RoI Pooling可能會有misalignment。解決方法: 使用雙線性插值,再做聚合。