【論文信息】
《Feedforward semantic segmentation with zoom-out features》
CVPR 2015
superpixel-level,fully supervised,CNN
【方法簡介】
首先對輸入圖像以superpixel爲單位提取CNN特徵(使用VGG16),然後把這些特徵作爲CNN classifier(使用imageNet)的輸入,imageNet輸出是每個superpixel的class。
【細節記錄】
feature
特徵提取過程是,對每個卷積層的輸出,用雙線性插值的方法做upsampling使之與原圖尺寸一致,然後對superpixel s的區域做pooling,這樣就得到一個特徵向量,這個向量的維度就是當前卷積層的卷積核個數。如下圖:
是對每個superpixel下表中是VGG每一層提取特徵的情況:
把每一層的輸出向量連接起來,就得到最終的CNN特徵,是12416維的。
作者通過實驗證明,把每個卷積層的輸出都連接起來形成的特徵是最優的:
zoom-out
原因在於,CNN的每個卷積層,設卷積核大小不變,因爲有下采樣,圖像在逐步變小,所以實際上卷積核所能感知的範圍是逐步增大的,也就是文中所說的zoom out
在superpixel level,紅色框區域和藍色框區域,也就是CNN的淺層,輸出的特徵是local feature,主要包含這個小區域的顏色信息和密度信息,它和相鄰的superpixel的特徵會有較大差異。
把superpixel向外zoom out,在proximal level,可以得到橄欖色的區域,在這個level提取的特徵主要捕捉superpixel周圍其他superpixel的信息,已經不是local的信息了,應該是neiboring的信息。對於離得近的superpixel(如A和B的橄欖綠框),它們在這個level的receptive fileds會有較多的overlap,它們之間存在smoothness,在這一層面的特徵表示會有些相似,而如果離得遠(A和C),overlap小,那麼它們的特徵表示會有較大差異。
繼續向外zoom out,在distant level,紫色的藍色的區域,常常帶來較大的overlap,可以在superpixel之間建立聯繫,並且,此時的感知區域已經能夠包含一些object,所以這個level提取的特徵會包含object的一些形狀信息、空間位置信息、複雜的顏色和梯度信息。一些方法用CRF來挖掘這類信息,這樣做常常帶來複雜的難以求解的模型。
再zoom out,在scene level,就是對整幅圖片感知,得到的是global的信息。這level的特徵主要包含的信息是”what kind of an image we are looking at“,可以基本限定class的範圍。
【實驗設計】
1,選擇combine哪些層輸出的feature,最後結果最好的是所有層的輸出連起來得到的feature
2,和現有的方法在VOC的結果比較mean IoU,是最優(Hypercolumns, FCN-8s, SDS, DivMbest+rerank, Codemaps, O2P, Regions&parts, D-sampling, Harmony potentials.)
3,和現有方法在SBD的結果比較pixel accuracy, class accuracy是最優(Multiscale convnet, recurrent CNN, Pylon, Recursive NN, Multilevel)
【總結】
優點
1,它把CNN每一層的特徵都拿出來使用,兼顧了local信息和global信息。
2,直接使用image classification的現有成果,不用自己訓練網絡,方便高效,易於推廣。
3,實驗結果FCN的方法結果還好。
缺點
從作者貼出的example來看,分割的邊緣還是有些粗糙,原因是:本文方法是直接基於superpixel做特徵提取和分類的,提取的superpixel是不夠準確的,一個superpixel中可能包含了多個class。要優化這個邊緣,應該還是要挖掘出pixel level的細節信息。