Unet論文詳解U-Net:Convolutional Networks for Biomedical Image Segmentation

背景:Unet結構在分割,重建以及GAN等網絡之中被廣泛採用,非常經典。網絡於20155月提出,在後續圖像分割領域廣泛運用。

論文地址  https://arxiv.org/abs/1505.04597

目錄

一、概覽

1.1 全新方法

1.2 分割準確

1.3 速度快

二、背景

2.1 圖像定位網絡

2.2 基於滑窗的分割

2.3 本文方法

三、方法

3.1 網絡結構

3.2 訓練過程

3.3 數據增強

四、實驗

4.1 評價指標

4.2 實驗性能

五、結論及個人總結

六、後續相關論文及鏈接

R2U-Net   ,2018 CVPR

UNet++     ,2018 CVPR

Attention U-Net      ,2018 CVPR

nnU-Net      ,2019 CVPR


一、概覽

1.1 全新方法

深度網絡訓練之中需要大量的有標樣本,Unet作者提供了一種新的訓練方法,可以更有效的運用相應的有標樣本。

  • Contracting path:提取語義信息
  • Symmetric expanding path:確保精確定位

作者提出了一種全新的方法,全卷積網絡fully convolutional network,使網絡即使通過少量的訓練圖片也可以進行更精確的分割。網絡的主要想法是通過successive layer來實現,即把pooling.

1.2 分割準確

作者通過實驗驗證了,網絡即使通過少量樣本的訓練也可以在ISBI分割挑戰上超越當時最好的方法(滑窗卷積網絡)。

1.3 速度快

分割一個512*512大小的圖片,在單顯卡上只需要1秒。

二、背景

2.1 圖像定位網絡

近兩年(2014-2015年),深度網絡在一些視覺識別的任務中被廣泛應用。

  •  Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep convolutional neural networks. In: NIPS. pp. 1106–1114 (2012)
  •  Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2014)

但是深度網絡受限於可得到訓練集的大小及數量,更大更深的網絡以及更大的數據集可以更好的提升性能。

  • Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep convolutional neural networks. In: NIPS. pp. 1106–1114 (2012)

但是更經典的運用,不僅僅受限於分類問題,也需要對目標進行定位。例如定位到每個像素點上的類別。同時,大量的訓練樣本(thoustands of)往往是不可得的。

2.2 基於滑窗的分割

滑窗法提出被用於判定每個pixel屬於哪個class label

  • Ciresan, D.C., Gambardella, L.M., Giusti, A., Schmidhuber, J.: Deep neural networks segment neuronal membranes in electron microscopy images. In: NIPS. pp.2852–2860 (2012)

網絡直接將滑窗的patchs送入,首先可以解決定位的問題,其次可以將訓練數據數量可以遠遠大於訓練集的圖像的數量。

缺點:

  • 網絡必須分開的對每個取窗的patch進行訓練,patches之間有大量的重疊則會出現重複訓練
  • 定位精確度與context之間有trade-off。大的patch需要更大的pooilng層,使得定位誤差增大;同時,小的patch使得網絡提取出更少的語義信息。

2.3 本文方法

創建一個全卷積網絡,fully convolution network來用於提取出相應的特徵。網絡只需要少量的訓練數據並且可以有更高的分割準確率。

  • 額外的引入了successive layer,使得pooing操作之後會跟上採樣操作。
  • 高分辨率的feature可以從contractin path來與相應的上採樣結合。Successive convolution層可以更好的集成更加精確的信息。
  • 上採樣部分,有更多的feature channel,可以讓網絡有更高的分辨率。
  • 因此,expansive pathcontracting path是近似對稱的關係。使得網絡是一個U型的結構。
  • 網絡沒有全連接層,只有相應的卷積層。
  • 網絡的最終的分割圖像是與輸入像素相同的圖像。運用了overlap-title策略,使得在任意圖像分類上都達到無縫分類。
  • 對圖片進行了鏡像,使得圖像邊緣也能很好的分割。並且使得圖片大小不再受限制與GPU內存。

三、方法

3.1 網絡結構

網絡左邊爲contracting path,右邊爲expansive path。

  • Contracting path爲常規的3×3卷積結構,與ReLU,還有2×2max pooling。每次下采樣,都將featuremapchannel變爲之前的兩倍。
  • Expansive path爲上採樣過程,每次都是2*2的上採樣卷積過程,並且將相應的feature channel減少爲之前的一半。
  • 與上採樣對應的下采樣過程中的feature會被連接。
  • cropping過程是必需的,因爲每次卷積過程邊緣的像素點都會損失。
  • 最終的網絡有23層的卷積層。

3.2 訓練過程

運用帶衝量的隨機梯度下降算法(SGD)來對網絡進行訓練。運用較大的衝量momentum=0.99 ,這樣網絡訓練時候 a large number of the previously seen training samples determine the update in the current optimization step

To minimize the overhead and make maximum use of the GPU memory, we favor large input tiles over a large batch size and hence reduce the batch to a single image.

Enery function

最終的energy function被定義爲 pixel-wise soft-max over the final feature map,同時加了一個交叉熵函數。

其中,soft-max定義爲:

  • 表示在feature channel k的激活。
  • k表示feature channel的的第k個。
  • x表示像素點,Z表示patch的大小
  • K表示類別的個數
  • 近似於maximum-function
  • 例如果 k that has the maximum activation ak(x)
  • 對於其他的k,則

圖像最終在每個位置上的softmax和交叉熵結合爲:

  • 對於每個像素來說,標籤爲:
  • Weight map爲:
  • weight map在實驗前階段通過計算獲得:

  • w(x)用於平衡不同類別出現的頻率
  • 表示細胞與最近的邊界的距離
  • 表示細胞與第二近的邊界的距離。

3.3 數據增強

這部分雖然論文中提及較少,但是數據增強對於網絡來講非常重要,並且文中提到了非常實用的數據增強的方法。

因爲醫學樣本較少,但是仍然需要網絡具有平移與旋轉不變性,並且對形變和灰度變化魯棒。

  • 使用隨機位移矢量在粗糙的3*3網格上(random displacement vectors on a coarse 3 by 3 grid)產生平滑形變(smooth deformations)。
  • 位移是從10像素標準偏差的高斯分佈中採樣的。然後使用雙三次插值計算每個像素的位移。
  • 在contracting path的末尾採用drop-out 層更進一步增加數據。

四、實驗

4.1 評價指標

作者在三個目標分割數據集上進行了相應的實驗。並且有三種評價指標:

Pixel error

預測錯誤的像素點的個數除以總像素個數。對於二進制的labels,歐式距離和漢明距離結果相同。優點:簡單 缺點:過分敏感,可能已經到達了較好的分割效果,卻有很大的pixel error。

warping error

是一種segmention metric,基於數字拓撲領域概念,比較邊界標籤的另一種指標。當pixel error很大當分割效果更好可以引入warping error,主要用來衡量分割目標的拓撲形狀效果。

主要來衡量分割目標的拓撲形狀效果。給定L的pixel error,候選標註T(預測值)和參考標註L(實際值)的warping error可以認爲是L和對於T最好的L的漢明距離。

Rand error

兩個數據聚類的相似性評價方法,改造之後用來衡量分割性能,因爲分割可以看作是聚成類的像素。

給定一張圖片S,有n個像素點,同時有兩個分割X和Y

    a:兩個分割中同屬於一個聚類的像素點數量

    b:兩個分割中都不屬於一個聚類的像素點數量

4.2 實驗性能

五、結論及個人總結

Unet是分割領域最經典的論文,基本上SOTA的模型都在此基礎上進行更改,非常重要。

並且在數據增擴階段的工作也同等重要,就是基於幾何形變的數據增擴。

六、後續相關論文及鏈接

R2U-Net   ,2018 CVPR

Md Zahangir Alom, Mahmudul Hasan, Chris Yakopcic, Tarek M. Taha, Vijayan K. Asari

Recurrent Residual Convolutional Neural Network based on U-Net (R2U-Net) for Medical Image Segmentation

論文地址:

https://arxiv.org/abs/1802.06955

UNet++     ,2018 CVPR

Zongwei Zhou, Md Mahfuzur Rahman Siddiquee, Nima Tajbakhsh, Jianming Liang

UNet++: A Nested U-Net Architecture for Medical Image Segmentation

論文地址:

https://arxiv.org/abs/1807.10165

Attention U-Net      ,2018 CVPR

Ozan Oktay, Jo Schlemper, Loic Le Folgoc, Matthew Lee

Attention U-Net: Learning Where to Look for the Pancreas

論文地址:

https://arxiv.org/abs/1804.03999

nnU-Net      ,2019 CVPR

Fabian Isensee, Jens Petersen, Simon A. A. Kohl, Paul F. Jäger, Klaus H. Maier-Hein

nnU-Net: Breaking the Spell on Successful Medical Image Segmentation

論文地址:

https://arxiv.org/abs/1904.08128v1

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章