Intorduction

該論文講述如何用弱監督的方法訓練語義分割器。弱監督方法沒有強監督信息，比如ground truth。在這篇論文裏，語義分割的樣本標籤只有圖片的分類類別。已經有許多方法能夠從分類信息中生成語義分割的mask。論文在這些工作的基礎上，對生成的語義分割的mask調整成更加準確的mask。

輸入的是粗糙的mask，輸出是精細的mask的函數叫做mapping function。有研究表明，不斷地把輸出的mask重新輸入到mapping function中，可以得到更好的結果。但是迭代的過程不能保證輸出的mask一定比輸入的mask要好。作者的方法針對這個問題，提出了能夠保證mask不斷變好的方法。作者的解釋也有道理。

Method

定義輸入到mapping function的信息定義爲knowledge，輸出信息爲advice。假設advice提供監督信息，這個監督信息包含了noise，論文的方法是從advice中獲取有用的信息。定義knowledge和advice不同的區域稱爲difference(如圖1的a所示)，論文用一個網絡DD-Net(self-supervised difference detection module)來預測這個difference。DD-Net會用到knowledge或advice的其中一個。在訓練時可以通過knowledge和advice來計算得到。DD-Net的監督信息(gt)通過數據自己產生，所以DD-Net時自監督學習的。

在實際的advice中，有的advice可以預測，有的不可以預測。一些advice可以容易地推斷，因爲在訓練的時候包含許多相似的樣本。作者假設advice包含足夠多的好的信息，可以預測的信息可以當作是有用的信息。因此，作者提出的一個方法來選擇信息。這些信息是advice真實信息，可以在difference檢測中推斷出來的信息。如圖1的bc所示，knowledge是輸入的mask，advice是輸出的mask，advice和knowledge不同的部分說明knowledge在這些部分的分類結果可能有錯。用DD-Net來檢測knowledge的有錯的地方（difference），能夠預測出來的地方稱爲predictable difference。因爲DD-Net是根據數據集的樣本訓練得到的，DD-Net能夠預測出來的difference確實是knowledge中分類出錯的地方。advice包含noise，可以分爲true advice和false advice，true advice對應的是對的建議，這個true advice有用的信息，這些有用的信息存在於數據的樣本中，DD-Net可以學習得到，true advice就等同於predictable difference。簡單說就是DD-Net通過訓練得到的信息是有用信息，可以用來更正已有mask的錯誤。

difference detection network

先來說說怎麼預測difference。knowledge是通過其他弱監督的方法生成的語義分割的mask或者是mapping function的輸出mask。不少論文也提出了多種mapping function，常用的是CRF方法。advice是mapping function的輸出。有了knowledge和advice，可以計算他們的difference。定義knowledge爲 $m^K$ ，advice爲 $m^A$ ，difference爲 $M^{K,A} \in \Bbb{R}^{H \times W}$
$M^{K,A}_u = \begin{cases} 1 & \text{if} (m^K_u = m^A_u) \\ 0 & \text{if} (m^K_u \neq m^A_u) \end{cases} \tag{1}$

接着看看DD-Net的網絡結構

DD-Net輸入的有backbone network的high-level features $e^h(x;\theta_e)$ 和low-level features $e^l(x;\theta_e)$ ，還有一個mask $\hat{m}$ ，輸出的是difference mask的置信度map d。訓練的損失函數是
$\begin{aligned} \mathcal{L}_{\text{diff}} = \frac{1}{|S|} \sum_{u \in S}( & J(M^{K,A}, d^K, u; \theta_d) \\ & J(M^{K,A}, d^A, u; \theta_d)) \end{aligned} \tag{2}$
其中
$J(M,d,u) = M_u \log d_u + (1 - M_u) \log (1 - d_u)$

在我的理解中，DD-Net的作用可以認爲是判斷輸入的mask各個pixel的label是否分類錯誤。置信度map d的值越大，說明對應的pxiel分類錯的概率越大。

Self-supervised difference detection module (SSDD)

論文同時對knowledge和advice的mask進行錯誤預測。然後根據這兩者的預測結果更新mask。

knowledge和advice通過DD-Net後分別得到置信度map $d^K$ 和 $d^A$ 。然後考慮把knowldege、advice、 $d^K$ 和 $d^A$ 結合起來，生成更加準確的mask。

如果knowledge的錯誤率比advice更高（高出某個閾值），則更新mask對應位置的值爲advice的值，否則，保留knowledge的值。
$w_u = d^K_u - d^A_u + \text{bias}_u \tag{3}$
更新mask
$M^{D}_u = \begin{cases} m^A_u & \text{if} (w_u \ge 0) \\ m^K_u & \text{if} (w_u \lt 0) \end{cases} \tag{4}$
SSDD的公式如下
$m^D = SSDD(e(x), m^K, m^A; \theta_d) \tag{5}$
其中 $e(x)=(e^l(x), e^h(x))$ 。

weakly-supervised semantic segmentation

接下來看如何把SSDD應用到語義分割的弱監督訓練的過程。

訓練過程分成兩部分。

Seed mask generation stage with static region refinement

該過程使用PSA方法生成語義分割的初始mask $m^{K0}$ ，用 $m^{K0}$ 訓練一個分割網絡，用CRF方法微調 $m^{K0}$ 得到 $m^{A0}$ ，然後把 $m^{K0}$ 和 $m^{A0}$ 輸入到一個SSDD中得到比較正確的 $m^{D0}$ 。

DD-Net的訓練損失函數如下
$\begin{aligned} \mathcal{L}_{\text{diff0}} = \frac{1}{|S|} \sum_{u \in S}( & J(M^{K0,A0}, d^{K0}, u; \theta_{d0}) \\ & J(M^{K0,A0}, d^{A0}, u; \theta_{d0})) \end{aligned} \tag{6}$

如果 $m^{K0}$ 和 $m^{A0}$ 的mask都不對，用他們來訓練是沒有意義了，論文中這種樣本去掉。論文沒有具體說怎麼去掉這些壞樣本，可能人工篩選排除？

訓練分割網絡SegNet的損失函數如下
$\mathcal{L}_{\text{base}} = \mathcal{L}_{\text{seg}}(x, m^{K0}; \theta_{e0}, \theta_{\text{base}}) \tag{7}$
$\mathcal{L}_{\text{seg}}(x, m; \theta) = - \frac{1}{\sum_{k \in K} |S_k^m|} \sum_{k \in K} \sum_{u \in |S_k^m|} \log (h_u^k(\theta)) \tag{8}$
總的來說，該階段的損失函數是
$\mathcal{L}_{\text{static}} = \mathcal{L}_{\text{base}} + \mathcal{L}_{\text{diff0}} \tag{9}$
該階段的作用是
$m^{D0} = SSDD(e(x), m^{K0}, m^{A0}; \theta_{d0}) \tag{10}$

Training stage of a fully supervised segmentation model with a dynamic region refinement

該階段，首先SegNet生成分割結果 $m^{K1}$ ，通過CRF微調得到 $m^{A1}$ ， $m^{K1}$ 和 $m^{A1}$ 輸入到一個SSDD module1 中得到 $m^{D1}$ 。接着， $m^{D1}$ 和上個階段得到的 $m^{D0}$ 輸入到另一個SSDD module2中得到 $m^{D2}$ 。 $m^{D2}$ 用來重新訓練分割網絡。這個過程是循環過程，不斷地改進mask的結果，同時提高分割網絡的表現。

分割網絡的訓練損失
$\mathcal{L}_{\text{main}} = \mathcal{L}_{\text{seg}}(x, m^{D2}; \theta_{e1}, \theta_{\text{main}}) \tag{11}$
SSDD module1 的損失函數
$\begin{aligned} \mathcal{L}_{\text{diff1}} = \frac{1}{|S|} \sum_{u \in S}( & J(M^{K1,A1}, d^{K1}, u; \theta_{d1}) \\ & J(M^{K1,A1}, d^{A1}, u; \theta_{d1})) \end{aligned} \tag{12}$
SSDD module2 的訓練過程和SSDD module1不同。因爲 $m^{K1},m^{A1},m^{D1}$ 依賴分割網絡的分割結果，如果分割網絡的分割結果太極端，比如mask全爲0或全爲1，這些mask就沒意義。爲了防止分割網絡出現這種情況，作者在分割網絡中引出一條分支，用來預測 $m^{D0}$ 和 $m^{D1}$ 的difference，預測結果記爲 $m^{sub}$ 。
SSDD module2的訓練損失爲
$\begin{aligned} \mathcal{L}_{\text{diff2}} = \frac{1}{|S|} \sum_{u \in S}( & J(M^{D0,sub}, d^{D0}, u; \theta_{d2}) \\ & J(M^{sub,D1}, d^{D1}, u; \theta_{d2})) \end{aligned} \tag{13}$
分支的訓練損失爲
$\mathcal{L}_{sub} = \alpha \mathcal{L}_{seg}(x, m^{D0}; \theta_{e1}, \theta_{sub}) + (1 - \alpha) \mathcal{L}_{seg} (x, m^{D1}; \theta_{e1}, \theta_{base}) \tag{14}$
最終總結該階段的損失
$\mathcal{L}_{\text{dynamic}} = \mathcal{L}_{\text{main}} + \mathcal{L}_{\text{sub}} + \mathcal{L}_{\text{diff1}} + \mathcal{L}_{\text{diff2}} \tag{15}$

Experiment

看看該方法得到的mask的結果

分割的結果，與其他方法比較

《Self-Supervised Difference Detection for Weakly-Supervised Semantic Segmentation》筆記

Intorduction

Method

difference detection network

Self-supervised difference detection module (SSDD)

weakly-supervised semantic segmentation

Seed mask generation stage with static region refinement

Training stage of a fully supervised segmentation model with a dynamic region refinement

Experiment

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

nodejs學習06——小案例

評估統計算法在銀行僞造鈔票檢測中的價值

Java ThreadPoolShutdown

5月21日相聚上海張江！與文心大模型一起共建大模型產業應用生態圈

通義千問 2.5 “客串” ChatGPT4，你分的清嗎？

《Relation Networks for Object Detection》筆記

《Deformable part-based fully convolutional network for object detection》筆記

《Semi-Supervised Pedestrian Instance Synthesis and Detection with Mutual Reinforcement》筆記

《Adapting Object Detectors via Selective Cross-Domain Alignment》筆記

《Focal loss for dense object detection》筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結