SBDA-GAN

引言:

GANs在根據特定的視覺區域生成圖像方面的有效性在無監督的區域適應方面顯示出潛力。對源標記圖像進行了修改,以模擬目標樣本,用於在目標域中訓練分類器,還評估了從目標到源域的逆映射,而無需生成新的圖像。在本文中,我們的目標是通過引入域之間的對稱映射來獲得兩個世界的最佳結果。我們定義了一個新的類別一致性損失來對齊在兩個方向上的生成器,強制保留通過域映射的類標誌一致。

介紹:

當有足夠的標記數據用於訓練深層網絡(源域)而沒有目標域的註釋數據時,跨域泛化的能力是一項挑戰。爲了解決這一問題,人們提出了許多方法,其中大多數是爲了減少源分佈和目標分佈之間的偏移(域偏移,domain shift)。另一種方法是通過修改圖像表示(使得圖像的特徵更多和目標域特徵相同,引文10),或直接生成源圖像的新版本(新版本即生成類目標域的圖片,引文4),將源數據映射到目標域。幾位作者提出了通過構建生成性對抗網絡(gans)來遵循這兩種策略的方法。一種類似但相反的方法將目標數據映射到源域,而源域已經有大量的標記圖像(文獻39)。

我們認爲雙向映射不應該是alternative(可替代的)而是complementary(互補的)。事實上,域適應的關鍵的是成功地將一個領域的風格轉移到另一個領域的圖像上的能力。給定一個生成結構,域適應的能力主要取決於應用:有些情況從源域映射到目標域是非常容易的,有一些情況則相反。通過在統一的體系結構中追求兩個方向(源到域和域到源),我們可以獲得比以前的自適應算法更健壯和更通用的系統。因此設計出來了SBADA-GAN: Symmetric Bi-Directional ADAptive Generative Adversarial Network.(對稱雙向的自適應生成對抗網絡)。

 

網絡的特點是:

1.它利用了兩種生成性對抗損失,這兩種損失鼓勵網絡從源樣本生成類目標圖像和從目標樣本生成類源圖像此外,它還聯合最小化了兩個分類損失,一個在原始源圖像上(正常的有監督圖像分類,上圖的C_s的綠色損失),另一個在變換後的類目標圖像上(類別保持一致,風格是趨向目標域,上圖的C_t的綠色損失);

2.它使用source classifier來標註source-like transformed target images,生成了目標圖片的僞標籤。這個僞標籤可以幫助規範化相同的分類器,同時通過反向傳播來改進 the target-to-source generator model(G_ts)

3.在source images引入了一種新的語義約束:類一致性損失(上圖的紅色框損失)。它強制通過將源圖像映射到目標域,然後再映射到源域,它們應該返回到它們的基本真實類。與標準重建損失相比,最後一個條件限制較少[41,18],因爲它只處理image annotation,而不處理image appearance(因此這個重構損失是和標準的不一樣的)。我們的實驗表明,在兩個方向上對齊域映射是非常有效的;

4.在測試階段 the two trained classifiers(指的是C_t和C_s) are used respectively on the original target images and on their sourcelike transformed version. The two predictions are integrated(這兩個預測進行整合,整合方式是???) to produce the final annotation(產生最終的目標域圖片類別)。

相關工作:

分爲三大類:GANs,Domain Adaptation,Image Generation for Domain Adaptation

gans:生成器的目標是合成與真實數據分佈緊密匹配的樣本,而鑑別器的目標是區分真實和生成的樣本。GAN對訓練樣本標籤是不可知的,而CGAN利用類註釋作爲生成器和鑑別器的附加信息。一些工作使用了多個gans:在CoGAN中,兩個生成器和兩個鑑別器通過權重共享進行耦合,以在不使用成對數據的情況下學習圖像在兩個不同域中的聯合分佈。Cycle-GAN、Disco-GAN和UNIT鼓勵通過強制傳遞性來很好地覆蓋兩個域之間的映射:在一個方向上的映射之後在相反方向上的映射應該到達它開始的位置。

domain adaption:一個廣泛使用的策略是最小化源和目標分佈之間的差異。另一種方法最小化目標樣本重建中的誤差或者是施加一致性條件,使得分配給不同標籤的相鄰目標樣本根據其相似性按比例受到懲罰。最近有人提出,在有相同的真實標籤或預測類的源樣本和目標樣本之間加強關聯。domain invariance也可以被視爲一個二分類問題,通過一個對抗性損失。對於所有采用該策略的方法,所描述的對抗損失與源任務上的主分類損失函數聯合最小化,從而引導特徵學習過程朝着域不變的表示方向發展。

Image Generation for Domain Adaptation:在風格遷移的方法中,合成的新圖像在replicating(複製,再生)一個或一組參考圖像的風格的同時保持特定內容。類似的風格轉換的方法被用來生成具有不同視覺域的圖像。例如,有人從合成圖像中生成了真實的樣本,並且生成的數據可以作爲分類模型的訓練集,在真實圖像上取得了良好的效果。另外,有人提出了一種基於gan的方法,該方法使源圖像看起來像是從目標域中提取的;基於這些數據訓練的分類器在很大程度上優於幾種域自適應方法。還有人引入了一種生成與目標圖像相似的源圖像的方法,該方法具有額外的一致性約束,即相同的變換應保持目標樣本的一致性。所有這些方法都集中在源到目標的圖像生成上,而不考慮在源到目標之間添加逆過程,我們證明添加逆過程是有益的。

方法(method):

主要包含了三大塊:model,learning,testing。

Model:

解決的任務是無監督的域適應分類問題。

數據集是從有標籤的源域S選取出來的的;而數據集是從無標籤的目標域T中選取出來的,和源域具有相同的標籤域。任務是最大化上的分類精度,同時對進行訓練。爲了減小domain gap,我們提出改動源圖片,通過訓練一個生成器,將源域的樣本映射到(target-like version)和目標域圖片相似的圖片,彷彿該圖片就是從目標域採集出來的。這樣就定義了另一個數據集。該模型還增加了一個鑑別器和一個分類器。前者將目標域圖片和target-like source transformed images作爲輸入,來學會將它們識別爲兩個不同的集合就是判別出來。後者將每一個transformed images 作爲輸入,來保持該樣本的類別依舊是。在訓練過程中,利用產生的能識別出不同域的似然信息來對抗的指導和優化生成器的性能;同樣生成器還受益於分類器訓練過程中的反向傳播。

除了從源域到目標域的轉換,我們也考慮了它的逆過程即從目標域到源域的轉換,使用了一個對稱的結構。將每一個目標域樣本作爲生成器的輸入,來將該樣本轉換成source-like version。這樣就定義了另一個數據集,和前面的一樣,該模型還增加了一個鑑別器,用來判別輸入來自不同的數據集,並且對抗的指導和優化生成器

由於目標域的圖片是沒有標籤的,因此沒有分類器可以在目標到源的方向上訓練,作爲對生成器模型的進一步支持。我們克服了這個問題通過self-labeling的方式(上圖中的藍色箭頭)。最原始的源域圖片(指的是沒有做風格變換)用來訓練一個分類器。一旦這個分類器收斂,我們就使用這個分類器對每一個source-like transformed target進行打標籤(我們將這種預測出來的標籤稱爲僞標籤)。這些擁有僞標籤的目標域的樣本,作爲分類器的輸入,通過反向傳播來指導和改進生成器。self-labeling技術在域適應領域有着長期的成功記錄,它在淺層模型和最新的深層架構中都被證明是有效的。在我們的例子中,僞標記樣本的分類損失與我們的其他損失結合在一起,這有助於確保我們走向最優解:在moderate domain shift的情況下,正確的僞標記有助於正則化學習過程,而在large domain shift
的情況下,錯誤的僞標記樣本不會妨礙性能。

最後,通過對齊兩個生成器模型來增強源到目標和目標到源轉換中的對稱性,這樣,當按順序使用時,它們會將樣本帶回其起點。由於我們的主要關注點是分類,所以我們希望保留每個樣本的類標識,而不是其整體外觀。因此,我們引入了類一致性條件,而不是標準的基於圖像的重建條件。具體地,我們強制要求任何源圖像通過調整到目標域並且通過轉換回源域之後要被Cs正確地分類。這一條件有助於對兩個生成器進行進一步的聯合優化。

Learning:

對上述的描述進行公式化。首先,我們指定生成器的輸入除了圖像之外,還將噪聲向量作爲輸入,這允許some extra degree of freedom to model external variations。我們定義鑑別器爲;定義分類器爲

每一個模型依賴於它的參數,但是我們並沒有顯式地指出它們來簡化符號,同樣的,我們也忽略了上標i,j

(1)The source-to-target part of the network optimizes the following objective function

其中分類損失是一個標準的softmax cross-entropy:

,其中是類別標籤的one-hot編碼。

對於判別器,我們不使用傳統的不那麼健壯的binary cross-entropy,我們和論文(Multi-class generative adversarial networks with the l2 loss function)一樣使用最小平方損失least square loss,(在遷移學習領域的GAN輸出和傳統的不一樣,輸出是一個平面,那麼下面的公式是對輸出平面的一個點的對抗損失,總的對抗損失是平均值):

(2)objective function for the target-to-source part of the network is:

其中的對抗損失就是和(3)是一樣的;分類損失適合(2)一樣的,不同的是評估的爲原始樣本即,因此,它既不依賴於轉換目標樣本的生成器,也不向其提供反饋。

其中的self-loss又是一個標準的softmax cross-entropy:

,其中是指定標籤的one-hot編碼向量。這個損失會反向傳播到生成器,鼓勵它在轉換中保持着指定的類別。

(3)we developed a novel class consistency loss來最小化分類器損失:

,其中。這個類別一致性損失對於在兩個方向上對齊generators生成器和將我們網絡中的兩個主要部分緊密連接起到了重要作用。

(4)綜合以上所有損失,得到了SBDA-GAN的損失爲如下:

                                                  

其中是控制損失項相互作用的權重。

上面的六個損失來源於整個架構的對稱雙向性,實際上,每個方向分支都有三個損失,因爲這是基於gan的領域適應文獻中的慣例。此外,消融實驗(ablation study)報告表明該系統對超參數值的變化具有顯著的魯棒性。

Testing:

分類器生成的圖像上進行訓練(該生成圖像是模仿目標域樣式的圖像),然後在原始目標樣本上進行測試。分類器源數據上進行訓練,然後在樣本上進行測試,因爲這些樣本是經過修改以模擬源域樣式的目標域圖像。這些分類器會犯不同類型的錯誤,併爲每個可能的標籤分配不同的置信等級。總的來說,這兩種分類器是相輔相成的。

那麼我們使用一個線性組合這兩個分類器的概率輸出,這樣就認爲目標域圖片的類別有很大的置信度就是該輸出類別:

,其線性參數的選擇是使用交叉驗證的方式獲取。這個過程的圖如下:

評價(Evaluation):

數據集:

1.MNIST數據集是28x28的灰度圖,背景是黑色,只有一個數字,數字居中。而MNIST-M由從BSDS500的彩色照片中隨機提取的圖片塊替換背景的變體,就是

2.USPS數據集是16 × 16 pixel grayscale samples,The images are centered, normalized and show
a broad range of font styles.
3.SVHN數據集contains over 600k 32 × 32 pixel color samples,presentinga great variety of styles (in shape and texture), imagesfrom this dataset often contain extraneous numbers in addition to the labeled, centered one.早先大多數的工作都是將數據集簡單化爲一個grayscale version,但是我們是直接使用原始的RGB圖像。
RGB images.

on traffic sign scenario:

Synthetic Signs數據集包含了從維基百科獲得的10萬個普通街道標誌樣本,並經過人工轉換以模擬各種成像條件。The German Traffic Signs Recognition Benchmark (GTSRB)由51839幅德國交通標誌的裁剪圖像組成。Both
databases contain samples from 43 classes, thus defining a larger classification task than that on the 10 digits.

 

 

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章