Selection GAN:基於級聯語義引導下的多通道注意力選擇圖像翻譯

一.研究背景

目前圖像翻譯問題的解決方案一般是基於Encoder-Decoder結構,即將原域圖像編碼後再解碼到目標域中,然而這種方案在原域與目標域圖像具有顯著不同結構或重疊區域極少的情況下時翻譯效果會大打折扣。作者發現之前利用語義圖指導圖像翻譯的模型對於圖像細節的翻譯效果不佳,作者認爲這是由於語義圖一般是由深度預訓練模型產生,並不能保證像素級的準確性。基於此作者提出了級聯語義引導下的基於多通道注意力選擇機制的圖像翻譯Selection GAN,其將圖像翻譯分爲兩個階段,第一個階段用於產生粗粒度級的翻譯結果,第二個階段通過多通道注意力選擇機制產生更細緻的結果(如圖1所示)。
在這裏插入圖片描述
圖1.效果概覽

二.模型介紹

Selection GAN將圖像翻譯的過程分爲兩個階段(如圖2所示),第一階段作者提出了一個級聯語義引導的生成器子網絡(Gi),該網絡是將原域圖像(Ia)以及目標域語義圖(Sg)級聯後的結果翻譯至目標域圖像(Ig’),該生成圖像Ig’作爲語義生成器(Gs)的輸入去生成目標域的語義圖(Sg’)。爲了保證Gi和Gs的生成效果,這裏使用重建損失來限制生成器,即Ig≈Ig’,Sg≈Sg’,另外目標域語義圖(Sg)是由深度預訓練模型產生。
在這裏插入圖片描述
圖2.模型概覽
經過第一階段後模型產生了粗粒度級的翻譯結果Ig’,在第二階段中作者將該結果以及第一階段生成的深度特徵級聯作爲多通道注意力選擇模型的輸入(如圖3所示),其目的是從更大的生成空間中產生更加細粒度級的翻譯結果並且生成不確定映射去引導優化像素損失。
多通道注意力選擇模型包括多規模空間池化和多通道注意力選擇兩個部分,作者選取第一階段中Gi和Gs的最後一層卷積網絡的輸出作爲深度特徵Fi和Fs,並與第一階段的輸出Ig’和原域圖像Ia級聯爲特徵Fc,即,輸入至多規模空間池化網絡中,該網絡對Fc進行不同規模的平均池化從而獲取多規模的空間上下文特徵。爲了保留有用信息將經過不同規模池化後的特徵與輸入特徵Fc相乘,該結果經過卷積後產生新的多規模特徵Fc’並作爲多通道注意力選擇的輸入。
作者認爲普通的三通道RGB圖像所包含的信息太少,因此作者在多通道注意力選擇中通過卷積網絡擴大圖像的通道表示,並且結合注意力映射產生更合理的結果(Ig’’),另外注意力映射還需要學習產生不確定映射用於引導優化由預訓練模型所帶來的像素級誤差對整個模型的影響。
在這裏插入圖片描述
圖3.多通道注意力選擇模型
Selection GAN的優化目標主要分爲三個部分:重建損失、對抗損失以及全變分正則化損失(如圖4所示)。這裏的重建損失包括三個部分:Ig≈Ig’,Sg≈Sg’(第一階段)以及Ig≈Ig’’(第二階段)。
在這裏插入圖片描述
圖4.模型優化目標
作者認爲不同於原始GAN,Selection GAN的鑑別器應該學習分辨來自不同域的成對圖像是否彼此相關聯,因此這裏的對抗損失是用於區分真實圖像對(Ia,Ig)以及虛假圖像對(Ia,Ig’),如圖5所示。
在這裏插入圖片描述
圖5. 對抗損失

三.實驗

在具體實驗中對於Gi和Gs作者採用了U-Net架構,由於模型的目的是生成合理的翻譯結果因此Gi採用了深層網絡模型,Gs採用了潛層網絡模型。對於鑑別器D作者採用了PatchGAN架構,用於生成於語義圖的預訓練模型採用了RefineNet架構。
作者主要在Dayton、CVUSA以及Ego2Top數據集上進行實驗,其基線模型選取了Pix2Pix,X-Fork以及X-Seq進行對比,評價指標採用了SSIM,PSNR,SD以及KL散度進行衡量,實驗結果如下。
在這裏插入圖片描述
另外作者還選取了Inception Score進行衡量,結果如下。
在這裏插入圖片描述

四.總結

Selection GAN旨在解決具有顯著不同結構的圖像翻譯問題,其將翻譯過程分爲兩個階段,階段一旨在捕獲場景的語義結構,階段二通過提出的多通道注意力選擇模塊關注更多外觀細節。另外作者還提出了利用不確定性映射引導優化由預訓練模型產生的語義圖像素損失,以解決不準確的語義標籤問題。在三個公共數據集的實驗結果表明,該方法獲得了比現有技術更好的結果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章