論文:BeautyGAN: Instance-level Facial Makeup Transfer with Deep Generative Adversarial Network
官網:http://liusi-group.com/projects/BeautyGAN
Github:https://github.com/Honlan/BeautyGAN
論文提出了一種基於GAN的方式的化妝遷移的方法BeautyGAN,效果優於傳統的Cycle-GAN。
主要貢獻:
- 基於GAN實現了自動的換裝,實驗表明,BeautyGAN不僅高效,而且生成質量優於目前最好的方法。
- 通過在局部區域應用像素級別的直方圖loss,取得了實例級別的風格變換。該實例級別的變換策略也可以應用於風格遷移,屬性變換等其他任務。
- 貢獻了3834張高清圖片的換妝數據集Makeup Transfer(MT)
網絡結構:
生成器G爲兩個輸入和兩個輸出的網絡結構,中間的模塊共享權重。生成器G中還使用了IN(instance normalization)模塊。生成器的輸入圖片大小爲256*256,輸出圖片大小也是256*256。
判別器D爲70*70的PatchGANs。
損失函數:
假設未化妝圖片爲A,A ⊂ RH×W ×3
化妝圖片爲B,B ⊂ RH×W ×3
整個換妝問題可以定義爲,
Isrc表示需要換妝的人臉圖片,表示ID圖,
Iref表示化好妝的參考圖,
IBsrc表示將原圖Isrc進行了圖B的操作,即化妝操作,也就是我們真正需要的輸出結果。
IAref表示將參考圖Iref進行了圖片A的操作,即去妝操作
BeautyGAN整體loss由4部分loss組成,對抗loss(adversarial loss),循環GAN loss( cycle consistency loss),感知loss( perceptual loss) ,換妝約束loss(makeup constrain loss) 。
其中,α = 1, β = 10,γ = 0.005
對抗loss(adversarial loss):
由於生成模型有2個輸出組成,所以判別器也是有2個組成,DA和DB。
由於訓練過程中,該loss是基於log函數的loss,很容易出現負值,因此,使用MSE loss對DA和DB分別進行優化。
爲了使得判別器的訓練更加平穩,這裏還引入了普歸一化spectral normalization,
σ(W ) 表示w的歸一化操作。h表示每一層的輸入。
循環GAN loss( cycle consistency loss):
整個的訓練過程,先通過輸入的圖片(Isrc,Iref)生成妝容風格互換後的圖片G(Isrc,Iref)。然後將互換妝容風格的圖片再輸入生成器中,就會將妝容風格又互換回來G(G(Isrc,Iref)),也就是說經過2次互換,又回到了原始的輸入圖片。
Cycle loss的目的就是保證2次換妝後的輸出和原始輸入一樣。
其中,dist表示L1或者L2。
感知loss( perceptual loss):
Flijk 表示模型的第l層,位置<j,k>處的第i個濾波器。
換妝約束loss(makeup constrain loss):
首先使用PSPNet 這樣的分割模型,對人臉區域進行分割,即Face parsing 。可以分別提取出嘴巴,眼睛,人臉這3個部位。然後分別對這3個部位進行直方圖Histogram loss的計算。
其中,λl = 1, λs =1, λf = 0.1
◦ 表示elemetwise的乘法操作,
item表示{lips, shadow, f ace}
爲什麼要進行Face parsing操作?
- 背景和頭髮區域的像素和換妝是沒有關係的。
- 人臉換妝不僅是一個全局的風格變換,更是人臉不同區域的獨立風格的變換。
First, pixels in background and hairs have no relationship with makeup. If we do not separate them apart, they
will disturb the correct color distribution. Second, facial makeup is beyond a global style but a collection of several independent styles in different cosmetics regions.
爲什麼要使用Histogram loss,而不是MSE loss?
If we directly adopt MSE loss on pixel-level histograms of two images, the gradient will be zero, owning to the indicator function, thus makes no contribution to optimization process. Therefore, we adopt histogram matching strategy that generates a ground truth remapping image in advance.
Makeup Transfer(MT) 數據集:
該數據集一共包含3834張圖片,其中1115 張沒有化妝,2719 張有化妝。圖片大小爲361*361。從裏面隨機選出100張未化妝的,250張化妝的作爲測試集。並且附帶分割的mask圖片。
實驗結果: