【論文閱讀】Cross-domain Correspondence Learning for Exemplar-based Image Translation

原創

2020-05-02 18:22

【2020CVPR】
代碼地址：https://panzhang0212.github.io/CoCosNet/
Zhang, Pan, Bo Zhang, Dong Chen, Lu Yuan, and Fang Wen. “Cross-domain Correspondence Learning for Exemplar-based Image Translation.” arXiv preprint arXiv:2004.05571 (2020).

任務：基於參考圖像的圖像轉換

概述

本文研究的問題是基於語義圖像和風格參考圖像的圖像轉換問題。
本文提出的模型先將輸入語義圖像和輸入參考風格圖像分別通過編碼器進行領域對齊，並使用特徵計算兩者每個像素點之間的相似度，並根據該相似度得到變形的參考圖像，再將其使用positional normalization和spatially-variant denormalizaiton（類似於AdaIN）的方法，在從固定噪聲生成最終圖像的過程中將該風格注入圖像。
損失函數由僞參考圖像對損失、領域對齊損失、語義約束損失、風格約束損失、相似度矩陣正則化和生成對抗損失組成。

模型結構

A域的輸入語義圖像 $x_A$ ，B域的輸入參考風格圖像 $y_B$ ， $x_B$ 爲 $x_A$ 對應的在B域的圖像（但是風格和 $y_B$ 不一樣）

先將輸入語義圖像和輸入參考風格圖像分別通過編碼器進行領域對齊，並使用該計算兩者每個像素點之間的相似度，並根據該相似度得到變形的參考圖像，再將其使用類似於AdaIN的方法，在從固定噪聲生成最終圖像的過程中將該風格注入圖像
1、領域對齊網絡
首先分別使用各自的編碼器將 $x_A$ 和 $y_B$ 轉換到共享域S特徵 $x_S$ 和 $y_S$

再使用兩者特徵經過channel-wise的歸一化後計算每個像素點之間的匹配度

將該相似度作爲係數，將輸入風格參考圖像作爲基，通過加權求和得到變形的參考圖像

2、轉換網絡
從一個固定的常量編碼z開始，通過卷積層生成最終的圖像
每個block使用positional normalization和spatially-variant denormalizaiton來將變形的參考圖像融入進生成圖像
整體方法類似於AdaIN，positional normalization指歸一化時每張圖像按照每個像素點求均值和方差（即同一位置的不同通道的均值和方差），spatially-variant denormalization指將變形的參考圖像r_{y->x}經過卷積層，從而得到每個位置的放大係數和偏置

最終生成圖像爲

整體網絡結構如下，其中style encoderx7表示分別使用7個style encoder得到生成器中對應每個block中spatially-variant denormalization中每個對應位置的α和β
Domain adaptor中卷積層爲conv-IN-LeakRelU，兩個域先各自使用domain adaptor，然後再使用shared adaptive feature block

損失函數

1、僞參考圖像對損失

先對 $x_B$ 進行隨機的變形得到 $x'_B$ ，再將其作爲輸入參考風格圖像，與對應的 $x_A$ 進行圖像，將生成圖像與 $x_B$ 約束兩者在預訓練的VGG19模型上各層的特徵距離
2、領域對齊損失

約束配對的圖像轉換公共域S時兩者特徵的距離，在計算前兩者分別進行channel-wise的歸一化
3、參考圖像轉換損失

分別使用兩個損失來約束生成圖像的高層語義信息和 $x_B$ 相近，風格信息和 $y_B$ 相近
使用預訓練的VGG19網絡，高層語義使用relu4_2層，風格信息使用relu2_2至relu5_2層
4、相關度正則化

$r_{y->x}$ 是之前使用 $x_A$ 和 $y_B$ 每個像素點之間的相關度作爲係數， $y_B$ 圖像作爲基，進行加權求和得到的變形參考圖像， $r_{y->x->y}$ 則是同樣將相關度作爲係數，將 $r_{y->x}$ 作爲基，重新進行加權求和試圖將圖像變換回 $y_B$
5、生成對抗損失

數據集

訓練時所有圖像選取256*256大小
1、ADE20k：20k張自然場景圖，每張圖有150類的分割mask
2、ADE20k-outdoor：從ADE20k中選出的戶外圖像
3、CelebA-HQ：使用Canny邊緣檢測器從圖像中抽取人臉邊緣
4、Deepfashion：52712張穿着時尚衣服的人物圖像，使用OpenPose抽取人身體上的關鍵點

評價指標

1、FID
2、SWD(sliced Wasserstein distance)

隨機生成16384張圖像，並在每個尺度的拉普拉斯金字塔中選擇128個由3通道的7*7像素組成的描述子，對於生成圖像和真實圖像各自的每個尺度的描述子分別按通道進行歸一化，然後計算SWD距離來估計兩者統計上的相似度
低像素尺度的描述子相似度代表了圖像結構，而高像素尺度的描述子相似度代表了邊緣和噪聲等像素級別的性質
3、語義一致性
使用在ImageNet上預訓練的VGG模型的高層級特徵（relu3_2，relu4_2，relu5_2）計算生成圖像和輸入語義圖像（ $x_A$ ）之間的特徵餘弦距離
4、風格相關性
使用度量顏色和紋理等的低層級特徵（relu1_2，relu2_2）來度量生成圖像和輸入參考圖像（ $y_B$ ）之間的距離