【論文閱讀】Cross-domain Correspondence Learning for Exemplar-based Image Translation

【2020CVPR】
代碼地址:https://panzhang0212.github.io/CoCosNet/
Zhang, Pan, Bo Zhang, Dong Chen, Lu Yuan, and Fang Wen. “Cross-domain Correspondence Learning for Exemplar-based Image Translation.” arXiv preprint arXiv:2004.05571 (2020).

任務:基於參考圖像的圖像轉換

概述

本文研究的問題是基於語義圖像和風格參考圖像的圖像轉換問題。
本文提出的模型先將輸入語義圖像和輸入參考風格圖像分別通過編碼器進行領域對齊,並使用特徵計算兩者每個像素點之間的相似度,並根據該相似度得到變形的參考圖像,再將其使用positional normalization和spatially-variant denormalizaiton(類似於AdaIN)的方法,在從固定噪聲生成最終圖像的過程中將該風格注入圖像。
損失函數由僞參考圖像對損失、領域對齊損失、語義約束損失、風格約束損失、相似度矩陣正則化和生成對抗損失組成。

模型結構

在這裏插入圖片描述A域的輸入語義圖像xAx_A,B域的輸入參考風格圖像yBy_BxBx_BxAx_A對應的在B域的圖像(但是風格和yBy_B不一樣)

先將輸入語義圖像和輸入參考風格圖像分別通過編碼器進行領域對齊,並使用該計算兩者每個像素點之間的相似度,並根據該相似度得到變形的參考圖像,再將其使用類似於AdaIN的方法,在從固定噪聲生成最終圖像的過程中將該風格注入圖像
1、領域對齊網絡
首先分別使用各自的編碼器將xAx_AyBy_B轉換到共享域S特徵xSx_SySy_S
在這裏插入圖片描述
再使用兩者特徵經過channel-wise的歸一化後計算每個像素點之間的匹配度
在這裏插入圖片描述
將該相似度作爲係數,將輸入風格參考圖像作爲基,通過加權求和得到變形的參考圖像
在這裏插入圖片描述
2、轉換網絡
從一個固定的常量編碼z開始,通過卷積層生成最終的圖像
每個block使用positional normalization和spatially-variant denormalizaiton來將變形的參考圖像融入進生成圖像
整體方法類似於AdaIN,positional normalization指歸一化時每張圖像按照每個像素點求均值和方差(即同一位置的不同通道的均值和方差),spatially-variant denormalization指將變形的參考圖像r_{y->x}經過卷積層,從而得到每個位置的放大係數和偏置
在這裏插入圖片描述
最終生成圖像爲
在這裏插入圖片描述
整體網絡結構如下,其中style encoderx7表示分別使用7個style encoder得到生成器中對應每個block中spatially-variant denormalization中每個對應位置的α和β
Domain adaptor中卷積層爲conv-IN-LeakRelU,兩個域先各自使用domain adaptor,然後再使用shared adaptive feature block
在這裏插入圖片描述

損失函數

在這裏插入圖片描述
1、僞參考圖像對損失
在這裏插入圖片描述
先對xBx_B進行隨機的變形得到xBx'_B,再將其作爲輸入參考風格圖像,與對應的xAx_A進行圖像,將生成圖像與xBx_B約束兩者在預訓練的VGG19模型上各層的特徵距離
2、領域對齊損失
在這裏插入圖片描述
約束配對的圖像轉換公共域S時兩者特徵的距離,在計算前兩者分別進行channel-wise的歸一化
3、參考圖像轉換損失
在這裏插入圖片描述
分別使用兩個損失來約束生成圖像的高層語義信息和xBx_B相近,風格信息和yBy_B相近
使用預訓練的VGG19網絡,高層語義使用relu4_2層,風格信息使用relu2_2至relu5_2層
4、相關度正則化
在這裏插入圖片描述
ry>xr_{y->x}是之前使用xAx_AyBy_B每個像素點之間的相關度作爲係數,yBy_B圖像作爲基,進行加權求和得到的變形參考圖像,ry>x>yr_{y->x->y}則是同樣將相關度作爲係數,將ry>xr_{y->x}作爲基,重新進行加權求和試圖將圖像變換回yBy_B
5、生成對抗損失
在這裏插入圖片描述

數據集

訓練時所有圖像選取256*256大小
1、ADE20k:20k張自然場景圖,每張圖有150類的分割mask
2、ADE20k-outdoor:從ADE20k中選出的戶外圖像
3、CelebA-HQ:使用Canny邊緣檢測器從圖像中抽取人臉邊緣
4、Deepfashion:52712張穿着時尚衣服的人物圖像,使用OpenPose抽取人身體上的關鍵點

評價指標

1、FID
2、SWD(sliced Wasserstein distance)
在這裏插入圖片描述
隨機生成16384張圖像,並在每個尺度的拉普拉斯金字塔中選擇128個由3通道的7*7像素組成的描述子,對於生成圖像和真實圖像各自的每個尺度的描述子分別按通道進行歸一化,然後計算SWD距離來估計兩者統計上的相似度
低像素尺度的描述子相似度代表了圖像結構,而高像素尺度的描述子相似度代表了邊緣和噪聲等像素級別的性質
3、語義一致性
使用在ImageNet上預訓練的VGG模型的高層級特徵(relu3_2,relu4_2,relu5_2)計算生成圖像和輸入語義圖像(xAx_A)之間的特徵餘弦距離
4、風格相關性
使用度量顏色和紋理等的低層級特徵(relu1_2,relu2_2)來度量生成圖像和輸入參考圖像(yBy_B)之間的距離

實驗

1、生成圖像對比
在這裏插入圖片描述

2、人類主觀評價
在這裏插入圖片描述
3、跨領域的相關度
利用correlation matrix可以計算輸入語義圖像和輸入參考風格圖像之間不同點的對應關係
在這裏插入圖片描述
4、定量指標
在這裏插入圖片描述
語義一致性
在這裏插入圖片描述
風格相關性
在這裏插入圖片描述

5、ablation study
在這裏插入圖片描述
6、圖像編輯
給定一張圖像及其對應的mask,對語義mask進行修改,再將原圖像作爲參考風格圖像
在這裏插入圖片描述
7、人臉化妝
只需對一個人進行化妝的編輯,就可以將其作爲參考風格圖像,對其他圖像進行同樣的變換
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章