【2019 arxiv】
Karras, Tero, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. “Analyzing and improving the image quality of stylegan.” arXiv preprint arXiv:1912.04958 (2019).
任務:無條件圖像生成
問題:對StyleGAN中出現的小氣泡的失真現象進行分析
本文對StyleGAN模型進行了全面的分析,對原來出現的小氣泡狀的失真現象進行了分析,並提出了改進後的StyleGAN_v2
本文首先對原來的網絡進行進行了改進,將原來在特徵圖上進行了modulation和normalization改在了在網絡權重中進行modulation和demodulation,同時對損失函數採用不同的使用頻率,並增加了Path Length的正則化,同時不再使用progress growing的策略,而是在G中使用skip結構,在D中使用residual結構,所有尺度同時訓練,最後還提出了對64-1024尺度的特徵圖通道數翻倍的更大的網絡。
作者在StyleGAN的基礎上一共提出了五項改進,同時作者發現Perceptual Path Length的結果與人的感覺更相符
Weight domodulation
(a)是StyleGAN的模型
(b)是StyleGAN中間的詳細細節
©是對StyleGAN進行了改進
①將noise(B)和bias(b)移到每個block之外(在normalization之後)
②norm和modulation的操作只需要對方差進行,不需要對均值進行
③在輸入層的bias、noise和norm可以移除
(d)對©中的Instance Normalization進行了改進
©中的modulation是對於特徵圖進行的,作者提出可以改爲對模型參數進行約束
Modulation:
Demodulation:
在具體實現時使用group convolution操作
Lazy regularization
當模型有main loss和regularization loss時,對於regularization loss的計算頻率可以更少(例如每更新16個main loss後使用一次regularization loss),在不影響模型效率的同時可以減少計算量和內存使用
Path length regularization
爲了使得隱向量空間到圖像的映射更加連續,約束每個方向的路徑長度都變小
其中w爲z在經過8個FC後的隱狀態向量,y=g(w)爲生成圖像
a爲||y_w^Ty||_2的指數平滑均值
計算時實際使用下式計算
不使用Progressive growing方法
(a)爲StyleGAN中使用的方法,(b)爲skip-connection方法,©爲residual方法
通過實驗發現在生成器中使用skip方法,在判別器中使用residual方法的效果更好
Large Network
作者同時實驗發現在訓練的不同階段,不同尺度的圖像對最終生成圖像的影響不同,但是在改進後的StyleGAN中發現,512尺度的圖像的影響度比1024尺度的大,因此認爲可能是網絡容量不夠導致的
爲此提出了將64-1024尺度階段中所有特徵圖的通道數翻倍
數據集
FFHQ(1024 * 1024)
LSUN Car(512 * 384)
LSUN Cat(256 * 256)
LSUN Church(256 * 256)
LSUN Horse(256 * 256)
評價指標
①FID
②Perceptual Path Length(PPL)
其中w=f(z)表示經過FC後的在隱狀態的向量,然後對兩個w之間進行插值,計算每隔一小步後生成的兩張圖像,在所有中間特徵層的特徵距離的均值,再對所有區間進行求和,作爲這兩個w對之間的距離,再採樣100000個z對進行計算
③Precision&Recall
爲一個圖像的特徵, 表示生成圖像組成的特徵集合, 表示真實圖像組成的特徵集合
f判斷某一圖像特徵是否在某一集合特徵中任意特徵的最k鄰近集之中
實驗
①將生成圖像或真實圖像返回到W空間,然後再重新生成圖像,並計算前後兩張圖像之間的距離(使用LPIPS距離)
其中,返回到W空間時,通過反向傳播方法同時求出最優的W空間向量和輸入噪聲n
損失函數如下:
後一項是爲了約束噪聲符合正態分佈
重建圖像及最優化噪聲
重建前後圖像的LPIPS距離
重建圖像的對比
②生成圖像