【論文閱讀】Analyzing and Improving the Image Quality of StyleGAN

原創

2020-04-20 03:52

【2019 arxiv】
Karras, Tero, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. “Analyzing and improving the image quality of stylegan.” arXiv preprint arXiv:1912.04958 (2019).

任務：無條件圖像生成
問題：對StyleGAN中出現的小氣泡的失真現象進行分析

本文對StyleGAN模型進行了全面的分析，對原來出現的小氣泡狀的失真現象進行了分析，並提出了改進後的StyleGAN_v2
本文首先對原來的網絡進行進行了改進，將原來在特徵圖上進行了modulation和normalization改在了在網絡權重中進行modulation和demodulation，同時對損失函數採用不同的使用頻率，並增加了Path Length的正則化，同時不再使用progress growing的策略，而是在G中使用skip結構，在D中使用residual結構，所有尺度同時訓練，最後還提出了對64-1024尺度的特徵圖通道數翻倍的更大的網絡。

作者在StyleGAN的基礎上一共提出了五項改進，同時作者發現Perceptual Path Length的結果與人的感覺更相符

Weight domodulation

(a)是StyleGAN的模型
(b)是StyleGAN中間的詳細細節
©是對StyleGAN進行了改進
①將noise(B)和bias（b）移到每個block之外（在normalization之後）
②norm和modulation的操作只需要對方差進行，不需要對均值進行
③在輸入層的bias、noise和norm可以移除
(d)對©中的Instance Normalization進行了改進
©中的modulation是對於特徵圖進行的，作者提出可以改爲對模型參數進行約束
Modulation:

Demodulation:

在具體實現時使用group convolution操作

Lazy regularization
當模型有main loss和regularization loss時，對於regularization loss的計算頻率可以更少（例如每更新16個main loss後使用一次regularization loss），在不影響模型效率的同時可以減少計算量和內存使用

Path length regularization
爲了使得隱向量空間到圖像的映射更加連續，約束每個方向的路徑長度都變小

其中w爲z在經過8個FC後的隱狀態向量，y=g(w)爲生成圖像
a爲||y_w^Ty||_2的指數平滑均值
計算時實際使用下式計算

不使用Progressive growing方法

(a)爲StyleGAN中使用的方法，(b)爲skip-connection方法，©爲residual方法
通過實驗發現在生成器中使用skip方法，在判別器中使用residual方法的效果更好

Large Network

作者同時實驗發現在訓練的不同階段，不同尺度的圖像對最終生成圖像的影響不同，但是在改進後的StyleGAN中發現，512尺度的圖像的影響度比1024尺度的大，因此認爲可能是網絡容量不夠導致的

爲此提出了將64-1024尺度階段中所有特徵圖的通道數翻倍

數據集

FFHQ（1024 * 1024）
LSUN Car（512 * 384）
LSUN Cat（256 * 256）
LSUN Church（256 * 256）
LSUN Horse（256 * 256）

評價指標

①FID
②Perceptual Path Length（PPL）

其中w=f(z)表示經過FC後的在隱狀態的向量，然後對兩個w之間進行插值，計算每隔一小步後生成的兩張圖像，在所有中間特徵層的特徵距離的均值，再對所有區間進行求和，作爲這兩個w對之間的距離，再採樣100000個z對進行計算
③Precision&Recall

$ϕ$ 爲一個圖像的特徵， $Φ_g$ 表示生成圖像組成的特徵集合， $Φ_r$ 表示真實圖像組成的特徵集合
f判斷某一圖像特徵是否在某一集合特徵中任意特徵的最k鄰近集之中