【論文閱讀】Analyzing and Improving the Image Quality of StyleGAN

【2019 arxiv】
Karras, Tero, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. “Analyzing and improving the image quality of stylegan.” arXiv preprint arXiv:1912.04958 (2019).

任務:無條件圖像生成
問題:對StyleGAN中出現的小氣泡的失真現象進行分析
在這裏插入圖片描述

本文對StyleGAN模型進行了全面的分析,對原來出現的小氣泡狀的失真現象進行了分析,並提出了改進後的StyleGAN_v2
本文首先對原來的網絡進行進行了改進,將原來在特徵圖上進行了modulation和normalization改在了在網絡權重中進行modulation和demodulation,同時對損失函數採用不同的使用頻率,並增加了Path Length的正則化,同時不再使用progress growing的策略,而是在G中使用skip結構,在D中使用residual結構,所有尺度同時訓練,最後還提出了對64-1024尺度的特徵圖通道數翻倍的更大的網絡。

在這裏插入圖片描述

作者在StyleGAN的基礎上一共提出了五項改進,同時作者發現Perceptual Path Length的結果與人的感覺更相符

Weight domodulation

在這裏插入圖片描述
(a)是StyleGAN的模型
(b)是StyleGAN中間的詳細細節
©是對StyleGAN進行了改進
①將noise(B)和bias(b)移到每個block之外(在normalization之後)
②norm和modulation的操作只需要對方差進行,不需要對均值進行
③在輸入層的bias、noise和norm可以移除
(d)對©中的Instance Normalization進行了改進
©中的modulation是對於特徵圖進行的,作者提出可以改爲對模型參數進行約束
Modulation:
在這裏插入圖片描述
Demodulation:
在這裏插入圖片描述
在具體實現時使用group convolution操作

Lazy regularization
當模型有main loss和regularization loss時,對於regularization loss的計算頻率可以更少(例如每更新16個main loss後使用一次regularization loss),在不影響模型效率的同時可以減少計算量和內存使用

Path length regularization
爲了使得隱向量空間到圖像的映射更加連續,約束每個方向的路徑長度都變小
在這裏插入圖片描述
其中w爲z在經過8個FC後的隱狀態向量,y=g(w)爲生成圖像
a爲||y_w^Ty||_2的指數平滑均值
計算時實際使用下式計算
在這裏插入圖片描述

不使用Progressive growing方法

在這裏插入圖片描述
(a)爲StyleGAN中使用的方法,(b)爲skip-connection方法,©爲residual方法
通過實驗發現在生成器中使用skip方法,在判別器中使用residual方法的效果更好

Large Network

作者同時實驗發現在訓練的不同階段,不同尺度的圖像對最終生成圖像的影響不同,但是在改進後的StyleGAN中發現,512尺度的圖像的影響度比1024尺度的大,因此認爲可能是網絡容量不夠導致的

在這裏插入圖片描述
爲此提出了將64-1024尺度階段中所有特徵圖的通道數翻倍

數據集

FFHQ(1024 * 1024)
LSUN Car(512 * 384)
LSUN Cat(256 * 256)
LSUN Church(256 * 256)
LSUN Horse(256 * 256)

評價指標

①FID
②Perceptual Path Length(PPL)
在這裏插入圖片描述
其中w=f(z)表示經過FC後的在隱狀態的向量,然後對兩個w之間進行插值,計算每隔一小步後生成的兩張圖像,在所有中間特徵層的特徵距離的均值,再對所有區間進行求和,作爲這兩個w對之間的距離,再採樣100000個z對進行計算
③Precision&Recall
在這裏插入圖片描述
ϕϕ爲一個圖像的特徵,ΦgΦ_g 表示生成圖像組成的特徵集合,ΦrΦ_r 表示真實圖像組成的特徵集合
f判斷某一圖像特徵是否在某一集合特徵中任意特徵的最k鄰近集之中

實驗

①將生成圖像或真實圖像返回到W空間,然後再重新生成圖像,並計算前後兩張圖像之間的距離(使用LPIPS距離)
其中,返回到W空間時,通過反向傳播方法同時求出最優的W空間向量和輸入噪聲n
損失函數如下:
在這裏插入圖片描述
後一項是爲了約束噪聲符合正態分佈
在這裏插入圖片描述

重建圖像及最優化噪聲
在這裏插入圖片描述
重建前後圖像的LPIPS距離

在這裏插入圖片描述
重建圖像的對比

②生成圖像
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章