一文看懂GAN演進圖譜

本文來自“深度推薦系統”專欄,這個系列將介紹在深度學習的強力驅動下,給推薦系統工業界所帶來的最前沿的變化。本文着重於串講GAN模型框架的演進圖譜。

之前在總結一文看懂AutoEncoder模型演進圖譜時就有涉及到GAN。GAN作爲近幾年深度學習的大坑以其優雅的理論和驚豔的效果而大火。本文簡單總結串講下GAN發展至今比較有代表性的模型以及其主要特點。

還是老規矩,先放一張GAN家族主要模型的概要圖有一個大致的概念。左邊部分主要是改進模型解決實際的圖片轉換,文本轉圖像,生成圖片,視頻轉換等實際問題;右邊部分呢則是主要解決GAN框架本身存在的一些問題。

傳統的生成模型最早要追溯到80年代的RBM,以及後來逐漸使用深度神經網絡進行包裝的AutoEncoder。然後就是現在稱得上最火的生成模型GAN。

GAN

Ian Goodfellow 的原始 GAN 論文[2]肯定是必讀之作。涉及了GAN框架、“非飽和”損失函數以及最優判別器的推導。

DCGAN

顧名思義,DCGAN[3]主要討論CNN與GAN如何結合使用並給出了一系列建議。另外還討論了GAN特徵的可視化、潛在空間插值等問題。

ImprovedGAN

Ian Goodfellow等人[4]提供了諸多訓練穩定GAN的建議,包括特徵匹配、mini-batch識別、歷史平均、單邊標籤平滑以及虛擬批標準化等技巧。討論了GAN不穩定性的最佳假設。

PACGAN

PACGAN[5]討論的是的如何分析model collapse,以及提出了PAC判別器的方法用於解決model collapse。思想其實就是將判別器的輸入改成多個樣本,這樣判別器可以同時看到多個樣本可以從一定程度上防止model collapse。

WGAN

WGAN[6]首先從理論上分析了原始GAN模型存在的訓練不穩定、生成器和判別器的loss無法只是訓練進程、生成樣本缺乏多樣性等問題,並通過改進算法流程針對性的給出了改進要點。

CycleGAN

CycleGAN[7]討論的是image2image的轉換問題,提出了Cycle consistency loss來處理缺乏成對訓練樣本來做image2image的轉換問題。Cycle Consistency Loss 背後的主要想法,圖片A轉化得到圖片B,再從圖片B轉換得到圖片A’,那麼圖片A和圖片A’應該是圖一張圖片。

Vid2Vid

Vid2Vid[8]通過在生成器中加入光流約束,判別器中加入光流信息以及對前景和背景分別建模重點解決了視頻轉換過程中前後幀圖像的不一致性問題。

PGGAN

PGGAN[9]創造性地提出了以一種漸進增大(Progressive growing)的方式訓練GAN,利用逐漸增大的PGGAN網絡實現了效果令人驚歎的生成圖像。“Progressive Growing” 指的是先訓練 4x4 的網絡,然後訓練 8x8,不斷增大,最終達到 1024x1024。這既加快了訓練速度,又大大穩定了訓練速度,並且生成的圖像質量非常高。

StackGAN

StackGAN[10]是由文本生成圖像,StackGAN模型與PGGAN工作的原理很像,StackGAN 首先輸出分辨率爲64×64 的圖像,然後將其作爲先驗信息生成一個 256×256 分辨率的圖像。

BigGAN

BigGAN[11]模型是基於 ImageNet 生成圖像質量最高的模型之一。該模型很難在本地機器上實現,而且 有許多組件,如 Self-Attention、 Spectral Normalization 和帶有投影鑑別器的 cGAN等。

StyleGAN

StyleGAN[12]應該是截至目前最複雜的GAN模型,該模型借鑑了一種稱爲自適應實例標準化 (AdaIN) 的機制來控制潛在空間向量 z。雖然很難自己實現一個StyleGAN,但是它提供了很多有趣的想法。

參考文獻

[1] Must-Read Papers on GANs/ 必讀!生成對抗網絡GAN論文TOP 10

[2] Generative Adversarial Networks

[3] Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks

[4] Improved Techniques for Training GANs

[5] PacGAN: The power of two samples in generative adversarial networks

[6] Wasserstein GAN

[7] Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

[8] Video-to-Video Synthesis

[9] Progressive Growing of GANs for Improved Quality, Stability, and Variation

[10] StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks

[11] Large Scale GAN Training for High Fidelity Natural Image Synthesis

[12] A Style-Based Generator Architecture for Generative Adversarial Networks

本文授權轉載自知乎專欄“深度推薦系統”。原文鏈接:https://zhuanlan.zhihu.com/p/70033932

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章