史上最佳GAN被超越!生成人臉動物高清大圖真假難辨,DeepMind發佈二代VQ-VAE

栗子 安妮 發自 凹非寺
量子位 出品 | 公衆號 QbitAI

不得了,以生成逼真假照片出名、被稱作“史上最佳GAN”的BigGAN,被“本家”踢館了。

挑戰者同樣來自Google DeepMind,其新鮮出爐的VQ-VAE二代生成模型,生成出的圖像,號稱比BigGAN更加高清逼真,而且更具有多樣性!

不服氣?那先看看這些假照片作品。

濃眉大眼的棕發妹子,與歪果仁大叔:

640?wx_fmt=gif

神似何潔的亞裔面孔:

640?wx_fmt=png

鬍子清晰可見的短髮男:

640?wx_fmt=png

此外,還有各種類型的動物:

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

在Top-1準確率測試上,VQ-VAE二代比BigGAN成績多出了16.09分。

DeepMind負責星際項目、也是這項研究的作者之一Oriol Vinyals表示,VQ-VAE二代簡直令人驚訝,如此簡單的想法竟然能夠產生如此好的生成模型!

甚至……連曾經也推出過逼真假臉的英偉達員工:英偉達研究院的高級研究科學家Arash Vahdat,也在研究推特下評價:

令人印象深刻啊!!!

640?wx_fmt=png

短短几小時,這項研究在推特上收穫了500多贊,以及上百次轉發。

640?wx_fmt=png

來具體看看效果。

真實效果,好到驚豔

VQ-VAE生成的假照片,可以Hold住多種規格的精確度,在ImageNet上,可以訓練出256×256像素的動物:

640?wx_fmt=png

640?wx_fmt=png

如果投餵英偉達7萬張高清人臉數據集FFHQ(Flickr-Faces-HQ),輸出的圖像則爲1024×1024像素的高清大圖,連人臉上的細微毛孔都清晰可見:

640?wx_fmt=png

這些高清的妹子臉,顏值看起來也不低呢:

640?wx_fmt=png

640?wx_fmt=png

VQ-VAE生成出的假照片,比BigGAN的作品多樣多了。

與BigGAN相比,VQ-VAE不僅能生成不同物體和動物,還能生成不同視角以及不同姿勢的版本。

比如,同樣是生成鴕鳥,這是BigGAN的作品:

640?wx_fmt=png

而VQ-VAE,光鴕鳥頭就能生成不同姿態,有正臉的、側對鏡頭的、45度角擡頭仰望天空的、以及不想露臉上鏡的:

640?wx_fmt=png

640?wx_fmt=png

甚至相對簡單沒有四肢的金魚,都能合成這麼多形態:

640?wx_fmt=png

而BigGAN的角度相對來說非常單一:

640?wx_fmt=png

除了肉眼可見的視覺對比,研究人員還做了一票實驗,用多個性能指標證明VQ-VAE二代在多維度上優於BigGAN。

從分類準確率得分(Classification Accuracy Score,CAS)上看,VQ-VAE在Top-1準確率上爲58.74分,超出了BigGAN 42.65的成績16.09分,在Top-5準確率上,VQ-VAE領先了15.06分。

640?wx_fmt=png

在精確率-召回率指標(Precision - Recall metrics)上,VQ-VAE的精度比BigGAN 稍低,但召回值高出了一大截。

640?wx_fmt=png

在Inception Scores(IS)上,VQ-VAE沒有超越領先前人100多分BigGAN的成績,但FID值較低。

640?wx_fmt=png

總體來說,VQ-VAE的表現,在多樣性和視覺感官上,已經超越了BigGAN,在各項性能指標上表現也還不錯。

彌補了GAN的缺點

VQ-VAE-2可以理解成一個通信系統。

其中有編碼器,把觀察到的信息映射到一組離散的潛變量 (Latent Variables) 上。

還有解碼器,把這些離散變量中的信息重構 (Reconstruct) 出來。

系統分成兩部分,都是由編碼器和解碼器構成的。

第一部分

640?wx_fmt=png

它是一個分層的VQ-VAE,可以把不同尺度的信息分開處理。

比如,輸入一張256×256圖像,編碼器要把它壓縮進不同的潛在空間裏:

頂層 (Top Level) 要壓縮成64×64的潛在映射圖,爲**全局信息 (比如形狀等) 生成潛碼;

底層 (Bottom Level) 要壓縮成32×32的潛在映射圖,爲局部信息 (比如紋理等) 生成潛碼。

然後,解碼器用這兩個潛在映射圖 (Latent Maps) 中,做出一張與原圖同樣大小的重構圖,其中包含了局部和全局信息。

團隊發現,如果不用頂層來調節 (Condition) 底層,頂層就需要編碼像素中每一個細節。

所以,他們就讓每個層級分別依賴於像素 (Separately Depend on Pixels) :可以鼓勵AI在每個映射圖中,編碼補充信息 (Complementary Information) ,降低重構誤差

而學到分層潛碼 (Hierarchical Latent Codes) 之後,該進入下一部分了:

第二部分

在從潛碼中學到先驗 (Prior) ,生成新圖。

這一部分,是二代與一代最大的區別所在:把一代用到的自迴歸先驗 (Autoregressive Priors) 擴展、增強了。

用當前最優秀的PixelRNN模型來爲先驗建模,這是一個帶自注意力機制的自迴歸模型,能夠把先驗分佈 (Prior Distribution) ,和上一部分學到的邊界後驗 (Marginal Posterior) 匹配起來。

這樣,可以生成比從前相干性更高,保真度也更高的圖像。

和第一部分相似:這裏也有編碼器和解碼器,可以進一步壓縮圖像。

640?wx_fmt=png

做好之後,從先驗裏取樣,可以生成新的圖像:和原圖清晰度一致,並且保持了相關性 (Coherence) 。

兩個部分合在一起,可以把256×256的圖像,壓縮200倍來學習;把1024×1024的高清大圖,壓縮50倍來學習。

團隊說這樣一來,把圖像生成速度提升了一個數量級

在需要快速編碼、快速解碼的應用上,這樣的方法便有了得天獨厚的優勢。

同時,還避免了GAN的兩個著名缺點:

一是mode collapse,即生成某些圖像之後,GAN的生成器和判別器就達成和解,不再繼續學習了;二是多樣性不足的問題。

作者簡介

這項研究的作者共有三位,均來自DeepMind,Ali Razavi和Aäron van den Oord爲共同一作,Oriol Vinyals爲二作。

Ali Razavi博士畢業於滑鐵盧大學,此前在IBM、Algorithmics和Google就職過,2017年加入DeepMind,任職研究工程師。

研究員Aäron van den Oord小哥主要研究生成模型,此前還參與Google Play的音樂推薦項目。

640?wx_fmt=png

2017年,Aäron參與了哈薩比斯項目組關於Parallel WaveNet的研究,爲這篇論文的第一作者。

640?wx_fmt=png

Oriol Vinyals小哥此前參與了多個明星項目,比如星際項目、比如AlphaStar,還與圖靈獎得主Geoffrey Hinton和谷歌大腦負責人Jeff Dean一起合作過,合著論文Distilling the knowledge in a neural network。

640?wx_fmt=png

對了,最先稱讚BigGAN是“史上最佳GAN”的人,也是他~

傳送門

論文Generating Diverse High-Fidelity Images with VQ-VAE-2地址:

https://arxiv.org/abs/1906.00446

一週精選推薦

640?wx_fmt=png640?wx_fmt=png640?wx_fmt=png


640?wx_fmt=jpeg

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

喜歡就點「好看」吧 !

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章