研究生論文之基於圖像特徵的條件對抗式生成網絡

前言:

前段時間看到CVPR上的一篇論文《Y-Autoencoders: disentangling latent representations via sequential-encoding》,其主要創新在於使用Autoencoders進行圖像翻譯也即是(image-to-image),感覺和自己研一時投的論文目標一致,都是想用Autoencoders進行圖像合成。所以就分享一下自己的論文吧。關於Y-Autoencoders的原理可以參考我的的這篇博客

 

Autoencoders的架構:

首先我們圖一所示的原始的Autoencoders的網絡的架構吧。從中我們可以看到Autoencoders一個重要的特點(輸入圖像和輸出圖像結果一樣),輸入圖像首先因果一系列的卷積操作之後得到一個隱層特徵,然後隱層特徵經過一系列的反置卷積操作得到恢復後的圖像,最後使用均方誤差計算恢復後的圖像和原始圖像之間的損失值。既然生成圖像和原始圖像一致那麼是不是網絡就沒有意義了。其實不然我們可以看到Autoencoders中包含一個隱層特徵。這個特徵能夠用於恢復圖像,而且比原始數據要小的多。所以一般Autoencoders用於圖像壓縮方面。

圖一
標題

 

F-Autoencoders的架構:

嚴格意義上來說我這篇論文並不能算得上Autoencoders,當時的定位是使用圖像的隱層特徵而不是隨機的高斯噪音向量進行圖像合成,當時認爲我這種方法的話,會加快圖像合成的速度。因爲相對於從隨機噪音到真實圖像分佈,使用圖像對應的隱層特徵到真實空間肯定會更快的,思想如圖二所示。但是後來的投稿的時候別人指出這種方法的會限制GAN的使用範圍。也即是之前的GAN是隨機向量所以生成圖像有無數種,但是我的方法每次生成圖像時需要對應的有一個輸入圖像。

 

圖一
圖二

 

 

F-Autoencoders的架構如圖三所示

首先爲了保證保證編碼器得到的隱層特徵有意義,我做了和Y-Autoencoders相同的操作,也即是編碼器不僅輸出隱層特徵還要輸出圖像類別信息,保證編碼器輸出的隱層特徵是有意義的。

然後選擇一個隨機的標籤和對應的隱層特徵結合,一起放到解碼器之中,合成一張圖像。

最後定義一個鑑別器,其首先要保證生成的圖像能夠被判斷爲真,而且要保證圖像對應的類別要和隨機標籤的類別一致。

但是最後發現一個問題,在mnist上很容易實現這種轉化,但是在celebA上這種操作確實很難。當時的猜想是解碼器得到的隱層特徵很接近,所以只是通過標籤的調節不同類別之間的圖像的轉化很困難。所以當時就放棄了。哈哈哈哈。但是Y-Autoencoders通過增加了三個額外的所示函數就將上述問題解決了。確實挺好的。

圖三

 

 

發佈了99 篇原創文章 · 獲贊 75 · 訪問量 7萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章