Triple Generative Adversarial Nets

文章下載鏈接:https://arxiv.org/pdf/1703.02291.pdf

https://arxiv.org/pdf/1703.02291v2.pdf

一、這篇文章解決了什麼問題?

        生成對抗網絡(GAN)在圖像生成和半監督學習(SSL)中顯示出了希望。

        但是,SSL中現有的GAN有兩個問題:

(1)生成器和判別器(即分類器)可能無法同時處於最佳狀態;

(2)生成器無法控制所生成樣本的語義

        問題本質上是由兩個參與者組成的,其中單個鑑別者在識別假樣本和預測標籤方面擔當着不兼容的角色,並且僅估計數據而未考慮標籤。爲了解決這些問題,本文提出了三重生成對抗網絡(Triple-GAN),該網絡由三個參與者組成:生成器,判別器和分類器。生成器和分類器表徵圖像和標籤之間的條件分佈,而判別器僅專注於識別僞造的圖像標籤對。

       本文設計兼容的實用程序,以確保以分類器和生成器爲特徵的分佈都收斂於數據分佈。在各種數據集上的結果表明,Triple-GAN作爲一個統一模型可以同時(1)在深度生成模型中獲得最新的分類結果,以及(2)弄清輸入的類和樣式並順利轉移在數據空間中通過條件空間中的潛在空間插值。

二、Introduction

       深度生成模型(DGM)可以捕獲數據的基本分佈併合成新樣本。 近來,基於生成對抗網絡(GAN)生成逼真的圖像已經取得了重大進展。 GAN被公式化爲兩人遊戲,其中生成器G將隨機噪聲z作爲輸入並在數據空間中生成樣本G(z),而判別器D則確定某個樣本是否來自真實數據分佈p( x)或生成器。 G和D都被參數化爲深度神經網絡,並且訓練過程是爲了解決極小極大問題:

        其中p z(z)是簡單分佈(例如均勻或正態),而U(·)表示效用。 給定一個生成器和定義的分佈pg,在非參數設置中,最佳判別符爲D(x)= p(x)/(pg(x)+ p(x)),並且如果和 僅當pg(x)= p(x)時,這在圖像生成方面是需要的。

       一般說來,GAN和DGM在半監督學習(SSL)中也被證明有效,同時又保持了生成能力。 在相同的兩人遊戲框架下,Cat-GAN使用分類判別網絡和目標函數對GAN進行了概括,該目標函數在給定真實數據的情況下最小化了預測的條件熵,而在給定生成樣本的情況下最大化了預測的條件熵。Odena 和Salimans等用與生成器生成的僞造數據相對應的另一類增加了分類判別器。 現有的SSL GAN中存在兩個主要問題:(1)生成器和判別器(即分類器)可能無法同時處於最佳狀態; (2)生成器無法控制所生成樣本的語義。

       例如,對於第一個問題,Salimans等人提出了兩個可供選擇的訓練目標,它們對於SSL中的分類或圖像生成均適用,但不能同時適用於兩者。特徵匹配的目標在分類中效果很好,但是無法生成無法區分的樣本(例如,請參見第5.2節),而小批量識別的另一個目標則是能夠生成真實的圖像,但是不能準確地預測標籤。相關文章中並沒有對該現象進行深入分析,在這裏本文認爲它們本質上是由兩個角色的公式產生的,其中一個判別器必須扮演兩個不相容的角色-識別假樣本和預測標籤。具體地,假設G是最優的,即p(x)= pg(x),並考慮樣本x〜pg(x)。 一方面,作爲判別器,最優D應該將x標識爲具有非零概率的僞樣本(證明請參見[7])。另一方面,由於x〜p(x),所以作爲分類器,最優D應該始終可靠地預測x的正確分類。由於D具有兩個不兼容的收斂點,因此發生衝突,這表明G和D可能不會同時處於最佳狀態。而且,即使在大多數實際情況下,只要p g(x)和p(x)重疊,即使G不完美,問題仍然存在。給定樣本來自重疊區域,D的兩個角色仍然通過對樣本進行不同的處理而競爭,從而導致分類器質量較差。即,現有的兩人遊戲模型的學習能力受到限制,應該解決該問題以提高當前的SSL結果。

       對於第二個問題,在有限的監督下將有意義的物理因素(如對象類別)與潛在表示分離開來是普遍關注的問題。 然而,儘管某些工作可以在給定完整標籤的情況下學習到這樣的表示形式,但是現有的GAN都無法學習SSL中解開的表示形式。 同樣,我們認爲問題是由他們的兩人組成引起的。 具體地,[26、25]中的判別器採用單個數據而不是數據標籤對作爲輸入,並且當證明樣品是真實的還是假的時,標籤信息被完全忽略。 因此,生成器將不會從判別器接收到任何關於標籤信息的學習信號,因此,這樣的模型無法控制所生成樣本的語義,這是不令人滿意的。

       爲了解決這些問題,本文提出了Triple-GAN,Triple-GAN是一種靈活的遊戲理論框架,用於在SSL中分類和分類條件圖像生成,其中擁有部分標記的數據集。我們引入了兩個條件網絡-分類器和生成器,分別生成給定真實數據的僞標籤和生成實標籤的僞數據。爲了共同證明條件網絡樣本的質量,本文定義了一個唯一的判別器網絡,唯一的作用是區分數據標籤對是否來自真實標籤數據集。所得模型稱爲Triple-GAN,因爲不僅存在三個網絡,而且本文考慮了三個聯合分佈,即真實的數據標籤分佈和條件網絡定義的分佈(有關Triple-GAN的說明,請參見圖1)。直接由分類器和條件生成器都是最佳的理想平衡驅動,本文精心設計了兼容的實用程序,包括對抗性損失和無偏正則化(請參閱第3節),從而爲解決具有挑戰性的SSL任務提供了有效的解決方案,理論與實踐。

圖1:三重GAN(彩色最佳視圖)的圖示。 D,C和G的效用分別用藍色,綠色和黃色着色,其中“ R”表示拒絕,“ A”表示接受,“ CE”表示交叉熵損失。 “ A”和“ R”是對抗性損失,“ CE”是無偏正則化,可確保p g,p c和p之間的一致性,p g,p c和p分別是生成器,分類器和真實數據生成過程定義的分佈。

        特別是,從理論上講,好的分類器不會像第一個問題所述的那樣競爭,而是會在Triple-GAN中產生好的生成器,反之亦然(請參見第3.2節)。此外,判別器可以從分類器訪問未標記數據的標籤信息,然後迫使生成器生成正確的圖像標籤對,這解決了第二個問題。根據經驗,本文在廣泛採用的MNIST [14],SVHN [19]和CIFAR10 [12]數據集上評估我們的模型。結果(參見第5節)表明,Triple-GAN可以同時學習一個好的分類器和條件生成器,這與我們的動機和理論結果相吻合。

        總的來說,本文的主要貢獻有兩個方面:(1)本文分析了現有SSL GAN [26,25]中的問題,並提出了一種新穎的博弈論的Triple-GAN框架,以精心設計的兼容目標解決這些問題; (2)本文證明,在具有不完整標籤的三個數據集上,Triple-GAN可以大大提高DGM的最新分類結果,同時可以解開類和樣式並執行類條件插值。 

三、方法

        本文考慮在半監督的環境中學習DGM,其中有一個部分標記的數據集,其中x表示輸入數據,y表示輸出標籤。目的是預測未標記數據的標記y並生成以y爲條件的新樣本x。這與純生成的無監督設置不同,後者的唯一目標是從生成器中採樣數據x來欺騙鑑別器。因此,兩人遊戲足以描述GAN中的過程。在本文的設置中,由於標籤信息y不完整(因此不確定),因此本文的密度模型應該描述x和y的不確定性,因此輸入標籤對的聯合分佈p(x,y)。

         由於y缺少值,因此無法直接應用兩人GAN。與之前的工作[26,25]不同,後者僅限於兩人遊戲框架,並且可能導致目標不相容,基於對聯合分佈可以通過兩種方式分解的見解來構建我們的遊戲理論目標。 p(x,y)= p(x)p(y | x)和p(x,y)= p(y)p(x | y),並且條件分佈p(y | x)和p( x | y)分別對分類和類條件生成感興趣。爲了聯合估計這些以分類器網絡和分類條件生成器網絡爲特徵的條件分佈,本文定義了一個唯一的判別器網絡,其唯一的作用是區分樣本是來自真實數據分佈還是來自模型。因此,本文自然將GAN擴展到Triple-GAN,這是一個三層遊戲,用於描述SSL中分類和類條件生成的過程。

 四、實驗

        現在,本文在廣泛採用的MNIST [14],SVHN [19]和CIFAR10 [12]數據集上展示結果。 MNIST由50,000個訓練樣本,10,000個驗證樣本和10,000個大小爲28×28的手寫數字測試樣本組成。 SVHN由73,257個訓練樣本和26,032個測試樣本組成,每個都是32×32大小的彩色圖像,其中包含具有不同背景的數字序列。 CIFAR10由彩色圖像組成,這些圖像分佈在10個通用類別中:飛機,汽車,鳥類,貓,鹿,狗,青蛙,馬,船和卡車。 CIFAR10中有50,000個培訓樣本和10,000個大小爲32×32的測試樣本。 如果需要,本文將5,000個SVHN和CIFAR10的訓練數據進行了驗證。 在CIFAR10上,本文按照[13]對C的輸入執行ZCA,但仍使用G和D生成並估計原始圖像。

       

      

 

五、結論

        本文介紹了三重生成對抗網絡(Triple-GAN),這是一個由三個參與者(生成器,判別器和分類器)組成的統一遊戲理論框架,用於使用兼容的實用程序進行半監督學習。 利用此類實用程序,Triple-GAN解決了現有方法的兩個主要問題[26,25]。 具體來說,Triple-GAN確保分類器和生成器都可以從博弈論的角度分別實現各自的最優值,並使生成器可以對特定類別的數據進行採樣。 本文在MNIST,SVHN和CIFAR10數據集上的經驗結果表明,作爲統一模型,Triple-GAN可以同時實現深度生成模型之間的最新分類結果,並解開樣式和類,並可以通過 潛在空間中的插值。

相關其他文章講解:https://segmentfault.com/a/1190000022263719/

                                https://blog.csdn.net/u011961856/article/details/77605933

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章