英偉達實習生:零樣本風格遷移!多模態CLIP文本驅動圖像生成!

點擊下方AI算法與圖像處理”,一起進步!

重磅乾貨,第一時間送達

來源:GitHub ,新智元

【導讀】零樣本的風格遷移聽說過沒有?英偉達一個實習生小哥集文本CLIP和圖像生成StyleGAN於一身,只需要輸入幾個單詞就可以完成你想要的風格遷移效果!再也不用爲了風格遷移找數據啦!


StyleGAN想必大家都不陌生了,它藉助生成對抗網絡(GAN)對捕獲豐富語義的潛在空間和模擬圖像分佈的能力,可以用來換臉、風格遷移、換膚色等等,一般的輸入數據都是源域的圖像和目標域的圖像。
 
但這些模型的應用範圍僅限於可以收集大量圖像的域,這一要求嚴重限制了其適用性。事實上,在許多情況下(例如某個特定藝術家的繪畫),可能沒有足夠的數據來訓練一個GAN,甚至面臨根本沒有任何數據的情況。
 
根據以往的經驗,大規模預訓練模型已經見到了足夠多的域的數據,也就是說直接使用Vision語言模型也許可以不用收集數據,直接根據文本就可以召回相關域的圖像。
 
有了數據就可以建立一個文本驅動的圖像生成器啦!
 
英偉達的實習生 Rinon Gal 最近提出這樣一個模型, 不需要圖像輸入就可以做StyleGAN,祕訣就是利用CLIP模型的多模態能力
 
 
這種文本驅動的方法域外(out-of-domain)的圖像生成,研究人員引入了一個訓練方案,該方案只使用文本提示詞,就可以將預訓練的模型的域轉移到一個新的域。

域轉移(domain shift)的實現是通過修改生成器對與文本對齊的圖像的權重來實現的。
 
 
例如上圖中,研究人員修改了針對真實人臉和汽車的圖像生成器,就可以生成特定藝術風格的繪畫。還可以在教堂裏訓練生成器以生成紐約市的圖像。
 
但這種模型是相當於是 「盲目」訓練(train blindly) 的,在訓練過程中看不到目標域的任何圖像,也就是說這符合zero-shot的設定。
 
 
這個模型主要由兩個核心組件構成,StyleGAN和CLIP。
 
近年來,StyleGAN及其後繼模型已然是無條件圖像生成領域的老大哥,能夠合成質量非常高圖像。
 
StyleGAN生成器由兩部分組成,首先,映射網絡將從高斯分佈採樣的隱編碼轉換爲學習的隱空間中的向量。然後把這些隱向量輸入到第二個組件合成網絡,用來控制網絡中不同層的特徵。
 
之前的研究也證明了,通過遍歷這個中間隱空間W,或者通過在不同的網絡層上混合不同的W編碼,能夠對生成圖像中語義屬性的細粒度控制。
 
但這種潛在空間傳輸通常僅限於域內修改,也就是說,它被約束到具有與初始訓練集匹配的屬性的圖像的流形。相比之下,這篇論文的目標是在不同域之間轉換生成器,而不只是在隱空間內編輯或是微調語義感知。
 
結合StyleGAN的生成能力和CLIP的語義知識能力的模型最近也有人提出,模型叫StyleCLIP,並且 提出三種方法來利用CLIP的語義表達能力
 
1、隱優化技術(latent optimization technique) ,使用標準的反向傳播方法修改給定的潛編碼,使得生成的圖像和給定的目標文本之間的CLIP-space內距離最小。研究人員將這個損失函數命名爲全局CLIP損失。
2、隱映射(latent mapper) ,訓練網絡將輸入的隱編碼轉換爲修改生成圖像中文本描述屬性的編碼。這個映射器使用相同的全局CLIP損失進行訓練,從而最小化到目標文本的CLIP-space距離。對於一些劇烈的形狀修改,我們發現訓練這樣一個潛在的映射器可以幫助提高識別結果-
 
3、通過確定修改哪些維度的隱編碼會導致圖像空間變 ,從而發現GAN隱空間中有意義的變化方向。
 
這三個方法訓練和推理時間變化很大,但它們都與其他隱空間編輯方法有一個共同的特點,它們應用於給定圖像的修改在很大程度上受限於預訓練生成器的圖像域。

所以,StyleCLIP能夠改變髮型、表情,甚至可以將狼變成獅子,但他們不能將照片變成其他風格的繪畫。
 
爲此研究人員主要 從兩方面基於StyleCLIP又做了改進
(1) 如何才能最好地提取封裝在CLIP中的語義信息?
(2)應該如何正則化優化過程以避免模式崩潰?
 
首先就是損失函數的修改,除了之前提到的全局CLIP損失,第二個損失函數用來保留多樣性和防止圖像崩潰。一個圖像對包含兩個圖像,一個由參考生成器生成,另一個由修改的可訓練的生成器使用相同的隱編碼生成。
 
 
把參考圖像和目標圖像的embedding按照CLIP-space中源文本和目標文本的embedding方向對齊。

這個損失函數可以克服全局CLIP損失的缺點,如果目標生成器僅創建單個圖像,則從所有源到該目標圖像的剪輯空間方向將不同,所以它們不能全部與文本方向一致。

其次,網絡很難收斂到通用的解決方案,因此必須加入干擾來欺騙CLIP。
 
在實驗部分,下圖可以看到如何從狗生成到各種動物。對於所有動物翻譯實驗,在每次迭代中將可訓練層的數量設置爲三層,並訓練隱映射器以減少源域數據的泄漏。

可以看到變化主要集中在樣式或較小的形狀調整上。例如,許多動物都會豎起右耳,而大多數AFHQ數據集中的狗品種則不會。
 
 
除了zero-shot外,研究人員還將方法與兩種few-shot方案進行比較,即Ojha提出的模型和MineGAN進行比較。

第一種方法側重於保持源域的多樣性,同時適應目標域的風格,而後一種方法則通過引導GAN朝向更好地匹配目標集分佈的隱空間域來穩定訓練,但會犧牲一定的多樣性。

下圖可以看到雖然論文中提出的模型生成的圖片可以看出來有人工生成的痕跡,但它成功地避免了備選方案顯示的過度擬合和模式崩潰結果,保持了高度的多樣性,並且能夠在不提供任何目標域圖像的情況下實現了這一點。
 

 

參考資料:

https://stylegan-nada.github.io/


努力分享優質的計算機視覺相關內容,歡迎關注:

交流羣


歡迎加入公衆號讀者羣一起和同行交流,目前有美顏、三維視覺計算攝影、檢測、分割、識別、醫學影像、GAN算法競賽等微信羣


     
        
        
        
個人微信(如果沒有備註不拉羣!
請註明: 地區+學校/企業+研究方向+暱稱



下載1:何愷明頂會分享


AI算法與圖像處理」公衆號後臺回覆:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經典工作的總結分析


下載2:終身受益的編程指南:Google編程風格指南


AI算法與圖像處理」公衆號後臺回覆:c++,即可下載。歷經十年考驗,最權威的編程規範!



   
      
      
      
下載3 CVPR2021

AI算法與圖像處公衆號後臺回覆: CVPR 即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文


本文分享自微信公衆號 - AI算法與圖像處理(AI_study)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章