-
2020-3-16
StarGAN v2: Diverse Image Synthesis for Multiple Domains
Mark 多域instan-level style transfer
(1)爲了做多域,D沒有用ACGAN,而是輸出了多對real/fake,看是不是這一類的。很有創意的想法。(2)編碼從兩種情況來,一種是先驗高斯分佈,經過一個Fcn來,Fcn輸出了很多編碼,用於支持不同類。另一種是E輸出了很多類的style。(3)G輸入圖片和一個風格編碼,類別隱式嵌在風格編碼中。風格編碼會進行生成-編碼重構。圖像也會做二次重構。而且風格用AdaIN嵌入(4)爲了讓不同編碼圖片儘可能diverse,懲罰了兩種編碼生成後的距離。這個懲罰項沒有最優解,所以衰減於前5W輪。很牛逼的想法。(5)開了個AFHQ數據集,包括dog,cat, wildlife
https://github.com/lzhbrian/image-to-image-papers instance-level style transfer
-
2020-3-15
Image-to-image translation via group-wise deep whitening-and-coloring transformation
Mark GDWCT CVPR2019 instance-level strly transfer,和MUNIT、DRIT在一個任務上
兩方面:(一)整體結構方面,四個encoder,兩個decoder,兩個D。交換兩次,圖像上一次重構、二次重構,風格編碼和content編碼也重構。(二)提出GDWCT,主要貢獻。decoding之前,在網絡結構上把style encoding 搞進到content encoding去。很硬核。WCT原理大概是先whitening,把content特徵層進行channel維度歸一,也即均值維度是channel數。再coloring,通過矩陣變換讓特徵層的協方差與一個style matrix一致,再加上style給的一個均值。由於這麼搞參數是,這個過程如果不再channle上進行,而把channel分解成多個group,再每個group上進行,那麼參數量是. 這就是DGWCT。另外,這個過程是通過一個0到1之間的係數,分多步(hop)完成的,每一步的style參數還不一樣。強的一批。原文細節大概一頁,值得看
https://github.com/lzhbrian/image-to-image-papers instance-level style transfer
-
2020-3-15
A Unified Feature Disentangler for Multi-Domain Image Translation and Manipulation
NIPS2018 multi-domain 人臉 輪廓 圖畫,disentangle UFDN
把不同domain解到同一個隱空間,然後加上domain vector,進行generator。loss方面:(1)隱空間vae一套。(2)用一個去根據隱編碼E(x)辨識domain,encoder學着不讓分辨出來。有點像fadernetwork。(3)ACGAN.這裏的同時訓練了生成圖片,類似原始ACGAN中用info的部分。(ablation study說去掉(2),domain vector直接掛掉,有點奇怪,猜測可能是info的原因)。該方法也用於unsupervised domain adaptation(uda)
https://github.com/lzhbrian/image-to-image-papers Unsupervised multi-domain
-
2020-3-14
PairedCycleGAN: Asymmetric Style Transfer for Applying and Removing Makeup
CVPR2018 instance-level makeup
和GeoGAN有點像,添加有source,刪除沒source。交換兩次實現對偶重構,保持風格。一個亮點是用判別器判斷兩張臉是否同樣的style,爲了造真實數據集,generate a synthetic ground-truth by warping the reference makeup face to match the detected facial landmarks in the sorcue fae x. (我不太懂這個是怎麼做到的)。爲了做512高分辨率,G只負責局部生成(眼睛、嘴脣、皮膚)。G沒有用U-Net、STN,而使用了DilatedResNet,認爲DRN utilizes the high-resolution feature mapes to preserve image details.
https://github.com/lzhbrian/image-to-image-papers Unsupervised Instance-level
-
2020-3-14
XGAN: Unsupervised Image-to-Image Translation for Many-to-Many Mappings
ICML2018 人臉到卡通,對標CycleGAN和UNIT
和UNIT有點像,兩個Encoder,兩個Decoder。把兩個域都映射到同一個隱空間。loss有5個。(1)一次重構。(2)對抗訓練,用於混淆隱編碼來自哪個類。(3)爲了保持不同域的語義內容一致,最小化,這裏沒有直接從隱空間採樣,而是從來了,原文似乎也沒有對隱變量給先驗分佈。(4)兩個域兩個判別器,對抗訓練。(5)讓人臉的隱變量解到一個先驗知識上,這裏先驗知識用的是FaceNet的特徵層。(*)不同域encoder的最後兩層,decoder的前兩層share了。(*)作者承認,loss(3)和(4)可以理論上代替(2),但是(2)在訓練初始讓不同域編碼更一致。此外,提供了CartoonSet Dataset
https://github.com/lzhbrian/image-to-image-papers Unsupervised general
-
2020-3-14
RelGAN: Multi-Domain Image-to-Image Translation via Relative Attributes
ICCV2019 多屬性語義級人臉編輯。對標StarGAN和AttGAN
(1)類似STGAN的類別相減信號,沒有用ACGAN屬性分類,而是引入了一種,判斷三元組是否是真實的,有想法,但問題是和不是成對的,而和是成對的,不會出問題嗎?(2)爲了支持程度interpolation,引入預測程度. 希望把二值編輯置0,而中間編輯置,學着把中間編輯判成0,很有亮點!最後引入1次和2次重構。實驗超級充分。
https://github.com/lzhbrian/image-to-image-papers Unsupervised Multi Attribute
-
2020-3-13
Toward Learning a Unified Many-to-Many Mapping for Diverse Image Translation
PR2019 多域無監督,multi-modal InjectionGAN
和STD-GAN的想法很像啊,但是E沒有和D去share,也沒有分removing和adding兩步。所以這個E提了很多全局的東西。定量實驗做的很多。正態分佈KL約束Latent。且Encoder重參數化有擾動
https://github.com/lzhbrian/image-to-image-papers Unsupervised Multi Attribute
-
2020-3-12
SingleGAN: Image-to-Image Translation by a Single-Generator Network using Multiple Generative Adversarial Learning
ACCV2018 多域無監督轉換
一個G,多個D。G和StarGAN類似,但是z是one-hot編碼,(類似於一個屬性的多種取值),而且沒有直接concatnate,而使用了central biasing IN(CBIN)來影響x。D不分類,搞了多個。有二次重構。Many-to-many translation隨機挑兩個類互轉。本文還做了one-to-one domain translation with multi-modal mapping. 類似VAE,引入隱變量c,比較神奇的是,用了VAE中的KL散度約束c高斯分佈,而且用了c和E(G(x,c))的重構,這一點很有啓發性.
https://github.com/lzhbrian/image-to-image-papers Unsupervised Multi Attribute
-
2020-3-12
ComboGAN: Unrestrained Scalability for Image Domain Translation
CVPRW 2018 CycleGAN的多域擴展
把CycleGAN中的生成器拆成E和G兩塊。多個Encoder都編碼到同一個隱空間z。多個Generator負責各自類別的生成。loss和CycleGAN保持一致。將模型數量從降到
https://github.com/lzhbrian/image-to-image-papers Unsupervised Multi Attribute
-
2019-9-22
Unsupervised Eyeglasses Removal in the Wild
arXiv1909 Mark Instance Level Editing眼鏡的增刪
和之前Kim的那篇類似,將眼鏡風格和身份解出來。創新點在於用一個矩形Mask蓋住眼鏡區域,然後去解身份,並希望能用兩個向量復原整張原圖。
特定風格,師兄推薦
-
2019-8-14
MaskGAN: Towards Diverse and Interactive Facial Image Manipulation Cheng-Han
arXiv1907 Mark 提供CelebAHQ-Mask數據集,做Instance Level Editing。Stage-I 接收一張原圖It、其mask Mt、另一張mask Msrc。改變It使其符合Msrc。Loss包括CGAN、Perceptual Loss D、Perceptual Loss VGG。Stage II利用VAE模擬人對mask的修改,得到兩張M_outer和M_inter,利用Stage-I的網絡生成兩張圖片I_outer和I_inter;並訓練一個網絡進行Blend,GT爲原圖。Loss同上。牛逼啊!!!
特定風格
-
2019-5-28
Eye In-Painting with Exemplar Generative Adversarial Networks
arXiv1712 略讀。眼睛inpainting,有exampler。exampler解出風格編碼,和mask之後的input image z一塊生成結果,有groundtruth可以計算。真實圖片的風格向量c與C(G(z,c))重構,G(z,c)與x重構。注意爲了得到眼睛風格,C把單眼作爲輸入,輸出128維,兩個眼睛256維。
眼睛特定風格
-
2019-5-28
Geometry Guided Adversarial Facial Expression Synthesis
MM2018 示例級表情編輯 用臉部特徵點指導表情變化,兩個G,一個加表情,一個去表情。pair的數據,D分有表情和無表情兩個,各自接收三張圖,pair的一對圖,和一張有表情的特徵點圖。用PCA對特徵點對於自然表情的偏移進行降維編碼表示,將降維後編碼作爲instance表情風格。貌似也可以直接操控特徵點,改變臉部動作。
Instance level
-
2019-5-28
ST-GAN: Unsupervised Facial Image Semantic Transformation Using Generative Adversarial Networks
ACML2017 無監督屬性編輯,InfoGAN原理。創新點:1、訓練了E,用[z, c]的重構,用[z, c]生成的x’和重構x’'之間的perceptual loss。兩項loss訓練E。2、提出LST-GAN,用人給的局部Mask,得到x_local,送到D解c,希望InfoGAN能關注到局部屬性上。
關注了一波一作
-
2019-5-28
Sparsely Grouped Multi-task Generative Adversarial Networks for Facial Attribute Manipulation
arXiv1805 半監督人臉屬性編輯。和StarGAN類似,相比StarGAN,dual rec用了x-x0-x1和x-x1. 估計是爲了考慮x無label的情況。將無label的x送入生成器後,生成所有y對應的圖片,以訓練G條件編輯。 提出了Adapted Residual Image Learning,將Residual image沒有直接相加,而是concat之後過conv。
很早看過一遍,人臉相關
-
2019-5-14
UNSUPERVISED CROSS-DOMAIN IMAGE GENERATION
ICLR2017 早期unpaired I2I G是一個target域的Autoencoder,把Source域的圖片也直接送進來。對抗損失是三分類;D將target當作第3類,G(target)和G(source)分別當作第2類和第1類;G學習將G(target)和G(source)判爲第3類. DTN
經典文章
-
2019-5-14
One-Sided Unsupervised Domain Mapping
NIPS2017 Unpaired I2I. 提出DistanceGAN。只從A域轉換到B域;而不用反過來。Distance Constraints: 兩張A域圖片距離遠,那麼它們在B域的距離也應該遠。還可以直接用一張圖片對半切分,進行轉換後的距離評價。
經典文章
-
2019-5-14
Spatially Controllable Image Synthesis with Internal Representation Collaging
arXiv1811 Mark 兩張圖片的融合,局部融合。在feature map上進行局部交換。還提出了sCBN(Spatial Conditional Batch Normalization As)。但在真實圖片上做交換,貌似需要一個invert encoder。可能要補看一下。
來源忘了
-
2019-5-14
Texture Deformation Based Generative Adversarial Networks for Face
Editing
arXiv1812 略讀。Facial Attribute Editing。將人臉分解爲Shading、Albedo、Deformation。然後對Texutre做編輯(把Texture當作類似stargan的輸入)。分階段訓練,第一階段訓Intrinsic Deforming Autoencoder (DAE);第二階段類似訓StarGAN。分辨率64
ELEGANT被引
-
2019-5-13
Show, Attend and Translate: Unpaired Multi-Domain Image-to-Image Translation with Visual Attention
arXiv1811 StarGAN+SaGAN,灌水文章;屬性信號用了1-0和0-1;屬性輸入放到了residual開頭。
來源忘了
-
2019-5-13
Attribute-Guided Sketch Generation
arXiv1901 略略讀。給人臉加眼鏡,然後再生成輪廓。(奇怪的任務)提出了W-Net;看不懂的weight-share
來源忘了
-
2019-5-13
Exploring Explicit Domain Supervision for Latent Space Disentanglement in Unpaired Image-to-Image Translation
arXiv1902 略讀提出DosGAN。Instance-level facial attribute editing。預訓練一個Domain分類器,用分類器的倒數第二層作爲風格編碼。D的條件輸出端沒有用ACGAN,而是用D預測風格編碼作爲監督信號。感覺效果一般
來源忘了
-
2019-5-13
LADN: Local Adversarial Disentangling Network for Facial Makeup and De-Makeup
arXiv1904 略讀 提出LADN。Exampler Makeup。content和style分離,用特徵點選了幾個局部進行Discriminator;用Laplacian Filter進行帶權重的不平滑懲罰;並保持生成圖片與Warp的僞Ground Truth在Laplacian feature map上一致。用到了SpectralNorm
來源忘了
-
2019-5-13
Homomorphic Latent Space Interpolation for Unpaired Image-to-image Translation
CVPR2019 強烈Mark。 Facelet的續作。可以實現instance level的編輯。也是在特徵空間interpolation。作者說訓練Encoder時VGG的knowledge guidance loss很有用。還有Homomorphic loss。
同作者找的
-
2019-5-13
Semantic Component Decomposition for Face Attribute Manipulation
CVPR2019 Facelet的續作。提出SCNet。除了預測9個改變量V外,還預測了9個mask。最後由這些mask*Δ加起來得到最終的改變量。很有想法的文章。resolution448。
來源忘了
-
2019-5-12
Biphasic Learning of GANs for High-Resolution Image-to-Image Translation
arXiv1904 略讀,沒有讀實驗部分。超分辨率編輯。先訓低分辨率,teacher discriminator提供權重。LSGAN;ACGAN;Mutual perceptual information;訓一個UV預測器,並進行類似ACGAN中分類器那樣,保證生成圖片的UV被預測的於原圖一致。網絡結構類似ACGAN,高分辨率時對網絡結構進行增添。
He老師的文章
-
2019-5-12
Attention-Guided Generative Adversarial Networks for Unsupervised Image-to-Image Translation
IJCNN2019 和SAGAN類似,提出AGGAN。multi attribute。在mask上引入total variance;爲了限制編輯,約束了編輯後到原圖的距離;比較奇怪的是在判別的時候引入了Attention-Guided Discriminator,問題是mask沒有對應的ground truth啊,真實樣本又沒有正確的mask(原文第4頁左欄)。看Ablation Study也不明顯
來源忘了
-
2019-5-12
Dual Generator Generative Adversarial Networks for Multi-Domain Image-to-Image Translation
ACCV2018 和StarGAN類似,提出。有幾點很奇怪:生成和rec用了兩個不同的G;提出了color consistency loss,不知道和傳統L1有啥區別。用SSIM懲罰dual rec。Conditional Id Preserving Loss其實就是id rec。
來源忘了
-
2019-5-12
Exemplar Guided Unsupervised Image-to-Image Translation with Semantic Consistency
ICLR2019 Image Translation with style guider. 和MUNIT在一個任務下,Instance-level。 EGSC-IT (也簡稱EG-UNIT)
AdaIn+Attention. AdaIn+Attention。Feature Mask解出Spatial Attention。經過應該最終被解到一個先驗分佈上。(1)和組成一對VAE約束,同時給上往另一個域轉得GAN的約束。兩個域對偶重構約束(應該是這樣,看的比較含糊,看上去是一個UNIT)。(2)另外約束了轉域時的perceptual loss和gram 矩陣,實現style transfer的約束。(3)mask和adain組到一塊去了,比較神奇。
網站查到
-
2019-5-11
Conditional Image-to-Image Translation
CVPR2018 instance level editing. 提出cd-GAN,和Kim那篇非常像,但是兩個域都做了交叉交換。而且independent vector和style vector都進行了重構。dual rec的時候用原圖的independent vector進行重構,沒有用第二次解出來的做交換。圖像分辨率64.(這樣做的問題是,會不會信息全部跑到i當中,s爲一個定值;而且從實驗結果看會改變背景)
來源忘了
-
2019-5-11
Coupled Generative Adversarial Networks
NIPS2016 multi modal生成。用一個的noise生成兩個不同域的圖片(例如一個戴眼鏡的和一個不帶眼鏡的,其他一致)。共享G的前層參數和D的後層參數。D末引入一個分類softmax後也可以做domain adaptation。
經典文章
-
2019-5-11
BeautyGAN: Instance-level Facial Makeup Transfer with Deep Generative Adversarial Network
MM2018 Makeup 依據示例圖片的lipstick, eye shadow, face進行指導。Perceptual Loss保持身份,Adversarial Loss保持真實,dual rec重構。用原圖與ref圖片進行局部histogram matching後的結果,作爲風格特徵的ground truth引入風格loss。
Learning to discover cross-domain relations with generative adversarial networks被引
-
2019-5-10
Style Separation and Synthesis via Generative Adversarial Networks
MM2018 Style和Content分離,屬性無關。用Perceptual loss和Gram分別約束content和style。Encoder出half style vector和half content vector。Reconstruction+Adversarial+TotalVariance
GeneGAN被引
-
2019-5-07
A Closed Form Solution to Natural Image Matting
CVPR2008 (沒看完和懂!!!)Mattin Laplacian分割,利用局部窗口線性最小二乘。依據一個小的guide區分前景背景。
Deep Photo Style Transfer和Style Transfer for Anime Sketches with Enhanced Residual U-net and Auxiliary用到。
-
2019-5-05
The Unreasonable Effectiveness of Deep Features as a Perceptual Metric
arXiv1801 提出了LPIPS相似性評估指標,一種用2AFC(2 alternative forced choice)和JND(just noticeable difference)作爲label的數據集訓練的channel weighted的perceptual loss. 提出了一個新數據集。
BicycleGAN被引.
-
2019-5-03
Toward Multimodal Image-to-Image Translation
NIPS2017 BicycleGAN. paired translation. 一張A域圖片轉換成多張B域圖片。結合VAE-GAN和InfoGAN。(VAE-GAN看上去像是兩個對偶的感覺,能不能把VAE-GAN用在我的想法裏?)
Attribute Guided Unpaired Image-to-Image Translation with Semi-supervised Learning被引,經典文章
-
2019-5-02
Unsupervised Image-to-Image Translation Networks
NIPS2017 unpaired translation. 兩個Encoder和兩個Generator組成兩套VAE,兩個D和Generator組成GAN。映射到一個隱空間Z。Dual Reconstruction。兩個E和G之間淺層參數共享。
MUNIT的前置
-
2019-5-02
Attribute Guided Unpaired Image-to-Image Translation with Semi-supervised Learning
arXiv1904 半監督人臉編輯;把unlabel的圖片用於adv訓練和原圖進行生成。解綁content和style,content和style之間用FaderNetwork解綁;生成器使用AdaIn。(感覺這個方法賊繞)
He師兄推薦
-
2019-4-25
Deep Photo Style Transfer
CVPR2017 realistic style transfer,經典文章。在Gatys的基礎上,引入Matting Laplacian正則使得輸入到輸出的transformation在局部顏色空間映射(需要細看Matting Laplacian原文);用Mask之後的原圖和風格圖算Gram Loss,使得對應語義內容進行風格遷移。
STGAN中Matting Laplacian內容被引
-
2019-4-23
STGAN: A Unified Selective Transfer Network for Arbitrary Image Attribute Editing
CVPR2019 Multi semantic level facial attribute editing. 在u-net中利用gru改進後的STU單元,實現可控skip connect。結構類似attgan。bald效果好。
AttGAN He師兄推薦
-
2019-4-22
Disentangling Multiple Conditional Inputs in GANs
KDD2018 workshop 服裝生成,解綁顏色、形狀、紋理。這裏紋理爲手工Matting Laplacian特徵
DNA-GAN被引
-
2019-4-19
Disentangling Factors of Variation with Cycle-Consistent Variational Auto-Encoders
ECCV2018 學習解綁VAE,x和z都有cycle,將生成的同類別變量s進行交換,保持原圖。不明白爲什麼不直接優化同類別兩個s之間的距離,以及這樣會不會信息全部跑到z中去?
DNA-GAN被引
-
2019-4-18
Learning Latent Subspaces inVariational Autoencoders
NIPS2018 形式化非常漂亮。用類似VAE的變分推斷方式優化x、y出現的概率。可以用於生成多風格。(有的形式化沒看懂,要是有代碼就好了)
ELEGANT的被引
-
2019-4-16
Class-Distinct and Class-Mutual Image Generation with GANs
arXiv1811 提出新問題,穿插於類別標籤中的真實類,如何進行生成。改進ACGAN的輸入採樣方式,利用ACGAN求輸入、輸出(y的給定數據集標籤下的後驗)之間的KL散度優化生成器的生成分佈。
dtlc-gan的近期自引
-
2019-4-15
Spectral Normalization for Generative Adversarial Networks
ICLR2018 WGAN-GP的改進 深入層中,對層的參數矩陣求最大特徵值,找最大的梯度可能進行懲罰 原文指出該方法易於實現 (沒太看懂,太偏理論)
Label-Noise Robust Generative Adversarial Networks一文中發現該方法 -
2019-4-15
Improving the improved training of Wasserstein GANs: A consistencyterm and its dual effect
ICLR2018 CTGAN WGAN-GP的改進 探測真實樣本附近的兩點斜率
Label-Noise Robust Generative Adversarial Networks一文中發現該方法
-
2019-4-12
Style Transfer for Anime Sketches with Enhanced Residual U-net and Auxiliary Classifier GAN、
ACPR2017 漫畫上色 U-net存在問題,容易短路 所以用兩個decoder進行指導
結構圖畫的漂亮、內容有趣
-
2019-4-12
Label-Noise Robust Generative Adversarial Networks
arXiv1811 類別標記有誤的條件生成 cGAN和AC-GAN連接類別轉移矩陣
dtlc-gan的近期自引
-
2019-4-11
Learning compositional visual concepts with mutual consistency
CVPR 2018 cycle-gan的擴展
CFGAN的被引
-
2019-4-10
High-resolution image synthesis and semantic manipulation with conditional gans
CVPR 2018 層級結構 高分辨率圖像生成 能修改其中instance的風格
CFGAN的被引
論文閱讀記錄 1-50篇 20190410-20200316
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.