論文閱讀記錄 1-50篇 20190410-20200316

2020-3-16
StarGAN v2: Diverse Image Synthesis for Multiple Domains
Mark 多域instan-level style transfer
（1）爲了做多域，D沒有用ACGAN，而是輸出了多對real/fake，看是不是這一類的。很有創意的想法。（2）編碼從兩種情況來，一種是先驗高斯分佈，經過一個Fcn來，Fcn輸出了很多編碼，用於支持不同類。另一種是E輸出了很多類的style。（3）G輸入圖片和一個風格編碼，類別隱式嵌在風格編碼中。風格編碼會進行生成-編碼重構。圖像也會做二次重構。而且風格用AdaIN嵌入（4）爲了讓不同編碼圖片儘可能diverse，懲罰了兩種編碼生成後的距離。這個懲罰項沒有最優解，所以衰減於前5W輪。很牛逼的想法。（5）開了個AFHQ數據集，包括dog,cat, wildlife
https://github.com/lzhbrian/image-to-image-papers instance-level style transfer
2020-3-15
Image-to-image translation via group-wise deep whitening-and-coloring transformation
Mark GDWCT CVPR2019 instance-level strly transfer，和MUNIT、DRIT在一個任務上
兩方面：（一）整體結構方面，四個encoder，兩個decoder，兩個D。交換兩次，圖像上一次重構、二次重構，風格編碼和content編碼也重構。（二）提出GDWCT，主要貢獻。decoding之前，在網絡結構上把style encoding 搞進到content encoding去。很硬核。WCT原理大概是先whitening，把content特徵層進行channel維度歸一，也即均值維度是channel數。再coloring，通過矩陣變換讓特徵層的協方差與一個style matrix一致，再加上style給的一個均值。由於這麼搞參數是 $C^2$ ，這個過程如果不再channle上進行，而把channel分解成多個group，再每個group上進行，那麼參數量是 $(C/G)^2 \times G$ . 這就是DGWCT。另外，這個過程是通過一個0到1之間的係數，分多步(hop)完成的，每一步的style參數還不一樣。強的一批。原文細節大概一頁，值得看
https://github.com/lzhbrian/image-to-image-papers instance-level style transfer
2020-3-15
A Unified Feature Disentangler for Multi-Domain Image Translation and Manipulation
NIPS2018 multi-domain 人臉輪廓圖畫，disentangle UFDN
把不同domain解到同一個隱空間，然後加上domain vector，進行generator。loss方面：（1）隱空間vae一套。（2）用一個 $D_v$ 去根據隱編碼E(x)辨識domain，encoder學着不讓 $D_v$ 分辨出來。有點像fadernetwork。（3）ACGAN.這裏的 $D_{cls}$ 同時訓練了生成圖片，類似原始ACGAN中用info的部分。（ablation study說去掉（2），domain vector直接掛掉，有點奇怪，猜測可能是info的原因）。該方法也用於unsupervised domain adaptation(uda)
https://github.com/lzhbrian/image-to-image-papers Unsupervised multi-domain
2020-3-14
PairedCycleGAN: Asymmetric Style Transfer for Applying and Removing Makeup
CVPR2018 instance-level makeup
和GeoGAN有點像，添加有source，刪除沒source。交換兩次實現對偶重構，保持風格。一個亮點是用判別器判斷兩張臉是否同樣的style，爲了造真實數據集，generate a synthetic ground-truth by warping the reference makeup face to match the detected facial landmarks in the sorcue fae x. （我不太懂這個是怎麼做到的）。爲了做512高分辨率，G只負責局部生成（眼睛、嘴脣、皮膚）。G沒有用U-Net、STN，而使用了DilatedResNet，認爲DRN utilizes the high-resolution feature mapes to preserve image details.
https://github.com/lzhbrian/image-to-image-papers Unsupervised Instance-level
2020-3-14
XGAN: Unsupervised Image-to-Image Translation for Many-to-Many Mappings
ICML2018 人臉到卡通，對標CycleGAN和UNIT
和UNIT有點像，兩個Encoder，兩個Decoder。把兩個域都映射到同一個隱空間。loss有5個。（1）一次重構。（2）對抗訓練，用於混淆隱編碼來自哪個類。（3）爲了保持不同域的語義內容一致，最小化 $||e_1(x) - e_2(d_2(e_1(x)))||$ ，這裏沒有直接從隱空間採樣，而是從 $e_1(x)$ 來了，原文似乎也沒有對隱變量給先驗分佈。（4）兩個域兩個判別器，對抗訓練。（5）讓人臉的隱變量解到一個先驗知識上，這裏先驗知識用的是FaceNet的特徵層。（*）不同域encoder的最後兩層，decoder的前兩層share了。（*）作者承認，loss（3）和（4）可以理論上代替（2），但是（2）在訓練初始讓不同域編碼更一致。此外，提供了CartoonSet Dataset
https://github.com/lzhbrian/image-to-image-papers Unsupervised general
2020-3-14
RelGAN: Multi-Domain Image-to-Image Translation via Relative Attributes
ICCV2019 多屬性語義級人臉編輯。對標StarGAN和AttGAN
（1）類似STGAN的類別相減信號，沒有用ACGAN屬性分類，而是引入了一種 $D_{Match}$ ，判斷 $[x,x' or G(x,v), v]$ 三元組是否是真實的，有想法，但問題是 $x$ 和 $x'$ 不是成對的，而 $x$ 和 $G(x,v)$ 是成對的，不會出問題嗎？（2）爲了支持程度interpolation，引入 $D_{Interp}$ 預測程度 $\hat \alpha=min(\alpha, 1-\alpha)$ . $D_{Interp}$ 希望把二值編輯置0，而中間編輯置 $\hat \alpha$ ， $G$ 學着把中間編輯判成0，很有亮點！最後引入1次和2次重構。實驗超級充分。
https://github.com/lzhbrian/image-to-image-papers Unsupervised Multi Attribute
2020-3-13
Toward Learning a Unified Many-to-Many Mapping for Diverse Image Translation
PR2019 多域無監督，multi-modal InjectionGAN
和STD-GAN的想法很像啊，但是E沒有和D去share，也沒有分removing和adding兩步。所以這個E提了很多全局的東西。定量實驗做的很多。正態分佈KL約束Latent。且Encoder重參數化有擾動
https://github.com/lzhbrian/image-to-image-papers Unsupervised Multi Attribute
2020-3-12
SingleGAN: Image-to-Image Translation by a Single-Generator Network using Multiple Generative Adversarial Learning
ACCV2018 多域無監督轉換
一個G，多個D。G和StarGAN類似，但是z是one-hot編碼，（類似於一個屬性的多種取值），而且沒有直接concatnate，而使用了central biasing IN(CBIN)來影響x。D不分類，搞了多個。有二次重構。Many-to-many translation隨機挑兩個類互轉。本文還做了one-to-one domain translation with multi-modal mapping. 類似VAE，引入隱變量c，比較神奇的是，用了VAE中的KL散度約束c高斯分佈，而且用了c和E(G(x,c))的重構，這一點很有啓發性.
https://github.com/lzhbrian/image-to-image-papers Unsupervised Multi Attribute
2020-3-12
ComboGAN: Unrestrained Scalability for Image Domain Translation
CVPRW 2018 CycleGAN的多域擴展
把CycleGAN中的生成器拆成E和G兩塊。多個Encoder都編碼到同一個隱空間z。多個Generator負責各自類別的生成。loss和CycleGAN保持一致。將模型數量從 $\mathcal O(n^2)$ 降到 $\mathcal O(n)$
https://github.com/lzhbrian/image-to-image-papers Unsupervised Multi Attribute
2019-9-22
Unsupervised Eyeglasses Removal in the Wild
arXiv1909 Mark Instance Level Editing眼鏡的增刪
和之前Kim的那篇類似，將眼鏡風格和身份解出來。創新點在於用一個矩形Mask蓋住眼鏡區域，然後去解身份，並希望能用兩個向量復原整張原圖。
特定風格，師兄推薦
2019-8-14
MaskGAN: Towards Diverse and Interactive Facial Image Manipulation Cheng-Han
arXiv1907 Mark 提供CelebAHQ-Mask數據集，做Instance Level Editing。Stage-I 接收一張原圖It、其mask Mt、另一張mask Msrc。改變It使其符合Msrc。Loss包括CGAN、Perceptual Loss D、Perceptual Loss VGG。Stage II利用VAE模擬人對mask的修改，得到兩張M_outer和M_inter，利用Stage-I的網絡生成兩張圖片I_outer和I_inter；並訓練一個網絡進行Blend，GT爲原圖。Loss同上。牛逼啊！！！
特定風格
2019-5-28
Eye In-Painting with Exemplar Generative Adversarial Networks
arXiv1712 略讀。眼睛inpainting，有exampler。exampler解出風格編碼，和mask之後的input image z一塊生成結果，有groundtruth可以計算。真實圖片的風格向量c與C(G(z,c))重構，G(z,c)與x重構。注意爲了得到眼睛風格，C把單眼作爲輸入，輸出128維，兩個眼睛256維。
眼睛特定風格
2019-5-28
Geometry Guided Adversarial Facial Expression Synthesis
MM2018 示例級表情編輯用臉部特徵點指導表情變化，兩個G，一個加表情，一個去表情。pair的數據，D分有表情和無表情兩個，各自接收三張圖，pair的一對圖，和一張有表情的特徵點圖。用PCA對特徵點對於自然表情的偏移進行降維編碼表示，將降維後編碼作爲instance表情風格。貌似也可以直接操控特徵點，改變臉部動作。
Instance level
2019-5-28
ST-GAN: Unsupervised Facial Image Semantic Transformation Using Generative Adversarial Networks
ACML2017 無監督屬性編輯，InfoGAN原理。創新點：1、訓練了E，用[z, c]的重構，用[z, c]生成的x’和重構x’'之間的perceptual loss。兩項loss訓練E。2、提出LST-GAN，用人給的局部Mask，得到x_local，送到D解c，希望InfoGAN能關注到局部屬性上。
關注了一波一作
2019-5-28
Sparsely Grouped Multi-task Generative Adversarial Networks for Facial Attribute Manipulation
arXiv1805 半監督人臉屬性編輯。和StarGAN類似，相比StarGAN，dual rec用了x-x0-x1和x-x1. 估計是爲了考慮x無label的情況。將無label的x送入生成器後，生成所有y對應的圖片，以訓練G條件編輯。提出了Adapted Residual Image Learning，將Residual image沒有直接相加，而是concat之後過conv。
很早看過一遍，人臉相關
2019-5-14
UNSUPERVISED CROSS-DOMAIN IMAGE GENERATION
ICLR2017 早期unpaired I2I G是一個target域的Autoencoder，把Source域的圖片也直接送進來。對抗損失是三分類；D將target當作第3類，G(target)和G(source)分別當作第2類和第1類；G學習將G(target)和G(source)判爲第3類. DTN
經典文章
2019-5-14
One-Sided Unsupervised Domain Mapping
NIPS2017 Unpaired I2I. 提出DistanceGAN。只從A域轉換到B域；而不用反過來。Distance Constraints: 兩張A域圖片距離遠，那麼它們在B域的距離也應該遠。還可以直接用一張圖片對半切分，進行轉換後的距離評價。
經典文章
2019-5-14
Spatially Controllable Image Synthesis with Internal Representation Collaging
arXiv1811 Mark 兩張圖片的融合，局部融合。在feature map上進行局部交換。還提出了sCBN（Spatial Conditional Batch Normalization As）。但在真實圖片上做交換，貌似需要一個invert encoder。可能要補看一下。
來源忘了
2019-5-14
Texture Deformation Based Generative Adversarial Networks for Face
Editing
arXiv1812 略讀。Facial Attribute Editing。將人臉分解爲Shading、Albedo、Deformation。然後對Texutre做編輯（把Texture當作類似stargan的輸入）。分階段訓練，第一階段訓Intrinsic Deforming Autoencoder (DAE)；第二階段類似訓StarGAN。分辨率64
ELEGANT被引
2019-5-13
Show, Attend and Translate: Unpaired Multi-Domain Image-to-Image Translation with Visual Attention
arXiv1811 StarGAN+SaGAN，灌水文章；屬性信號用了1-0和0-1；屬性輸入放到了residual開頭。
來源忘了
2019-5-13
Attribute-Guided Sketch Generation
arXiv1901 略略讀。給人臉加眼鏡，然後再生成輪廓。（奇怪的任務）提出了W-Net；看不懂的weight-share
來源忘了
2019-5-13
Exploring Explicit Domain Supervision for Latent Space Disentanglement in Unpaired Image-to-Image Translation
arXiv1902 略讀提出DosGAN。Instance-level facial attribute editing。預訓練一個Domain分類器，用分類器的倒數第二層作爲風格編碼。D的條件輸出端沒有用ACGAN，而是用D預測風格編碼作爲監督信號。感覺效果一般
來源忘了
2019-5-13
LADN: Local Adversarial Disentangling Network for Facial Makeup and De-Makeup
arXiv1904 略讀提出LADN。Exampler Makeup。content和style分離，用特徵點選了幾個局部進行Discriminator；用Laplacian Filter進行帶權重的不平滑懲罰；並保持生成圖片與Warp的僞Ground Truth在Laplacian feature map上一致。用到了SpectralNorm
來源忘了
2019-5-13
Homomorphic Latent Space Interpolation for Unpaired Image-to-image Translation
CVPR2019 強烈Mark。 Facelet的續作。可以實現instance level的編輯。也是在特徵空間interpolation。作者說訓練Encoder時VGG的knowledge guidance loss很有用。還有Homomorphic loss。
同作者找的
2019-5-13
Semantic Component Decomposition for Face Attribute Manipulation
CVPR2019 Facelet的續作。提出SCNet。除了預測9個改變量V外，還預測了9個mask。最後由這些mask*Δ加起來得到最終的改變量。很有想法的文章。resolution448。
來源忘了
2019-5-12
Biphasic Learning of GANs for High-Resolution Image-to-Image Translation
arXiv1904 略讀，沒有讀實驗部分。超分辨率編輯。先訓低分辨率，teacher discriminator提供權重。LSGAN；ACGAN；Mutual perceptual information；訓一個UV預測器，並進行類似ACGAN中分類器那樣，保證生成圖片的UV被預測的於原圖一致。網絡結構類似ACGAN，高分辨率時對網絡結構進行增添。
He老師的文章
2019-5-12
Attention-Guided Generative Adversarial Networks for Unsupervised Image-to-Image Translation
IJCNN2019 和SAGAN類似，提出AGGAN。multi attribute。在mask上引入total variance；爲了限制編輯，約束了編輯後到原圖的距離；比較奇怪的是在判別的時候引入了Attention-Guided Discriminator，問題是mask沒有對應的ground truth啊，真實樣本又沒有正確的mask（原文第4頁左欄）。看Ablation Study也不明顯
來源忘了
2019-5-12
Dual Generator Generative Adversarial Networks for Multi-Domain Image-to-Image Translation
ACCV2018 和StarGAN類似，提出 $G^2GAN$ 。有幾點很奇怪：生成和rec用了兩個不同的G；提出了color consistency loss，不知道和傳統L1有啥區別。用SSIM懲罰dual rec。Conditional Id Preserving Loss其實就是id rec。
來源忘了
2019-5-12
Exemplar Guided Unsupervised Image-to-Image Translation with Semantic Consistency
ICLR2019 Image Translation with style guider. 和MUNIT在一個任務下,Instance-level。 EGSC-IT (也簡稱EG-UNIT)
AdaIn+Attention. AdaIn+Attention。Feature Mask解出Spatial Attention。 $x_A$ 經過 $E_A$ 應該最終被解到一個先驗分佈上。（1） $E_A$ 和 $G_A$ 組成一對VAE約束，同時給上往另一個域轉得GAN的約束。兩個域對偶重構約束（應該是這樣，看的比較含糊，看上去是一個UNIT）。（2）另外約束了轉域時的perceptual loss和gram 矩陣，實現style transfer的約束。（3）mask和adain組到一塊去了，比較神奇。
網站查到
2019-5-11
Conditional Image-to-Image Translation
CVPR2018 instance level editing. 提出cd-GAN，和Kim那篇非常像，但是兩個域都做了交叉交換。而且independent vector和style vector都進行了重構。dual rec的時候用原圖的independent vector進行重構，沒有用第二次解出來的做交換。圖像分辨率64.（這樣做的問題是，會不會信息全部跑到i當中，s爲一個定值；而且從實驗結果看會改變背景）
來源忘了
2019-5-11
Coupled Generative Adversarial Networks
NIPS2016 multi modal生成。用一個的noise生成兩個不同域的圖片（例如一個戴眼鏡的和一個不帶眼鏡的，其他一致）。共享G的前層參數和D的後層參數。D末引入一個分類softmax後也可以做domain adaptation。
經典文章
2019-5-11
BeautyGAN: Instance-level Facial Makeup Transfer with Deep Generative Adversarial Network
MM2018 Makeup 依據示例圖片的lipstick, eye shadow, face進行指導。Perceptual Loss保持身份，Adversarial Loss保持真實，dual rec重構。用原圖與ref圖片進行局部histogram matching後的結果，作爲風格特徵的ground truth引入風格loss。
Learning to discover cross-domain relations with generative adversarial networks被引
2019-5-10
Style Separation and Synthesis via Generative Adversarial Networks
MM2018 Style和Content分離，屬性無關。用Perceptual loss和Gram分別約束content和style。Encoder出half style vector和half content vector。Reconstruction+Adversarial+TotalVariance
GeneGAN被引
2019-5-07
A Closed Form Solution to Natural Image Matting
CVPR2008 （沒看完和懂！！！）Mattin Laplacian分割，利用局部窗口線性最小二乘。依據一個小的guide區分前景背景。
Deep Photo Style Transfer和Style Transfer for Anime Sketches with Enhanced Residual U-net and Auxiliary用到。
2019-5-05
The Unreasonable Effectiveness of Deep Features as a Perceptual Metric
arXiv1801 提出了LPIPS相似性評估指標，一種用2AFC(2 alternative forced choice)和JND(just noticeable difference)作爲label的數據集訓練的channel weighted的perceptual loss. 提出了一個新數據集。
BicycleGAN被引.
2019-5-03
Toward Multimodal Image-to-Image Translation
NIPS2017 BicycleGAN. paired translation. 一張A域圖片轉換成多張B域圖片。結合VAE-GAN和InfoGAN。（VAE-GAN看上去像是兩個對偶的感覺，能不能把VAE-GAN用在我的想法裏？）
Attribute Guided Unpaired Image-to-Image Translation with Semi-supervised Learning被引，經典文章
2019-5-02
Unsupervised Image-to-Image Translation Networks
NIPS2017 unpaired translation. 兩個Encoder和兩個Generator組成兩套VAE，兩個D和Generator組成GAN。映射到一個隱空間Z。Dual Reconstruction。兩個E和G之間淺層參數共享。
MUNIT的前置
2019-5-02
Attribute Guided Unpaired Image-to-Image Translation with Semi-supervised Learning
arXiv1904 半監督人臉編輯；把unlabel的圖片用於adv訓練和原圖進行生成。解綁content和style，content和style之間用FaderNetwork解綁；生成器使用AdaIn。（感覺這個方法賊繞）
He師兄推薦
2019-4-25
Deep Photo Style Transfer
CVPR2017 realistic style transfer，經典文章。在Gatys的基礎上，引入Matting Laplacian正則使得輸入到輸出的transformation在局部顏色空間映射（需要細看Matting Laplacian原文）；用Mask之後的原圖和風格圖算Gram Loss，使得對應語義內容進行風格遷移。
STGAN中Matting Laplacian內容被引
2019-4-23
STGAN: A Unified Selective Transfer Network for Arbitrary Image Attribute Editing
CVPR2019 Multi semantic level facial attribute editing. 在u-net中利用gru改進後的STU單元，實現可控skip connect。結構類似attgan。bald效果好。
AttGAN He師兄推薦
2019-4-22
Disentangling Multiple Conditional Inputs in GANs
KDD2018 workshop 服裝生成，解綁顏色、形狀、紋理。這裏紋理爲手工Matting Laplacian特徵
DNA-GAN被引
2019-4-19
Disentangling Factors of Variation with Cycle-Consistent Variational Auto-Encoders
ECCV2018 學習解綁VAE，x和z都有cycle，將生成的同類別變量s進行交換，保持原圖。不明白爲什麼不直接優化同類別兩個s之間的距離，以及這樣會不會信息全部跑到z中去？
DNA-GAN被引
2019-4-18
Learning Latent Subspaces inVariational Autoencoders
NIPS2018 形式化非常漂亮。用類似VAE的變分推斷方式優化x、y出現的概率。可以用於生成多風格。（有的形式化沒看懂，要是有代碼就好了）
ELEGANT的被引
2019-4-16
Class-Distinct and Class-Mutual Image Generation with GANs
arXiv1811 提出新問題，穿插於類別標籤中的真實類，如何進行生成。改進ACGAN的輸入採樣方式，利用ACGAN求輸入、輸出（y的給定數據集標籤下的後驗）之間的KL散度優化生成器的生成分佈。
dtlc-gan的近期自引
2019-4-15
Spectral Normalization for Generative Adversarial Networks
ICLR2018 WGAN-GP的改進深入層中，對層的參數矩陣求最大特徵值，找最大的梯度可能進行懲罰原文指出該方法易於實現（沒太看懂，太偏理論）
Label-Noise Robust Generative Adversarial Networks一文中發現該方法
2019-4-15
Improving the improved training of Wasserstein GANs: A consistencyterm and its dual effect
ICLR2018 CTGAN WGAN-GP的改進探測真實樣本附近的兩點斜率
Label-Noise Robust Generative Adversarial Networks一文中發現該方法
2019-4-12
Style Transfer for Anime Sketches with Enhanced Residual U-net and Auxiliary Classifier GAN、
ACPR2017 漫畫上色 U-net存在問題，容易短路所以用兩個decoder進行指導
結構圖畫的漂亮、內容有趣
2019-4-12
Label-Noise Robust Generative Adversarial Networks
arXiv1811 類別標記有誤的條件生成 cGAN和AC-GAN連接類別轉移矩陣
dtlc-gan的近期自引
2019-4-11
Learning compositional visual concepts with mutual consistency
CVPR 2018 cycle-gan的擴展
CFGAN的被引
2019-4-10
High-resolution image synthesis and semantic manipulation with conditional gans
CVPR 2018 層級結構高分辨率圖像生成能修改其中instance的風格
CFGAN的被引