論文閱讀記錄 51-100篇 20200316-

  1. 2020-3-19
    DRIT++: Diverse Image-to-Image Translation via Disentangled Representations
    IJCV2020 multi-domain multi-modal instance-level
    DRIT的期刊版,非常強。這裏全部總結下。對於兩個域,共用content,style服從先驗分佈。(1)content用一個D對抗使其混淆;交換兩次,對偶重構;自重構;style要來一次info迴歸;兩個判別器保持真實;KL散度作用於style E。(2)對於多域;統一用一個G,D,style E和content E,用onehot編碼,類似stargan。生成器和判別器ACGAN;content對抗、一次和二次重構,info迴歸、style KL散度仍用。多屬性style E的輸入還包含domain;(3)一個啓發性的亮點,讓不同style的圖片距離儘量大,類似StarGAN v2.(公式截圖)。
    https://github.com/lzhbrian/image-to-image-papers IJCV
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述

  2. 2020-3-19
    Multimodal Unsupervised Image-to-Image Translation
    ECCV2018 MUNIT 兩個域,multi-modal, instance-level
    以前讀過,很經典的文章了。這裏回顧總結下。(1)兩個域,每個域解開style和content,style都服從先驗分佈,content共享。兩個E,兩個G,兩個D。(2)loss很簡潔,L1自重構;交換content後,content和style都生成再打開,迴歸一邊,類似infogan;再gan保持真實。文章理論分析了達到最優後,兩個域c和s都在同一個分佈。(3)用了AdaIN
    經典文章
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述

  3. 2020-3-18
    Multi-mapping Image-to-Image Translation via Learning Disentanglement
    Nips2019 DMIT disentangle,多域,multi-modal
    很強的工作Mark。(1)多域共享一個風格編碼空間,和內容編碼空間。這兩個內容分別用兩個編碼器解出來。注意所有域share同樣的編碼器。(2)訓練過程分爲兩個部分,D-Path部分,將一張圖先解開,再合上。風格編碼服從正態分佈,VAE來一套。InfoGAN的迴歸也引入。爲了讓多域Content混淆在一起,引入了一種很神奇的CGAN,把一個域的label和其他域的content編碼判真,該label和本域content判假。(好像是這樣,可能不太對)這樣會讓不同域的content不斷不斷接近。(3)T-Path部分,給content,採樣label和style,生成後解開。Infogan的迴歸約束content和style。CGAN讓生成圖加上類別並保持真實。
    https://github.com/lzhbrian/image-to-image-papers 未分類(應該算是disentanglement)
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述

  4. 2020-3-18
    Image-to-Image Translation with Multi-Path Consistency Regularization
    IJCAI2019 多域互轉. 人臉、藝術圖、去雨三個數據集
    提出了multi-path consistency,也即從A->B和從A->C->B,要保持一致。把這個約束加在stargan和cyclegan上兩種架構上。認爲這個約束能減小noise,生成更一致的圖片。爲了做兩個域,需要引入一個輔助域,例如去雨,可以把噪聲圖片當作中間域;去噪,可以把雨當作中間域。(這麼搞真的靠譜嘛。。。因爲引入了6個域)
    https://github.com/lzhbrian/image-to-image-papers unsupervised multi-domain
    在這裏插入圖片描述
    在這裏插入圖片描述

  5. 2020-3-17
    Augmented CycleGAN: Learning Many-to-Many Mappings from Unpaired Data
    ICML2018 兩個域互轉,multi-modal AugCCGAN
    在cyclegan基礎上,引入標準高斯分佈的noise,兩個g都有。(1)爲了讓noise發揮作用,引入兩個Encoder,輸入一張A域和一張B域圖,預測把A域轉B域需要什麼樣的noise。這樣可以合理地做圖片cycle loss。(2)爲了讓E的預測符合先驗,和高斯先驗對抗。(3)另外,給一個B域noise,先從A域生成到B域圖,然後用E預測B域noise,約束一致。原理同infogan。(4)如果有paired數據,可以從一個pair中預測noise,然後translation。是一個可選的有監督約束。(5)noise的注入方式爲CIN(conditional IN),沒有直接concatenate
    https://github.com/lzhbrian/image-to-image-papers Unsupervised multi-domain
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述

  6. 2020-3-17
    Attribute-Guided Face Generation Using Conditional CycleGAN
    ECCV2018 早期,人臉編輯或身份編輯。模糊、清楚兩個域 ConditionalCycleGAN
    大致上cyclegan。兩個D和G,一個模糊域,一個清晰域。(1)爲了屬性編輯,從模糊到清晰,用了cgan的結構。反之沒有,我覺得這裏其實有問題。從模糊到清晰再到模糊的後半段cycle怎麼保證生成屬性和模糊一樣?(2)爲了身份編輯,用LightCNN提取256維身份編碼,從模糊到清晰的編輯輸入該信號。輸出也用LightCNN過一遍,拿到身份編碼的L1 identity loss. 一個亮點是該方法的人臉編輯看上去很instance,而且能做很多任務,包括人臉交換、人臉轉正等。
    https://github.com/lzhbrian/image-to-image-papers Unsupervised multi-domain
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述

  7. 2020-3-16
    Semantic Image Synthesis with Spatially-Adaptive Normalization
    CVPR2019 semantic map 2 image SPADE
    提出Spatially-Adaptive,在semantic mask上通過網絡層得到均值和方差map(不是一個標量,也即和Contitional BN的區別),然後把它用於偏移noise上。另一個點是可以訓一個encoder解出一張圖片的noise充當style,實現instancle-level style reference。其他幾乎同pix2pix-HD
    https://github.com/lzhbrian/image-to-image-papers Supervised
    (下圖ii表示第ii層)
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章