[論文筆記]Fader Networks: Manipulating Images by Sliding Attributes(2017 NIPS)

原創

2019-08-06 01:58

文章簡介:

本文介紹了一種新的encoder-decoder結構，該結構通過訓練，將圖像的顯著信息與隱藏空間中的屬性值直接分離，從而重構圖像。

Dataset: CelebA 、 Oxford-102
Challenge: transformations是ill-defined並且訓練是無監督的，即在訓練集中包含着感興趣的屬性註釋的圖像，但沒有屬性轉換後的圖像，簡單地說就是如果感興趣的屬性爲性別，顯然不可能會有男性<->女性的配對數據集
符號說明

訓練集就是一對對pair:(x, y), 最終的目標是可以通過y來生成相應的x

x: img
y: attributes
z: latent representaton, 通過encoder原始圖片獲得

本文提出的方法可以對人像進行細微的改變，在不改變圖像的自然屬性和人物身份的同時可以最終改變屬性的視覺效果

Encoder-decoder architecture：

結構圖：

The auto-encoding loss：

在理想情況下，修改 $D(E(x), y)$ 中的 $y$ 就會產生不同感知屬性的圖像，然後，僅僅只有下面的約束，而不加入其他約束的話，這個decoder會逐漸忽略attribute，最終在測試階段，改變 $y$ 不會產生任何效果。

Learning attribute-invariant latent representations：

因此作者要避免出現上面的情況，於是採用的方法是去學習相對於attribute而言不變的潛在表示。即
$E(戴眼鏡的路人甲)=E(不戴眼鏡的路人甲)$

難點:
訓練集中並沒有包含不同穿着的相同人物，所以不能直接添加這個約束(loss)
解決方法:
採用一個Discriminator來進行對抗訓練，這個Discriminator將被訓練去達到一個目標：
$P(1-y|E(x))\rightarrow1$
即想要達到Encoder的編碼無法被Discriminator識別成正確的attribute(即y)，其實感覺這是一種近似，但是總感覺有一絲絲的不太合理呢

Adversarial objective:

所以對抗訓練的目標爲：decoder應該能夠通過 $E(X)$ 和 $y$ 重建 $x$ , 並且於此同時，Discriminator需要讓 $E(x)$ 與 $y$ 儘可能地不同

如果覺得我有地方講的不好的或者有錯誤的歡迎給我留言，謝謝大家閱讀（點個贊我可是會很開心的哦）~

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.