Perceptual Losses for Real-Time Style Transfer and Super-Resolution閱讀(二)

三、損失函數

雖然文章說的是perceptual losss,但是感覺上跟上一篇文章的約束並沒有什麼區別,我們可以來看看。

Feature Reconstruction Loss

  • j表示網絡的第j層。
  • CjHjWj表示第j層的feature_map的size

Style Reconstruction Loss

對於風格重建的損失函數,首先要先計算Gram矩陣,

產生的feature_map的大小爲CjHjWj,可以看成是Cj個特徵,這些特徵兩兩之間的內積的計算方式如上。

兩張圖片,在loss網絡的每一層都求出Gram矩陣,然後對應層之間計算歐式距離,最後將不同層的歐氏距離相加,得到最後的風格損失。

具體的結果如下,截屏自論文:

其實上述結果與上一篇論文真的很像,都是表達了在風格重建時,越高層特徵,粒度越粗,內容重建時,越底層,重見效果越好。在這兩個約束上,我並沒有感覺較之前有很大的進步。採用高層特徵的原因是,內容和全局結構會被保留,但是顏色紋理和精確的形狀其實並不需要。用一個特徵損失來訓練的時候,希望的是接近而不是完全匹配。

 

在這裏,文章也是用了VGG的網絡結構。文章中有一個點我很喜歡,說明了一部分圖片轉換失敗的原因。因爲VGG是被訓練來分類的,所以對於圖片的主體的識別要比背景保留完整的多,所以往往對前景能夠有很好的識別效果,但是背景會有所混淆。具體的可以看下圖的海灘場景和貓的場景。

四、實驗結果

 

具體的實驗結果不再贅述,但是這篇的實驗要比上一篇的實驗更加完整,更加成體系。這裏沒有細看。

 

五、總結

這篇文章最大的貢獻就是做到了實時。能夠提高三個數量級的時間。即使在我們搭建的服務器上也能很快的得到轉換結果。也爲後期的style transfer的發展做出了貢獻。

其次,我很喜歡這篇文章的解釋。解釋雖然沒有公式證明那麼嚴謹,但是從大體上是合理的,爲上一篇文章沒有講清楚的地方都講清楚了,不含糊。在設計image transformation網絡架構的時候也加入了自己的理解,讓閱讀的人可以明白這樣設計的意圖以及原因。

是一篇值得學習的好文章。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章