Perceptual Losses for Real-Time Style Transfer and Super-Resolution閱讀(一)

一、文章出處

Perceptual Losses for Real-Time Style Transfer and Super-Resolution,arxiv地址:https://arxiv.org/abs/1603.08155

 

二、文章內容

因爲在實訓中只需要做風格轉換的部分,並且這篇文章的最大貢獻之一也是實現了實時的風格轉換。

上一篇閱讀的文章,雖然效果好,但對於每一張要生成的圖片,都需要初始化,然後保持CNN的參數不變,反向傳播更新圖像,得到最後的結果。性能問題堪憂。所以在此項工作中作者建立了一個生成網絡來保留圖片生成的信息,這樣每次生成圖片就只要進行一次前向傳播即可,而不用在進行三四十分鐘的訓練了。

下面這個網絡圖是論文的精華所在。圖中將網絡分爲Transform網絡和Loss網絡兩種,在使用中,Transform網絡用來對圖像進行轉換,它的參數是變化的,而Loss網絡,則保持參數不變,Transform的結果圖,風格圖和內容圖都通過Loss Net得到每一層的feature激活值,並以之進行Loss計算。

這裏的架構值得我們好好學習,爲什麼作者要這麼設計,在作者的文章中說的很好,雖然不是公式描述,但是在直觀上也給我們帶來了不少收穫。

網絡細節的設計大體遵循DCGAN中的設計思路:

  • 不使用pooling層,而是使用strided和fractionally strided卷積來做downsampling和upsampling,
  • 使用了五個residual blocks
  • 除了輸出層之外的所有的非residual blocks後面都跟着spatial batch normalization和ReLU的非線性激活函數。
  • 輸出層使用一個scaled tanh來保證輸出值在[0, 255]內。
  • 第一個和最後一個卷積層使用9×9的核,其他卷積層使用3×3的核。

這樣設計的主要原因有以下幾點

首先的有點是減少了計算量,原文中的描述是:

在計算量一定的情況下,可以使用一個更大的網絡。

其次,是使得有效的感受野增大,原文描述如下:

高質量的風格轉換需要改變圖片的一塊地方,那麼就要求輸出中的每個像素都有輸入中的大面積的感受野。

最後,是殘差網絡的運用。何凱明的殘差網絡簡直神奇。

殘差連接可以幫助網絡學習到identify function,而生成模型也要求結果圖像和生成圖像共享某些結構,因而,殘差連接對生成模型正好對應得上。

如下,是文章具體的網絡架構:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章