A Neural Algorithm of Artistic Style 閱讀(一)

一、文章二三

       A Neural Algorithm of Artistic Style,論文地址:https://arxiv.org/pdf/1508.06576v2.pdf,發表於CVPR2016。在一開始閱讀的時候,覺得想法真的很好,一般都是開山難啊,不然也不會有後續一系列這方面的研究,以及與GAN相關的風格轉換工作了。雖然arxiv上的版本扯了半天的可以此項工作可以提供人類是怎樣創作和認識藝術圖像的算法理解等等等等,但是我覺得神經網絡畢竟不能替代真正的大腦。這項風格轉換工作雖然意義很大,但是還是不能與人類大腦相媲美的。

 

二、文章內容

首先來看一下這篇文章整體上的工作:

通過一張style image和content image圖片得到相應風格的圖片。

首先必須要提出的,作者在原文中的一句話:

意思是,此項工作的最關鍵的發現是發現,內容和風格的表達在神經網絡中可以分開的。那麼分開的基礎是什麼呢?文章借用了VGG19的網絡結構,具有16個卷積層和五個池化層(使用average pooling 代替 max pooling)。

VGG-19結構圖如下:

文章發現,雖然VGG等網絡是用於判別任務的,但是在經過多層卷積後,輸入圖片的特徵被很好的提取了出來,更多的保留的是內容上 的特徵。主要有下述兩種約束。

Content ReConstruction,通過VGG-Network的‘conv1_1(a)’, ‘conv2_1(b)’, ‘conv3_1(d)’, ‘conv5_1(e)’的feature map重建輸入圖像。

Style Reconstruction, 在原始CNN表示的頂端構建了新的feature空間來捕獲輸入圖像的style。style表示計算不同layer feature的相關性。在layer的子集上重建( ‘conv1 1’ (a), ‘conv1 1’ and ‘conv2 1’ (b), ‘conv1 1’, ‘conv2 1’ and ‘conv3 1’ (c), ‘conv1 1’, ‘conv2 1’, ‘conv3 1’ and ‘conv4 1’ (d), ‘conv1 1’, ‘conv2 1’, ‘conv3 1’, ‘conv4 1’ 
and ‘conv5 1’ (e))。丟棄scene信息越多,越能得到圖像的style。從style feature生成關於圖像的紋理,就是呈現出顏色和局部結構。

並且可以通過α與β的權重來調整二者權重的比重。

三、損失函數詳解

對於內容上的約束:

對於上述式子可以求偏導得到下式:

然後利用反向傳播手段對於初始的白噪聲圖片進行優化,使得得到的圖片儘可能的傾向於content image。得到內容約束的公式。

同樣對於上述公式可以求偏導利用反向傳播優化初始圖像。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章