A Neural Algorithm of Artistic Style 閱讀(二)

接上文A Neural Algorithm of Artistic Style 閱讀(一)的損失函數詳解。

對於content loss來說,因爲VGG結構能夠提取圖片的高層圖片,在generated image 和 content image之間通過已經訓練好的VGG網絡取CONV4_2層的feature map輸出,利用最小平方差來計算二者的距離,

雖然公式裏面有一個1/2,是爲了之後求導x^2之後形式上的方便。有沒有都沒有所謂。

而對於style loss來說,Gram矩陣的使用很有研究的必要。重建style,是根據不同filter得到的激活值之間的相關性來重建的,因爲style在圖像中的表現就是紋理特徵,即是像素之間的相關性。所以再把i,j層的feature map轉換成向量形式後做內積就可以得到Gram矩陣。

其實Gram矩陣就是協方差矩陣換了個名字,Gatys的幾篇論文其實沒有解釋爲什麼用Gram矩陣,因爲給不了證明。

如果用協方差(也就是Gram矩陣)來進行約束隱藏層特徵的話,重建出來的特徵雖然有些會保持,但是有些可能位置會打散。比如最右側的一張圖,人還是人,但是重建出來相當於“拼圖”效果了。這是因爲協方差本身就是去除了位置信息。 那麼既然協方差可以用於紋理生成,那麼如果我們加上 “讓生成圖的隱藏層特徵與原圖儘量一樣,另一方面讓生成圖的打散特徵與畫的打散特徵儘量相似”,這就是用神經網絡做風格轉換的最初想法。這也比較符合“風格”的定義,畢竟風格不應該具有位置信息,一種風格應該是與位置無關的。

我個人覺得Gram這個矩陣的研究意義還是很大的。

四、文章核心

1、使用現成的識別網絡,提取圖像的不同層級的特徵。如文章中自己提到的那樣,這項工作的最關鍵的一點就是能夠把content image,style image在高層次上分開來。說明識別這項任務看似到最後使用一個全連接層做的是分類任務,但是其實在卷積的過程中包括了很多豐富的信息。

2、高層次相應可以描述文章的內容

3、使用梯度下降方法調整輸入響應,在特定層次獲得特定的相應。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章