Perceptual Losses for Real-Time Style Transfer and Super-Resolution翻譯

原文鏈接:https://www.jianshu.com/p/b728752a70e9。《基於感知損失函數的實時風格轉換和超分辨率重建》

Abstract

摘要:我們考慮的圖像轉換的問題,即將一個輸入圖像變換成一個輸出圖像。最近熱門的圖像轉換的方法通常是訓練前饋卷積神經網絡,將輸出圖像與原本圖像的逐像素差距作爲損失函數。並行的工作表明,高質量的圖像可以通過用預訓練好的網絡提取高級特徵、定義並優化感知損失函數來產生。我們組合了一下這兩種方法各自的優勢,提出採用感知損失函數訓練前饋網絡進行圖像轉換的任務。本文給出了圖像風格化的結果,訓練一個前饋網絡去解決實時優化問題(Gatys等人提出的),和基於有優化的方法對比,我們的網絡產生質量相當的結果,卻能做到三個數量級的提速。我們還實驗了單圖的超分辨率重建,同樣採用感知損失函數來代替求逐像素差距的損失函數
  
關鍵詞:風格轉換超分辨率重建深度學習

一. 簡介

許多經典問題可以被分爲圖像轉換任務,即一個系統接收到一些輸入圖像,將其轉化成輸出圖像。用圖像處理來舉例,比如圖像降噪,超分辨率重建,圖像上色,這都是輸入一個退化的圖像(噪聲,低分辨率,灰度),輸出一個高質量的彩色圖像。從計算機視覺來舉例,包括語義分割,深度估計,其中的輸入是一個彩色圖像,輸出是圖像對場景的語義或幾何信息進行了編碼。

一個處理圖像轉換任務的方法是在有監督模式下訓練一個前饋卷積神經網絡,用逐像素差距作損失函數來衡量輸出圖像和輸入圖像的差距。這個方法被Dong等人用來做了超分辨率重建,被Cheng等人做了圖像上色,被Long等人做了圖像分割,被Eigen等人做了深度和表面預測。這個方法的優勢在於在測試時,只需要一次前饋的通過已訓練好的網絡。

然而,這些方法都用了逐像素求差的損失函數,這個損失函數無法抓住輸入及輸出圖像在感知上的差距。舉個例子,考慮兩張一模一樣的圖像,只有1像素偏移上的差距,儘管從感知上這倆圖片一模一樣,但用逐像素求差的方法來衡量的話,這倆圖片會非常的不一樣。

同時,最近的一些工作證明,高質量的圖像可以通過建立感知損失函數(不基於逐像素間的差距,取而代之的是從預訓練好的CNN中提取高層次的圖像特徵來求差)圖像通過使損失函數最小化來生成,這個策略被應用到了特徵倒置[6](Mahendran等),特徵可視化[7] (Simonyan等/Yosinski等),紋理綜合及圖像風格化[9,10] (Gatys等)。這些方法能產生很高質量的圖片,不過很慢,因爲需要漫長的迭代優化過程。

在這篇論文中,我們結合了兩類方法的優勢。我們訓練一個用於圖像轉換任務的前饋網絡,且不用逐像素求差構造損失函數,轉而使用感知損失函數,從預訓練好的網絡中提取高級特徵。在訓練的過程中,感知損失函數比逐像素損失函數更適合用來衡量圖像之間的相似程度,在測試的過程中,生成器網絡能做到實時轉換。

我們實驗了兩個任務,圖像風格化和單圖的超分辨率重建。這兩種都有天生的缺陷:圖像風格化沒有唯一正確的輸出,超分辨率重建的話,我們可以從一個低分辨率圖像重建出很多高分辨率的圖像。比較好的是,這兩個任務都需要對輸入的圖像進行語義上的理解。圖像風格化中,輸出圖片從語義維度來看必須跟輸入圖像比較接近,儘管顏色和紋理會發生質的變化。超分辨率重建任務中,必須從視覺上模糊的低分辨率輸入來推斷出新的細節。原則上,一個爲任何任務訓練的高質量的神經網絡應該能隱式的學習輸入圖像的相關語義;然而在實踐中我們不需要從頭開始學習:使用感知損失函數,允許從損失網絡直接轉移語義信息到轉換網絡。

圖1:我們的結果,第一行是風格化,第二行是4倍的超分辨率重建

對於圖像風格化,我們的前饋網絡用來解決優化問題[10];我們的結果跟[10]中很相似(無論是質量還是目標函數的值),但能達成3個數量級的速度飛昇。對於超分辨率重建,我們證實:把逐像素求差損失函數改成感知損失函數,能帶來視覺享受級的4倍和8倍超分辨率重建。

二. 相關工作

前饋圖像轉換:最近幾年前饋圖像轉換任務應用十分廣泛,很多轉換任務都用了逐像素求差的方式來訓練深度卷積神經網絡。

語義分割的方法[3,5,12,13,14,15]產生了密集的場景標籤,通過在在輸入圖像上以完全卷積的方式運行網絡,配上逐像素分類的損失函數。[15]跨越了逐像素求差,通過把CRF當作RNN,跟網絡的其他部分相加訓練。我們的轉換網絡的結構是受到[3]和[14]的啓發,使用了網絡中下采樣來降低特徵圖譜的空間範圍,其後緊跟一個網絡中上採樣來產生最終的輸出圖像。

最近的方法在深度估計[5,4,16]和表面法向量估計[5,17]上是相似的,它們把一張彩色輸入圖像轉換成有幾何意義的圖像,是用前饋神經網絡,用逐像素迴歸[4,5]或分類[17]的損失函數。一些方法把逐像素求差改換成了懲罰圖像梯度或是用CRF損失層來強制促使輸出圖像具有一致性。[2]中一個前饋模型用逐像素求差的損失函數訓練,用於將灰度圖像上色。

感知的優化:有一定數量的論文用到了優化的方法來產生圖像,它們的對象是具有感知性的,感知性取決於從CNN中提取到的高層次特徵。圖像可以被生成用於最大限度提升分類預測的分數[7,8],或是個體的特徵[8]用來理解訓練網絡時的函數編碼。相似的優化技巧同樣可以用於產生高可信度的迷惑圖像[18,19]。

Mahendran和Vedaldi從卷積網絡中反轉特徵,通過最小化特徵重建損失函數,爲了能理解保存在不同網絡層中的圖像信息;相似的方法也被用來反轉局部二進制描述符[20]和HOG特徵[21].

Dosovitskiy和Brox的工作是跟我們的最相關的,它們訓練了一個前饋神經網絡去倒置卷積特徵,快速的逼近了[6]提出的優化問題的結局方案,然而他們的前饋網絡是用的逐像素重建損失函數來訓練,而我們的網絡是直接用了[6]用的特徵重建損失函數。

風格轉換:Gatys等人展示藝術風格轉換,結合了一張內容圖和另一張風格圖,通過最小化根據特徵重建的代價函數,風格重建用的代價函數也是基於從預訓練模型中提取的高級特徵;一個相似的方法之前也被用於做紋理合成。他們的方法產出了很高質量的記過,不過計算代價非常的昂貴因爲每一次迭代優化都需要經過前饋、反饋預訓練好的整個網絡。爲了克服這樣一個計算量的負擔,我們訓練了一個前饋神經網絡去快速獲得可行解。

圖像超分辨率重建。圖像超分辨率重建是一個經典的問題,很多人提出了非常廣泛的技術手段來做圖像超分辨率重建。Yang等人提供了一個對普通技術的詳盡評價,在廣泛採用CNN之前,它們把超分辨率重建技術歸類成了一種基於預測的方法.(bilinear, bicubic, Lanczos, [24]), 基於邊緣的方法[25,26] ,統計的方法[27,28,29],基於塊的方法[25,30,31,32,33] ,稀疏字典方法[37, 38]。最近在單圖超分辨率放大方向取得成就的表現是用了三層卷積神經網絡,用逐像素求差的方式算損失函數。其他一些有藝術感的方法在[39,40,41]

三. 方法

像圖2中展示的那樣,我們的系統由兩部分組成:一個圖片轉換網絡fw 和一個損失網絡 φ(用來定義一系列損失函數l1, l2, l3),圖片轉換網絡是一個深度殘差網絡,參數是權重W,它把輸入的圖片x通過映射 y=fw(x)轉換成輸出圖片y,每一個損失函數計算一個標量值li(y,yi), 衡量輸出的y和目標圖像yi之間的差距。圖片轉換網絡是用SGD訓練,使得一系列損失函數的加權和保持下降。

圖2:系統概覽。左側是Generator,右側是預訓練好的vgg16網絡(一直固定)

爲了明確逐像素損失函數的缺點,並確保我們的損失函數能更好的衡量圖片感知及語義上的差距,我們從最近的優化迭代生成圖片的系列工作中得到了靈感[6,7,8,9,10],這些方法共同的關鍵點在於CNN是預先訓練好用於圖像分類的,這個CNN已經學會感知和語義信息編碼,這正是我們希望在我們的損失函數中做的。所以我們用了一個預訓練好用於圖像分類的網絡φ,來定義我們的損失函數。之後使用同樣是深度卷積網絡的損失函數來訓練我們的深度卷積轉換網絡。

損失網絡φ是能定義一個特徵(內容)損失lfeat和一個風格損失lstyle,分別衡量內容和風格上的差距。對於每一張輸入的圖片x我們有一個內容目標yc一個風格目標ys,對於風格轉換,內容目標yc是輸入圖像x,輸出圖像y,應該把風格Ys結合到內容x=yc上。我們爲每一個目標風格訓練一個網絡。對於單圖超分辨率重建,輸入圖像x是一個低分辨率的輸入,目標內容是一張真實的高分辨率圖像,風格重建沒有使用。我們爲每一個超分辨率因子訓練一個網絡。

3.1 圖像轉換網絡

我們的圖像轉換網絡結構大致上遵循Radford提出的指導方針[42]。我們不用任何的池化層,取而代之的是用步幅卷積或微步幅卷積(http://www.jiqizhixin.com/article/1417)做網絡內的上採樣或者下采樣。我們的神經網絡有五個殘差塊[42]組成,用了[44]說的結構。所有的非殘差卷積層都跟着一個空間性的batch-normalization[45],和RELU的非線性層,最末的輸出層除外。最末層使用一個縮放的Tanh來確保輸出圖像的像素在[0,255]之間。除開第一個和最後一個層用9x9的kernel,其他所有卷積層都用3x3的kernels,我們的所有網絡的精確結構可以在支撐文檔中看。

輸入和輸出:對於風格轉換,輸入和輸出都是彩色圖片,大小3x256x256。對於超分辨率重建,有一個上採樣因子f,輸出是一個高分辨率的圖像3x288x288,輸入是一個低分辨率圖像 3x288/fx288/f,因爲圖像轉換網絡是完全卷積,所以在測試過程中它可以被應用到任何分辨率的圖像中。

下采樣和上採樣:對於超分辨率重建,有一個上採樣因子f,我們用了幾個殘差塊跟着Log2f卷及網絡(stride=1/2)。這個處理和[1]中不一樣,[1]在把輸入放進網絡之前使用了雙立方插值去上採樣這個低分辨率輸入。不依賴於任何一個固定的上採樣插值函數,微步長卷積允許上採樣函數和網絡的其他部分一起被訓練。

圖3,和[6]相似,我們用了優化的方式去找一個圖像y,能使得針對某些層的特徵(內容)損失最小化,使用了預訓練好的vgg16網絡,在我們用較高層重建的時候,圖像的內容和空間結構被保留了,但是顏色,紋理和精確的形狀改變了。

對於圖像轉換,我們的網絡用了兩個stride=2的卷積去下采樣輸入,緊跟着的是幾個殘差塊,接下來是兩個卷積層(stride=1/2)來做上採樣。雖然輸入和輸出有着相同的大小,但是先下采樣再上採樣的過程還是有一些其他好處。

首當其衝的好處是計算複雜性。用一個簡單的實現來舉例,一個3x3的卷積有C個fiters,輸入尺寸C x H x W需要9HWC^2 的乘加,這個代價和3x3卷積有DC個filter,輸入尺寸DCxH/DxW/D是一樣的。在下采樣之後,我們可以因此在相同計算代價下用一個更大的網絡。

第二個好處是有效的感受野大小。高質量的風格轉換需要一致的改變圖片的一大塊地方;因此這個優勢就在於在輸出中的每個像素都有輸入中的大面積有效的感受野。除開下采樣,每一個附加的3x3卷積層都能把感受野的大小增加2倍,在用因子D進行下采樣後,每個3x3的卷積不是增加了感受野的大小到2D,給出了更大的感受野大小但有着相同數量的層。

殘差連接:He[43]等人用了殘差連接去訓練非常深的網絡用來做圖像分類,它們證明了殘差連接能讓網絡更容易的去學習確定的函數,這在圖像轉換網絡中也是一個很有吸引力的研究,因爲在大多數情況下,輸出圖像應該和輸入圖像共享結構。因此我們網絡的大體由幾個殘差塊組成,每個包含兩個3x3的卷積層,我們用[44]中設計的殘差塊,在附錄中有。

3.2 感知損失函數

我們定義了兩個感知損失函數,用來衡量兩張圖片之間高級的感知及語義差別。要用一個預訓練好用於圖像分類的網絡模型。在我們的試驗中這個模型是VGG-16[46],使用Imagenet的數據集來做的預訓練。

圖4 和[10]一樣,我們用了優化的方式去找到一張圖y,最小化從VGG16的某幾層取出來的風格損失。圖像y只保存風格特徵不保存空間結構。

特徵(內容)損失:我們不建議做逐像素對比,而是用VGG計算來高級特徵(內容)表示,這個取法和那篇artistic style使用VGG-19提取風格特徵是一樣的,公式:

如在[ 6 ]和在圖3重現的,找到一個圖像 Y使較低的層的特徵損失最小,往往能產生在視覺上和y不太能區分的圖像,如果用高層來重建,內容和全局結構會被保留,但是顏色紋理和精確的形狀不復存在。用一個特徵損失來訓練我們的圖像轉換網絡能讓輸出非常接近目標圖像y,但並不是讓他們做到完全的匹配。

風格損失:特徵(內容)損失懲罰了輸出的圖像(當它偏離了目標y時),所以我們也希望去懲罰風格上的偏離:顏色,紋理,共同的模式,等方面。爲了達成這樣的效果Gatys等人提出了以下風格重建的損失函數。

讓φj(x)代表網絡φ的第j層,輸入是x。特徵圖譜的形狀就是Cj x Hj x Wj、定義矩陣Gj(x)爲Cj x Cj矩陣(特徵矩陣)其中的元素來自於:

如果我們把φj(x)理解成一個Cj維度的特徵,每個特徵的尺寸是Hj x Wj,那麼上式左邊Gj(x)就是與Cj維的非中心的協方差成比例。每一個網格位置都可以當做一個獨立的樣本。這因此能抓住是哪個特徵能帶動其他的信息。梯度矩陣可以很搞笑的倍計算,通過調整φj(x)的形狀爲一個矩陣ψ,形狀爲Cj x HjWj,然後Gj(x)就是ψψT/CjHjWj。

風格重建的損失是定義的很好的,甚至當輸出和目標有不同的尺寸是,因爲有了梯度矩陣,所以兩者會被調整到相同的形狀。

就像[10]中介紹的,如圖5重建,能生成一張圖片y使得風格損失最小,從而保存了風格上的特徵,但是不保存空間上的結構特徵。

爲了表示從一個集合層的風格重建,而不是由單層重建,我們把Lstyle(y^,y)定義成一個損失的集合(針對每一個層的損失求和)。

3.3簡單損失函數

除了感知損失,我們還定義了兩種簡單損失函數,僅僅用了低維的像素信息

像素損失:像素損失是輸出圖和目標圖之間標準化的差距。如果兩者的形狀都是CxHxW,那麼像素損失就是Lpixel(y,y) = ||y^-y||₂²/CHW。這隻能被用在我們有完全確定的目標,讓這個網絡去做完全匹配。

全變差正則化:爲使得輸出圖像比較平滑,我們遵循了前人在特徵反演上的研究[6,20],超分辨率重建上的研究[48,49]並且使用了全變差正則化lTV(y)。(全變差正則化一般用在信號去噪)

四. 實驗

我們實驗了兩個圖像變換任務:風格轉換和單圖超分辨率重建。風格轉換中,前人使用優化來生成的圖像,我們的前饋網絡產生類似的定性結果,但速度快了三個數量級。單圖像超分辨率中,用了卷積神經網絡的都用的逐像素求差的損失,我們展示了令人振奮的的有質量的結果,通過改用感知損失。

4.1風格轉換

風格轉換的目標是產生一張圖片,既有着內容圖的內容信息,又有着風格圖的風格信息,我們爲每一種風格訓練了一個圖像轉換網絡,這幾種風格圖都是我們手工挑選的。然後把我們的結果和基礎Gatys的結果做了對比。

基線:作爲基線,我們重現了Gatys等人得方法,給出風格和內容目標ys和yc,層i和J表示特徵和風格重建。y通過解決下述問題來獲得。

λ開頭的都是參數,y初始化爲白噪聲,用LBFGS優化。我們發現,無約束的優化方程通常會導致輸出圖片的像素值跑到[0,255]之外,做一個更公平的比較,對基線,我們用L-BFGS投影,每次迭代都把圖片y調整到[0,255],在大多數情況下,運算優化在500次迭代之內收斂到滿意的結果,這個方法比較慢因爲每一個LBFGS迭代需要前饋再反饋通過VGG16網絡。

訓練細節:我們的風格轉換網絡是用COCO數據集訓練的,我們調整每一個圖像到256x256,共8萬張訓練圖,batch-size=4,迭代40000次,大約跑了兩輪。用Adam優化,初始學習速率0.001.輸出圖被用了全變量正則化(strength 在1e-6到1e-4之間),通過交叉驗證集選擇。不用權重衰減或者dropout,因爲模型在這兩輪中沒有過擬合。對所有的風格轉換實驗我們取relu2_2層做內容,relu1_2,relu2_2,relu3_3和relu4_3作爲風格。VGG-16網絡,我們的實驗用了Torch和cuDNN,訓練用了大約4個小時,在一個GTX Titan X GPU上。

定性結果:在圖6中我們展示了結果的對比,比較了我們的記過和那些基礎方法,用了一些風格和內容圖。所有的參數λ都是一樣的,所有的訓練集都是從MS-COCO2014驗證集裏抽選的。我們的方法能達到和基本方法一樣的質量。

儘管我們的模型是用256x256的圖片訓練的,但在測試時候可以用在任何圖像上面,在圖7中我們展示了一些測試用例,用我們的模型訓練512大小的圖片

圖6,用我們的圖像生成網絡做圖像風格轉換。我們的結果和Gatys相似,但是更快(看錶1)。所有生成圖都是256x256的

圖7我們的網絡在512x512圖上的測試樣例,模型用一個全卷積操作來達成高分辨率的圖像(測試時),風格圖和圖6一樣。

通過這些結果可以明確的是,風格轉換網絡能意識到圖像的語義內容。舉個例子,在圖7中的海灘圖像,人們是很明顯的被識別了出來,但背景被風格扭曲了;同樣的,貓臉很明顯的被識別了出來,但他的身體並沒有被識別出來。一個解釋是:VGG16網絡是被訓練用來分類的,所以對於圖片的主體(人類和動物)的識別要比那些背景保留完整的多。

定量結果:基本方法和我們的方法都是使公式5最小化。基本方法針對一張圖進行明確的優化(針對要輸出的圖像)我們的方法訓練一個解決方案(能在前饋中處理任意一張圖片Yc)我們可以量化的比較這兩種方法,通過衡量它們成功減少代價函數的幅度。(公式5)

我們用我們的方法和它們的方法一起訓練了五十張圖片(從MSCOCO驗證集中得到)使用The Muse by Pablo Picasso當作一個風格圖。對於基礎方法我們記錄了函數在每一個迭代過程的值。對我們的方法我們對每一張圖片記錄了公式5的值。我們還計算了公式5的值,當y和輸出圖像yc相等時,結果顯示在表5,我們看到內容圖Yc達到了非常高的損失,和我們的方法在50-100之間差不多。

儘管我們的網絡用256x256的尺寸訓練的,但他們在512,1024的情況下都能成功的使代價函數最小化,結果展示在表5中。我們可以看到哪怕在高分辨率下,和普通方法達成相同損失的時間也差不多。

表1 速度(秒級)的比較:我們的網絡vs普通的基於優化的網絡。我們的方法能給出相似質量的結果,(看圖6)但能加速百倍。兩種方法都是在GTX TitanX GPU上測試的。

速度:在表1中我們比較了運行的時間(我們的方法和基礎方法)對於基礎方法,我們記錄了時間,對所有的圖像大小比對,我們可以看出我們方法的運行時間大致是基本方法迭代一次時間的一半。跟基本方法500次迭代的相比,我們的方法快了三個數量級。我們的方法在20fps裏產生512x512的圖片,讓他可能應用在實時圖像轉換或者視頻中。

4.2 單圖超分辨率重建

在單圖超分辨率重建中,任務是從一個低分辨率的輸入,去產生一個高分辨率的輸出圖片。這是一個固有的病態問題,因爲對一個低分辨率圖像,有可能對應着很多種高分辨率的圖像。當超分辨率因子變大時,這個不確定性會變得更大。對於更大的因子(x4 x8),高分辨率圖像中的好的細節很可能只有一丁點或者根本沒有出現在它的低分辨率版本中。

爲了解決這個問題,我們訓練了超分辨率重建網絡,不使用過去使用的逐像素差損失函數,取而代之的是一個特徵重建損失函數(看section 3)以保證語義信息可以從預訓練好的損失網絡中轉移到超分辨率網絡。我們重點關注x4和x8的超分辨率重建,因爲更大的因子需要更多的語義信息。

傳統的指標來衡量超分辨率的是PSNR和SSIM,兩者都和人類的視覺質量沒什麼相關的[55,56,57,58,59].PSNR和SSIM僅僅依賴於像素間低層次的差別,並在高斯噪聲的相乘下作用,這可能是無效的超分辨率。另外的,PSNR是相當於逐像素差的,所以用PSNR衡量的模型訓練過程是讓逐像素損失最小化。因此我們強調,這些實驗的目標並不是實現先進的PSNR和SSIM結果,而是展示定性的質量差別(逐像素損失函數vs感知損失)

模型細節:我們訓練模型來完成x4和x8的超分辨率重建,通過最小化特徵損失(用vgg16在relu2_2層提取出),用了288x288的小塊(1萬張MSCOCO訓練集),準備了低分辨率的輸入,用高斯核模糊的(σ=1.0)下采樣用了雙立方插值。我們訓練時bacth-size=4,訓練了20萬次,Adam,學習速率0.001,無權重衰減,無dropout。作爲一個後續處理步驟,我們執行網絡輸出和低分辨率輸入的直方圖匹配。

基礎:基本模型我們用的 SRCNN[1] 爲了它優秀的表現,SRCNN是一個三層的卷積網絡,損失函數是逐像素求差,用的ILSVRC2013數據集中的33x33的圖片。SRCNN沒有訓練到x8倍,所以我們只能評估x4時的差異。

SRCNN訓練了超過1億次迭代,這在我們的模型上是不可能實現的。考慮到二者的差異(SRCNN和我們的模型),在數據,訓練,結構上的差異。我們訓練圖片轉換網絡x4,x8用了逐像素求差的損失函數,這些網絡使用相同搞得數據,結構,訓練網絡去減少lfeat評測:我們評測了模型,在標準的集合5[60],集合6[61],BSD100[41]數據集,我們報告的PSNR和SSIM[54],都只計算了在Y通道上的(當轉換成YCbCr顏色空間後),跟[1,39]一樣。

結果:我們展示了x4倍超分辨率重建的結果(圖8),和其他的方法相比,我們的模型用特徵重建訓練的,得到了很好的結果,尤其是在鋒銳的邊緣和好的細節,比如圖1的眼睫毛,圖2帽子的細節元素。特徵重建損失在放大下引起輕微的交叉陰影圖案,和基礎方法比起來更好。

x8倍放大展示在圖9中,我們又一次看到我們的模型在邊緣和細節上的優秀。比如那個馬的腳。lfeat模型不會無差別的銳化邊緣;和lpixel模型相比,lfeat模型銳化了馬和騎士的邊緣,但是北京的樹並沒被銳化。可能是因爲lfeat模型更關注圖像的語義信息。

因爲我們的Lpixel和lfeat模型有着相同的結構,數據,和訓練過程,所以所有的差別都是因爲lpixel和lfeat的不同導致的。lpixel給出了更低的視覺效果,更高的PSNR值,而lfeat在重建細節上有着更好的表現,有着很好的視覺結果。

5. 結論

在這篇文章中,我們結合了前饋網絡和基於優化的方法的好處,通過用感知損失函數來訓練前饋網絡。我們對風格轉換應用了這個方法達到了很好的表現和速度。對超分辨率重建運用了這個方法,證明了用感知損失來訓練,能帶來更多好的細節和邊緣。

未來的工作中,我們期望把感知損失函數用在更多其他的圖像轉換任務中,如上色或者語義檢測。我們還打算研究不同損失網絡用於不同的任務,或者更多種不同的語義信息的數據集



作者:zhwhong
鏈接:https://www.jianshu.com/p/b728752a70e9
來源:簡書
簡書著作權歸作者所有,任何形式的轉載都請聯繫作者獲得授權並註明出處。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章