【論文閱讀】針對快速和準確的超分辨率深度拉布拉斯金字塔網絡

Deep Laplacian Pyramid Networks for Fast and Accurate Super-Resolution

地址:https://arxiv.org/pdf/1704.03915.pdf

項目主頁:http://vllab.ucmerced.edu/wlai24/LapSRN/

目錄

Deep Laplacian Pyramid Networks for Fast and Accurate Super-Resolution

1介紹

 

2.相關工作

3.針對SR的深度拉布拉斯金字塔網絡

3.1 網絡結構

3.2 損失函數

3.3實現和訓練細節


簡介:這篇文章提出了Deep Laplacian Pyramid Networks(LapSRN),來逐漸地重建高分辨率圖像的殘差子塊在每一個金字塔水平,我們的模型將粗分辨率的特徵圖作爲輸入,預測高水平殘差塊,並且針對上採樣更細的水平,使用轉置卷積我們的模型不需要在預處理階段進行雙三次線性插值(bicubic interpolation)因此減少了計算複雜性。我們使用深度監督訓練LapSRN,並且採用了一個活躍的Charbonienier 損失函數,最終實現了較高質量的重建。長遠地,我們的網絡在一個前饋通道內產生了多尺寸的預測在重建過程中,因此擴大了應用範圍。對商標的額外的數量和質量的評估表明此算法具有最新的表現和技術。

 

1介紹

 

       近些年相關算法有:dictionary learning, linear regression和 random forest。這些方法都有共同的問題,首先,現有的方法使用預定義的上採樣算子,來將輸入圖片上採樣到需要的空間分辨率,這種方法增加了計算成本,並且導致可見的缺陷。幾種算法通過實施在LR圖片上的卷積來加速SRCNN並且用子像素卷積sub-pixel convolution或者轉置transposed來替換預定義的上採樣算符(在某些地方也被稱作反捲積deconvolution)。這些方法,然而,使用了較少的網絡而不能學習複雜的映射。其次,現有的方法使用l2 損失(i.e.L2正則化,譯者注)來優化,因此不可避免地產生模糊的預測。因爲L2損失未能捕捉到多模態的HR圖塊的分佈的重點。(i.e. 同樣的LR圖塊可能有很多對應的高分辨率圖塊,作者注),重構的HR圖片經常過於平滑,與人類的視覺感知不符。第三,大多數方法在一個上採樣步驟重構HR圖片,這會增加對大的上採樣因子的訓練難度(e.g 8x )。除此之外,現有的方法不能產生預測過程中的中間結果。結果是,人們需要對不同的上採樣尺寸訓練不同的模型。

State-of-the-art

爲了解決這些缺陷,我們提出了拉布拉斯金字塔超分辨率網絡基於級聯的CNN,我們的網絡將一張LR圖片作爲輸入,逐漸在粗到細的趨勢中預測子帶的殘差。在每一層,我們先利用級聯的卷積層來提取特徵圖。之後再採用轉置的卷積層來上採樣特徵圖到一個更精細的水平。最後,我們使用一個卷積層來預測子帶殘差(上採樣圖片和真實的HR圖片的區別)。在每一層預測的殘差被有效的利用起來賴重建HR圖片,通過上採樣和加法運算符。

                        

圖1:SRCNN\VDSR\FSRCNN\DRCN\LapSRN的網絡結構,紅色的箭頭是指卷積層。藍色的箭頭表示轉置的卷積(上採樣)。綠色的箭頭表示逐元素的加法運算符(addition operators),橙色的箭頭表示循環層。

 

我們網絡與現有的基於CNN網絡的不同點:

1)準確率

LapSRN直接從LR圖中提取特徵圖並且一起優化上採樣濾波器,通過深度卷積層來預測子帶殘差。採用Charbonnier損失深度監督提升了表現,這多虧了更好地處理離羣(outliers)。

2)速度

與FSRCNN類似,我們的網絡也在多數測試集上實現了實時預測。而且我們的準確率更高。

3)逐漸重構

我們的模型產生了多種中間的SR預測,通過一個前饋通道採用拉布拉斯金字塔來逐漸重建。我們模型的適應性很強,8x的模型也能在2x或4xSR上運用,只需要在細層增加旁路計算即可。

2.相關工作

基於內部數據庫的SR:缺點比較慢

基於外部數據庫的SR

基於CNN的SR

表1:基於CNN的算法比較:SRCNN、FSRCNN、SCN、ESPCN、VDSR和LapSRN。 層數包括卷積和轉置卷積。直接重建的方法展示了從LR到HR的單步上採樣(雙三次線性插值或轉置卷積)而逐漸的重建多步地預測了HR圖片。

拉布拉斯金字塔

應用:圖片彎曲,紋理分析,邊緣濾波,語義分割。前人的工作包括提出LAPGAN來產生現實的圖片。

圖像金字塔

圖像金字塔是圖像多尺度表達的一種,是一種以多分辨率來解釋圖像的有效但概念簡單的結構。一幅圖像的金字塔是一系列以金字塔形狀排列的分辨率逐步降低,且來源於同一張原始圖的圖像集合。其通過梯次向下採樣獲得,直到達到某個終止條件才停止採樣。我們將一層一層的圖像比喻成金字塔,層級越高。則圖像越小,分辨率越低。 

(參考:https://wenku.baidu.com/view/6cbaacf5cc22bcd126ff0ccf.html

 

高斯金字塔:用來圖像下采樣,主要的圖像金字塔。爲了獲取層級爲Gi+1的金字塔圖像,我們採用如下辦法:

(1)對圖像Gi進行高斯內核卷積

(2)將所有偶數行和列去除

高斯金字塔公式如下:

l表示第l層,(i,j)表示第l層像素點,w表示卷積核的第m行,n列的權重。卷積核大小爲3x3.

拉布拉斯金字塔:用來從圖像底層圖像重建上層未採樣圖像,在數字圖像處理中也是預測殘差,可以對圖像進行最大程度的還原。

 

 

3.針對SR的深度拉布拉斯金字塔網絡

這一節主要討論LapSRN的網絡拓撲和相關參數。

3.1 網絡結構

我們的網絡將低分辨率圖作爲輸入(而不是上採樣版本的低分辨率圖)然後逐漸預測在log_{2}S的殘差圖像,這裏S是縮放因子。我們的模型包括兩個部分1)特徵提取 2)圖像重建

 

特徵提取

在層次 s,特徵提取分支包括d層卷積層和一個轉置卷積層,按尺寸2來上採樣提取的特徵。每一個轉置層輸出連接到兩個不同層:(1)一個層用來在層次s重建殘差圖像的的卷積網絡  (2)一個在更細的層次s+1抽取特徵的卷積層。注意我們只用一個轉置卷積在粗的分辨率執行特徵提取,而在細的分辨率產生特徵圖,這與現有的特徵提取和重建都在細的分辨率下進行相反。注意低水平的特徵表示與高水平共享,因此能提高網絡非線性,以便來複習複雜的映射。

 

圖像重建

在層次s,輸入圖片按照因子2被轉置卷積層所上採樣。我們用雙線性核(bilinear kernel)來初始化這個層,並且允許它與其它所有層一起優化。之後上採樣的圖像和預測的殘差圖像結合在一起來產生高質量的輸出圖片。輸出的s層次的HR圖像被喂入圖像重建s+1分支。整個網絡是一些級聯的結構相似的CNN。

 

3.2 損失函數

令x爲輸入的LR圖像,\Theta爲網絡待優化的參數。我們的目標是學習一個,我們用r_{s}表示s層次的殘差圖像,上採樣的LR圖像爲x{_{s}},對應的HR圖像爲y{_{s}}。目標圖像爲,我們使用雙三次降採樣來把真實的圖像y縮放到y{_{s}}。我們使用如下的損失函數:

這裏是Charbonnier懲罰函數(一種L1的變種)。N是每個batch的訓練樣本數。L是金字塔的層數。經驗性的,把 \varepsilon 設爲1e-3。

3.3實現和訓練細節

在LapSRN中,每一個卷積層包括64個大小爲3x3的卷積核(i.e.濾波器),採用PReLU的方法初始化所有卷積核,轉置矩陣大小是4x4,權重是由雙線性濾波器所初始化的。所有的卷積層和轉置卷積層後都有leaky ReLU(LReLUs)單元(在負半軸的斜率是0.2)。我們運用padding的方法來讓每一層次的特徵圖的輸入有相同的尺寸。

我們使用了來自Yang et al. 的91張圖片和Berkeley Segmentation Dataset 作爲訓練集。在每一個訓練batch,我們隨機地採樣64塊大小爲128x128的子圖。每一個epoch有1000輪反向傳播的迭代。用三種方法增強樣本(1)縮放:在[0.5,1.0]隨機下采樣  (2)旋轉,隨機旋轉 90° ,180°或 270°。(3)翻轉:按照0.5的可能性隨機水平或豎直翻轉。

                                                                  

圖2:收斂分析
表2:訓練結果比較

訓練方法:MatConvNet toolbox。momentum爲0.9,weight_decay爲1e-4,初始化學習率爲1e-5,之後按照每50輪減爲一半。

4 實驗結果

表3 不同層數的結果比較
表4:現有算法的大量比較

 以上是筆者的翻譯,具體理解還要在實踐完成之後才能給出,有問題歡迎一起探討。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章