2019超分辨綜述

論文地址:Deep Learning for Image Super-resolution: A Survey

  摘要——圖像超分辨率(SR)是一類重要的圖像處理技術,旨在提高計算機視覺中圖像和視頻的分辨率。 近年來,目睹了使用深度學習技術的圖像超分辨率的顯着進步。 本文旨在對使用深度學習方法的圖像超分辨率的最新進展提供全面的調查。 通常,我們可以將現有的SR技術研究大致分爲三大類:監督SR,無監督SR和特定領域的SR。 此外,我們還涵蓋了其他一些重要問題,例如公開可用的基準數據集和性能評估指標。 最後,我們通過重點介紹未來的一些方向和未解決應在將來進一步解決的問題來結束本調查。
  關鍵字——圖像超分辨,深度學習,卷積神經網絡,生成對抗網絡

1 介紹

  圖像超分辨是指從低分辨率(SR)中恢復高分辨率(HR)圖像是計算機視覺和圖像處理中一類重要的圖像處理技術。 它享有廣泛的實際應用,例如醫學成像,監視和安全。 除了改善圖像感知質量外,它還有助於改善其他計算機視覺任務。 由於有多個HR圖像對應於單​​個LR圖像,此問題變得非常具有挑戰性,並且固有地存在難適應性。現如今已經提出了多種經典的SR方法,包括基於預測的方法,基於邊緣的方法,統計方法,基於補丁的方法和稀疏表示方法等。
  隨着近年來深度學習技術的飛速發展,基於深度學習的SR模型已得到積極探索,並經常在各種SR基準上達到最先進的性能。 從基於早期卷積神經網絡(CNN)的方法(例如SRCNN)到最近使用生成對抗網絡(GAN)的有前途的SR方法,各種各樣的深度學習方法已應用於解決SR任務(例如SRGAN)。 通常,使用深度學習技術的SR算法族在以下主要方面彼此不同:不同類型的網絡體系結構,不同類型的損失函數,不同類型的學習原理和策略等。
  在本文中,我們全面概述了深度學習中圖像超分辨率的最新進展。儘管現有文獻中已有一些SR調查,但我們的工作有所不同,我們專注於基於深度學習的SR技術,而大多數早期的研究旨在調查傳統 SR算法或一些研究主要集中在基於全參考指標或人類視覺感知的定量評估上。 與現有調查不同,我們的調查採用了獨特的基於深度學習的觀點,以系統,全面的方式回顧了SR技術的最新進展。
  該調查的主要貢獻是三方面:

  1. 我們對基於深度學習的圖像超分辨率技術進行了全面回顧,包括問題設置,基準數據集,性能指標,具有深度學習的SR方法系列,特定領域SR應用程序等;
  2. 我們以分層和結構方式對基於深度學習的SR技術的最新進展進行了系統的概述,並總結了有效SR解決方案的每個組件的優點和侷限性;
  3. 我們討論挑戰和未解決的問題,並確定新趨勢和未來方向,提供有見地的指導。

  在以下各節中,我們將介紹深度學習中圖像超分辨率的最新進展的各個方面。 圖1以分層結構的方式顯示了本次調查要涵蓋的圖像SR的分類法。第2節給出了問題的定義,並回顧了主流數據集和評估指標。 第三部分模塊化地分析了監督SR的主要組成部分。 第4節簡要介紹了無監督SR方法。第5節介紹一些流行的特定於域的SR應用,第6節討論未來的方向和未解決的問題。
在這裏插入圖片描述

2 問題設置和術語

2.1 問題定義

  圖像超分辨率旨在從LR圖像中恢復相應的HR圖像。 通常LR圖像IxI_x被建模爲以下degradation的輸出:
Ix=D(Iy,σ)(1) I_x=\mathcal{D}(I_y, σ) \tag{1}
其中D\mathcal{D}表示降級映射函數,IyI_y是相應的HR圖像,而δ是降級過程的參數(例如縮放因子或噪聲)。通常,degradation過程(即D\mathcal{D}和δ)是未知的,僅提供LR圖像。 在這種情況下,也稱爲盲態SR,要求研究人員從LR圖像IxI_x中恢復地面真實HR圖像IyI_y的HR近似值I^y\hat{I}_y,如下所示:
I^y=F(Ix;θ)(2) \hat{I}_y=\mathcal{F}(I_x;θ)\tag{2}
其中F\mathcal{F}是超分辨率模型,θ表示F\mathcal{F}的參數。
  儘管degradation過程未知,並且可能受多種因素(例如壓縮僞影,各向異性degradation,傳感器噪聲和斑點噪聲)的影響,但研究人員正在嘗試對degradation映射進行建模。大多數工作將degradation建模爲單個下采樣操作,如下所示:
D(Iy;σ)=(Iy)s,sσ(3) \mathcal{D}(I_y;σ)=(I_y)\downarrow_s,{s}⊂σ\tag{3}
s\downarrow_s是比例因子爲ss的下采樣操作。事實上,大多數通用SR的數據集都是基於此模式構建的,最常用的下采樣操作是具有抗鋸齒的三次雙線性插值插值。 但是,還有其他工作[39]將degradation建模爲幾種操作的組合:
D(Iy;σ)=(Iyκ)s+nζ,κ,s,ζσ(4) \mathcal{D}(I_y;σ)=(I_y⊗κ)\downarrow_s+n_{ζ},{κ,s,ζ}⊂σ\tag{4}
其中IyκI_y⊗κ代表模糊核κ與HR圖像IyI_y之間的卷積,nζn_ζ爲標準偏差ζ的一些加性高斯白噪聲。 相對於公式3的定義等式4的組合degradation模式更接近於現實世界的情況,並已被證明對SR更有益。
  最終SR的目標是:
θ^=argminθL(I^y,Iy)+λΦ(θ) \hat{θ} = argmin_{θ} \mathbb{L}(\hat{I}_y,I_y)+λΦ(θ)

其中L(I^y,Iy)\mathbb{L}(\hat{I}_y,I_y)表明HR圖像I^y\hat{I}_y和ground truth圖像IyI_y之間的損失,Φ(θ)Φ(θ)是正則化項,λ爲權衡參數。儘管SR最受歡迎的損失函數是逐像素均方誤差(即像素損失),但功能更強大的模型傾向於使用多個損失函數的組合,這將在本教程中介紹。

2.2 超分辨的數據集

  如今,有許多可用的圖像超分辨率數據集,它們在圖像數量,質量,分辨率和多樣性等方面有很大差異。其中一些提供LR-HR圖像對,而另一些僅提供HR圖像。 通常通過在MATLAB中使用默認設置的imresize函數獲得LR圖像(即帶抗鋸齒的三次雙線性插值)。 在表1中,我們列出了SR社區常用的許多圖像數據集,並特別指出了它們的HR圖像數量,平均分辨率,平均像素數,圖像格式和類別關鍵字。
  除了這些數據集,一些廣泛用於其他視覺任務的數據集也用於SR,例如ImageNet,MS-COCO,VOC2012,CelebA。 此外,結合多個數據集進行訓練也很流行,例如結合T91和BSDS300,結合DIV2K和Flickr2K。
在這裏插入圖片描述

2.3 圖像質量評估

  圖像質量是指圖像的視覺屬性,並着重於查看者的感知評估。 通常,圖像質量評估(IQA)方法包括基於人類感知的主觀方法(即圖像的真實感)和客觀計算方法。前者更符合我們的需求,但通常既耗時又昂貴,因此後者目前是主流。 但是,這些方法不一定彼此一致,因爲客觀方法通常無法非常準確地捕獲人類的視覺感知,這可能會導致IQA結果差異很大。
  另外,客觀IQA方法又分爲三種類型[58]:使用參考圖像進行評估的全參考方法,基於提取特徵比較的簡化參考方法以及不使用參考圖片的無參考方法(即盲IQA)。 接下來,我們將介紹幾種最常用的IQA方法,涵蓋主觀方法和客觀方法。

2.3.1 峯值信噪比

  峯值信噪比(PSNR)是有損變換(例如圖像壓縮,圖像修復)最受歡迎的重建質量度量之一。 對於圖像超分辨率,通過最大像素值(表示爲L)和圖像之間的均方誤差(MSE)定義PSNR。 給定具有N個像素的地面真實圖像II和重建I^\hat{I},則III^\hat{I}之間的PSNR定義如下:
PSNR=10log10(L21Ni=1N(I(i)I^(i))2) PSNR=10⋅log_{10}(\frac{L^2}{\frac{1}{N}∑_{i=1}^N (I(i)-\hat{I}(i))^2})
通常情況下,使用8位表示法,L等於255。 由於PSNR僅與像素級MSE有關,因此僅關注相應像素之間的差異而不是視覺感知,因此在表示真實場景中的重建質量時,由於我們通常更關注人類知覺通常會導致性能下降。 但是,由於有必要與文獻著作進行比較,並且缺乏完全準確的感知指標,因此PSNR仍然是目前最廣泛用於SR模型的評估標準。

2.3.2 結構相似

  考慮到人類視覺系統(HVS)非常適合提取圖像結構,基於亮度,對比度的獨立比較,提出了結構相似性指標(SSIM)用於測量圖像之間的結構相似性。對於具有N個像素的圖像II,分別將亮度µIµ_I和對比度σIσ_I估計爲圖像強度的平均值和標準偏差,即µI=1Ni=1NI(i)µ_I=\frac{1}{N}∑_{i=1}^NI(i)σI=(1N1i=1N(I(i)μI)2)12σ_I=(\frac{1}{N-1}∑_{i=1}^N(I(i)-μ_I)^2)^{\frac{1}{2}},其中I(i)I(i)代表圖像II的第ii個像素的強度。亮度和對比度的比較表示爲Cl(I;I^)\mathbb{C}_l(I;\hat{I})Cc(I,I^)\mathbb{C}_c(I,\hat{I})分別由下式給出:
Cl(I,I^)=2μIμI^+C1μI2+μI^2+C1 \mathbb{C}_l(I,\hat{I})=\frac{2μ_Iμ_{\hat{I}} + C_1}{μ_I^2+μ_{\hat{I}}^2+C_1}

Cc(I,I^)=2σIσI^+C2σI2+σI^2+C2 \mathbb{C}_c(I,\hat{I})=\frac{2σ_Iσ_{\hat{I}} + C_2}{σ_I^2+σ_{\hat{I}}^2+C_2}
其中C1=(k1L)2,C2=(k2L)2C_1=(k_1L)^2,C_2=(k_2L)^2是爲了避免不穩定性的常數k11,k21k_1≪1,k_2≪1
  此外,圖像結構由歸一化的像素值(即(IμI)/σI(I-μ_I)/σ_I)表示,其相關性(即內積)測量結構相似性,等效於III^\hat{I}之間的相關係數。 因此,結構比較函數CsI;I^\mathbb{C}_s(I;\hat{I})定義爲:
σII^=1N1i=1N(I(i)μI)(I^(i)μI^) σ_{I\hat{I}}=\frac{1}{N-1}\sum_{i=1}^N(I(i)-μ_I)(\hat{I}(i) - μ_{\hat{I}})

Cs(I,I^)=σII^+C3σIσI^+C3 \mathbb{C}_s(I,\hat{I})=\frac{σ_{I\hat{I}}+C_3}{σ_{I}σ_{\hat{I}}+C_3}
  σII^σ_{I\hat{I}}是二者的協方差,C3C_3是爲了維護穩定性的常數。
SSIM(I,I^)=[Cl(I,I^)]α[Cc(I,I^)]β[Cs(I,I^)]γ SSIM(I,\hat{I})=[\mathbb{C}_l(I,\hat{I})]^α[\mathbb{C}_c(I,\hat{I})]^β[\mathbb{C}_s(I,\hat{I})]^γ
其中α,β,γ是調節相關重要性的參數。
  由於SSIM從HVS的角度評估重建質量,因此它更好地滿足了感知評估的要求,並且也被廣泛使用。

2.3.3 平均意見分數

  平均意見得分(MOS)測試是一種常用的主觀IQA方法,要求人類評估者爲測試的圖像分配感知質量得分。 通常,分數從1(差)到5(好)。 最終的MOS計算爲所有額定值的算術平均值。
  儘管MOS測試似乎是一種忠實的IQA方法,但它具有一些固有的缺陷,例如非線性感知的比例,偏差和評級標準的偏差。 實際上,有些SR模型在通用IQA指標(例如PSNR)中表現較差,但在感知質量方面遠遠超過其他模型,在這種情況下,MOS測試是準確測量感知質量的最可靠的IQA方法。

2.3.4 基於學習的知覺質量

  爲了在減少人工干預的同時更好地評估圖像的感知質量,研究人員嘗試通過在大型數據集上學習來評估感知質量。 具體來說,Ma等和Talebi等分別提出了無參考的Ma和NIMA,它們是從視覺知覺得分中學到的,並且可以直接預測質量得分而無需地面真相圖像。 相反,Kim等提出了DeepQA,它通過訓練三重畸變圖像,客觀誤差圖和主觀得分來預測圖像的視覺相似性。 張等收集大規模的感知相似性數據集,通過訓練有素的深度網絡根據深度特徵的差異評估感知圖像斑塊相似度(LPIPS),並表明CNN所學習的深度特徵比沒有CNN的測度更好。
  儘管這些方法在捕獲人類視覺感知方面表現出更好的性能,但是我們需要什麼樣的感知質量(例如,更逼真的圖像或與原始圖像的一致性)仍然是一個有待探索的問題,因此,客觀的IQA方法(例如,PSNR)(SSIM)仍然是當前的主流。

2.3.5 基於任務的評估

  根據SR模型通常可以幫助其他視覺任務的事實,通過其他任務評估重建性能是另一種有效的方法。具體來說,研究人員將原始和重建的HR圖像輸入經過訓練的模型中,並通過比較對預測性能的影響來評估重建質量。 用於評估的視覺任務包括對象識別,面部識別,面部對齊和解析等。

2.3.6 其他IQA方法

  除了上述IQA方法外,還有其他不太受歡迎的SR指標。 多尺度結構相似性(MS-SSIM)在結合觀看條件變化方面比單尺度SSIM提供了更大的靈活性。特徵相似度(FSIM)基於相位一致性和圖像梯度幅度提取人類感興趣的特徵點,以評估圖像質量。 自然圖像質量評估器(NIQE)利用與自然圖像中觀察到的統計規律性的可測量偏差,而不會暴露於失真圖像。
  最近,布勞等從數學上證明失真(例如PSNR,SSIM)和感知質量(例如MOS)彼此矛盾,並且表明隨着失真的降低,感知質量必定會更差。因此,如何準確地測量SR質量仍然是一個亟待解決的問題。

2.4 處理通道

  除了常用的RGB顏色空間外,YCbCr顏色空間還廣泛用於SR。 在此空間中,圖像分別由Y,Cb,Cr通道表示,分別表示亮度,藍差和紅差色度分量。 儘管目前尚無公認的最佳實踐來在哪個空間上執行或評估超分辨率,但較早的模型傾向於在YCbCr空間的Y通道上進行操作,而較新的模型則傾向於 在RGB通道上操作。 值得注意的是,在不同的色彩空間或通道上進行操作(訓練或評估)可能會使評估結果相差很大(最高4 dB)。

2.5 超分辨率挑戰

  在本節中,我們將簡要介紹圖像SR的兩個最受歡迎的挑戰,即NTIRE和PIRM。

  • NTIRE挑戰:圖像恢復和增強的新趨勢(NTIRE)挑戰與CVPR結合使用,並且包括SR,降噪和着色等多項任務。 對於圖像SR,NTIRE挑戰建立在DIV2K 數據集上,包括雙三次縮徑軌道和具有實際未知降級的盲賽道。這些賽道在退化和縮放因子方面有所不同,旨在在理想條件和現實世界的不利情況下促進SR研究。
  • PIRM挑戰。 感知圖像恢復和操縱(PIRM)挑戰與ECCV結合在一起,並且還包含多個任務。 與NTIRE相比,PIRM的一個子挑戰專注於發電精度和感知質量之間的權衡,另一個專注於智能手機的SR。 衆所周知,以失真爲目標的模型經常會產生視覺上令人不愉快的結果,而以感知質量爲目標的模型在信息保真度上表現不佳。具體而言,PIRM根據均方根誤差(RMSE)的閾值將感知失真平面分爲三個區域。 在每個區域,獲勝的算法都是獲得最佳感知質量的算法,由NIQE 和Ma 進行了評估。 在其他子挑戰中,智能手機上的SR要求參與者使用有限的智能手機硬件(包括CPU,GPU,RAM等)執行SR,評估指標包括PSNR,MS-SSIM和MOS測試 。 這樣,PIRM鼓勵在感知失真權衡方面進行高級研究,並在智能手機上推動輕巧高效的圖像增強。

3 監督超分辨

  如今,研究人員已經提出了各種帶有深度學習的超分辨率模型。 這些模型專注於監督SR,即使用LR圖像和相應的HR圖像進行訓練。 儘管這些模型之間的差異非常大,但它們實質上是一組組件(例如模型框架,上採樣方法,網絡設計和學習策略)的某種組合。 從這個角度出發,研究人員將這些組件結合起來,以構建適合特定目的的集成SR模型。 在本節中,我們集中於模塊化分析基本組件(如圖2所示)不是孤立地介紹每個模型,而是總結它們的優點和侷限性。
在這裏插入圖片描述

3.1 超分辨框架

  由於圖像超分辨率是一個ill-posed的問題,因此關鍵的問題是如何執行上採樣(即從LR輸入生成HR輸出)。 儘管現有模型的體系結構千差萬別,但根據所採用的上採樣操作及其在模型中的位置,它們可以歸因於四個模型框架(如圖2所示)。

3.1.1 預上採樣超分辨

  考慮到直接學習從低維空間到高維空間的映射的困難,利用傳統的上採樣算法來獲得更高分辨率的圖像,然後使用深度神經網絡對其進行細化是一個簡單的解決方案。 因此,董等人首先採用預上採樣的SR框架(如圖2a所示),並提出SRCNN以學習從內插LR圖像到HR圖像的端到端映射。具體而言,使用傳統方法(例如,雙三次插值)將LR圖像上採樣爲具有所需大小的粗略HR圖像,然後將深CNN應用於這些圖像以重建高質量的細節。
  由於完成了最困難的上採樣操作,因此CNN僅需要細化粗圖像,從而大大降低了學習難度。 另外,這些模型可以將具有任意大小和比例因子的插值圖像作爲輸入,並以與單尺度SR模型相當的性能提供精確的結果。 因此,它逐漸成爲最受歡迎的框架之一,這些模型之間的主要區別在於後驗模型設計(第3.3節)和學習策略(第3.4節)。但是,預定義的上採樣通常會帶來副作用(例如,噪聲放大和模糊),並且由於大多數操作是在高維空間中執行的,因此時間和空間的成本比其他框架要高得多。

3.1.2 後上採樣超分辨

  爲了提高計算效率並充分利用深度學習技術來自動提高分辨率,研究人員建議在低維空間中執行大多數計算,方法是將預定義的上採樣替換爲在端部集成的端到端可學習層。 在該框架的開創性工作中,即圖2b所示的後上採樣SR,LR輸入圖像被饋送到深度CNN中而不增加分辨率,並應用了端到端可學習的上採樣層 在網絡的末端。
  由於具有巨大計算成本的特徵提取過程僅在低維空間中發生,並且分辨率僅在最後增加,因此大大降低了計算和空間複雜度。 因此,該框架也已成爲最主流的框架之一。 這些模型的主要區別在於可學習的上採樣層(第3.2節),前CNN結構(第3.3節)和學習策略(第3.4節)等。

3.1.3 漸進式上採樣超分辨率

  儘管上採樣後SR框架極大地降低了計算成本,但仍存在一些不足。 一方面,僅在一個步驟中執行上採樣,這極大地增加了大比例因子(例如4、8)的學習難度。 另一方面,每個比例因子都需要訓練一個單獨的SR模型,這無法滿足對多比例SR的需求。 爲了解決這些缺點,拉普拉斯金字塔SR網絡(LapSRN)採用了漸進式上採樣框架,如圖2c所示。 具體來說,在此框架下的模型基於CNN的級聯,並逐步重建更高分辨率的圖像。 在每個階段,圖像都會被上採樣到更高的分辨率,並由CNN進行精煉。 MS-LapSRN和漸進式SR(ProSR)等其他作品也採用了這種框架,並獲得了較高的性能。 與使用中間重構圖像作爲後續模塊的“基礎圖像”的LapSRN和MS-LapSRN相比,ProSR保留了主要信息流,並通過單個磁頭重構了中分辨率圖像。
  通過將困難的任務分解爲簡單的任務,該框架下的模型極大地降低了學習難度,尤其是在具有較大因素的情況下,並且在不引入過多空間和時間成本的情況下也可以應對多尺度SR。 此外,可以將某些特定的學習策略(例如課程學習(第3.4.3節)和多重監督(第3.4.4節))直接集成在一起,以進一步降低學習難度並提高最終成績。但是,這些模型還遇到一些問題,例如多階段的複雜模型設計和訓練穩定性,因此需要更多的模型指導和更高級的訓練策略。

3.1.4 上下迭代採樣超分辨率

  爲了更好地捕獲LRHR圖像對的相互依賴性,將有效的迭代過程稱爲反投影併入SR。 這個SR框架,即迭代的上下采樣SR(如圖2d所示),試圖迭代地應用反投影細化,即計算重建誤差,然後將其融合以調整HR圖像強度。 具體來說,Haris等利用迭代的上下采樣層並提出DBPN,它交替連接上採樣層和下采樣層,並使用所有中間重構來重構最終的HR結果。 類似地,SRFBN採用了具有更密集的跳過連接的迭代式上下采樣反饋塊,並學習了更好的表示形式。 用於視頻超分辨率的RBPN從連續的視頻幀中提取上下文,並通過反投影模塊將這些上下文組合起來以產生循環輸出幀。
  在此框架下的模型可以更好地挖掘LR-HR圖像對之間的深層關係,從而提供更高質量的重建結果。 儘管如此,反投影模塊的設計標準仍不清楚。 由於此機制剛剛被引入基於深度學習的SR中,因此該框架具有巨大的潛力,需要進一步探索。

3.2 上採樣方法

  除了模型中的上採樣位置外,如何執行上採樣也非常重要。 儘管有多種傳統的上採樣方法,但利用CNN來學習端到端的上採樣已逐漸成爲一種趨勢。 在本部分中,我們將介紹一些傳統的基於插值的算法和基於深度學習的上採樣層。

3.2.1 基於插值的上採樣

  圖像插值,也稱爲圖像縮放,是指調整數字圖像的大小,並被圖像相關的應用程序廣泛使用。 傳統的插值方法包括最近鄰插值,雙線性和雙三次插值,Sinc和Lanczos重採樣等。由於這些方法可解釋且易於實現,因此其中一些仍在基於CNN的SR模型中廣泛使用。

  • 最近鄰插值。 最近鄰插值是一種簡單直觀的算法。 它爲每個要插值的位置選擇最近的像素值,而不考慮其他任何像素。 因此,該方法非常快,但通常會產生質量低下的塊狀結果;
  • 雙線性插值。 雙線性插值(BLI)首先在圖像的一個軸上執行線性插值,然後在另一個軸上執行,如圖3所示。 由於它會導致接收場大小爲2×2的二次插值,因此在保持相對較快速度的同時,其性能比最近鄰插值要好得多。
  • 三次插值。 同樣,三次插值(BCI)在兩個軸的每個軸上執行三次插值,如圖3所示。 與BLI相比,BCI考慮了4×4像素,因此結果更平滑,僞像更少,但速度卻低得多。 實際上,具有抗鋸齒功能的BCI是構建SR數據集的主流方法(即將HR圖像降級爲LR圖像),並且還廣泛用於預採樣SR框架中(第3.1.1節)。
      實際上,基於插值的上採樣方法僅基於其自身的圖像信號即可提高圖像分辨率,而不會帶來更多信息。相反,它們通常會帶來一些副作用,例如計算複雜度,噪聲放大,結果模糊。因此,當前的趨勢是用可學習的上採樣層替換基於插值的方法。

3.2.2 基於學習的上採樣

在這裏插入圖片描述
爲了克服基於插值的方法的缺點並以端到端的方式學習上採樣,已將轉置的卷積層和子像素層引入了SR領域。

  • 轉置卷積層。 轉置卷積層,也稱爲反捲積層,試圖執行與正常卷積相反的變換,即基於大小類似於卷積輸出的特徵圖預測可能的輸入。 具體而言,它通過插入零並執行卷積來擴展圖像,從而提高了圖像分辨率。 以2×SR和3×3內核爲例(如圖4所示),首先將輸入擴展爲原始大小的兩倍,然後將相加的像素值設置爲0(圖4b)。 然後應用內核大小爲3×3,跨度爲1和填充爲1的卷積(圖4c)。 這樣,輸入將以2的係數上採樣,在這種情況下,接收場最多爲2×2。因爲轉置的卷積以端到端的方式擴大了圖像大小,同時保持與在SR模型中被廣泛用作升採樣層原始的卷積兼容的連接模式。 但是,該層很容易在每個軸上引起“不均勻的重疊” ,並且兩個軸上的相乘結果進一步創建了大小變化的棋盤狀圖案,從而損害了SR性能。
  • 亞像素層。 如圖5所示,子像素層是另一個端到端可學習的上採樣層,它通過卷積生成多個通道然後對其進行重塑來執行上採樣。 在這一層中,首先應用卷積來產生具有s2s^2倍通道的輸出,其中s是比例因子(圖5b)。假設輸入大小爲h×w×c,則輸出大小將爲h×w×s2ch×w×s^2c。 之後,執行整形操作(也稱爲混洗)以生成大小爲sh×sw×c的輸出(圖5c)。 在這種情況下,接收場可以達到3×3。由於端到端的上採樣方式,該層也被SR模型廣泛使用。 與轉置的卷積層相比,子像素層具有更大的接收場,可提供更多的上下文信息以幫助生成更多逼真的細節。 但是,由於接收場的分佈不均勻,並且塊狀區域實際上共享相同的接收場,因此可能會導致在不同塊的邊界附近出現一些僞像。 另一方面,獨立預測塊狀區域中的相鄰像素可能會導致輸出不平滑。高等提出了PixelTCL,它將獨立預測替換爲相互依存的順序預測,併產生更平滑,更一致的結果。
  • 元升級模塊。 先前的方法需要預先定義縮放因子,即針對不同的因子訓練不同的上採樣模塊,這效率低下且與實際需求不符。 胡等提出了元高級模塊(如圖6所示),該模塊首先基於元學習解決任意比例因子的SR。具體來說,對於HR圖像上的每個目標位置,該模塊將其投影到LR特徵圖上的一個小塊(即k×k×cink×k×c_{in}),根據以下公式預測卷積權重(即k×k×cin×coutk×k×c_{in}×c_{out}) 投影偏移和縮放係數通過密集層進行卷積。 這樣,元高級模塊可以通過單個模型以任意因子連續放大它。 並且由於大量的訓練數據(同時對多個因素進行訓練),該模塊在固定因素上可以表現出相同甚至更好的性能。 儘管該模塊需要在推理過程中預測權重,但上採樣模塊的執行時間僅約佔特徵提取時間的1%。 但是,該方法基於與圖像內容無關的幾個值來預測每個目標像素的大量卷積權重,因此當面對較大的放大倍數時,預測結果可能不穩定且效率較低。
      如今,這些基於學習的層已成爲使用最廣泛的上採樣方法。 尤其是在上採樣後框架(第3.1.2節)中,這些層通常用於最終的上採樣階段,以基於在低維空間中提取的高級表示來重建HR圖像,從而實現端到端的SR同時應當避免在高維空間中進行繁重的操作。

3.3 網絡設計

在這裏插入圖片描述
  如今,網絡設計已成爲深度學習最重要的部分之一。 在超分辨率領域,研究人員在四個SR框架(第3.1節)的基礎上應用各種網絡設計策略來構建最終的網絡。 在本節中,我們將這些網絡分解爲網絡設計的基本原理或策略,對其進行介紹並逐一分析其優勢和侷限性。

3.3.1 殘差學習

  在He之前等提出ResNet用於學習殘差而不是徹底的映射,殘差學習已被SR模型廣泛採用,如圖7a所示。 其中,殘差學習策略可以大致分爲全局殘差學習和局部殘差學習。

  • 全局殘差學習。 由於圖像SR是圖像到圖像的轉換任務,其中輸入圖像與目標圖像高度相關,因此研究人員嘗試僅學習它們之間的殘差,即全局殘差學習。 在這種情況下,它避免了學習從完整圖像到另一個圖像的複雜轉換,而只需要學習一個殘差圖即可恢復丟失的高頻細節。 由於大多數區域的殘差接近零,因此大大降低了模型的複雜性和學習難度。 因此,它被SR模型廣泛使用。
  • 本地殘差學習。 局部殘差學習與ResNet中的殘差學習相似,用於緩解因網絡深度不斷增加而引起的退化問題,降低訓練難度並提高學習能力。 它也廣泛用於SR。
      實際上,上述方法都是通過快捷方式連接(通常由一個小常數縮放)和逐元素加法來實現的,不同之處在於前者直接連接輸入和輸出圖像,而後者通常在層之間添加多個快捷方式 在網絡內部具有不同的深度。

3.3.2 遞歸學習

  爲了在不引入壓倒性參數的情況下學習高級功能,將遞歸學習(即以遞歸方式多次應用相同的模塊)引入SR領域,如圖7b所示。
  其中,16遞歸DRCN採用單個卷積層作爲遞歸單元,並達到41×41的接收場,這比SRCNN的13×13大得多,而沒有太多參數。 DRRN使用ResBlock作爲25次遞歸的遞歸單元,並且比17-ResBlock基線獲得更好的性能。 後來Tai等提出了基於存儲塊的MemNet,該存儲塊由6個遞歸ResBlock組成,其中每個遞歸的輸出被級聯,並通過額外的1×1卷積進行記憶和遺忘。 級聯殘差網絡(CARN)也採用了類似的遞歸單元,其中包括多個ResBlock。 最近,李等人採用迭代式上下采樣SR框架,並提出了一種基於遞歸學習的反饋網絡,其中整個網絡的權重在所有遞歸中共享。
  此外,研究人員還在不同部分採用了不同的遞歸模塊。 具體來說,Han等提出了雙狀態遞歸網絡(DSRN)在LR和HR狀態之間交換信號。 在每個時間步驟(即遞歸),每個分支的表示都進行更新和交換,以便更好地探索LR-HR關係。同樣,賴等採用嵌入和上採樣模塊作爲遞歸單元,因此以很小的性能損失爲代價大大減小了模型尺寸。
  通常,遞歸學習確實可以在不引入過多參數的情況下學習更高級的表示形式,但是仍然無法避免高昂的計算成本。而且它固有地帶來了消失或爆炸的梯度問題,因此一些技術(例如殘差學習(第3.3.1節)和多監督(第3.4.4節))通常與遞歸學習相集成,以緩解這些問題。

3.3.3 多路學習

  多路徑學習是指通過多條路徑傳遞特徵,這些特徵會執行不同的操作,並將其融合以提供更好的建模功能。具體來說,可以將其分爲全局,局部和規模特定的多路徑學習。

  • 全局多路徑學習。 全局多路徑學習是指利用多條路徑來提取圖像不同方面的特徵。 這些路徑在傳播中可以相互交叉,從而大大增強了學習能力。 具體來說,LapSRN包括以粗略到精細的方式預測子帶殘差的特徵提取路徑,以及基於來自兩條路徑的信號重建HR圖像的另一條路徑。 類似地,DSRN利用兩條路徑分別提取低維和高維空間中的信息,並不斷交換信息以進一步提高學習能力。 像素遞歸超分辨率採用條件路徑來捕獲圖像的整體結構,並採用先驗路徑來捕獲所生成像素的序列依賴性。 相反,Ren等採用具有不平衡結構的多條路徑來執行上採樣並在模型末尾融合它們。
  • 本地多路徑學習。 如圖7e所示,在初始模塊的推動下,MSRN採用了一個用於多尺度特徵提取的新模塊。 在此塊中,採用兩個內核大小分別爲3×3和5×5的卷積層來同時提取特徵,然後將輸出級聯並再次進行相同的操作,最後再應用額外的1×1卷積。 快捷方式通過逐元素加法連接輸入和輸出。通過這種局部多路徑學習,SR模型可以更好地從多個尺度提取圖像特徵,並進一步提高性能。
  • 量表特定的多路徑學習。 考慮到不同規模的SR模型需要經過相似的特徵提取,Lim等人提出了針對特定規模的多路徑學習,以通過單個網絡應對多尺度SR。 具體來說,它們共享模型的主要組成部分(即用於特徵提取的中間層),並分別在網絡的開頭和結尾處附加特定於比例的預處理路徑和上採樣路徑。(如圖7f所示)。在訓練期間,僅啓用和更新與所選比例尺相對應的路徑。 通過這種方式,建議的MDSR通過共享不同比例的大多數參數極大地減小了模型尺寸,並且表現出與單比例模型相當的性能。CARN和ProSR也採用了類似的針對特定尺度的多路徑學習。

3.3.4 密集鏈接

  由於黃等提出了基於密集塊的DenseNet,密集連接在視覺任務中變得越來越流行。 對於密集塊中的每一層,所有先前層的特徵圖都用作輸入,而其自身的特徵圖則用作所有後續層的輸入,因此,它導致ll1/2l·(l − 1)/ 2個連接$ l層密集塊(l$≥2)。 密集連接不僅有助於減輕梯度消失,增強信號傳播並促進特徵重用,而且還可以通過採用較小的增長率(即密集塊中的通道數)並在連接所有輸入特徵圖後壓縮通道來顯着減小模型尺寸。
  爲了融合低級和高級功能以提供更豐富的信息來重構高質量的細節,在SR字段中引入了密集連接,如圖7d所示。 Tong等不僅採用密集塊來構造一個69層的SRDenseNet,而且還在不同密集塊之間插入密集連接,即對於每個密集塊,所有先前塊的特徵圖都用作輸入,並使用其自己的特徵圖 用作所有後續塊的輸入。 這些層級和塊級密集連接也被MemNet,Carn,RDN和ESRGAN 採用。 DBPN也廣泛採用密集連接,但是它們的密集連接在所有上採樣單元之間以及下采樣單元之間。

3.3.5 注意力機制

  • 通道注意。 考慮到不同通道之間特徵表示的相互依存和相互作用,Hu等提出了一個“squueeze-and-excitation”模塊,通過顯式建模通道相互依賴關係來提高學習能力,如圖7c所示。 在此塊中,使用全局平均池(GAP)將每個輸入通道壓縮到一個通道描述器(即一個常數)中,然後將這些描述符饋送到兩個密集層中以產生輸入通道的按通道縮放比例因子。最近,張等人將通道注意機制與SR結合起來,提出了RCAN,從而顯着提高了模型的表示能力和SR性能。 爲了更好地學習特徵相關性,戴等人。進一步提出了一個二階信道注意(SOCA)模塊。 SOCA通過使用二階特徵統計量而不是GAP來自適應地按比例縮放通道方式的特徵,並能夠提取更多信息性和區分性表示形式。
  • Non-Local注意。 大多數現有的SR模型具有非常有限的本地接受域。 但是,某些遠距離的對象或紋理對於局部補丁的生成可能非常重要。 這樣張等提出了局部和非局部注意力塊來提取捕獲像素之間長期依賴關係的特徵。 具體而言,他們提出了一個用於提取特徵的主幹分支,以及一個用於自適應地重新縮放主幹分支特徵的(非)本地掩碼分支。 其中,局部分支採用編碼器-解碼器結構來學習局部注意,而非局部分支使用嵌入式高斯函數來評估特徵圖中每兩個位置索引之間的成對關係以預測縮放權重。通過這種機制,提出的方法很好地抓住了空間的注意力,並進一步增強了表達能力。 同樣,戴等人還結合了非本地注意力機制來捕獲遠程空間上下文信息。

3.3.6 高級卷積

  由於卷積運算是深度神經網絡的基礎,因此研究人員還嘗試改進卷積運算以提高性能或效率。

  • 擴張卷積。 衆所周知,性信息有助於生成SR的現實細節因此張等用SR模型中的擴張卷積代替了普通卷積,將接收場增加了兩倍,並獲得了更好的性能。
  • 組卷積。 Hui等人受輕型CNN的最新進展的推動和Ahn等。分別通過用組卷積代替原始的卷積來提出IDN和CARN-M。 正如一些先前的工作所證明的,羣卷積大大減少了參數和操作的數量,但損失了一些性能。
  • 深度可分離卷積。Howard等提出了深度卷積可分離卷積以進行有效的卷積,它已擴展到各個領域。具體來說,它由一個因數分解的深度卷積和一個點狀卷積(即1×1卷積)組成,因此減少了很多參數和運算,而精度卻只有很小的降低。 最近,Nie等人。採用深度可分離卷積並大大加快了SR體系結構。

3.3.7 區域遞歸學習

  大多數SR模型將SR視爲獨立於像素的任務,因此無法正確獲取生成的像素之間的相互依賴性。 受PixelCNN的啓發,Dahl等人首先提出了像素遞歸學習,通過採用兩個網絡分別捕獲全局上下文信息和序列生成相關性來執行逐像素生成。 這樣,所提出的方法可以在超高分辨率的超低分辨率人臉圖像(例如8×8)上合成逼真的頭髮和皮膚細節,並且遠遠超過了MOS測試的先前方法(第2.3.3節)。
  在人類注意力轉移機制的推動下,Attention-FH 也採用了這種策略,即訴諸循環策略網絡來順序發現有人蔘與的補丁並進行本地增強。 通過這種方式,它能夠根據每個圖像的自身特性自適應地個性化最佳搜索路徑,從而充分利用圖像的全局內部依賴性。
  儘管這些方法在某種程度上顯示出更好的性能,但是需要較長傳播路徑的遞歸過程極大地增加了計算成本和訓練難度,尤其是對於超分辨HR圖像而言。

3.3.8 金字塔池化

  受空間金字塔池化層的驅動Zhao等提出了金字塔池模塊,以更好地利用全局和局部上下文信息。 具體來說,對於大小爲h×w×c的特徵圖,將每個特徵圖劃分爲M×M個bin,並進行全局平均池化,從而得到M×M×c輸出。 然後執行1×1卷積以將輸出壓縮到單個通道。之後,通過雙線性插值將低維特徵圖上採樣到與原始特徵圖相同的大小。 通過使用不同的M,該模塊可以有效地集成全局和局部上下文信息。 通過合併該模塊,提出的EDSR-PP模型進一步提高了超過基準的性能。

3.3.9 小波變換

  衆所周知,小波變換(WT),通過將圖像信號分解爲表示紋理細節和低頻子帶的高頻子帶來高效地表示圖像 包含全球拓撲信息。 Bae等首先將WT與基於深度學習的SR模型結合,以內插LR小波的子帶作爲輸入,並預測相應HR子帶的殘差。 WT和逆WT分別用於分解LR輸入和重構HR輸出。 同樣,DWSR和Wavelet-SRNet在小波域中也執行SR,但結構更爲複雜。 與上述獨立處理每個子帶的工作相反,MWCNN採用多級WT,並將級聯子帶作爲單個CNN的輸入,以更好地捕獲它們之間的依賴性。 由於通過小波變換有效地表示,使用這種策略的模型通常會大大減少模型的大小和計算成本,同時保持競爭性。

3.3.10 去亞像素

  爲了加快推理速度,Vu等人提出在低維空間中執行耗時的特徵提取,並提出去子像素,這與子像素層的混洗操作相反(第3.2.2節)。特別是,去亞像素操作會在空間上分割圖像,將它們堆疊爲額外的通道,從而避免信息丟失。 通過這種方式,他們在模型開始時通過去亞像素對輸入圖像進行下采樣,在較低維度的空間中學習表示,最後在目標尺寸上進行上採樣。 所提出的模型以極高的速度推斷和良好的性能在智能手機上的PIRM挑戰中獲得了最佳分數。

3.3.11 xUnit

  爲了將空間特徵處理和非線性激活相結合,以更有效地學習複雜特徵,Kligvasser等人提出了xUnit用於學習空間激活函數。 具體而言,ReLU被視爲確定權重圖以對輸入執行元素逐項乘法,而xUnit通過卷積和高斯門控直接學習權重圖。 儘管xUnit對計算的要求更高,但由於其對性能的巨大影響,它可以在使性能與ReLU相匹配的同時大大減小模型尺寸。 通過這種方式,作者將模型大小減小了近50%,而性能沒有任何下降。

3.4 學習策略

3.4.1 損失函數

  在超分辨率領域,損失函數用於測量重建誤差並指導模型優化。 早期,研究人員通常採用像素級L2損失,但後來發現它無法非常準確地測量重建質量。 因此,採用了多種損失函數(例如,內容損失,對抗性損失)來更好地測量重構誤差併產生更現實,更高質量的結果。 如今,這些損失功能已經發揮了重要作用。 在本節中,我們將仔細研究廣泛使用的損失函數。 本節中的符號遵循第2.1節,只是我們忽略了目標HR圖像I^y\hat{I}_y的下標yy併爲簡潔起見生成了HR圖像IyI_y

  • 像素損失。 像素損失測量兩個圖像之間的像素差異,主要包括L1損失(即平均絕對誤差)和L2損失(即均方誤差):
    Lpixell1(I^,I)=1hwci,j,kI^i,j,kIi,j,k \mathbb{L}_{pixel_l1}(\hat{I},I)=\frac{1}{hwc}∑_{i,j,k}|\hat{I}_{i,j,k}-I_{i,j,k}|

Lpixell2(I^,I)=1hwci,j,k(I^i,j,kIi,j,k)2 \mathbb{L}_{pixel_l2}(\hat{I},I)=\frac{1}{hwc}∑_{i,j,k}(\hat{I}_{i,j,k}-I_{i,j,k})^2
其中h,w和c分別是評估圖像的高度,寬度和通道數。 此外,還有一個像素L1損耗的變體,即Charbonnier損耗:
LpixelCha(I^,I)=1hwci,j,kI^i,j,kIi,j,k+ε2 \mathbb{L}_{pixel_Cha}(\hat{I},I)=\frac{1}{hwc}∑_{i,j,k}√{\hat{I}_{i,j,k}-I_{i,j,k}+ε^2}
其中εε是用了穩定性的常數(例如10310^{-3})。
  像素損失將生成的HR圖像ˆ I限制爲足夠接近像素值上的地面真實I。與L1損耗相比,L2損耗會懲罰較大的誤差,但更能容忍較小的誤差,因此通常會導致結果過於平滑。 實際上,與L2損耗相比,L1損耗顯示出更高的性能和收斂性。
由於PSNR的定義(第2.3.1節)與逐像素差異高度相關,並且使像素損失最小化直接使PSNR最大化,因此像素損失逐漸成爲使用最廣泛的損失函數。 但是,由於像素損失實際上並未考慮圖像質量(例如,感知質量,紋理),因此結果通常缺少高頻細節,並且在視覺上對過平滑的紋理不滿意。

  • 內容損失。 爲了評估圖像的感知質量,將內容損失引入SR。具體來說,它使用預先訓練的圖像分類網絡來測量圖像之間的語義差異。將該網絡表示爲φφ,將在第ll層上提取的高級表示表示爲φ(l)(I)φ(l)(I),內容損失表示爲兩個圖像的高級表示之間的歐式距離,如下所示:
    Lcontent(I^,I)=1hlwlcli,j,k(φ(l)i,j,k(I^)φi,j,k(l)(I))2 \mathbb{L}_{content}(\hat{I},I)=\frac{1}{h_lw_lc_l}∑_{i,j,k}√{(φ^{(l)_{i,j,k}(\hat{I})} - φ^{(l)}_{i,j,k}(I))^2}
    其中hlh_lwlw_lclc_l分別是第ll層上表示形式的高度,寬度和通道數。
      從本質上講,內容損失將學習到的分層圖像特徵知識從分類網絡轉移到SR網絡。 與像素損失相反,內容損失促使輸出圖像ˆ I在感覺上與目標圖像I相似,而不是強迫它們精確匹配像素。 因此,它產生的視覺效果更明顯,並且還廣泛用於此領域,其中VGG和ResNet是最常用的預訓練CNN。
  • 紋理損失。 考慮到重建的圖像應與目標圖像具有相同的樣式(例如顏色,紋理,對比度),並受Gatys等人的樣式表示的激勵將紋理損失(也稱爲樣式重建損失)引入SR。 根據圖像紋理被視爲不同特徵通道之間的相關性,並定義爲Gram矩陣G(l)Rcl×clG^{(l)}∈ℝ^{c_l×c_l},其中Gij(l)G^{(l)}_{ij}是向量化之間的內積ll層上的特徵映射iijj
    Gij(l)(I)=vec(φi(l)(I))vec(φj(l)(I)) G_{ij}^{(l)}(I)=vec(φ^{(l)}_i(I))⋅vec(φ^{(l)}_j(I))
    其中vec()vec(·)表示矢量化操作,φi(l)(I)φ^{(l)}_i(I)表示圖像II的第ll層上特徵圖的第ii個通道。然後,紋理損失由下式給出:
    Ltexture(I^,I;φ,l)=1cl2i,j(G(l)i,j(I^)G(l)i,j(I))2 \mathbb{L}_{texture}(\hat{I},I;φ,l)=\frac{1}{c_l^2}√{∑_{i,j}( G^{(l)_{i,j}}(\hat{I}) - G^{(l)_{i,j}}(I) )^2}
      通過使用紋理損失,由Sajjadi等人提出的EnhanceNet。 產生更逼真的紋理併產生視覺上更令人滿意的結果。 儘管如此,確定貼片大小以匹配紋理仍然是憑經驗的。斑塊太小會導致紋理區域出現僞影,而斑塊太大會導致整個圖像出現僞影,因爲紋理統計量是在紋理變化的區域內平均得出的。
  • 對抗損失。 近年來,由於強大的學習能力,GAN 受到越來越多的關注,並被引入到各種視覺任務中。 具體來說,GAN由執行生成(例如,文本生成,圖像轉換)的生成器和將生成的結果和從目標分佈中採樣的實例作爲輸入並區分每個輸入是否來自目標的判別器組成。 分配。 在訓練過程中,交替執行兩個步驟:(a)固定發生器並訓練判別器以更好地進行鑑別,(b)固定判別器並訓練發生器使判別器矇騙。 通過充分的迭代對抗訓練,生成的生成器可以產生與真實數據分佈一致的輸出,而判別器則無法區分生成的數據和真實數據。
      在超分辨率方面,採用對抗學習很簡單,在這種情況下,我們僅需要將SR模型視爲生成器,並定義一個額外的判別器來判斷是否生成了輸入圖像。 因此,Ledig等首先提出基於交叉熵的對抗損失的SRGAN,如下:
    Lganceg(I^;D)=logD(I^) \mathbb{L}_{gan_ce_g}(\hat{I};D)=-logD(\hat{I})

Lganced(I^;D)=logD(Is)log(1D(I^)) \mathbb{L}_{gan_ce_d}(\hat{I};D)=-logD(I_s)-log(1-D(\hat{I}))
其中Lganceg\mathbb{L}_{gan_ce_g}Lganced\mathbb{L}_{gan_ce_d}分別表示生成器(即SR模型)和判別器D(即二元分類器)的對抗損失,而Is表示從地面真實情況中隨機採樣的圖像。 此外,Enhancednet也採用了類似的對抗性損失。
  此外,王等和袁等根據最小二乘誤差使用對抗損失,以獲得更穩定的訓練過程和更高質量的結果,由以下公式得出:
Lganlsg(I^;D)=(D(I^)1)2 \mathbb{L}_{gan_ls_g}(\hat{I};D)=(D(\hat{I}) - 1)^2

Lganlsd(I^,Is;D)=(D(I^))2+(D(Is)1)2 \mathbb{L}_{gan_ls_d}(\hat{I}, I_s;D)=(D(\hat{I}))^2 + (D(I_s) - 1)^2
  與上述專注於對抗損失的特定形式的工作相反,Park等人認爲像素級判別器會產生無意義的高頻噪聲,並附加了另一個特徵級判別器,以對經過預先訓練的CNN提取的高層表示進行操作,該CNN捕獲了更多有意義的屬性。 真實的HR圖像。 徐等結合了一個由生成器和多個特定於類的判別器組成的多類GAN。 ESRGAN 運用相對論GAN 來預測真實圖像比僞圖像相對真實的概率,而不是輸入圖像是真實或僞圖像的概率,從而指導恢復更詳細的紋理。
  大量的MOS測試(第2.3.3節)顯示,即使與對抗性和內容損失相比,經過對抗性損失和內容損失訓練的SR模型實現的PSNR較低,但它們也會帶來感知質量的顯着提高。 事實上,判別器提取出一些難以學習的真實HR圖像的潛像圖案,並推動生成的HR圖像符合要求,從而有助於生成更逼真的圖像。 然而,目前GAN的訓練過程仍然困難且不穩定。儘管已經有一些關於如何穩定GAN訓練的研究,但是如何確保正確集成到SR模型中的GAN併發揮積極作用仍然是一個問題。

  • 循環一致性損失。 由Zhu等人提出的CycleGAN激勵。Yuan等提出了一種超分辨率的循環方法。 具體而言,它們不僅將LR圖像II解析爲HR圖像^I\hat{}I,而且還將I^\hat{I}通過另一個CNN下采樣回到另一個LR圖像Iˉ\bar{I}。 再生的Iˉ\bar{I}必須與輸入II相同,因此引入了循環一致性損失以限制其像素級一致性:
    Lcycle(Iˉ,I)=1hwci,j,k(Iˉi,j,kIi,j,k)2 \mathbb{L}_{cycle}(\bar{I}, I)=\frac{1}{hwc}√{∑_{i,j,k}( \bar{I}_{i,j,k} - I_{i,j,k})^2}

  • 總變化損失。 爲了抑制生成圖像中的噪聲,Aly等人將總變化(TV)損失引入了SR。 它定義爲相鄰像素之間的絕對差之和,並測量圖像中的噪聲量,如下所示:
    LTV(I^)=1hwci,j,k(I^i,j+1,kI^i,j,k)2+(I^i+1,j,kI^i,j,k)2 \mathbb{L}_{TV}(\hat{I})=\frac{1}{hwc}∑_{i,j,k}√{(\hat{I}_{i,j+1,k} - \hat{I}_{i,j,k})^2 + (\hat{I}_{i+1,j,k} - \hat{I}_{i,j,k})^2}
    賴等和袁等也採用TV損耗來施加空間平滑度。

  • 基於先驗的損失。 除上述損失函數外,還引入了外部先驗知識來約束生成。 具體而言,Bulat等專注於人臉圖像SR並引入人臉對齊網絡(FAN)來約束人臉標誌的一致性。 預先對FAN進行培訓和集成,以便事先提供面部對齊功能,然後與SR一起進行培訓。 以此方式,提出的Super-FAN改善了LR面部對準和麪部圖像SR的性能。
      實際上,內容丟失和紋理丟失(兩者都引入了分類網絡)本質上爲SR提供了分層圖像特徵的先驗知識。 通過引入更多的先驗知識,可以進一步提高SR性能。
      在本節中,我們介紹了SR的各種損失函數。 在實踐中,研究人員通常通過加權平均值組合多個損失函數,以約束生成過程的各個方面,尤其是在失真感知權衡方面。 但是,不同損失函數的權重需要大量的經驗探索,如何合理有效地結合仍然是一個問題。

3.4.2 批歸一化

  爲了加速和穩定深層CNN的訓練,Sergey等人提出了批量歸一化(BN),以減少網絡的內部協變量偏移。 具體來說,它們對每個微型批處理執行歸一化,併爲每個通道訓練兩個額外的轉換參數以保留表示能力。 由於BN校準了中間特徵分佈並減輕了消失梯度,因此它允許使用較高的學習率,而對初始化的注意較少。 因此,該技術被SR模型廣泛使用。
  但是,Lim等認爲BN會丟失每個圖像的比例尺信息,並且會失去網絡的距離靈活性。 因此,他們刪除了BN並使用節省的內存成本(高達40%)來開發更大的模型,從而大幅提高了性能。 其他一些模型也採用了這種經驗並實現了性能改進。

3.4.3 課程學習

  課程學習是指從一項容易完成的任務開始,逐漸增加難度。 由於超分辨率是一個不適當地的問題,並且始終會遇到不利的情況,例如較大的縮放因子,噪聲和模糊感,因此引入了課程培訓以降低學習難度。
  爲了降低使用大比例因子的SR的難度,Wang等人貝等和Ahn等分別提出了ProSR,ADRSR和漸進式CARN,它們不僅在架構上是漸進式的(第3.1.3節),但也涉及訓練程序。 訓練從2倍上採樣開始,並且在完成訓練後,逐漸安裝具有4倍或更大比例因子的部分,並將其與之前的部分混合。 具體而言,ProSR通過線性組合此級別的輸出和遵循的先前級別的上採樣輸出進行混合,ADRSR將它們連接起來並附加另一個卷積層,而漸進式CARN用產生該值的前一個重建塊代替 雙重分辨率的圖像。
  另外,Park等將8x SR問題劃分爲三個子問題(即1x到2x,2x到4x,4x到8x),併爲每個問題訓練獨立的網絡。 然後將其中兩個連接並進行微調,然後將第三個連接。 此外,他們還將困難條件下的4倍SR分解爲1倍至2倍,2倍至4倍,並對子問題進行去噪或去模糊處理。 相反,SRFBN在不利條件下使用此策略進行SR,即從容易降解開始,逐漸增加降解複雜性。
  與普通培訓程序相比,課程學習大大降低了培訓難度並縮短了總培訓時間,尤其是對於大型因素而言。

3.4.4 多元監督

  多監督是指在模型中添加多個監督信號,以增強梯度傳播並避免梯度消失和爆炸。 爲了防止遞歸學習(3.3.2節)引入的梯度問題,DRCN將多監督與遞歸單元結合在一起。 具體來說,他們將遞歸單元的每個輸出饋送到重建模塊中以生成HR圖像,並通過合併所有中間重建來構建最終預測。 MemNet和DSRN也採用了類似的策略,它們也是基於遞歸學習的。
  此外,由於在漸進式上採樣框架(第3.1.3節)下的LapSRN,在傳播過程中會產生不同規模的中間結果,因此採用多監督策略是很簡單的。具體地,中間結果被迫與從地面真實HR圖像下采樣的中間圖像相同。
  在實踐中,這種多監督技術通常是通過在損失函數中添加一些項來實現的,這樣,監督信號就可以更有效地向後傳播,從而減少了訓練難度並增強了模型訓練。

3.5 其他改進

  除了網絡設計和學習策略之外,還有其他技術可以進一步改善SR模型。

3.5.1 上下文網絡融合

  上下文網絡融合(CNF)是指一種融合來自多個SR網絡的預測的堆棧技術(即,第3.3.3節中的多路徑學習的一種特殊情況)。 具體而言,他們分別訓練具有不同體系結構的單個SR模型,將每個模型的預測輸入到各個卷積層中,最後將輸出加起來成爲最終的預測結果。 在這個CNF框架內,由三個輕量級SRCNN構造的最終模型可以以可接受的效率獲得與最新模型相當的性能。

3.5.2數據增強

  數據增強是通過深度學習提升性能的最廣泛使用的技術之一。 對於圖像超分辨率,一些有用的增強選項包括裁切,翻轉,縮放,旋轉,顏色抖動等。。 此外,貝等也隨機洗牌RGB通道,這不僅增加了數據,而且還減輕了由顏色不平衡的數據集引起的顏色偏差。

3.5.3 多任務學習

  多任務學習是指通過利用相關任務的訓練信號中包含的特定領域信息來提高泛化能力,例如對象檢測和語義分割,頭部姿勢估計和麪部屬性推斷。 在SR領域,Wang等人引入了語義分割網絡,用於提供語義知識並生成特定於語義的細節。 具體而言,他們提出了空間特徵變換,以將語義圖作爲輸入並預測在中間特徵圖上執行的仿射變換的空間方向參數。 因此,提出的SFT-GAN在具有豐富語義區域的圖像上生成了更逼真的視覺效果的紋理。 此外,考慮到直接超分辨噪點圖像可能會導致噪聲放大,DNSR提出分別訓練去噪網絡和SR網絡,然後將它們連接起來並進行微調。 同樣,循環週期GAN(CinCGAN)結合了循環週期降噪框架和循環週期SR模型,共同執行降噪和超分辨率。 由於不同的任務傾向於關注數據的不同方面,因此將相關任務與SR模型結合起來通常可以通過提供額外的信息和知識來提高SR性能。

3.5.4 網絡插值

  基於PSNR的模型產生的圖像更接近真實情況,但引入了模糊問題,而基於GAN的模型帶來了更好的感知質量,但引入了令人不快的僞影(例如,無意義的噪聲使圖像更加``逼真’’)。 爲了更好地平衡失真和感知,Wang等提出了一種網絡插值策略。 具體來說,他們通過微調訓練基於PSNR的模型並訓練基於GAN的模型,然後對兩個網絡的所有相應參數進行插值以得出中間模型。 通過在不重新訓練網絡的情況下調整插值權重,它們可產生有意義的結果,且僞像少得多。

3.5.5 自我增強

  自我增強又稱爲增強預測,是SR模型常用的一種推理技術。 具體來說,對LR圖像應用不同角度(0°,90°,180°,270°)的旋轉和水平翻轉,以得到一組8個圖像。 然後將這些圖像輸入到SR模型中,並將相應的逆變換應用於重構的HR圖像以獲得輸出。 最終預測結果由這些輸出的平均值或中位數進行。 這樣,這些模型可以進一步提高性能。

3.6 State-of-the-art超分辨率模型

  近年來,基於深度學習的圖像超分辨率模型受到越來越多的關注,並獲得了最先進的性能。 在前面的章節中,我們將SR模型分解爲特定的組件,包括模型框架(第3.1節),上採樣方法(3.2),網絡設計(第3.3節)和學習策略(3.4),對這些組件進行分層分析,並確定其優勢和侷限性。 實際上,當今大多數最先進的SR模型基本上都可以歸因於我們上面總結的多種策略的組合。 例如,RCAN 的最大貢獻來自信道關注機制(第3.3.5節),它還採用了其他策略,例如亞像素上採樣(第3.2.2節),殘差學習(3.3.1),像素L1丟失(第3.4.1節)和自集成(第3.5.5節)。 如表2所示,我們以類似的方式總結了一些代表性的模型及其關鍵策略。
在這裏插入圖片描述
  除SR精度外,效率是另一個非常重要的方面,不同的策略或多或少會對效率產生影響。 因此,在前面的部分中,我們不僅分析了所提出策略的準確性,而且還指出了對效率產生較大影響的策略的具體影響,例如後採樣(第3.1.2節),遞歸 學習(第3.3.2節),密集連接(第3.3.4節),xUnit(第3.3.11節)。 我們還以SR精度(即PSNR),模型大小(即參數數量)和計算成本(即多次添加數量)爲基準對一些代表性SR模型進行了基準測試,如圖8所示,準確性是通過4個基準數據集(即Set5,Set14,B100和Urban100)上PSNR的平均值來衡量的。 然後使用PyTorch-OpCounter計算模​​型大小和計算成本,其中輸出分辨率爲720p(即1080×720)。 所有統計數據均來自原始論文或根據官方模型計算,比例係數爲2。爲便於查看和比較,我們還提供了交互式在線版本。

4 無監督超分辨

  現有的超分辨率作品主要集中於有監督的學習,即用匹配的LR-HR圖像對進行學習。但是,由於難以收集具有相同分辨率的相同場景的圖像,因此通常通過對HR圖像執行預定義的降級來獲得SR數據集中的LR圖像。 因此,訓練有素的SR模型實際上學習了預定義退化的逆過程。 爲了在不引入人工降級先驗的情況下學習現實世界中的LR-HR映射,研究人員越來越多地關注無監督的SR,在這種情況下,僅提供未配對的LR-HR圖像進行訓練,因此生成的模型更有可能 以解決現實情況中的SR問題。 接下來,我們將簡要介紹幾種具有深度學習的無監督SR模型,還有待探索的更多方法。

4.1 Zero-shot超分辨

  考慮到單個圖像內部的內部圖像統計信息已經爲SR提供了足夠的信息,Shocher等人提出了零鏡頭超分辨率(ZSSR)來通過在測試時訓練圖像特定的SR網絡而不是在大型外部數據集上訓練通用模型來應對無監督的SR。 具體而言,他們使用從單個圖像估計退化內核,並使用該內核通過對圖像使用不同縮放因子和增強進行退化來構建小型數據集。 然後,針對此數據集訓練一個小的SR用CNN,並將其用於最終預測。
  這樣,ZSSR可以利用每個圖像內部的跨尺度內部遞歸,因此在非理想條件下(在圖像上,該圖像在性能上大大優於以前的方法(估計內核爲1 dB,已知內核爲2 dB)) 例如,通過非雙曲面退化獲得的圖像並遭受了諸如模糊,噪聲,壓縮僞影之類的影響,該圖像更接近於真實世界的場景,同時在理想條件下給出了具有競爭力的結果(即,通過雙三次退化獲得的圖像)。 但是,由於在測試過程中需要針對不同的圖像訓練不同的網絡,因此推理時間要比其他時間長得多。
在這裏插入圖片描述

4.2 弱監督超分辨

  爲了在不引入預定義降級的情況下應對超分辨率,研究人員嘗試通過弱監督學習來學習SR模型,即使用未配對的LRHR圖像。 其中,一些研究人員首先學習了HR到LR的退化,並使用它來構建用於訓練SR模型的數據集,而另一些研究人員則設計了週期循環網絡以學習LR到HR和HR到LR的映射。 同時。 接下來,我們將詳細介紹這些模型。

  • 學會降級。 由於預定義的降級次優,因此從不成對的LR-HR數據集中學習降級是可行的方向。 Bulat等提出了一個分爲兩個階段的過程,該過程首先訓練HR-to-LR GAN以使用未配對的LR-HR圖像學習降級,然後使用基於LR-HR的配對LR-HR圖像訓練用於SR的LR-to-HR GAN。 第一個GAN。 具體來說,對於HR到LR GAN,將HR圖像饋送到生成器中以產生LR輸出,不僅要匹配通過縮小HR圖像(通過平均池化)獲得的LR圖像,而且還需要匹配真實圖像的分佈。 LR圖像。 完成訓練後,將生成器用作降級模型以生成LR-HR圖像對。 然後對於LR-to-HR GAN,生成器(即SR模型)將生成的LR圖像作爲輸入並預測HR輸出,這不僅需要匹配相應的HR圖像,而且還需要匹配HR圖像的分佈 。
      通過應用這兩個階段的過程,所提出的未監督模型有效地提高了超分辨率現實世界LR圖像的質量,並比以前的最新技術有了很大的改進。
  • 週期內超分辨率。 無監督超分辨率的另一種方法是將LR空間和HR空間視爲兩個域,並使用循環週期結構來學習彼此之間的映射。 在這種情況下,訓練目標包括推送映射結果以匹配目標域分佈,並通過往返映射使圖像可恢復。Yuan等人由CycleGAN提出了一個由4個生成器和2個判別器組成的週期循環SR網絡(CinCGAN),分別組成兩個CycleGAN,分別用於嘈雜的LR clean LR和clean LR clean HR映射。 具體來說,在第一個CycleGAN中,嘈雜的LR圖像被饋送到生成器中,並且要求輸出與真實的清晰LR圖像的分佈一致。然後將其饋入另一臺生成器,並要求恢復原始輸入。 爲了保證週期一致性,分佈一致性和映射有效性,採用了幾種損失函數(例如對抗性損失,週期一致性損失,身份損失)。 除了映射域不同之外,其他CycleGAN的設計均類似。
      由於避免了預定義的降級,因此不受監督的CinCGAN不僅可以實現與監督方法相當的性能,而且即使在非常惡劣的條件下也適用於各種情況。 然而,由於SR問題的本質不適以及CinCGAN的複雜體系結構,需要一些先進的策略來降低訓練難度和不穩定性。

4.3 深度圖像先驗

  Ulyanov等人考慮到CNN結構足以在逆問題之前捕獲大量低級圖像統計信息。在執行SR之前,採用手工初始化的隨機初始化的CNN。 具體而言,他們定義了一個生成器網絡,該生成器網絡將隨機向量z作爲輸入並嘗試生成目標HR圖像IyI_y。 目標是訓練網絡以找到下采樣後的I^y\hat{I}_y與LR圖像IxI_x相同的I^y\hat{I}_y。 由於網絡是隨機初始化的,並且從未接受過訓練,因此唯一的先決條件是CNN結構本身。 儘管此方法的性能仍比監督方法(2 dB)差,但其性能卻明顯優於傳統的雙三次上採樣(1 dB)。 此外,它顯示了CNN架構本身的合理性,並促使我們通過將深度學習方法與諸如CNN結構或自相似性之類的手工先驗相結合來改善SR。

5 特定領域的應用

5.1 深度圖超分辨率

  深度圖記錄了視點與場景中的對象之間的深度(即距離),並在許多任務中扮演重要角色,例如姿勢估計和語義分割。 但是,由於經濟和生產方面的限制,深度傳感器生成的深度圖通常分辨率較低,並且會受到噪聲,量化和缺失值等退化影響。 因此引入了超分辨率以增加深度圖的空間分辨率。
  如今,深度圖SR最受歡迎的做法之一是使用另一臺經濟的RGB相機獲得相同場景的HR圖像,以指導對LR深度圖的超解析。 具體來說,宋等利用深度圖統計數據和深度圖與RGB圖像之間的局部相關性來約束全局統計數據和局部結構。 Hui等利用兩個CNN同時對LR深度圖進行升採樣和對HR RGB圖像進行降採樣,然後使用RGB特徵作爲具有相同分辨率的對深度圖進行升採樣的指導。 和Haefner等進一步利用色彩信息,並通過採用“從陰影開始成形”技術來指導SR。 相反,Riegler等將CNN與功能最小化模型形式的能量最小化模型結合起來,可以在沒有其他參考圖像的情況下恢復HR深度圖。

5.2 人臉圖像超分辨率

  人臉圖像超分辨率,又稱爲人臉幻覺(FH),通常可以幫助完成其他與人臉相關的任務。與普通圖像相比,面部圖像具有更多與面部相關的結構化信息,因此將面部先驗知識(例如地標,解析地圖,身份)整合到FH中是一種非常流行且有希望的方法。
  最直接的方法之一是將生成的圖像約束爲具有與面部事實相同的面部相關屬性。 具體而言,CBN通過交替優化FH和密集對應字段估計來利用面部優先。 Super-FAN和MTUN都引入了FAN,以通過端到端的多任務學習來保證面部標誌的一致性。 FSRNet不僅使用面部地標熱圖,還使用面部解析圖作爲先驗約束。SICNN旨在恢復真實身份,它採用了超級身份喪失功能和域集成訓練方法來穩定聯合訓練。
  除了顯式地使用面部先驗,隱式方法也得到了廣泛的研究。 TDN 包含用於自動空間變換的空間變換器網絡,從而解決了人臉未對準的問題。TDAE基於TDN,採用解碼器-編碼器-解碼器框架,其中第一個解碼器學習升採樣和降噪,編碼器將其投影回對齊且無噪聲的LR面,最後一個解碼器產生幻覺 HR圖片。 相比之下,LCGE使用特定於組件的CNN對五個面部組件執行SR,對HR面部組件數據集使用k-NN搜索以找到相應的補丁,合成更細粒度的組件,最後將它們融合到FH 結果。同樣,Yang等。將解塊後的人臉圖像分解爲人臉成分和背景,使用成分界標在外部數據集中檢索足夠的HR樣本,在背景上執行通用SR,最後融合它們以完成HR臉部。
  此外,研究人員還從其他角度改善了跳頻​​。 在人類注意力轉移機制的推動下,Attention-FH訴諸於遞歸策略網絡,該網絡順序發現有人蔘與的面部補丁並進行局部增強,從而充分利用了面部圖像的全局依賴性。UR-DGN採用類似於SRGAN的具有對抗性學習的網絡。 徐等提出了一種由通用生成器和特定類標識符組成的基於GAN的多類FH模型。 李等人和Yu等基於條件GAN利用附加的面部屬性信息執行具有指定屬性的FH。

5.3 高光譜圖像超分辨率

  與全色圖像(PANs,即具有3個波段的RGB圖像)相比,包含數百個波段的高光譜圖像(HSI)提供了豐富的光譜特徵並有助於各種視覺任務​​。 但是,由於硬件限制,收集高質量的HSI比PAN困難得多,而且分辨率也較低。因此,超分辨率被引入該領域,研究人員傾向於將HR PAN和LR HSI結合起來以預測HR HSI。 其中,Masi等使用SRCNN併合並了幾個非線性輻射指標圖以提高性能。 Qu等聯合訓練兩個編碼器-解碼器網絡分別在PAN和HSI上執行SR,並通過共享解碼器並應用諸如角度相似度損失和重構損失之類的約束將SR知識從PAN轉移到HSI。 最近,傅等人。評估相機光譜響應(CSR)功能對HSI SR的影響,並提出了一個CSR優化層,該層可以自動選擇或設計最佳CSR,並勝過最新技術。

5.4 真實圖像超分辨率

  通常,用於訓練SR模型的LR圖像是通過手動對RGB圖像進行降採樣(例如,通過雙三次降採樣)生成的。 但是,現實世界中的相機實際上會捕獲12位或14位RAW圖像,並通過相機ISP(圖像信號處理器)執行一系列操作(例如,去馬賽克,去噪和壓縮),最終產生8位RGB 圖片。 通過此過程,RGB圖像丟失了許多原始信號,並且與相機拍攝的原始圖像有很大不同。因此,直接將手動下采樣的RGB圖像用於SR並不是最佳選擇。爲了解決這個問題,研究人員研究瞭如何使用真實世界圖像進行SR。 其中,Chen等分析成像系統中圖像分辨率(R)與視場(V)之間的關係(即RV降級),提出數據採集策略以進行真實世界的數據集City100,並通過實驗證明其優越性 提出的圖像合成模型。 張等通過相機的光學變焦建立了另一個真實世界的圖像數據集SR-RAW(即,成對的HR RAW圖像和LR RGB圖像),並提出了上下文雙向損失來解決錯位問題。 相反,Xu等提出了一種通過模擬成像過程來生成現實訓練數據的管道,並開發了雙CNN以利用RAW圖像中最初捕獲的輻射信息。 他們還建議學習一種空間變化的顏色變換,以進行有效的顏色校正並推廣到其他傳感器。

5.5 視頻超分辨

  對於視頻超分辨率,多個幀提供了更多的場景信息,不僅存在幀內空間依賴性,而且還存在幀間時間相關性(例如運動,亮度和顏色變化)。 因此,現有工作主要集中在更好地利用時空相關性,包括顯式運動補償(例如基於光流,基於學習的運動補償)和遞歸方法等。在基於光流的方法中,廖等人使用光流方法來生成HR候選者,並由CNN將它們集成在一起。 VSRnet 和CVSRnet通過Druleas算法處理運動補償,並使用CNN將連續幀作爲輸入並預測HR幀。 而劉等執行校正的光流對準,並提出一種時間自適應網絡以生成各種時間尺度的HR幀並自適應地對其進行聚合。
  此外,其他人也嘗試直接學習運動補償。 VESPCN利用可訓練的空間變換器來學習基於相鄰幀的運動補償,並將多個幀輸入到時空ESPCN 中進行端到端預測。 陶等從精確的LR成像模型出發,提出了一個亞像素樣模塊,以同時實現運動補償和超分辨率,從而更有效地融合對齊的幀。
  另一個趨勢是使用遞歸方法來捕獲時空相關性,而無需顯式的運動補償。 具體而言,BRCN 採用雙向框架,並使用CNN,RNN和條件CNN分別對空間,時間和空間時間依賴性進行建模。 同樣,STCN使用深層CNN和雙向LSTM提取空間和時間信息。 FRVSR 使用先前推斷的HR估計值以遞歸方式通過兩個深CNN重建後續的HR幀。 最近,FSTRN採用了兩個小得多的3D卷積濾波器來代替原始的大濾波器,因此通過更深的CNN增強了性能,同時保持了較低的計算成本。 RBPN通過循環編碼器-解碼器提取空間和時間上下文,並將其與基於反投影機制的迭代細化框架相結合(第3.1.4節)。
  另外,FAST利用壓縮算法提取的結構和像素相關性的緊湊描述,將SR結果從一幀傳輸到相鄰幀,並以極少的速度加快了最新SR算法的發展。 性能損失。 和喬等基於每個像素的局部時空鄰域生成動態上採樣濾波器和HR殘差圖像,並且還避免了顯式的運動補償。

5.6 其他應用

  基於深度學習的超分辨率也被其他特定領域的應用所採用,並表現出出色的性能。 具體而言,感知GAN通過將小對象的表示形式超分辨來解決小對象檢測問題,使其具有與大對象相似的特徵,並且對檢測更具區分性。 同樣,FSR-GAN可以在特徵空間而不是像素空間中對小尺寸圖像進行超級解析,從而將原始的不良特徵轉換爲具有高度區分性的特徵,從而極大地有利於圖像檢索。 此外,Jeon等利用立體圖像中的視差先驗來重建具有配準中亞像素精度的HR圖像。 Wang等。提出了一種視差注意模型來解決立體圖像的超分辨率問題。Li等結合了3D幾何信息和超分辨3D對象紋理貼圖。 張等將一個光場中的視圖圖像分爲幾組,學習每組的固有映射,最後將每組中的殘差組合起來,以重建更高分辨率的光場。
  總而言之,超分辨率技術可以在各種應用程序中發揮重要作用,尤其是當我們可以很好地處理大型物體而不能處理小型物體時。

6 結論和未來方向

  在本文中,我們對深度學習中圖像超分辨率的最新進展進行了廣泛的調查。我們主要討論了有監督和無監督SR的改進,並介紹了一些特定於域的應用程序。 儘管取得了巨大的成功,但仍然存在許多未解決的問題。 因此,在本節中,我們將明確指出這些問題,併爲未來的發展介紹一些有希望的趨勢。 我們希望這項調查不僅可以爲研究人員提供對圖像SR的更好理解,還可以促進該領域的未來研究活動和應用開發。

6.1 網絡設計

  良好的網絡設計不僅可以確定具有較高性能上限的假設空間,而且還可以有效地學習表示,而不會產生過多的空間和計算冗餘。 下面我們將介紹一些有希望的網絡改進方向。

  • 結合本地和全局信息。 較大的接收場可提供更多上下文信息,並有助於產生更真實的結果。 因此,有希望將本地和全局信息相結合,以提供圖像SR的不同比例的上下文信息。
  • 結合低級和高級信息。 CNN中的淺層傾向於提取諸如顏色和​​邊緣之類的低級特徵,而深層則學習諸如對象標識之類的高級表示。 因此,將低級細節與高級語義相結合可能對HR重建有很大幫助。
  • 特定於上下文的注意。 在不同的上下文中,人們傾向於關心圖像的不同方面。 例如,對於草地地區,人們可能更關注局部的顏色和紋理,而在動物體區域中,人們可能會更加關注物種和相應的頭髮細節。 因此,整合注意力機制以增強對關鍵特徵的注意力有助於生成逼真的細節。
  • 更高效的架構。 現有的SR模式往往追求最終性能,而忽略了模型大小和推理速度。 例如,在使用Titan GTX GPU 的DIV2K 上,EDSR 每幅圖像需要20s,以獲得4x SR,而對於8x SR,DBPN則需要35s。 如此長的預測時間在實際應用中是不可接受的,因此更有效的體系結構勢在必行。 如何在保持性能的同時減小模型大小並加快預測速度仍然是一個問題。
  • 升採樣方法。 現有的上採樣方法(第 3.2)具有或多或少的缺點:插值方法會導致計算成本高昂並且無法端到端學習,轉置的卷積會產生棋盤狀僞像,子像素層帶來的接收場分佈不均勻,並且元高級模塊可能會導致 不穩定或效率低下,還有進一步改進的空間。 仍然需要研究如何執行有效和高效的上採樣,尤其是在使用高比例因子的情況下。
  • 近年來,用於深度學習的神經體系結構搜索(NAS)技術變得越來越流行,在幾乎沒有人工干預的情況下極大地提高了性能或效率。 對於SR領域,將上述方向的探索與NAS結合起來具有巨大的潛力。

6.2 學習策略

  除了良好的假設空間外,還需要強大的學習策略來獲得令人滿意的結果。 接下來,我們將介紹一些有前途的學習策略方向。

  • 損失函數。 現有的損失函數可被視爲在LR / HR / SR圖像之間建立約束,並基於是否滿足這些約束來指導優化。 在實踐中,這些損失函數通常是加權組合的,而SR的最佳損失函數仍不清楚。因此,最有前途的方向之一是探索這些圖像之間的潛在相關性,並尋求更準確的損失函數。
  • 歸一化。 儘管BN在視覺任務中被廣泛使用,可以極大地加快訓練速度並提高性能,但事實證明,對於超分辨率而言,它是次優的。 因此,需要研究其他有效的SR歸一化技術。

6.3 評價指標

  評估指標是機器學習的最基本組成部分之一。 如果無法準確評估性能,研究人員將很難驗證改進。 超分辨率的度量標準面臨此類挑戰,需要更多探索。

  • 更準確的指標。 如今,PSNR和SSIM已成爲SR中使用最廣泛的指標。 但是,PSNR會導致過度的平滑度,並且結果在幾乎無法區分的圖像之間可能會發生巨大變化。 SSIM在亮度,對比度和結構方面進行評估,但仍無法準確測量感知質量。 此外,MOS是最接近人類視覺響應的MOS,但是需要付出很多努力並且不可複製。 儘管研究人員提出了各種指標(第2.3節),但目前尚無統一的公認的SR質量評估指標。因此,迫切需要用於評估重建質量的更準確的度量。
  • 盲IQA方法。 如今,大多數用於SR的指標都是全參考方法,即假設我們已將LR-HR圖像與完美質量配對。 但是,由於很難獲得此類數據集,因此通常用於評估的常用數據集通常是通過人工降級進行的。 在這種情況下,我們執行評估的任務實際上是預定義降級的逆過程。 因此,開發盲目IQA方法也有很高的要求。

6.4 無監督的超分辨

  如第二節所述。 如圖4所示,通常很難收集同一場景的不同分辨率的圖像,因此雙三次插值被廣泛用於構建SR數據集。但是,在這些數據集上訓練的SR模型可能僅學習預定義降級的逆過程。因此,如何執行無監督的超分辨率(即在沒有配對LR-HR圖像的數據集上進行訓練)是未來發展的有希望的方向。

6.5 走向現實場景

在現實世界中,圖像的超分辨率受到極大限制,例如遭受未知的降級,缺少配對的LR-HR圖像。 下面我們將介紹一些針對實際場景的指導。

  • 處理各種退化。 現實世界中的圖像往往會遭受諸如模糊,附加噪聲和壓縮僞影之類的退化。 因此,在手動執行的數據集上訓練的模型在現實世界場景中通常表現不佳。已經提出了一些解決該問題的方法,但是這些方法具有一些固有的缺點,例如訓練難度大和假設過於完善。 迫切需要解決此問題。
  • 特定於域的應用程序。 超分辨率不僅可以直接用於特定領域的數據和場景,而且可以極大地幫助其他視覺任務(第5節)。 因此,將SR應用於更特定的領域也是一個有前途的方向,例如視頻監視,對象跟蹤,醫學成像和場景渲染。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章