Convolutional Sparse Coding for Image Super-resolution

Abstract

大多數基於稀疏編碼的超分辨率方法首先將圖片劃分爲具有重疊的小塊，然後在得到的每個小塊上單獨處理，最後得到超分辨率圖片。以上方法存在的問題就是各個 $patch$ 之間忽略了像素的一致性問題，最後在一定程度上限制了得到的超分辨率圖片的質量。針對以上問題本文提出了一種基於卷積稀疏編碼的圖片超分辨率 $(CSC-SR)$ 方法，該方法主要學習以下三組參數：

$a \ set \ of \ filters \ to \ decompose \ the \ low \ resolution (LR) \ image \ into \ LR \ sparse \ feature \ maps$
$a \ mapping \ function \ to \ predict \ the \ high \ resolution (HR) \ feature \ maps \ from \ the \ LR \ ones$
$a \ set \ of \ filters \ to \ reconstruct \ the \ HR \ images \ from \ the \ predicted \ HR \ feature \ maps \ via$

$simple \ convolution \ operations$

由於本篇論文提出的方法是直接在整張圖片上進行，不會對圖片進行分塊操作，所以最後得到的超分辨率圖片質量更好。（利用整張圖片的全局一致性重構得到局部特徵更加魯棒的超分辨率圖片）

Introduction

考慮到自然圖像的複雜性和局部結構，目前大多數 $SISR$ 方法利用圖像patch上的先驗信息，而不是直接利用整張圖片的先驗信息建模，可以分爲以下三個方向：

$example-based$
$mapping-based$
$sparse coding-based$

不同於以往的方法，本文提出的CSC方法首先利用N個濾波器將輸入的圖片分解爲N個稀疏特徵圖。跟傳統的基於patch的稀疏編碼方法相比，還沒有相對應的工作證明基於CSC的方法要優於傳統的基於 $patch$ 的。

由於先前方法中低分辨率字典和高分辨率字典的大小是一樣的，因爲高分辨率圖片更加複雜，這樣的話一定程度上會限制高分辨率字典的表示能力。爲了解決這個問題，本篇論文中提出了一種低分辨率特徵到高分辨率特徵的映射函數，這樣我們就可以實現低分辨率字典和高分辨率字典的大小不一致。一方面減少了計算代價，另一方面也可以增強高分辨率字典的表示能力。

本篇論文的貢獻主要包括三個方面：第一，跟傳統的單獨處理 $overlapped -patch$ 的稀疏編碼方法相比，我們的方法更加適合最後圖片的重構；第二，爲了充分利用由卷積編碼生成的特徵的優勢，我們利用特徵空間信息訓練稀疏映射函數；第三，我們的實驗結果跟其他方法相比不僅具有更高的PSNR，而且也具有較高的圖片質量。

Convolutional Sparse Coding

Sparse Coding for SR

對於給定的向量 $x$ ，利用學習到的字典 $D$ 將 $x$ 表示爲一系列基的線性組合，如下公式所示：

$x \approx D\alpha$

其中 $\alpha$ 是稀疏係數。

【思路】：對於給定的 $LR$ 、 $HR$ 圖像 $patch$ $pairs$ ，在訓練階段我們聯合學習對應的低分辨率字典 $D^l$ 和高分辨率字典 $D^h$ ，最後基於得到的字典重構低分辨率和高分辨率圖像 $patch$ 。

Convolutional Sparse Coding

儘管稀疏編碼有着非常廣泛的應用，但是在處理圖像 $patch$ 時仍有一些缺點：

由於 $l_0$ 範數和 $l_1$ 範數優化比較困難，在一定程度上限制了稀疏編碼的應用範圍
圖像 $patch$ 之間的 $consistency$ 被忽略

爲了解決以上問題，研究人員又提出了一個基於 $Convolutional Sparse Coding(CSC)$ 方法的圖像超分辨率方法，該方法直接對輸入的整張圖片進行稀疏編碼。模型定義如下：

$min_Z||X-\sum_{i=1}^nf_i\bigotimes{Z_i}||^2_F+{\lambda\sum_{i=1}^N||Z_i||_1}$

其中， $X$ 是一個 $m\times n$ 的圖片， $\{f_i\}_{i=1,2,...,N}$ 是一組濾波器， $Z_i$ 是大小爲 $(m+s-1) \times (n+s-1)$ 的 $feature$ $map$ 。基於以上模型我們就可以很好的避免之前提及的 $inconsistency$ 問題。

同時卷積分解機制也使得模型優化很難，爲了解決這個問題文獻 $[31]$ 提出了對原始的約束條件進行放鬆，利用共軛梯度下降算法來解決卷積最小二乘問題。

Convolutional Sparse Coding for Super resolution

本文提出的模型如下圖所示：

LR filter learning for CSC decomposition

對於給定的一組高分辨率圖片 $\{x_1,x_k,...,x_K\}$ 和對應的低分辨率圖片 $\{y_1,y_k,...,y_K\}$ 用來訓練我們的模型，由於索引 $k$ 不影響我們理解模型本身，所以在後面我們簡單省略 $k$ 。

爲了得到更加稀疏的 $feature\ map$ ，在超分辨率之前我們把 $LR$ 圖片分解爲平滑成分和殘差成分。對於平滑部分進行雙線性插值進行放大，我們提出的模型 $CSC-SR$ 在殘差部分進行操作。

對於 $LR$ 圖片 $y$ ，爲了得到一個較好的平滑成分，首先要解決下面的優化問題：

$min_Z||y-f^s\bigotimes Z^s_y||^2_F+\gamma||f^{dh} \bigotimes Z^s_y||^2_F + \gamma||f^{dv} \bigotimes Z^s_y||^2_F, \ (1)$

其中， $Z^s_y$ 是 $LR$ 圖片 $y$ 的低頻特徵圖， $f^s$ 是一個大小爲 $3 \times 3$ 、係數爲 $1/9$ 的低通濾波器。 $f^{dh} \ f^{dv}$ 是水平和垂直梯度方向的操作運算子， $[1,-1]$ 和 $[1;-1]$ 。公式 $(1)$ 在傅里葉頻域閉式解爲：

$Z^s_y=\mathbb{F}^{-1}(\frac{\mathcal{\widehat{F}^s} \circ \mathbb{F(y)}} {\mathcal{\widehat{F}^{s}} \circ \mathcal{F^{s}} + \gamma\mathcal{\widehat{F}^{dh}} \circ \mathcal{F^{dh}} + \gamma\mathcal{\widehat{F}^{dv}} \circ \mathcal{F^{dv}}})$

其中， $\mathbb{F}$ 和 $\mathbb{F^{-1}}$ 分別是 $FFT$ 和 $IFFT$ 變換， $\mathcal{F^{s}}$ ， $\mathcal{F^{dh}}$ ， $\mathcal{F^{dv}}$ 分別是 $f^s$ ， $f^{dh}$ ， $f^{dv}$ 的 $FFT$ 變換，符號’^'表示複共軛， $\circ$ 表示對應元素相乘。得到 $Z^s_y$ 後，我們就可以分解對應的 $LR$ 圖片：

$y=f^s \bigotimes Z^s_y + Y$

其中， $f^s \bigotimes Z^s_y$ 表示 $LR$ 中平滑的部分， $Y$ 表示在 $LR$ 圖片中對應的高頻邊緣信息和紋理結構信息（也就是之前說的殘差部分）。

接下來繼續學習一組 $LR$ 濾波器分解殘差部分 $Y$ 到 $N$ 個 $feature \ map$ ：

$min_{Z,f} ||Y-\sum_{i=1}^N {f^l_i} \bigotimes {Z^l_i}||^2_F + \lambda {\sum_{i=1}^N ||Z^l_i||_1},$

$s.t. ||f^l_i||^2_F \leqslant 1$

其中， $\{f^l_i \}_{i=1\sim N}$ 是 $N$ 個 $LR$ 濾波器， $Z^l_i$ 是第 $i$ 個濾波器的稀疏特徵圖。

對於 $Z$ 和 $f$ 的更新是交替進行的，而且並不是直接更新 $Z$ 和 $f$ ，而是更新它們的子問題。其中 $Z$ 的優化是標準的 $CSC$ 問題，可以利用文獻 $[23]$ 的方法求解，對於 $f$ 我們可以利用 $ADMM$ 算法在傅里葉頻域進行求解。 $f$ 的子問題如下：

$f^l = arg \ min_f || Y-\sum_{i=1}^N {f^l_i \bigotimes Z^l_i} ||^2_F, \ s.t. \left \| f^l_i \right \|^2_F \leqslant1.$

Joint HR filter and mapping function learning

跟 $LR$ 濾波器的學習一樣，首先對 $HR$ 圖片分解得到平滑成分和殘差成分，然後學習映射函數和 $HR$ 濾波器。（基於 $LR$ $feature \ maps$ ）具體分解過程如下：
$x=f^s \bigotimes Z^s_x + X$

在之前的工作中， $LR$ 和 $HR$ 的字典大小是一樣的。而在本篇工作中， $LR$ 的字典要比 $HR$ 的小這樣做的目的是減少計算代價，而對於 $HR$ 圖片由於包含的細節信息更多，所以利用更多的濾波器來提取特徵。

現在的挑戰就是我們訓練的映射函數具有尺度縮放功能，因爲低分辨率的特徵和高分辨率的特徵數量是不一樣的，所以映射函數的功能不僅要實現低分辨率到高分辨率的映射，還要實現尺度上的映射，具體的映射函數如下：

$Z^h_j(kx,ky) = g(Z^l_1(x,y),Z^l_2(x,y),\cdots,Z^l_N(x,y);W )$

$k$ 是縮放因子， $Z^h_j(kx,ky)$ 是位置 $(kx,ky)$ 的係數， $Z^l_i(x,y)$ 是在特徵圖 $Z^l_i$ 中對應點 $(x,y)$ 的係數， $W$ 是映射函數的參數。

映射函數 $g$ 最後輸出的應該是係數編碼，然後在利用一系列的線性轉換矩陣計算 $HR$ 的係數：

$Z^h_j(kx,ky) = g(Z^l_:(x,y); w_j) = w^T_jz^l_:(x,y),$

$s.t. \ w_j \succeq 0,\ |w_j|_1 = 1$

其中， $z^l_:(x,y)$ 是 $N$ 個 $LR$ $feature \ maps$ 在點 $(x,y)$ 的係數向量， $w^T_j$ 是 $HR$ $feature \ map \ Z^h_j$ 的轉換向量。這裏我們約束 $w_j \succeq 1$ ， $| w_j| _1=1$ 保證 $W$ 的稀疏性。

確定映射函數 $g$ 之後，就可以利用 $HR$ $filter$ 和 $g$ 確定我們的模型了：

$\{f^h,W\} = min_{f,W} || X-\sum_{j=1}^M {f^h_j \bigotimes g(Z^l_:;w_j)} ||^2_F,$

$s.t. \ ||f^h_j||^2_F \leq e; \ \ w_j \succeq 0, \ |w_j|_1={1}$

其中， $e$ 是 $HR$ 濾波器的能量約束。對於以上目標函數我們交替更新 $f^h$ 和 $W$ 。

我們的 $CSC-SR$ 方法的算法流程如下圖所示：

Convolutional Sparse Coding for Image Super-resolution