《Infrared and Visible Image Fusion using a Deep Learning Framework》閱讀筆記

原創

2020-04-12 01:33

一、概述
這篇文章發表於2018年，主要是研究視覺圖像與紅外圖像的融合，作者之後還發表了DenseFuse。
這篇文章的主要思路是將待融合的紅外圖像與視覺圖像分解爲基礎部分與高頻部分，之後分別對這兩部分分別採取不同的策略進行融合得到融合基礎部分與融合高頻部分，最後利用這兩部分重建融合圖像。
這種將圖像分解爲兩種不同尺度部分的方法我認爲主要是爲了解決待融合圖像大尺度信息相差較大的圖像融合任務，例如：紅外圖像與視覺圖像、強關照圖像與弱光照圖像等。

二、方法思路
1、圖像分解
首先要解決的任務是將圖像分解爲基礎部分與高頻部分，可以這樣理解：基礎部分蘊含了圖像所要表達的基本語義信息，而細節部分蘊含了圖像所要表達的細節信息。這兩部分加起來就是原圖的所有信息，如下表達式：

其中Idk爲第k張待融合圖像的細節部分，Ibk爲第k張代融合圖像的基礎部分。因此我們只要獲得Ibk或Idk其中一個便能直接得到另外一個。
作者將獲取圖像基礎部分（Ibk）看作以下優化問題：

其中Ik爲第k張待融合圖像（這裏k取2），gx與gy分別爲x方向與y方向的梯度算子[-1,1]與[-1,1]T。通過求解這個優化問題可以得到圖像的基礎部分，進而得到圖像的細節部分，完成圖像的分解任務。

2、圖像融合
本文提出的紅外圖像與視覺圖像融合的算法框架如下圖所示：

（1）圖像基本部分融合
紅外圖像與視覺圖像具有不同的基礎風格，這步操作主要是融合兩張圖象的基本風格。作者主要採用直接加權融合的方式進行，操作可以用以下表達式表達：

其中a1與a2爲超參數。爲了保留兩張待融合圖象的共同信息同時減小冗餘信息，文中這兩個參數分別取0.5與0.5，也就是平均融合。

（2）圖像細節部分融合
作者受VGG-network利用多層深度特徵的方式的啓發，利用VGG-19網絡對圖像細節部分進行多層特徵提取與融合。這篇文章並沒有任何對深度學習網絡的訓練，而是直接利用了預訓練的vgg-19網絡。融合流程如下圖：

圖中的上標i∈{1,2,3,4}分別代表四個relu層的輸出，上標m∈{1,2,…M}，M=64×2^(i-1)，代表對應relu層的通道數。
作者首先將得到的relu_1_1——relu_4_1這四層特徵各自在通道維度求1範數，得到四對（8張，2×4）不同尺度下的初始活動性水平圖C，爲了使得到的活動性水平圖對配準錯誤（文中是這麼說的）更加具有魯棒性，對初始化活動性水平圖採取區域均值操作得到最終活動性水平圖：

其中r爲自定義的區域大小。可見，增加r會使得到的結果對配準錯誤的魯棒性增加但同時也會造成細節的損失，因此作者此處設定r=1。
之後對每一對（2張）最終活動性水平圖進行一步softmax操作，得到四對不同尺度的初始權重圖，權重圖主要用於後續的四個尺度特徵融合：

由於四張初始權重圖對應不同的尺度，因此需要進行上採樣至相同尺度得到四對相同大小的最終權重圖，上採樣方式採用左上角元素填充的方式，上採樣率與特徵深度呈指數關係（分別對應於該層特徵下采樣的採樣率）：

之後作者通過得到的四對最終權重圖對待融合圖像的細節部分進行加權，得到四張不同尺度下的初始細節部分融合結果：

之後對於四張不同尺度的初始細節部分融合結果逐像素選最大值，得到最終細節部分融合結果（取最大值的操作是否合理？）：

（3）融合圖像重建
最終作者利用前兩步得到的基礎部分融合結果與最終細節部分融合結果直接相加的方式得到最終的融合輸出：

3、方法效果評估
（1）主觀評估
作者對比了另外五種方法，由於文章空間限制，因此只展示了兩對紅外圖像與視覺圖像的評估結果，結果如下：

（2）客觀評估：
作者利用了四種指標：FMIdct和FMIw分別計算離散餘弦和小波特徵的互信息； Nabf 表示通過融合過程中人爲添加到融合圖像上的噪聲的比率； SSIMa表示兩張輸入圖像與融合圖像結構相似性的均值。總共對比了五種其他方法。
四種指標下的平均結果：

在指標Nabf上的表現結果：

4、總結
作者認爲提出的方法有很強的擴展性，可以被應用到多曝光圖像融合，多聚焦圖像融合，醫學圖像融合當中。
多聚焦圖像融合對於質量良好的待融合圖像（拍攝時角度，位置，光照沒有太大變化），由於其低頻特徵相差不大因此這種圖像分解的方式對低維特徵的處理可能對最終結果影響不大。但對於質量不太好的待融合圖像（拍攝時角度，位置，光照變化較大），尤其是位置角度變化的圖像，採用這種分解並融合的方式是否能一定程度上減輕這些不利條件對融合結果的影響呢？

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

《Infrared and Visible Image Fusion using a Deep Learning Framework》閱讀筆記

DAPPER 事務 TRANSACTION

Java中線程的創建方式

一鍵自動化博客發佈工具,chrome和firfox詳細配置

使用霍夫變換定位手指邊緣

leetcode409：最長迴文串

中國計算機學會推薦國際學術期刊　(計算機系統與高性能計算）

關於一個77的卷積核可用3個33的卷積核代替的理解

python批量裁剪圖片，並按原來層級保存

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結