論文閱讀:Deep Feature Fusion for VHR Remote Sensing Scene Classification

摘要

目前可獲取的遙感圖像分辨率達到了高分、甚高分,這爲甚高分(VHR)影像分類帶來了挑戰。本文提出了一個VHR場景理解框架。首先,visual geometry group network (VGG-Net)模型被用來提取圖像的信息;其次,我們選擇全連接層,合併他們以構建最終的VHR圖像場景的表達;然後,使用discriminant correlation analysis (DCA)特徵融合策略,進一步改善特徵提取過程,從而以很小的計算代價,高效融合特徵。在三個數據庫上實驗:UC-MERCED,WHU-RS19,AID。實驗結果超過state-of-art方法。利用特徵融合技術比單純利用原始深特徵具有更高的準確率。此外,基於DCA融合的圖像描述方法能產生較好的信息特徵來描述低維的圖像場景。

1. Introdudction

VHR圖像的高維性和統計特性是VHR場景理解[1]最具挑戰性的地方。

一些基礎傳統手工特徵方法…… Lu[7]等人通過對不同尺度圖像場景的分析,提出了一種新的模型來構造多分辨率特徵,然後構造了基於稀疏特徵選擇流形正則化模型但是,以上這些方法提取的都是低級特徵,忽略原始數據中的信息

由於上述商法的侷限性,Zhang[8]等人提出一種兩步的高效框架:1)塊採樣 2)無監督特徵學習的稀疏自編碼器。第一步中,提出了一個顯著性檢測方法context-aware saliency,作爲提取表達性塊的採樣策略;第二步中,每個塊用其中的像素密度值表達。該方法的不足:忽略了VHR圖像的語義含義。

爲了挑戰這個缺點,Cheng[9]等人提出了一個可以用於目標檢測和圖像分類的新方法:基於部分檢測器集合(COPD)的多類地理空間目標檢測和地理圖像分類。之後[10],他們針對VHR遙感影像,提出了一種基於“零件”的高效的面向中層視覺要素的土地利用分類方法。這兩個方法基於部分監測,在UC Merced數據集上取得了很高的精度。

在過去十年,深度學習方法被用於VHR場景分類。Vaduva[11]等人提出了一個深度方法。[12]提出了一個混合深度卷積神經網絡(CNN) 用於衛星圖像汽車檢測。[13]提出了堆疊自動編碼器提取高光譜圖像分類的富空間信息特徵。[14]提出了用深度學習去選擇富信息特徵。在[1.]的研究中,引入了一種基於CNN的新方法,將貪婪分層無監督的[15]預處理與有效的強制種羣和生命週期稀疏算法[16]相結合,從衛星圖像中學習稀疏特徵表示。雖然深度學習網絡具有較強的魯棒性和效率,但是上述方法並沒有達到較高的精度。

CNN是最成功的深度學習方法之一,因爲它在ImageNet大規模視覺識別競賽中表現出色。 CNN的成功歸功於其學習層次表示來描述圖像場景的能力。 最近,CNN已經在遙感圖像分析的背景下開發,其已經變得越來越流行用於圖像場景表示。在[17]中,提出了一種基於CNN的深度集合框架用於場景分類。 不幸的是,很難訓練新的CNN,因爲它需要非常大的標記數據集並且消耗很長的成本時間[18]。 一些文獻已經證明,CNN可以促進不同領域之間的遷移學習,並且工作得非常好。 而且,由於遙感場景分類任務中訓練樣本的規模較小,很難對CNN模型進行全面訓練。 因此,遷移預訓練的CNN這種方法已經用於場景分類。遷移分類有兩種遷移方式。 一種是直接把具有參數固定的預訓練的CNN作爲特徵提取器[19] - [21]。 另一種是使用預訓練的CNN,然後在VHR數據集上對它們進行微調[22],[23]。 Penatti等[20]表明,預訓練的CNN可用於識別日常物體並很好地對遙感場景進行分類。 此外,已經開發了更多基於預訓練CNN的策略以形成用於場景分類的更好表示。 奧斯曼等人[19]通過稀疏自編碼器對卷積特徵進行編碼來表示圖像場景,探索了一種新的VHR場景分類方法。 [22]的研究提出了一種通過學習旋轉不變CNN進行光學目標檢測的有效方法。 Marmanis等人。 [24]使用預訓練的OverFeat模型作爲特徵提取器,然後將特徵傳遞到監督CNN進行分類。 胡等人 [21]引入了基於預訓練CNN的兩種情景用於VHR圖像場景分類:1)第二全連接層被視爲場景圖像的最終特徵描述符; 2)從最後卷積層提取多個尺度的密集特徵,然後通過特徵編碼方法將密集(多尺度卷積)特徵編碼爲全局表示

克服上述限制的有效策略是特徵融合。 盛等人 [25]引入了顏色直方圖和SIFT特徵的融合。 [26]和[27]中的研究結合了三個以上的特徵描述符來表示圖像。 最近,[28]的研究介紹了VHR圖像的光譜和結構圖像信息的組合。 光譜信息由從採樣貼片組中提取的一階和二階統計量表示。 並且使用密集的SIFT特徵描述符作爲結構信息。最近,[29]的研究提出了局部和全局特徵的組合來計算BoVW。 如何獲得良好的特徵描述符來表示用於場景分類的VHR圖像仍然是VHR圖像場景理解的關鍵任務。 根據預訓練CNN在計算機視覺領域的成功,以及視覺幾何組網(VGG-net)在特徵提取任務中的巨大成功,我們引入了一個基於預訓練VGG-Net模型的新框架來爲VHR圖像自動學習特徵描述符。

如前所述,特徵融合是場景理解的有效步驟。 我們提出在CNN算法的輸出之間進行組合,其中最終特徵可以有效地表示場景圖像。 爲了減少特徵的維數並使用適當的特徵融合方法,我們建議在本文中使用判別相關分析(DCA)。 本文的主要貢獻有三個方面:

1)我們採用預訓練的深CNN模型進行VHR圖像場景分類,其中我們使用VGG-Net作爲特徵提取器,通過選擇有用的層來獲得圖像場景的良好表示。

2)我們首次在VGG-Net模型的不同全連接層之間進行組合,其中每層的輸出被假定爲特徵描述符並且組合以構造輸入圖像的最終特徵表示。 融合深度學習特徵比其他特徵表示方法(例如SIFT,加速魯棒特徵(SURF)和定向梯度直方圖(HOG))以及基於預訓練CNN的當前方法表現更好。

3)我們引入DCA以非常低的維度表示融合特徵,這允許實現良好的分類性能並加速分類任務。

2. 方法描述

方法包含三部分,如圖所示:VGG特徵提取;用DCA方法融合特徵;SVM分類器。
圖1

A. VGG-Net特徵提取

在這裏插入圖片描述

近幾年提出的CNN模型大多數爲5層或7層,我們的框架基於VGG-Net,有19層,因此可以提供信息更加豐富的特徵。傳統方法基於低級特徵,例如SIFT、SURF、HOG, 或者直接基於深度特徵,本文基於VGG-Net特徵的融合。VGG-Net使得特徵提取能夠獲得更豐富的信息。在本文中,使用經過預處理的網絡的第一層和第二層全連接層的輸出作爲特徵描述子。

B. Discriminant Correlation Analysis - DCA

特徵融合的目的,是把從圖像中提取的特徵,合併成一個比輸入特徵更具有判別能力的特徵。如何正確融合特徵是一個難題。兩個經典的特徵融合方法:

  1. 系列特徵融合[35],直接將兩個特徵進行連接。兩個輸入特徵x和y的維數若爲p和q,輸出特徵z的維數爲p+q;
  2. 並行策略[36],[37],將這兩個特徵向量組合成復向量,對於輸入特徵x和y,z = x + iy,其中i是虛數單位。

孫等人[38]引入典型相關分析canonical correlation analysis (CCA) 來融合特徵。基於CCA的融合方法使用兩個輸入特徵間的相關關係,計算兩種變換,變換後的特徵比輸入的兩個特徵集有更高的相關性 。

假設X(p,n)和Y(q,n)是兩個特徵矩陣,n是特徵數量,p和q分別代表他們特徵的維度。Sxx和Syy代表各自的協方差矩陣,Sxy是集合間的協方差矩陣,Syx = (Sxy)^T。整體協方差矩陣S爲:
在這裏插入圖片描述
CCA的目標是定義一個線性合併
X*=(Wx)^T X
Y*= (Wx)^T X
然後最大化成對特徵的相關:
在這裏插入圖片描述
如[38]中個所述,變換後的特徵通過以下兩種方式合併:
在這裏插入圖片描述
在這裏插入圖片描述

CCA的主要不足,在於忽略了數據集中類結構間的關係。我們想要最大化特徵集之間的相關性,所以將每組特徵中的類分開。

最近,[44]解決了CCA的弱點,引入了DCA。DCA最大化兩個特徵集中對應特徵的相關關係,同時最大化不同類之間的差異。
在這裏插入圖片描述

3. 實驗結果和設置

數據集

AID
UC-Merced
WHU-RS

實驗設置

爲了分析,我們提取圖像的VGG-Net特徵。之後用了兩種融合技術:

  1. 標準融合
  2. DCA融合

AID

整體精度對比
融合方法對比
在這裏插入圖片描述

UC-Merced

融合方法對比
在這裏插入圖片描述
和現有最好的方法對比
在這裏插入圖片描述
訓練集、測試集比例
在這裏插入圖片描述
訓練和測試時間
在這裏插入圖片描述

WHU-RS

融合策略
在這裏插入圖片描述
整體精度
在這裏插入圖片描述
訓練和測試時間
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章