深度學習細顆粒圖像分析綜述

深度學習細顆粒圖像分析綜述(圖像識別)

     計算機視覺(CV)是使用機器理解和分析圖像的過程,這是人工智能的組成部分。在CV的各個研究領域中,細粒度圖像分析(FGIA)是一個長期存在的基本問題,並且已在各種實際應用中無處不在。
FGIA的任務旨在分析從屬類別(例如,鳥類或汽車模型)中的視覺對象。細粒度性質導致的小類間差異和大的類內差異使其成爲具有挑戰性的問題。在深度學習的蓬勃發展期間,近年來見證了使用深度學習技術的FGIA的顯着進步。在本文中,我們旨在以系統的方式對基於深度學習的FGIA技術的最新進展進行調查。特別,我們將FGIA技術的現有研究分爲三大類:細粒度圖像識別,細粒度圖像檢索和細粒度圖像生成。
此外,我們還涵蓋了FGIA的其他一些重要問題,例如可公開獲得的基準數據集及其相關領域特定的應用程序。最後,我們通過突出幾個方向和未解決的問題來結束本調查,社區將來需要進一步探討這些問題和問題。

1 介紹

FGIA (fine-grained image analysis)在過去的幾十年是一個活躍的研究領域。FGIA 的目標是檢索,識別和生成元類別的子類別。例如下圖中的狗類別又有很多子類別如阿拉斯加等。
在這裏插入圖片描述
kaggle 上也有很多相關的比賽吸引了大量隊伍參賽。感興趣的可以點開下面的鏈接瞭解相關詳情Kaggle上細粒度識別的相關比賽

此綜述比較了之前的一篇文章A survey on deep learning- based fine-grained object classification and semantic segmentation. 這篇文章比較了很多細顆粒圖像識別的方法。作者在此基礎更加深入並且加入了圖像檢索和生成的方法。

PRICAI, Wei and Wu 也出版了一個詳細的關於細顆粒圖像分析的教程。教程地址 建議大家可以簡單瞭解瞭解。

這篇文章大致有三個部分:
1 項目背景,基準數據集, FGIA的一套深度學習方法以及應用領域。
2 系統的概述一下深度學習的FGIA的組織架構(見下圖)
3 挑戰和問題以及細顆粒研究的路線圖

在這裏插入圖片描述

2 背景:問題和主要的挑戰

細粒度圖像分析(FGIA)專注於處理屬於同一元類別的多個子類別的對象(例如,鳥,狗和汽車),並且通常涉及諸如細粒度圖像識別,粒度圖像檢索,細粒度圖像生成等。

FGIA與普通圖像分析的區別在於:在普通圖像分析中,目標對象屬於粗粒度的元類別(例如,鳥,橘子和狗),因此在視覺上有很大的不同。但是,在FGIA中,由於對象來自一個元類別的子類別,因此細粒度的性質使它們在外觀上非常相似。我們以圖像識別爲例。如圖1所示,在細粒度識別中,需要任務來識別多種相似的犬種,例如赫斯基,薩摩耶德和阿拉斯加。爲了準確識別,希望通過捕獲微小和細微的差異(例如,耳朵,鼻子,尾巴)來區分它們,這也滿足其他FGIA任務(例如,檢索和生成)的需求。

此外,細顆粒也具有更小的類間差異(small inter- class variations)
因爲每個子類非常相似,類內差異很大(不同角度,大小和旋轉導致)如下圖所示

3 基準數據集(Benchmark datasets)

下圖展示了一些基準數據集和相應的元類別
在這裏插入圖片描述
其中CUB200-2011 是最流行的細顆粒數據集,很多方法也是和它的state-of-the-arts做比較

4 細顆粒圖像識別

細粒度圖像識別主要分爲三個範式:

(1)with localization-classification subnetworks
(2)with end-to-end feature encoding
(3)with external information

第一種和第二種方法是有監督的方法,需要大量的標註數據如 image labels, bounding boxes, part annotation 等等。 但是自動識別系統也還是不能達到很好的效果。因此第三種方法使用易得的外部信息來提升準確率。

細粒度識別中普遍使用的評估指標是數據集所有下屬類別的平均分類精度

4.1 By localization-classification subnetworks

爲了解決類內差異的問題,定位分類子網絡着力於捕捉具有區分性的關鍵部分。

因爲有這些位置信息,part-level bounding boxes or segmentation masks ,這個網絡可以捕捉很多小的表徵。

相關工作:
依靠額外的dense part annotations定位關鍵語義部分
比如 Zhang 的 Part-based R-CNNs for fine-grained category detection使用RCNN fine tuning 一個200的分類器,並構建多個detector來預測root和part的位置並加上某種約束。還有一種基於MASKcnn的方法的就不過多贅述了。Mask-CNN: Localizing Parts and Selecting Descriptors for Fine-Grained Image Recognition
這些方法都是將多個部分的特徵融合成整個圖像的表徵並進行最後的識別。這類方法被統稱爲
part-based 的識別方法。

上述方法在可擴展和實踐性上存在限制,在此之後有一批技術僅需要image labels即可完成準確的部分定位。主要的動機是首先找到對應的部分並比較他們的外觀。

僅需要image labels的方法:
Spatial Transformer Networks 如果圖像 一定角度傾斜或偏移,Spatial Transformer可以對輸入圖像進行仿射變換。

Recurrent attention convolutional neural network for fine-grained image recognition 中的RA-CNN算法不需要對數據做類似bounding box的標註就能取得和採用類似bounding box標註的算法效果。有多個結構相同參數不共享的子網絡對應每個scale。每個子網絡包含分類網絡和APN網絡。對兩個網絡進行教程訓練。 用APN網絡取代了之前的bbox。通過rank 損失函數使得每一層的準確率逐步提升。
具體的可以看我的這篇文章RACNN筆記

MACNN 不同通道關注視覺信息不同,峯值響應區域也不同。融合相近的區域組成attention part
在這裏插入圖片描述
MA-CNN的損失由兩部分組成,一部分是part classification loss,即普通的分類網絡中的交叉熵;另一部分是channel grouping loss。Dis是使同一part內的座標更聚集,Div是使不同part儘量疏遠。
在這裏插入圖片描述
在這裏插入圖片描述
這篇文章有詳細的講解,感興趣的可以再看看MACNN筆記

Multi-attention multi-class constraint for fine-grained image recognition OSME模塊 + MAMC
在這裏插入圖片描述
基於注意力機制的方法:
Learning to Navigate for Fine-grained Classification
文章提出了一種新穎的自監督(self-supervision )機制和Navigator-Teacher-Scrutinizer Network(NTS-Net)模型 相關筆記

Weakly Supervised Learning of Part Selection Model with Spatial Constraints for Fine-Grained Image Classification
two stages: saliency extraction and co-segmentation.

4.2 By end-to-end feature encoding

Bilinear CNNs: 作爲端到端的主要方法,通過兩個CNN網絡生成關於位置和特徵信息的向,並將這兩個向量進行外積得到一個關於l點的特徵矩陣,在進行sum pooling 成一個向量進行softmax分類。
在這裏插入圖片描述
還有一些改進方法稍後我再加入

4.3 With external information

With web data:
該方法可以免費的從網絡上獲取一些有噪聲的標註數據來提升識別的準確度。

一種方法是爲測試種類搜索一些有噪聲的標註數據作爲訓練數據。
a weakly-supervised deep learning framework for learning from web data: 從網絡上搜索的數據在訓練集上打包送入cnn訓練然後將結果進行pooling 並加上attention
在這裏插入圖片描述
作用是(1)減小了網絡數據集和人工標註良好的數據集之間的差距
(2)是減小了噪聲數據的消極影響

次學習的方法(zero shot):論文
將文字信息和圖像信息融合加上部分輔助的標註信息(如何融合?)

With multi-modality data
使用多模態的方法進行學習

With humans in the loop
在學習過程中加入人工的方法,讓機器學習人類識別這些圖片的方法

引用:
https://blog.csdn.net/ellin_young/article/details/80282081

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章