論文閱讀筆記《Adaptive Cross-Modal Few-shot Learning》

核心思想

  本文在度量學習的基礎上結合了語義信息實現小樣本學習任務。作者的核心觀點是在小樣本條件下,有些時候圖像特徵信息具有較高的區分度,而有些時候語義信息具有較高的區分度,爲了提高分類的準確度,作者提出一種自適應模態混合機制(Adaptive Modality Mixture Mechanism ,AM3)將兩種信息結合,並利用一個網絡輸出二者之間的比例權重,利用混合的特徵信息極大的改善了原有算法的分類效果。整個網絡的流程如下圖所示
在這裏插入圖片描述
  如上圖所示,訓練圖片經過一個特徵提取網絡ff得到對應的圖像特徵向量PcP_c,然後語義標籤信息首先經過一個詞嵌入模型W\mathcal{W}(提前在一個大規模文本語料庫中經無監督訓練得到的)得到對應的語義特徵向量ece_c,然後經過一個維度變換網絡gg將其轉化爲可以用於融合 的特徵WcW_c,融合方式如下
在這裏插入圖片描述
式中λc\lambda_c是一個分配權重係數,通過以下方式計算得到
在這裏插入圖片描述
式中hh是一個自適應混合網絡。將混合後的特徵PcP_{c}'’作爲原型,採用Prototypical Network的方式進行分類預測
在這裏插入圖片描述
θ\theta表示網絡參數,包含θf,θg,θh\theta_f,\theta_g,\theta_h三個部分。

實現過程

網絡結構

  特徵提取網絡ff採用ResNet-12結構,語義變換網絡gg只有一個隱藏層,包含300個神經元,自適應混合網絡hh同樣只有一個隱藏層,包含300個神經元,gghh均採用ReLU激活函數與dropout操作。

損失函數

  如下所示
在這裏插入圖片描述

訓練策略

  如下所示
在這裏插入圖片描述

創新點

  • 在特徵提取階段引入語義特徵信息,並利用自適應混合網絡調整語義特徵與圖像特徵的融合比例

算法評價

  本文提出的方法非常簡單,思路也很清晰,設計的結構也很精簡,不會對原有的基於度量學習的方法帶來過多的計算壓力,但卻取得了非常顯著的進步,在多個數據集上相對於baseline,本文的分類精度都有明顯提升,尤其是在one-shot條件下,提升幅度甚至超過10%。本文提出的方法可移植性也比較強,能夠廣泛的同基於度量學習的小樣本分類算法相結合,具有較強的學習和實用價值。

如果大家對於深度學習與計算機視覺領域感興趣,希望獲得更多的知識分享與最新的論文解讀,歡迎關注我的個人公衆號“深視”。在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章