【論文閱讀】Show, Recall, and Tell: Image Captioning with Recall Mechanism

【2020AAAI】
Wang, Li, Zechen Bai, Yonghua Zhang, and Hongtao Lu. “Show, Recall, and Tell: Image Captioning with Recall Mechanism.” arXiv preprint arXiv:2001.05876 (2020).

任務:image caption
問題:以前的方法在生成caption時,僅僅關注輸入圖像,而沒有考慮到人類的先驗知識

本文在完成image caption任務時提出了吸取相似圖像的caption中的先驗知識,提出了recall機制。
首先使用文本檢索模型,計算圖像與訓練集中其他caption的相似度,選取前5相似度caption中的詞作爲回憶詞。caption生成模型基於Up-Down模型,在兩層LSTM的輸出結果基礎上,語義引導path對回憶詞特徵加權求和,再使用FC得到生成詞的概率,回憶詞path計算直接複製回憶詞的概率,並使用權重平衡兩個path的結果,得到最終的生成詞概率。
在交叉熵的預訓練的基礎上,使用SCST的強化學習方法進一步調優,同時在CIDEr激勵的基礎上還採用了新提出的回憶詞激勵(使用最終概率採樣的CIDEr值減去不使用回憶詞path的caption的CIDEr值)。

模型結構

在這裏插入圖片描述
①文本檢索模塊
圖像特徵
在這裏插入圖片描述
v\overline{v} 爲不同圖像區域特徵的均值
文本特徵
在這裏插入圖片描述

將詞向量經過RNN,對再結合視覺信息對輸出進行加權求和

圖像和文本相似度
在這裏插入圖片描述
該模塊訓練時的損失函數(hard hinge-based triplet loss)
在這裏插入圖片描述
每張圖選取相似度最高的5個caption,將其中的詞作爲回憶詞集

②caption模塊
1、基礎模型:Up-Down模型
在這裏插入圖片描述
Xt1X_{t-1}爲上一時間步輸出的詞向量
2、語義引導
在這裏插入圖片描述

xix_i爲回憶詞向量
將回憶詞向量、Up-Down模型輸出及圖像特徵均值向量結合,計算該回憶詞的權重(αtrα_t^r),並對回憶詞特徵進行加權求和後(ctxtctx_t),拼接上Up-Down模型輸出,通過FC層得到所有詞的輸出概率
3、回憶詞path
在這裏插入圖片描述
該部分考慮直接複製回憶詞作爲caption輸出,WrW_r 爲回憶詞集

上面兩部分的結果通過soft switch作爲係數進行求和,得到最終的該時間步生成詞的概率
在這裏插入圖片描述

損失函數

在這裏插入圖片描述
生成caption的交叉熵損失
並在此基礎上使用SCST強化學習方法,並在原來的CIDEr激勵的基礎上,
在這裏插入圖片描述
使用新提出的回憶詞激勵
在這裏插入圖片描述
wsw_s爲根據最終概率採樣的caption,ws^w^{\hat{s}}sts_t 爲0(即不使用回憶詞path)的情況下采樣的caption

將兩種激勵結合,得到最終的激勵函數
在這裏插入圖片描述
wg^w^{\hat{g}} 爲不使用回憶詞path的情況下,使用貪心算法的採樣結果

數據集

MSCOCO2014:113287訓練,5000驗證,5000測試
Visual Genome:5.4M區域描述,108K圖像,用於Faster-RCNN訓練

評價指標

SPICE/CIDEr/METEOR/ROUGE-L/BLEU

實驗

文本檢索結果
在這裏插入圖片描述

在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章