【論文閱讀】Show, Recall, and Tell: Image Captioning with Recall Mechanism

原創

2020-04-20 03:52

【2020AAAI】
Wang, Li, Zechen Bai, Yonghua Zhang, and Hongtao Lu. “Show, Recall, and Tell: Image Captioning with Recall Mechanism.” arXiv preprint arXiv:2001.05876 (2020).

任務：image caption
問題：以前的方法在生成caption時，僅僅關注輸入圖像，而沒有考慮到人類的先驗知識

本文在完成image caption任務時提出了吸取相似圖像的caption中的先驗知識，提出了recall機制。
首先使用文本檢索模型，計算圖像與訓練集中其他caption的相似度，選取前5相似度caption中的詞作爲回憶詞。caption生成模型基於Up-Down模型，在兩層LSTM的輸出結果基礎上，語義引導path對回憶詞特徵加權求和，再使用FC得到生成詞的概率，回憶詞path計算直接複製回憶詞的概率，並使用權重平衡兩個path的結果，得到最終的生成詞概率。
在交叉熵的預訓練的基礎上，使用SCST的強化學習方法進一步調優，同時在CIDEr激勵的基礎上還採用了新提出的回憶詞激勵（使用最終概率採樣的CIDEr值減去不使用回憶詞path的caption的CIDEr值）。

模型結構

①文本檢索模塊
圖像特徵

$\overline{v}$ 爲不同圖像區域特徵的均值
文本特徵

將詞向量經過RNN，對再結合視覺信息對輸出進行加權求和

圖像和文本相似度

該模塊訓練時的損失函數（hard hinge-based triplet loss）

每張圖選取相似度最高的5個caption，將其中的詞作爲回憶詞集

②caption模塊
1、基礎模型：Up-Down模型

$X_{t-1}$ 爲上一時間步輸出的詞向量
2、語義引導

$x_i$ 爲回憶詞向量
將回憶詞向量、Up-Down模型輸出及圖像特徵均值向量結合，計算該回憶詞的權重( $α_t^r$ )，並對回憶詞特徵進行加權求和後( $ctx_t$ )，拼接上Up-Down模型輸出，通過FC層得到所有詞的輸出概率
3、回憶詞path

該部分考慮直接複製回憶詞作爲caption輸出， $W_r$ 爲回憶詞集