【2020AAAI】
Wang, Li, Zechen Bai, Yonghua Zhang, and Hongtao Lu. “Show, Recall, and Tell: Image Captioning with Recall Mechanism.” arXiv preprint arXiv:2001.05876 (2020).
任務:image caption
問題:以前的方法在生成caption時,僅僅關注輸入圖像,而沒有考慮到人類的先驗知識
本文在完成image caption任務時提出了吸取相似圖像的caption中的先驗知識,提出了recall機制。
首先使用文本檢索模型,計算圖像與訓練集中其他caption的相似度,選取前5相似度caption中的詞作爲回憶詞。caption生成模型基於Up-Down模型,在兩層LSTM的輸出結果基礎上,語義引導path對回憶詞特徵加權求和,再使用FC得到生成詞的概率,回憶詞path計算直接複製回憶詞的概率,並使用權重平衡兩個path的結果,得到最終的生成詞概率。
在交叉熵的預訓練的基礎上,使用SCST的強化學習方法進一步調優,同時在CIDEr激勵的基礎上還採用了新提出的回憶詞激勵(使用最終概率採樣的CIDEr值減去不使用回憶詞path的caption的CIDEr值)。
模型結構
①文本檢索模塊
圖像特徵
爲不同圖像區域特徵的均值
文本特徵
將詞向量經過RNN,對再結合視覺信息對輸出進行加權求和
圖像和文本相似度
該模塊訓練時的損失函數(hard hinge-based triplet loss)
每張圖選取相似度最高的5個caption,將其中的詞作爲回憶詞集
②caption模塊
1、基礎模型:Up-Down模型
爲上一時間步輸出的詞向量
2、語義引導
爲回憶詞向量
將回憶詞向量、Up-Down模型輸出及圖像特徵均值向量結合,計算該回憶詞的權重(),並對回憶詞特徵進行加權求和後(),拼接上Up-Down模型輸出,通過FC層得到所有詞的輸出概率
3、回憶詞path
該部分考慮直接複製回憶詞作爲caption輸出, 爲回憶詞集
上面兩部分的結果通過soft switch作爲係數進行求和,得到最終的該時間步生成詞的概率
損失函數
生成caption的交叉熵損失
並在此基礎上使用SCST強化學習方法,並在原來的CIDEr激勵的基礎上,
使用新提出的回憶詞激勵
爲根據最終概率採樣的caption, 爲 爲0(即不使用回憶詞path)的情況下采樣的caption
將兩種激勵結合,得到最終的激勵函數
爲不使用回憶詞path的情況下,使用貪心算法的採樣結果
數據集
MSCOCO2014:113287訓練,5000驗證,5000測試
Visual Genome:5.4M區域描述,108K圖像,用於Faster-RCNN訓練
評價指標
SPICE/CIDEr/METEOR/ROUGE-L/BLEU
實驗
文本檢索結果