論文名稱：Hierarchical Attention Network for Image Captioning
論文作者：Weixuan Wang, Zhihong Chen, Haifeng Hu
發行時間：Submitted on 17 Jol 2019
論文地址：https://aaai.org/ojs/index.php/AAAI/article/view/4924
代碼開源：無

一. 概論

近年在Image caption領域中注意力機制被廣泛使用, 但是存在高層次語義信息和低層次空間信息之間的矛盾. 故本文提出一種用於特徵金字塔型的注意力同步計算機制, 即 Hierarchical Attention Network (HAN).

本文將特徵劃分成3種: text feature, object feature, patch feature. 在預測不同詞時會選取不同種類的feature. 另一方面我們採用 多元殘差模塊(MRM) 對這些特徵進行 joint representation 的學習, 即提取不同特徵之間的相關性. 採用MRM是爲了在保證每種模式下的有效信息的同時, 能提取出跟具有鑑別性的多種類的特徵. 由於這三種特徵種類不同, 我們引入一個 context gate 來平衡不同特徵的貢獻.

特徵特點:

text feature:
- 關注所有的對象, 不care顯著對象
text and patch feature:
- 偏向關注顯著對象, 但不能確定具體的對象數量
text and patch and object feature:
- 能夠較準確得到對象的數量

如下圖所示:

二. 模型

2.1. 基本流程

如圖所示, 我們首先使用三個不同種類的Detector對輸入的圖像和文字進行特徵提取. 然後間這三種組成類似金字塔形狀的層級特徵! 然後在解碼階段, 我們使用LSTM作爲decoder, 我們使用串聯結構, 即將visual LSTM 和 language LSTM 連接起來, 前者用於感知圖像的全局信息並引導不同的注意力機制區生成不用的attention features, 後者用於引導 caption 的生成.

首先定義參數及其含義:

$I$ : input image
$w=\left \{ w_1, w_2,...,w_T \right \},~~~~w_t\in D$ : 生成的caption,
- 其中 $D$ 是詞典, $T$ 是caption長度
$V_g$ : global feature
$V_p$ : patch feature
$V_o$ : object feature
$V_t$ : text feature
$A_p$ : patch attention features
$A_o$ : object attention features
$A_t$ : text attention features

則圖中的過程可用如下公式進行描述:
$V_g,V_p,V_o,V_t={\rm Detectors}(I) \\h_t^V={\rm LSTM}M_V([h_{t-1}^L,V_g,E(w_t)]) \\A_p,A_o,A_t={\rm Attentions}(h_{t-1}^L,V_p,V_o,V_t) \\M={\rm pMRM}(M) \\w_t \sim {\rm Spftmax}(h_t^L)$
其中, $\rm Detectors()$ 表示特徵提取器, $E()$ 表示embedding函數用於將獨特編碼映射到編碼空間, ${\rm LSTM}M_V$ 表示visual LSTM, ${\rm LSTM}M_L$ 表示language LSTM, $\rm Attentions(\cdot)$ 表示Attention模塊.

對於給定的 $I$ 和 $w=\left \{ w_1,w_2,...w_T \right \}$ , 此模型的優化思路如下:
$\theta^*={\rm argmax} \sum_{(I,y)}\log p(y|I;\theta)$
其中, $\theta$ 是此模型的參數, $y$ 是正確的翻譯. 應用鏈式法則後, 即引入 $w=\left \{ w_1,w_2,...w_T \right \}$ , 則用交叉熵損失函數(XE)來最小化負對數似然:
$L=-\sum_{t=1}^T\log p(w_t|w_1,...,w_{t-1}, I)$

2.2. Hierarchy feature pyramid

爲了利用不同特徵同步的生成單詞, 我們提出一種層次金字塔結構, 其包含了 Bottom, middle, top層, 分別表示text feature, object feature, patch feature.

2.2.1. Patch features

Patch features 是圖片中每個patch的一種抽象表達的方法.
即用在ImageNet上預訓練的ResNet101的最後一層卷積層的特徵作爲 patch feature $V_p \in R^{r\times r\times d}$ .
其中, $V_p = [V_{p(1)},V_{p(2)},...,V_{p(r\times r)}], ~~ V_{p(i)} \in R^d$ 是一個 $d$ 維的patch feature, 且提取的 patch feature 數爲 $N_p=r \times r=196$ .

2.2.2. Object features

Object feature 指顯著性對象的特徵.
我們使用 Faster R-CNN來提取 $N_o$ 個object feature. 本文取 $N_o=15$ . 其中提取的對象特徵 $V_o = [V_{o(1)},V_{o(2)},...,V_{o(N_o)}], ~~ V_{o(i)} \in R^d$ 是一個 $d$ 維的object feature.

15個對象指置信度得分最靠前的15個, 即顯著對象15個!

2.2.3. Text features

Text features 指與圖片相關的語義概念, 包含形容詞, 動詞和名詞.
我們將數據集中 $K=2000$ 個使用最頻繁的詞組成一個文本預測分類器. 並從中提取處 $N_t=10$ 個得分最高的文本概念 $T=[T_1,T_2,...,T_{N_t}]$ . 在之後的特徵構造階段, Embedding函數會將該文本概念 $T$ 將轉換爲文本特徵 $V_t \in R^{N_t \times d}$ , 其中 $V_{t(i)} \in R^d$ 是一個 $d$ 維度的text feature.

對於文本預測分類器, 以ResNet101作爲backbone, 並引入3個新全連接層, 如下圖所示.

在訓練階段, 固定ResNet的權重, 只優化全連接層來對與圖像相關的文本進行預測. 我們的目標函數如下:
$L=-\frac{1}{N}\sum^N_{i=1}[p_i^*\log(p_i) + (1-p_i^*)\log(1-p_i)]$
其中, $N$ 是文本的字數, 若在GT中存在對應的單詞, 則 $p_i^*$ 爲1.

2.3. Attention module

我們分別在3個層次構造3個獨立的 attention 網絡來對特徵進行refine.

給定某層上特徵 $V$ , visual LSTM 的輸出 $h_t^V$ , 由nn對注意力權重進行標準化:
$z(t)=W_{\alpha}^T\tanh(W_VV+W_hh_t^V \\ \alpha(t)={\rm softmax}(z(t)))$
其中, $W_V,W_h \in R^{d\times d}$ 及 $W_{\alpha} \in R^{d\times 1}$ 是可訓練的矩陣, 而 $\alpha(t) \in R^N$ 是attention權重, attention feature $A(t)$ 的計算方式如下:
$A(t)=\sum^N_{i=1}\alpha_iV_i$

而對於一些不能可視化匹配的單詞則與object feature 和 text feature無關, 此時需要在Language LSTM的最後一個time step裏將具有全局特徵的對象特徵和帶有語義特徵的文本特徵連接起來以便給attend提供額外的全局信息.

2.4. Multivariate Residual Module

我們提出MRM多元殘差模塊來整合不同模式的信息. 其中MRM由兩部分組成:

投影部分, projection part
關聯部分, relation part

2.4.1. Projection

Projection是爲了對輸入數據和非線性殘差函數之間的關係進行學習, 而不是學習之間的映射.

如上圖所示便是我們的Projection network, 我們使用兩個獨立的殘差網絡將實現Projection, 即將patch attention feature和text attention feature映射到object空間:
$H_p=A_p+{\rm RELU}(W_{mp}A_p) \\ H_t=A_t+{\rm RELU}(W_{mt}A_t)$
其中 $A_p$ 和 $A_t$ 分別是Patch和text attention feature, $\rm RELU$ 是非線性激活函數.

總體投影特徵 $H$ 是:
$H = A_o+H_p+H_t$
其中 $A_o$ 表示object attention feature.

2.4.2. Relation

Relation是爲了通過多模態雙線性策略來探索不同空間之間的內在關聯.

如上圖便是我們的Relation network. 給定patch attention feature $A_p \in R^m$ , object attention feature $A_o \in R^n$ , multimodal bilinear strategy(多模態雙線性策略)定義如下:
$Z_i=A^T_pW_iA_o$
其中 $W_i\in R^{m \times n}$ 是權值矩陣, 爲了獲取輸出 $Z \in R^o$ , 需要對 $o$ 矩陣 $W=[W_1,...,W_o]\in R^{m \times n \times o}$

根據Kim et al. 2017我們對上述公式進行重寫來減少參數矩陣的維度來優化計算:
$Z_i=A^T_pW_iA_o=A_p^TU_iV_i^TA_o=U^T_iA_p \circ V_i^TA_o \\ Z=U^TA_p \circ V^TA_o$
其中, $U=[U_1,...,U_o] \in R^{m \times o},~~V=[V_1,...,V_o] \in R^{n \times o}$ , 而 $\circ$ 表示 Hadamard product(哈達瑪積) . 我們通過對此策略進行擴展, 將上述三種模式進行合併, 重寫結果如下:
$Z=U^TA_p \circ V^TA_p \circ W^TA_o$
其中, $A_t$ 表示 text attention feature, $U,V,W$ 表示對應的權值矩陣.

最後, 我們通過一個均值池化層來來對relation feature進行壓縮:
$R={\rm AvgPool}(Z)$

2.4.3. MRM

其MRM正是由上述提到的Projection和Relation組合而得到的. 如上圖所示.
$M=H+R$

2.4.4. pMRM

pMRM, parallel MRM, 並行MRM模塊, 用來對不同層次的特徵進行集成. 即pMRM首先將object info分別提供給 text features 和 patch features.
然後, 我們引入 context gate, 來有選擇性的對高層 context feature 和低層 position features 進行關注.

2.4.5. Context Gating

我們提出 Context Gating 來平衡底層context和高層context的貢獻, 對於底層attend feature $M_L$ 和高層attend feature $M_H$ , 將這倆不同特徵映射到同一個空間中:
$\tilde{M_L} = \tanh(W_LM_L) \\ \tilde{M_H} = \tanh (W_HM_H)$
其中, $W_L,W_H$ 是 projection矩陣.

對於 context gate 然後經過一個非線性 sigmoid 激活函數:
$g_{ctx}=\sigma(W_g[\tilde{M_L},\tilde{M_H}, h_t^V])$
其中, $h_t^V$ 是前一個 visual LSTM 的狀態, $g_{ctx}$ 是一個512維度的權重向量.

於是乎, 便將低層特徵和高層特徵融合在了一起, 如下所示:
$M=[(1-g_{ctx}) \circ M_L,~~g_{ctx} \circ M_H]$

$g_{ctx}$ 決定了對 $M_L$ 和 $M_H$ 的側重點的關注度.

2.4.6. Objective

由於 XE 可能會導致在訓練階段和推斷階段的不一致性, 根據SCST思想, 直接採用 CIDEr 作爲目標函數對模型進行細化.即
$L(\theta)=-E_{w^s \sim p_{\theta}}[{\rm CIDEr}(w^s)]$
其單個樣本 $w^s \sim p_{\theta}$ 對應的期望梯度:
$\bigtriangledown_{\theta}L(\theta) \approx -({\rm CIDEr}(w^s)-{\rm CIDEr(w)})\bigtriangledown _{\theta}\log p_{\theta}(w^s)$
此處的 $w^s=(w_1^s,...,w^s_T)$ 指在時間 $t$ 採樣得到的詞, ${\rm CIDEr}(w)$ 則是使用貪婪法對當前模型解碼得到的 baseline score.

三. 實驗

3.1. 數據集及評價指標

選用 MSCOCO 作爲我們的數據集, 採用 Karpathy 方法對數據集劃分成 training, valid, test三個集合.

對於評價指標我們選用了: BLEU, METEOR, ROUGEL, CIDEr, SPICE.

3.2. 實現細節

用 ResNet-101 模型在 ImageNet 上進行與訓練來提取global features. 然後用 Faster RCNN 在 MSCOCO 上預訓練提取 object features, 並訓練另一個 Faster RCNN 預測 visual concepts.

另外, 在訓練上, 我們首先在訓練階段採用 XE loss 並帶有ADAM優化器, 學習率爲 5e-4. 經過一段時間後再採用 SCST 思想進行訓練.

3.3. 實驗結果

四. 結論

本文提出 Hierarchical Attention Network(HAN) 將弱語義性的patch features、中等語義性的object features、強語義性的 text features構造成一個金字塔結構特徵集, 通過這個可以在預測不同單詞時選擇不同的特徵.

而對於 MRM, 實現了模型間的投影, 並提取不同特徵之間的相關性.

使用 context gate 對不同特徵之間的貢獻進行平衡.

【Hierarchical Attention Network for Image Captioning】--- 論文筆記