《Multi-level Attention Networks for Visual Question Answering》閱讀筆記

《Multi-level Attention Networks for Visual Question Answering》閱讀筆記

一、研究背景

  1. effective semantic embedding and fine-grained visual understanding;
  2. 人類語言問題以明確的查詢意圖傳達強大的高級語義,而具有數萬個像素的真實世界圖像則相對低級且抽象,由於衆所周知的語義差距,這對深度圖像理解提出了巨大的挑戰;
  3. 視覺問題回答需要細粒度的空間推理,因爲某些答案只能從高度本地化的圖像區域推斷出“What”和“Where”的問題

二、文章貢獻

  1. 我們通過共同學習multi-level attention來解決自動視覺問題回答的挑戰,這可以同時減少從視覺到語言的語義鴻溝,並有益於VQA任務中的細粒度推理;
  2. 我們引入了一種新穎的視覺注意空間編碼方法,通過雙向RNN模型從有序圖像區域中提取上下文感知視覺特徵

三、實驗模型

實驗模型

Semantic Attention

  1. 通過深度卷積神經網絡訓練概念檢測器,它可以產生圖像的語義概念概率;
    這裏寫圖片描述
  2. 訓練一個注意力網絡來衡量詞彙和問題中每個概念之間的語義相關性。
    使用以下等式來表示問題編碼模型:
    這裏寫圖片描述
    我們對概念和問題使用相同的詞彙表和嵌入矩陣,因此它們可以共享相同的語義表示。 具體而言,我們通過雙層堆疊嵌入層用語義向量sc表示概念c。 第一層設計爲與問題模型共享相同的詞嵌入層,第二層用於將概念向量投影到具有問題表示的相同維度中,由下式給出:
    這裏寫圖片描述
    這裏寫圖片描述

Context-aware Visual Attention
這裏寫圖片描述
這裏寫圖片描述
與通過兩個向量的點積測量問題和概念詞之間的語義相似性的semantic attention不同,我們對齊問題和每個區域通過兩個向量的元素乘法,然後將它們饋送到多層感知器(MLP),這種設計使得能夠通過MLP中的參數優化來自動學習attention功能。

  1. 使用在上一步中獲得的上下文感知視覺特徵來表示局部區域,而不是在卷積神經網絡中來自每個區域的獨立表示,其通常缺乏不同區域之間的相互作用;
  2. 我們使用逐元素乘法而不是逐元素加法來對齊每個區域的問題特徵和視覺特徵,這克服了多模態特徵彙集中的尺度不一致問題。

這裏寫圖片描述
這裏寫圖片描述
在實踐中,我們重複上述過程,如[34]中所述,使用問題特徵和參加區域特徵作爲指導,忽略了這裏的細節以便簡潔。
Joint Attention Learning
我們使用問題作爲查詢來搜索不同級別的圖像信息。 在低級視覺特徵中,我們通過visual attention關注與問題相關的區域,而在高級語義特徵中,我們通過semantic attention關注與問題相關的概念。 兩個級別的注意力通過融合他們的代表性表達而結合在一起。 特別是,我們首先將問題向量添加到從不同層提取的 attended image features,然後我們使用逐元素乘法將兩種類型的注意力組合在一起。 最後,我們將關節特徵饋送到softmax層以預測預定義候選答案集A的概率。具有最高概率的候選者被確定爲最終答案,其由下式給出:
這裏寫圖片描述

四、實驗結論

我們提出了一種新穎的Multi-level Attention Network,將 visual attention and semantic attention結合到一個 end-end framework中,以解決自動視覺問答。 visual attention能夠通過問題查詢細粒度的視覺理解,而semantic attention則縮小了問題和圖像之間的domain gap。 我們的模型利用了不同層次表示的注意機制的互補性。 對兩個大型數據集進行的大量實驗表明,我們不僅優於任何單層關注模型,而且通過簡單但有效的框架實現了最佳結果。 未來的工作包括進一步探索空間編碼與上下文信息,注意句子級表示和更好的融合方法,以加入不同層次的關注。

[34] Z. Yang, X. He, J. Gao, L. Deng, and A. Smola. Stacked attention networks for image question answering. In CVPR, 2016

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章