Multi-Modal Sarcasm Detection 圖文反諷識別
題目:Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion
發表會議/期刊: ACL2019
主要相關: 方面級情感分析+圖文
反諷識別任務的目的是判斷一段文檔是否含有反諷表達
Conttrbutions:
將文本特徵,圖像特徵,圖像屬性作爲三種模態
提出一種多模態層次融合模型
① 首先提取圖像特徵和圖像屬性特徵
② 再利用屬性特徵和雙向LSTM網絡來提取文本特徵
③ 三種模態特徵進行重構融合成一個特徵向量來預測
驗證了爲了充分發揮圖像的潛力,需要考慮圖像屬性——一種連接文本和圖像之間的高層次抽象信息。
圖像屬性:由描述圖像組成成分的若干詞組成。
Approach:
(1)初步表示
① For 圖片模態:
對於raw vector:使用一個預訓練和微調的ResNet模型來獲得圖片的14*14區域向量Ii\
圖片guidance vector:將原始向量平均
② For 圖片屬性模態
對於raw vector:使用另一個預訓練和微調的ResNet-101模型來預測每個圖片的5個屬性,其GloVe embeddings被視爲原始屬性向量
圖片guidance vector:將原始向量加權平均
原始屬性向量 e(ai) 通過兩層卷積網絡得到注意力權重,用來重構得到guidance vector :Vattr
③ For 文本模態
使用雙向LSTM來獲得推特文本表示,得到的最終隱藏狀態進行平均得到guidance vector:
(2)融合
① 早期融合:
在文本分類任務中,Bi-LSTM的初始狀態通常設置爲零,但可以注入多模態信息來促進對文本模態的理解。
將非線性變換後的屬性引導向量作爲Bi-LSTM的初始狀態。
曾嘗試使用圖片引導向量進行融合,但表現不好
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-DYNDRip0-1586179918711)(C:\Users\dell\AppData\Roaming\Typora\typora-user-images\1586141236228.png)]
② 表示融合
在低層次原始向量和高層次引導向量的幫助下重構特徵向量
低層次原始向量:文本->最終時刻的隱藏狀態ht
圖像->14*14的區域向量
圖像屬性->5個屬性的嵌入表示
將原始向量和引導向量通過一層卷積+非線性變化+卷積,在標準化後平均得到每個原始向量的權重,進而得到該模態下的特徵表示
③ 模態融合
特徵向量轉換成定長的表示,採用兩層前饋神經網絡,計算各模態的注意力權值,將其作爲定長特徵向量的權重得到該模態下的最終單一向量
(3)分類
使用兩層全連通神經網絡作爲分類層,隱含層的激活函數和輸出層的激活函數分別是ReLu函數和sigmoid函數。損失函數是交叉熵