多模態深度學習綜述：網絡結構設計和模態融合方法彙總

來源：知乎

作者：小奚每天都要學習

本文約5900字，建議閱讀15分鐘

本文講述了三種融合文本和圖像的方法：基於簡單操作的，基於注意力的，基於張量的方法。

[ 導讀 ]多模態深度學習主要包含三個方面：多模態學習表徵，多模態信號融合以及多模態應用，而本文主要關注計算機視覺和自然語言處理的相關融合方法，包括網絡結構設計和模態融合方法（對於特定任務而言）。本文講述了三種融合文本和圖像的方法：基於簡單操作的，基於注意力的，基於張量的方法。

一、簡介

從2010年開始，深度學習方法爲語音識別，圖像識別和自然語言處理領域帶來了巨大的變革。這些領域中的任務都只涉及單模態的輸入，但是最近更多的應用都需要涉及到多種模態的智慧。多模態深度學習主要包含三個方面：多模態學習表徵，多模態信號融合以及多模態應用，而本文主要關注計算機視覺和自然語言處理的相關融合方法，包括網絡結構設計和模態融合方法（對於特定任務而言）。

二、多模態融合辦法

多模態融合是多模態研究中非常關鍵的研究點，它將抽取自不同模態的信息整合成一個穩定的多模態表徵。多模態融合和表徵有着明顯的聯繫，如果一個過程是專注於使用某種架構來整合不同單模態的表徵，那麼就被歸類於fusion類。而fusion方法又可以根據他們出現的不同位置而分爲late和early fusion。因爲早期和晚期融合會抑制模內或者模間的交互作用，所以現在的研究主要集中於intermediate的融合方法，讓這些fusion操作可以放置於深度學習模型的多個層之中。而融合文本和圖像的方法主要有三種：基於簡單操作的，基於注意力的，基於張量的方法。

a）簡單操作融合辦法

來自不同的模態的特徵向量可以通過簡單地操作來實現整合，比如拼接和加權求和。這樣的簡單操作使得參數之間的聯繫幾乎沒有，但是後續的網絡層會自動對這種操作進行自適應。

Concatenation拼接操作可以用來把低層的輸入特徵[1][2][3]或者高層的特徵(通過預訓練模型提取出來的特徵)[3][4][5]之間相互結合起來。
Weighted sum 對於權重爲標量的加權求和方法，這種迭代的辦法要求預訓練模型產生的向量要有確定的維度，並且要按一定順序排列並適合element-wise 加法[6]。爲了滿足這種要求可以使用全連接層來控制維度和對每一維度進行重新排序。

最近的一項研究[7]採用漸進探索的神經結構搜索[8][9][10]來爲fusion找到合適的設置。根據要融合的層以及是使用連接還是加權和作爲融合操作來配置每個融合功能。

b）基於注意力機制的融合辦法

很多的注意力機制已經被應用於融合操作了。注意力機制通常指的是一組“注意”模型在每個時間步動態生成的一組標量權重向量的加權和[11][12]。這組注意力的多個輸出頭可以動態產生求和時候要用到的權重，因此最終在拼接時候可以保存額外的權重信息。在將注意機制應用於圖像時，對不同區域的圖像特徵向量進行不同的加權，得到一個最終整體的圖像向量。

圖注意力機制

擴展了用於文本問題處理的LSTM模型，加入了基於先前LSTM隱藏狀態的圖像注意模型，輸入爲當前嵌入的單詞和參與的圖像特徵的拼接[13]。最終LSTM的隱藏狀態就被用於一種多模態的融合的表徵，從而被應用於VQA問題之中。這種基於RNN的encoder-decoder模型被用來給圖像特徵分配權重從而做image caption任務[14]。此外，對於VQA視覺問答任務，attention模型還能通過文本query來找到圖像對應得位置[15]。同樣，堆疊注意力網絡(SANs)也被提出使用多層注意力模型對圖像進行多次查詢，逐步推斷出答案，模擬了一個多步驟的推理過程[16]。通過多次迭代實現圖像區域的Attention。首先根據圖像特徵和文本特徵生成一個特徵注意分佈，根據這個分佈得到圖像每個區域權重和Vi，根據u=Vi+Vq得到一個refine query向量。將這個過程多次迭代最終注意到問題相關區域。當然和san很像的還有[17]。

一種動態記憶網絡也被升級了並用來分別編碼問題和圖像。這種網絡則使用了基於attention的GRUs來更新情景記憶和檢索所需信息[18]。

自底向上和自頂向下的注意方法(Up-Down)，顧名思義，通過結合兩種視覺注意機制來模擬人類的視覺系統[19]。自下而上的注意力機制是通過使用目標檢測算法(如faster rcnn)來首先挑選出一些列的圖像候選區域，而自上而下的注意力機制則是要把視覺信息和語義特徵拼接從而生成一個帶有注意力的圖像特徵向量，最終服務於圖像描述和VQA任務。同時，帶有注意力的圖像特徵向量還可以和文本向量進行點乘。來自不同模型(resnet和faster rcnn)的互補圖像特徵也可以被用於多種圖像注意力機制[20]。更進一步，圖像注意力機制的逆反應用，可以從輸入的圖像+文本來生成文本特徵，還可以用於文本生成圖像的任務[21]。

圖和文本的對稱注意力機制

與上述圖像注意機制不同，共注意機制使用對稱注意力結構生成attended圖像特徵向量和attended語言向量[22]。平行共注意力機制採用聯合表示的方法模擬推導出圖像和語言的注意分佈。交替共同注意力機制具有級聯結構，首先使用語言特徵生成含有注意力的圖像向量，然後使用含有注意力的圖像向量生成出含注意力的語言向量。

和平行共注意力機制類似，雙注意力網絡(DAN)同時估計圖像和文本的注意力分佈從而獲得最後的注意力特徵向量[23]。這種注意模型以特徵和與相關模式相關的記憶向量爲條件。與共同注意相比，這是一個關鍵的區別，因爲記憶向量可以使用重複的DAN結構在每個推理步驟中迭代更新。

堆疊的latent attention (SLA)改進了SAN，它把圖像的原始特徵和網絡淺層的向量連接，以保存中間推理階段的潛在信息[24]。當然還包括一種類似雙流的並行共注意結構，用於同時注意圖像和語言特徵，這便於使用多個SLA層進行迭代推理。雙遞歸注意單元利用文本和圖像的LSTM模型實現了一個並行的共注意結構，在使用CNN層堆棧卷積圖像特徵得到的表示中爲每個輸入位置分配注意權值[25]。爲了模擬兩種數據模式之間的高階交互作用，可以將兩種數據模式之間的高階相關性作爲兩種特徵向量的內積來計算，從而得到兩種模式的交互的注意力特徵向量[26]。

雙模的transformer的注意力機制

這部分主要是基於BERT的變體，採用雙流輸入embedding方法，然後再後續的共注意力層中進行交互。

其他類似注意力的機制

門控多模態單元是一種基於門控的方法，可以看作是爲圖像和文本分配注意權重[27]。該方法是基於門控機制動態生成的維度特定標量權重，計算視覺特徵向量和文本特徵向量的加權和。類似的,向量按位乘法可以用於融合視覺和文本表達。然後將這些融合的表示方法用於構建基於深度殘差學習的多模態殘差網絡[27]。還有就是動態參數預測網絡，它採用動態權值矩陣來變換視覺特徵向量，其參數由文本特徵向量哈希動態生成[28]。

c）基於雙線性池化的融合辦法

雙線性池化主要用於融合視覺特徵向量和文本特徵向量來獲得一個聯合表徵空間，方法是計算他們倆的外積，這種辦法可以利用這倆向量元素的所有的交互作用，也被稱作second-order pooling[30]。和簡單地向量組合操作(假設每個模態的特徵向量有n個元素)不一樣的是，簡單操作(如加權求和，按位操作，拼接)都會生成一個n或者2n維度的表徵向量，而雙線性池化則會產生一個n平方維度的表徵。通過將外積生成的矩陣線性化成一個向量表示，這意味着這種方法更有表現力。雙線性表示方法常常通過一個二維權重矩陣來轉化爲相應的輸出向量，也等價於使用一個三維的tensor來融合兩個輸入向量。在計算外積時，每個特徵向量可以加一個1，以在雙線性表示中保持單模態輸入特徵[32]。然而，基於它的高維數(通常是幾十萬到幾百萬維的數量級)，雙線性池通常需要對權值張量進行分解，纔可以適當和有效地訓練相關的模型。

雙線性池化的因式分解

由於雙線性出來的表徵與多項式核密切相關，因此可以利用各種低維近似來獲得緊的雙線性表示[32]。Count sketch和卷積能夠用來近似多項式核[33][34]，從而催生出了多模態緊湊雙線性池化multimodal compact bilinear pooling MCB[35]。或者，通過對權值張量施加低秩控制，多模態低秩雙線性池(MLB)將雙線性池的三維權值張量分解爲三個二維權值矩陣[36]。具體的來說，視覺和文字特徵向量通過兩個輸入因子矩陣線性投影到低維矩陣上。然後使用按元素的乘法將這些因子融合，然後使用第三個矩陣對輸出因子進行線性投影。多模態因子分解雙線性池化Multimodal factorized bilinear pooling (MFB)對MLB進行了修改，通過對每個非重疊的一維窗口內的值求和，將元素間的乘法結果集合在一起[37]。多個MFB模型可以級聯來建模輸入特性之間的高階交互，這被稱爲多模態因數化高階池(MFH)[38]。

MUTAN是一種基於多模態張量的Tucker decomposition方法，使用Tucker分解[39]將原始的三維權量張量算子分解爲低維核心張量和MLB使用的三個二維權量矩陣[40]。核心張量對不同形式的相互作用進行建模。MCB可以看作是一個具有固定對角輸入因子矩陣和稀疏固定核張量的MUTAN, MLB可以看作是一個核張量爲單位張量的MUTAN。

而最新的AAAI2019提出了BLOCK，是一個基於塊的超對角陣的融合框架[41]，是爲了塊項的消解和合成[42]。BLOCK將MUTAN泛化爲多個MUTAN模型的總和，爲模式之間的交互提供更豐富的建模。此外，雙線性池化可以推廣到兩種以上的modality，例如使用外積來建模視頻、音頻和語言表示之間的交互[43]。

雙線性池化和注意力機制

雙線性池化和注意力機制也可以進行結合。MCB/MLB融合的雙模態表示可以作爲注意力模型的輸入特徵，得到含有注意力的圖像特徵向量，然後再使用MCB/MLB與文本特徵向量融合，形成最終的聯合表示[44][45]。MFB/MFH可用於交替的共同注意學習聯合表示[46][47]。

雙線性注意網絡(BAN)利用MLB融合圖像和文本，生成表示注意力分佈的雙線性注意圖，並將其作爲權重張量進行雙線性pooling，再次融合圖像和文本特徵[48]。

三、總結

近年來最主要的多模態融合辦法就是基於attention的和基於雙線性池化的方法。其中雙線性池化的數學有效性方面還可以有很大的提升空間。

Zhang, C., Yang, Z., He, X., & Deng, L. (2020). Multimodal intelligence: Representation learning, information fusion, and applications.IEEE Journal of Selected Topics in Signal Processing.

參考文獻：

[1] B. Nojavanasghari, D. Gopinath, J. Koushik, B. T., and L.-P. Morency, “Deep multimodal fusion for persuasiveness prediction,” in Proc. ICMI, 2016

[2] H. Wang, A. Meghawat, L.-P. Morency, and E. Xing, “Select-additive learning: Improving generalization in multimodal sentiment analysis,” in Proc. ICME, 2017.

[3] A. Anastasopoulos, S. Kumar, and H. Liao, “Neural language modeling with visual features,” in arXiv:1903.02930, 2019.

[4] V. Vielzeuf, A. Lechervy, S. Pateux, and F. Jurie, “CentralNet: A multilayer approach for multimodal fusion,” in Proc. ECCV, 2018.

[5] B. Zhou, Y. Tian, S. Sukhbaatar, A. Szlam, and R. Fergus, “Simple baseline for visual question answering,” in arXiv:1512.02167, 2015.

[6] J.-M. Pe ́rez-Ru ́a, V. Vielzeuf, S. Pateux, M. Baccouche, and F. Jurie, “MFAS: Multimodal fusion architecture search,” in Proc. CVPR, 2019.

[7] B. Zoph and Q. Le, “Neural architecture search with reinforcement learning,” in Proc. ICLR, 2017.

[8] C. Liu, B. Zoph, M. Neumann, J. Shlens, W. Hua, L.-J. Li, F.-F. Li, A. Yuille, J. Huang, and K. Murphy, “Progressive neural architecture search,” in Proc. ECCV, 2018.

[9] J.-M. Pe ́rez-Ru ́a, M. Baccouche, and S. Pateux, “Efficient progressive neural architecture search,” in Proc. BMVC, 2019.

[10] X. Yang, P. Molchanov, and J. Kautz, “Multilayer and multimodal fusion of deep neural networks for video classification,” in Proc. ACM MM, 2016.

[11] D. Bahdanau, K. Cho, and Y. Bengio, “Neural machine translation by jointly learning to align and translate,” in Proc. ICLR, 2015.

[12] A. Graves, G. Wayne, and I. Danihelka, “Neural turing machines,” in arXiv:1410.5401, 2014.

[13] Y. Zhu, O. Groth, M. Bernstein, and F.-F. Li, “Visual7W: Grounded question answering in images,” in Proc. CVPR, 2016.

[14] K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhutdinov, R. Zemel, and Y. Bengio, “Show, attend and tell: Neural image caption generation with visual attention,” in Proc. ICML, 2015.

[15] K. Shih, S. Singh, and D. Hoiem, “Where to look: Focus regions for visual question answering,” in Proc. CVPR, 2016.

[16] Z. Yang, X. He, J. Gao, L. Deng, and A. Smola, “Stacked attention networks for image question answering,” in Proc. CVPR, 2016.

[17] H. Xu and K. Saenko, “Ask, attend and answer: Exploring question-guided spatial attention for visual question answering,” in Proc. ECCV, 2016.

[18] C. Xiong, S. Merity, and R. Socher, “Dynamic memory networks for visual and textual question answering,” in Proc. ICML, 2016.

[19] P. Anderson, X. He, C. Buehler, D. Teney, M. Johnson, S. Gould, and L. Zhang, “Bottom-up and top-down attention for image captioning and visual question answering,” in Proc. CVPR, 2018.

[20] P. Lu, H. Li, W. Zhang, J. Wang, and X. Wang, “Co-attending free- form regions and detections with multi-modal multiplicative feature embedding for visual question answering,” in Proc. AAAI, 2018.

[21] W. Li, P. Zhang, L. Zhang, Q. Huang, X. He, S. Lyu, and J. Gao, “Object-driven text-to-image synthesis via adversarial training,” in Proc. CVPR, 2019.

[22] J. Lu, J. Yang, D. Batra, and D. Parikh, “Hierarchical question-image co-attention for visual question answering,” in Proc. NIPS, 2016.

[23] H. Nam, J.-W. Ha, and J. Kim, “Dual attention networks for multimodal reasoning and matching,” in Proc. CVPR, 2017.

[24] H. Fan and J. Zhou, “Stacked latent attention for multimodal reasoning,” in Proc. CVPR, 2018.

[25] A. Osman and W. Samek, “DRAU: Dual recurrent attention units for visual question answering,” Computer Vision and Image Understanding, vol. 185, pp. 24–30, 2019.

[26] I. Schwartz, A. Schwing, and T. Hazan, “High-order attention models for visual question answering,” in Proc. NIPS, 2017.

[27] J. Arevalo, T. Solorio, M. Montes-y Go ́mez, and F. Gonza ́lez, “Gated multimodal units for information fusion,” in Proc. ICLR, 2017.

[28] J.-H. Kim, S.-W. Lee, D.-H. Kwak, M.-O. Heo, J. Kim, J.-W. Ha, and B.-T. Zhang, “Multimodal residual learning for visual QA,” in Proc. NIPS, 2016.

[29] H. Noh, P. Seo, and B. Han, “Image question answering using convolutional neural network with dynamic parameter prediction,” in Proc. CVPR, 2016.

[30] J. Tenenbaum and W. Freeman, “Separating style and content with bilinear models,” Neural Computing, vol. 12, pp. 1247–1283, 2000.

[31] A. Zadeh, M. Chen, S. Poria, E. Cambria, and L.-P. Morency, “Tensor fusion network for multimodal sentiment analysis,” in Proc. EMNLP, 2017.

[32] Y. Gao, O. Beijbom, N. Zhang, and T. Darrell, “Compact bilinear pooling,” in Proc. CVPR, 2016.

[33] M. Charikar, K. Chen, and M. Farach-Colton, “Finding frequent items in data streams,” in Proc. ICALP, 2012.

[34] N. Pham and R. Pagh, “Fast and scalable polynomial kernels via explicit feature maps,” in Proc. SIGKDD, 2013.

[35] A. Fukui, D. Park, D. Yang, A. Rohrbach, T. Darrell, and M. Rohrbach, “Multimodal compact bilinear pooling for visual question answering and visual grounding,” in Proc. EMNLP, 2016.

[36] J.-H. Kim, K.-W. On, W. Lim, J. Kim, J.-W. Ha, and B.-T. Zhang, “Hadamard product for low-rank bilinear pooling,” in Proc. ICLR, 2017.

[37] Z. Yu, J. Yu, J. Fan, and D. Tao, “Multi-modal factorized bilinear pooling with co-attention learning for visual question answering,” in Proc. ICCV, 2017.

[38] Z. Yu, J. Yu, C. Xiang, J. Fan, and D. Tao, “Beyond bilinear: Generalized multimodal factorized high-order pooling for visual question answering,” IEEE Transactions on Neural Networks and Learning Systems, vol. 29, pp. 5947–5959, 2018.

[39] L. Tucker, “Some mathematical notes on three-mode factor analy,” Psychometrika, vol. 31, pp. 279–311, 1966.

[40] H. Ben-younes, R. Cadene, M. Cord, and N. Thome, “MUTAN: Multimodal tucker fusion for visual question answering,” in Proc. ICCV, 2017.

[41] L. Lathauwer, “Decompositions of a higher-order tensor in block termspart II: Definitions and uniqueness,” SIAM Journal on Matrix Analysis and Applications, vol. 30, pp. 1033–1066, 2008.

[42] H. Ben-younes, R. Cadene, N. Thome, and M. Cord, “BLOCK: Bilinear superdiagonal fusion for visual question answering and visual relationship detection,” in Proc. AAAI, 2019.

[43] Z. Liu, Y. Shen, V. Lakshminarasimhan, P. Liang, A. Zadeh, and L.-P. Morency, “Efficient low-rank multimodal fusion with modality-specific factors,” in Proc. ACL, 2018.

[44] A. Fukui, D. Park, D. Yang, A. Rohrbach, T. Darrell, and M. Rohrbach, “Multimodal compact bilinear pooling for visual question answering and visual grounding,” in Proc. EMNLP, 2016.

[45] J.-H. Kim, K.-W. On, W. Lim, J. Kim, J.-W. Ha, and B.-T. Zhang, “Hadamard product for low-rank bilinear pooling,” in Proc. ICLR, 2017.

[46] Z. Yu, J. Yu, J. Fan, and D. Tao, “Multi-modal factorized bilinear pooling with co-attention learning for visual question answering,” in Proc. ICCV, 2017.

[47] L. Tucker, “Some mathematical notes on three-mode factor analy,” Psychometrika, vol. 31, pp. 279–311, 1966.

[48] J.-H. Kim, J. Jun, and B.-T. Zhang, “Bilinear attention networks,” in Proc. NeurIPS, 2018.

編輯：王菁
校對：林亦霖

多模態深度學習綜述：網絡結構設計和模態融合方法彙總

一、簡介

二、多模態融合辦法

三、總結

參考文獻：

寫代碼的16個好習慣，減少80%的bug

一場關於動態化開發實踐的技術探討

達沃斯議程對話會：張亞勤解讀人工智能發展 3R 原則

開源開發者爲任天堂 N64 主機帶來了新的 Linux 內核移植

OpenCV 【十三】

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結