論文: Learning Cross-Modality Encoder Representations from Transformers
地址:https://arxiv.org/abs/1908.07490?context=cs
code:https://github.com/airsplay/lxmert
LXMERT 框架來學習語言和視覺的聯繫
創新點:創造新的跨模態模型,着重於學習視覺和語言的交互作用。
- Input Embeddings
在LXMERT中的輸入編碼層將輸入(即圖像和句子)轉換爲兩個特徵序列:詞級句子嵌入和對象級圖像嵌入。
這些嵌入特性將由後面的編碼層進一步處理。
- 它含有3個Encoder:一個對象關係編碼器 N_R 、一個語言編碼器 N_L 和一個跨模態編碼器 N_X
- 它使用了 5 個不同的有代表性的pre-train任務:
- 掩碼交叉模態語言建模
- 通過ROI特徵迴歸進行掩碼目標預測
- 通過檢測到的標籤分類進行掩蔽目標預測
- 交叉模態匹配
- 圖像問題解答
這些多模態pre-train既可以幫助學習同一個模態內的聯繫,也可以幫助學習跨模態的聯繫。
Fine Tune
https://www.jianshu.com/p/4b17dcc199e1
Google Bert模型
https://zhuanlan.zhihu.com/p/46652512