CVPR2020:CRN
- 題目
Hierarchical Conditional Relation Networks for Video Question Answering
下載鏈接 - 動機
VideoQA的兩個難點:1. 提取動態視覺信息和關係信息。2. 將提取到的信息與語言概念進行關聯。現有的QA視頻建模方法是構建神經結構,其中每個子系統要麼是爲特定的定製目的設計的,要麼是爲特定的數據模態設計的。所以,這些模型結構不能適應數據模態的變化、視頻長度的變化、或問題類型的變化。 - 貢獻
- 新的視頻表示方法
- 可用於視頻文本交互的building block
- 方法
本文提出的CRN block如下圖所示:
CRN的流程爲:
本文的整體框架爲:
本文的層次化CRNs主要分爲四層:1. 編碼clip之間的幀,context: clip motion。2. 聚合linguistic信息。3. 編碼不同的clip,context: video motion。4. 聚合linguistic信息。 - 實驗
在TGIF-QA數據集上的實驗結果: