2020年, VideoQA論文彙總

CVPR2020:CRN

  • 題目
    Hierarchical Conditional Relation Networks for Video Question Answering
    下載鏈接
  • 動機
    VideoQA的兩個難點:1. 提取動態視覺信息和關係信息。2. 將提取到的信息與語言概念進行關聯。現有的QA視頻建模方法是構建神經結構,其中每個子系統要麼是爲特定的定製目的設計的,要麼是爲特定的數據模態設計的。所以,這些模型結構不能適應數據模態的變化、視頻長度的變化、或問題類型的變化。
  • 貢獻
  1. 新的視頻表示方法
  2. 可用於視頻文本交互的building block
  • 方法
    本文提出的CRN block如下圖所示:

    CRN的流程爲:

    本文的整體框架爲:

    本文的層次化CRNs主要分爲四層:1. 編碼clip之間的幀,context: clip motion。2. 聚合linguistic信息。3. 編碼不同的clip,context: video motion。4. 聚合linguistic信息。
  • 實驗
    在TGIF-QA數據集上的實驗結果:
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章