2020-06-18 CVPR2020 V&L論文討論(1) 筆記

CC J

[1][2][3] 三篇論文均針對當前VQA模型魯棒性差這一問題,借鑑因果推理中思想生成反事實樣本用於模型訓練以提高其魯棒性。三者的區別在於,[1]建立了反事實的框架,通過學習外部變量的分佈,並在此分佈上進行採樣來得到反事實樣本,其contribution在於此框架。[2]對圖像進行語義編輯生成逼真的反事實圖像,所生成的圖像一方面可以用於測量模型的魯棒性,一方面可以用於訓練模型以提高模型魯棒性,其contribution在於語義編輯的方法及相應的數據集。[3]設計了模型無關的反事實樣本訓練策略,對圖像中的critical object,問題中的 critical word 進行屏蔽(mask)以得到反事實樣本用於模型訓練,其contribution在於此訓練策略。下午討論得到的一個啓發是反事實樣本生成的思想或許可以用於異常事件檢測,通過定位critical object並進行相關干預操作,得到反事實的樣本,以幫助模型更好的理解什麼是異常,異常和正常的主要區別是什麼。
[4] 針對當前視覺注意力數據集視角受限的問題提出了沉浸式問題導向的視覺注意力(Immersive Question-Directed Visual Attention)數據集並對其中的 visual attention 進行了分析。下午討論得到的啓發是,我們在做後續的video QA等任務時,可以從解決 ‘Missing important cues’, ‘Looking, but not seeing’, ‘Wrong timing’ 等問題入手。

[1] Counterfactual Vision and Language Learning.
[2] Counterfactual Samples Synthesizing for Robust Visual Question Answering.
[3] Towards Causal VQA Revealing and Reducing Spurious Correlations by Invariant and Covariant Semantic Editing.
[4] Fantastic Answers and Where to Find Them Immersive Question-Directed Visual Attention.

JY S

[1] Normalized and Geometry-Aware Self-Attention Network for Image Captioning

簡述
1.做的是image captionning
2.針對的是image captionning裏的Self-Att Net
3.要往上加Normalization和Geometry-Aware
存在問題(動機)
1.內部協變量漂移:輸入分佈會變,(原本的LN只用在SA模塊外面)
本文的解決方法:把LN融合進SA模塊/把norm放到注意力模塊中),即SA->NSA
2.未對幾何關係建模:
原因:圖像被提取爲特徵bag後傳入自注意網絡不能很好地保留幾何/位置信息
常見解決方法:往元素上加絕對位置(借鑑對sentence的處理,在1D的句子中做的很好,但是絕對位置不足以反映2D的幾何關係)
本文的解決方法:擴展注意力權重:contendbase & geometric bias(幾何+內容)
貢獻
1.將歸一化技術加到了自注意力機制裏面
2.顯式地利用幾何關係和內容信息一同來輔助理解圖像
3.這個method是通用的

[2] Cops-Ref: A new Dataset and Task on Compositional Referring Expression Comprehension

簡述
一個用於組合式目標指代物理解的新數據集和任務
存在問題(動機)
做V&L問題的動機:需要高水平推理的視覺任務(VQAVD)是實現人工智能的先決條件
做數據集的動機:現在的一些公開數據集並不能很好地檢驗模型的理解和推理能力。原因:
1.現存數據集通常僅描述對象的一些簡單的獨特屬性,沒有複雜的邏輯推理關係;
2.圖片中僅包含有限的干擾信息,僅包含一兩個和目標區域同類別的區域。
3.數據集bias 有人試圖解決,但用的是合成數據集合成數據的缺陷:失去了現實世界語義豐富性。
貢獻
本文提出的解決方案:做一個新的數據集
1.新的文本生成引擎:組合各種推理邏輯和豐富的視覺特徵,來產生不同的組成複雜度的文本描述。
2.新的測試設置: 在測試過程中添加語義相似的視覺圖像進行干擾 目標:把無推理的跨領域對齊的模型(蒙對)的正確概率降到最低

[3] Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation

簡述
用於聯合指向性目標檢測和目標分割的多任務協同學習
存在問題(動機)
領域現狀:相互獨立
雖然有把他們(指向性目標檢測(REC)和指向性目標分割(RES))放在一起做的,但其本質是將單任務的網絡用後端的MaskRCNN聯合。
爲什麼要聯合?RES可以幫助REC實現更好的語言-視覺對齊,同時REC可以幫助RES更好的定位所指對象。這兩個任務之間高度趨近且能夠互相促進。 這樣的多任務嘗試在計算機視覺領域已經非常成功,即實例分割(Instance Segmentation)。
聯合時的困難:預測分歧。預測分歧其實也會存在於實例分割當中,比如框出來的物體沒有被分割出來,但對於任務本身的目的而言,這個問題不會顯得那麼嚴重。而這個問題在語言指導下的RES和RE中則會變得不可接受。
貢獻
1.提出MCN網絡。網絡結構:V&L編碼器共享,RES&REC推理分支相對分離。
2.解決關鍵問題(預測分歧)。解決預測分歧的方法: CEM協同能量最大(強迫兩個任務在相似的視覺區域進行)、ASNL自適應軟非定位區域抑制(根據REC的預測,抑制了RES中不相關區域的響應)
3.極高的性能

CH L

[1][2][3]三篇論文均與video grounding有關,但是面向三個不同的task,三個task分別是Video Grounding(簡稱VG)、Video Object Grounding(簡稱VOG)和Video Captioning(簡稱VC)。
[1]針對VG領域正負樣本不均衡問題,仿照目標檢測方法FCOS,迴歸每一幀與ground truth中起始幀和結束幀的距離。在本文方法下,訓練過程中可以將起始幀和結束幀之間的所有幀作爲正樣本,擴充了正樣本數據。[1->9]和[1->17]是[1]中的第9篇和第17篇參考文獻,分別出自ICCV2017和EMNLP2018。在[1->9]中,VG任務被稱作Temporal Activity Localization by Language(簡稱TALL)。[1->9]和[1->17]中,均將VG問題視爲一個選擇最優proposal的問題。[1->9]中使用多尺度的滑動窗口對每個視頻進行採樣,將它們作爲輸入,並將分數最高的窗口作爲預測結果。[1->17]中使用不同的Context moments作爲輸入,預測它們的分數。[1]與這兩篇參考文獻的區別在於,拋棄了傳統的在video上進行clip得到多個proposal,預測proposal的分數選擇最優proposal的方法。直接基於每一幀迴歸出一個box,再對n(視頻幀數)個boxes進行擇優選擇。既然[1]能夠將FCOS移植到VG領域,其實一些關鍵點檢測的方法應該都能適用,但是這一類idea的水平並不高。
[2]針對VOG領域中,模型無法學習object之間的時空關係的問題,通過對比採樣和時空連接構造了新數據集ASRL,並基於此數據集提出了VOGNet模型。文中提到,現有方法無法學習object之間的關係,是因爲有兩點約束不能滿足。①是帶有object-level標註的大規模視頻數據集。②是每個視頻應包含同一類別的多個實例,以免模型可以通過簡單的detection即可找到referred objects。下午的討論,受到的一點啓發是,在V&L領域,數據集的標註和規模可能還不盡人意,找到數據集存在的問題,並通過一些方法解決問題,纔是上上之策,而非針對數據集的問題,構造新的數據集。
[3]針對VC領域現有方法的visual grounding不準確的問題,提出顯式建模objects之間的時空關係,並使用知識蒸餾對特徵進行去噪。看完本文,一個直觀的想法是,顯式建模的方法(或矩陣)應有多種,理論上,應存在更好的建模方法。但是,如何證明其他的建模方法是更優的有待思考。這一觀點和前段時間與武老師討論的在V&L中使用流形的思想,如何證明雙曲空間比歐式空間更適合V&L任務,有點相似,我覺得這兩個問題是類似的。當然,針對[3]而言,一個更好的想法應是,提出一個比本文方法更好的,能夠提升visual grounding準確性的方法。

[1] Dense Regression Network for Video Grounding
[1->9] TALL: Temporal Activity Localization via Language Query
[1->17] Localizing Moments in Video with Temporal Language
[2] Video Object Grounding using Semantic Roles in Language Description
[3] Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章