CVPR (《28篇論文、6 大主題帶你一覽 CVPR 2020 研究趨勢》學習筆記三表徵學習)

原文鏈接:https://mp.weixin.qq.com/s/MkEwjHVC9M1JtdzZZdmeFw

表徵學習

自監督學習的上下文不變表徵學習

論文地址:https://yassouali.github.io/ml-blog/cvpr2020/

現有的自監督學習方法包括創建一個前置任務,例如,將圖像分爲九個塊,並在排列好的塊上解決拼圖遊戲。這些前置任務包括變換圖像,計算變換後的圖像的表示形式以及根據該表示形式預測變換的屬性。最後,作者認爲,學習的表示形式必須與轉換相適應,因此需要減少學習的語義信息數量。爲了解決這個問題,他們提出了PIRL(上下文不變表示學習)來學習關於變換的不變表示並保留更多的語義信息。

PIRL訓練一個網絡,該網絡產生不依賴於圖像變換的圖像表示,這是通過最小化對比損失來完成的,其中訓練模型以區分N個對應負樣本中的正樣本(即圖像及其轉換版本)從數據集中隨機抽取均勻樣本,不包括用於正樣本的圖像。對於基於噪聲對比估計的損失,使用大量的負樣本至關重要。爲此,PIRL使用包含每個示例的特徵表示的記憶銀行(memeory bank),其中在給定實例中的每個表示都是先前表示的指數移動平均值。

ClusterFit:改進視覺表示的泛化能力

論文地址:https://arxiv.org/abs/1912.03330

弱監督(例如,標籤標籤預測)和自我監督(例如,拼圖遊戲)策略對於爲視覺下游任務進行預訓練CNN變得越來越流行。然而,在有限的訓練信號可以在預訓練期間提取的情況下,使用這種方法的學習表示可能會過度適合於預訓練目標,從而導致對下游任務的歸納減少。

ClusterFit的想法非常簡單,

1. 首先使用一些被選擇的預訓練任務對網絡進行預訓練,無論是自監督還是弱監督學習,

2. 然後使用該網絡爲每個圖像提取特徵,然後應用k均值聚類併爲每個數據點分配僞標籤

3. 然後,僞標籤可用於從頭開始訓練網絡,通過線性探測或微調,網絡將更適合於下游任務。

用於無監督視覺表徵學習的動量對比

論文地址:https://arxiv.org/abs/1911.05722

無監督視覺表徵學習的最新工作基於最小化對比度損失,這可以看作是構建動態字典,其中字典中的鍵是從數據(例如圖像或小圖塊)中採樣並由編碼器網絡表示的,然後訓練以便查詢 q類似於給定的鍵 k (正樣本),並且與其他鍵(負樣本)不同。

動量對比度(MoCo)通過匹配編碼查詢q來使用對比損失的編碼鍵字典。字典鍵是由一系列數據樣本動態定義的,其中字典是作爲隊列構建的,當前的小batch已入隊,最早的小batch已出隊,將其與小batch大小分離。通過使用隊列,即使在當前的小batch處理之外也可以使用大量的負樣例。

另外,鍵值可以由緩慢進行的編碼器(即查詢編碼器的指數移動平均值)編碼,這樣,鍵值編碼器會隨着時間而緩慢變化,從而在訓練過程中產生穩定的預測。查詢編碼器的另一個好處是,用作負樣例的出隊鍵與鍵值編碼器的當前預測不太相似。

指導超越局部像素統計的自監督特徵學習

論文地址:https://arxiv.org/abs/2004.02331

作者認爲,良好的圖像表示應同時捕獲本地和全局圖像統計信息,以便更好地推廣到下游任務,在本地任務中,本地統計信息捕獲像素點附近的分佈(例如紋理),而全局統計信息則捕獲遠程像素和色塊的分佈例如形狀。但是,CNN偏向局部統計數據,並且需要明確地將其重點放在全局功能上,以實現更好的生成。

爲此,作者精心選擇了一組圖像變換(即扭曲、局部修復和旋轉),以使網絡僅僅觀察局部統計信息就無法預測所應用的變換,從而迫使網絡專注於全局像素統計信息。通過選擇的變換,然後使用分類目標對網絡進行預訓練,以預測與所應用變換相對應的標籤。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章