點擊下方“AI算法與圖像處理”,一起進步!
重磅乾貨,第一時間送達
1
2
ViT-FRCNN是第一個使用預訓練的ViT作爲R-CNN目標檢測器的主幹。然而,這種設計無法擺脫對卷積神經網絡(CNN)和強2D歸納偏差的依賴,因爲ViT-FRCNN將ViT的輸出序列重新解釋爲2D空間特徵圖,並依賴於區域池化操作(即RoIPool或RoIAlign)以及基於區域的CNN架構來解碼ViT特徵以實現目標級感知。受現代CNN設計的啓發,最近的一些工作將金字塔特徵層次結構和局部性引入Vision Transformer設計,這在很大程度上提高了包括目標檢測在內的密集預測任務的性能。然而,這些架構是面向性能的。另一系列工作,DEtection TRansformer(DETR)系列,使用隨機初始化的Transformer對CNN特徵進行編碼和解碼,這並未揭示預訓練Transformer在目標檢測中的可遷移性。
爲了解決上面涉及的問題,有研究者展示了You Only Look at One Sequence (YOLOS),這是一系列基於規範ViT架構的目標檢測模型,具有儘可能少的修改以及注入的歸納偏置。從ViT到YOLOS檢測器的變化很簡單:
YOLOS在ViT中刪除[CLS]標記,並將一百個可學習的[DET]標記附加到輸入序列以進行目標檢測;
YOLOS將ViT中的圖像分類損失替換爲bipartite matching loss,以遵循Carion等人【End-to-end object detection with transformers】的一套預測方式進行目標檢測。這可以避免將ViT的輸出序列重新解釋爲2D特徵圖,並防止在標籤分配期間手動注入啓發式和對象2D空間結構的先驗知識。
3
YOLOS刪除用於圖像分類的[CLS]標記,並將一百個隨機初始化的檢測標記([DET] 標記)附加到輸入補丁嵌入序列以進行目標檢測。
在訓練過程中,YOLOS將ViT中的圖像分類損失替換爲bipartite matching loss,這裏重點介紹YOLOS的設計方法論。
4
YOLOS的不同版本的結果
與訓練的效果
不同尺度模型的預訓練和遷移學習性能
與一些小型CNN檢測器的比較
對於給定的YOLOS模型,不同的自注意力頭關注不同的模式和不同的位置。一些可視化是可解釋的,而另一些則不是。
我們研究了兩個YOLOS模型的注意力圖差異,即200 epochs ImageNet-1k預訓練YOLOS-S和300 epochs ImageNet-1k預訓練YOLOS-S。注意這兩個模型的AP是一樣的(AP=36.1)。從可視化中,我們得出結論,對於給定的預測對象,相應的[DET]標記以及注意力圖模式通常對於不同的模型是不同的。
交流羣
歡迎加入公衆號讀者羣一起和同行交流,目前有美顏、三維視覺、計算攝影、檢測、分割、識別、醫學影像、GAN、算法競賽等微信羣
個人微信(如果沒有備註不拉羣!)
請註明:
地區+學校/企業+研究方向+暱稱
下載1:何愷明頂會分享
在「AI算法與圖像處理」公衆號後臺回覆:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經典工作的總結分析
下載2:終身受益的編程指南:Google編程風格指南
在「AI算法與圖像處理」公衆號後臺回覆:c++,即可下載。歷經十年考驗,最權威的編程規範!
下載3 CVPR2021
在「AI算法與圖像處理」公衆號後臺回覆:
CVPR
,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文
本文分享自微信公衆號 - AI算法與圖像處理(AI_study)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。