SimCLR論文 自監督學習效果逼近監督學習

論文:A Simple Framework for Contrastive Learning of Visual Representations

論文鏈接:https://arxiv.org/pdf/2002.05709.pdf

Lecun在2020的AAAI上表示看好自監督學習,在近兩年,self-supervised learning的成果也越來越多,如MoCo,CPC等等。Hinton組的這篇SimCLR,比之前的SOTA方法在InageNet的top1的accuracy上提高了7個百分點,雖然有人說這篇文章屬於暴力美學,但還是值得一讀的。
在這裏插入圖片描述
在參數相同的情況下,ImageNet的top1 accuracy高於其他SOTA方法7個百分點及以上,更加接近supervised learning。

在這裏插入圖片描述
網絡結構如上圖:
(1)對於樣本xx,首先進行data augmentation(本文的三種augmentation分別爲:隨機裁剪並resize,color distortion以及Gaussian Blur),經過兩種不同的操作得到xi~\widetilde{x_{i}}xj~\widetilde{x_{j}}
(2)經過一個Encoder f()f(·),文中選用Resnet,得到特徵表示 hih_{i}hjh_{j}
(3)特徵表示再經過一個projection head,即g()g(·),得到網絡的輸出。

算法流程如下:
在這裏插入圖片描述
上述的LL就是所謂的contrastive loss,文中被稱作NT-Xent,l(i,j)l(i,j)是讓相似的圖像(同一個樣本xx經過數據增得到的兩張圖像)的特徵表示相似度儘可能高,不同圖像的特徵相似度儘可能低。
在這裏插入圖片描述
文中採用了256-8192的大batch size進行訓練,簡單粗暴,不需要什麼memory bank這類存儲庫。實驗結果也表明,大的batch得到的效果更好。
在這裏插入圖片描述
兩種數據增強的組合能達到更好的效果,特別是上圖中Crop和Color distortion的組合。
在這裏插入圖片描述
關於projection head是否有必要存在,以及線性與非線性的差別。實驗結果證明,非線性的projection head效果更好。作者在文中解釋說,projection head能夠消除一些對downstream task有用的信息,並且可以構建和維護特徵表示中的更多信息。

對比其他自監督學習方法,結果如下:
![在這裏插入圖片描述](https://img-blog.csdnimg.cn/20200704200909759.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2phY2t6aGFuZzEx,size_16,color_FFFFFF,t_70
經過少量有標籤數據的微調後,達到更好的效果:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章