Correlation Congruence for Knowledge Distillation

Motivation

目前大多數KD框架的pipeline

  • 一張圖片送入teacher和student得到各自的feature和output
  • 然後定義loss,拉進feature或者output的距離
    但是他們都是直接在一個整圖級別上做的,student很難學習到teacher的那種處理類內和類間的能力

如下圖:白色空心圈是期望學習到的效果

左邊是期望類間可以拉開,右邊是期望類內可以聚攏
在這裏插入圖片描述

Method

首先得到teacher和student的特徵圖
在這裏插入圖片描述
然後定義mapping函數計算特徵之間的相關性矩陣correlation matrix,注意teacher和student是各自分開計算,而不是互相計算相關性
在這裏插入圖片描述
在這裏插入圖片描述
C就變成了一個nxn的矩陣
在這裏插入圖片描述
Lcc即計算相關性矩陣的L2 距離
在這裏插入圖片描述

Correlation matrix的計算

在這裏插入圖片描述
對比於MMD和Bilinear Pool,Gaussian RBF更加靈活和具有非線性能力,因此本文選擇Gaussian RBF
在這裏插入圖片描述

Experiments

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章