Li B , Liu Y , Wang X . Gradient Harmonized Single-stage Detector[J]. 2018.
https://github.com/libuyu/GHM_Detection
本文認爲影響單階段檢測器的訓練的本質問題不是不同類別的樣本數的差異,而是不同難度樣本的分佈不均衡。在訓練過程中,每個樣本產生一個梯度來更新模型的參數,不同樣本對參數更新的貢獻不同。在訓練過程中,模型已經有很好的判別的簡單樣本的數量非常大,在模型更新中很有可能佔據主導作用,那麼這樣的參數更新並不會改善模型的判斷能力,反而使整個訓練變得非常低效。爲了解決這個問題,作者設計了梯度均衡機制(Gradient Harmonizing mechanism)。
Gradient Harmonizing Mechanism
我們定義每個樣本的對 loss 求得的梯度的模值爲g,定義 gradient density 爲
GD(g)=lϵ(g)1k=1∑Nδϵ(gk,g)
δϵ(x,y)={1,if y−2ϵ≤x≤y+2ϵ0,else
lϵ(g)=min(g+2ϵ,1)−max(g−2ϵ,0)
定義 gradient density harmonizing parameter:
βi=GD(gi)N
根據歸一化係數得到 GHM-C Loss:
LossGHM−C=N1i=0∑Nβi∗lossi=i=0∑NGD(gi)lossi
我的理解是模型很容易就被訓練到容易識別簡單樣本的情形,利用 GHM-C Loss 將簡單樣本和 outlier 的梯度貢獻減少,提高訓練效率,減小 outlier 的影響。
AP 確實有所上升