【Assisted Excitation of Activations:A Learning Technique to Improve Object Detectors】--- 閱讀筆記

論文名稱:Assisted Excitation of Activations:A Learning Technique to Improve Object Detectors
論文作者:Mohammad Mahdi Derakhshani, Saeed Masoudnia, Amir Hossein Shaker, Omid Mersa, Mohammad Amin Sadeghi, Mohammad Rastegari, Babak N. Araabi
發行時間:Submitted on 12 Jun 2019
論文地址:https://arxiv.org/abs/1906.05388
代碼開源:無



一. 概要

在不改進網絡結構, 不改進檢測過程的情況下, 僅僅在訓練過程中引入一個 Assisted Excitation 的學習策略來幫助網絡更好的定位.

Assisted Excitation 策略是來源於 curriculum learning(課程學習) 這一思想的, 簡單理解就是: “從剛接手一項任務開始, 先學習比較簡單的任務, 然後隨着學習的不斷深入, 再學習複雜的任務, 即學習強度從簡單到複雜”.

1.1. Motivation

傳統的YOLO都存在如下問題:

  • 難以準確定位: 由於在YOLO中分類和迴歸是同時進行的, 但高層的語義信息適合分類但不適合定位
  • 正負樣本數不平衡: 由於是Single-stage, 並不會對 proposal 進行篩選, 造成大量的proposal, 而其中大多是都是負樣本(背景), 這些可能對梯度其主導作用, 引發不平衡的現象

故作者提出僅僅在訓練階段用 Assisted Excitation (AE)來解決.
該方法是通過引入GT的mask來進行圖像增強, 並按照訓練的iter引入的mask從多到少, 最終不引入. 這正是 curriculum learning的思想.

經過實驗, 在不影響檢測速度的情況下, 檢測性能有一定的提升.

二. Assisted Excitation

2.1. 過程描述

在訓練階段, 通過AE階段來"手動"激活對應位置上的激活函數.

如上圖所示:

  1. activation tensor 作爲AE層的輸入
  2. 對輸入的 activation tensor 在channels上做平均操作得到一個單通道的 average tensor
  3. 將上述單通道的 average tensor 與GT的mask進行點乘操作得到 excitation tensor
  4. excitation tensor 再乘上激活因子 α\alpha
  5. 將[4.]操作得到值再和AE層的輸入的activation tensor每一個channel進行加操作

其中, 激活因子α\alpha的值是從11逐漸減小到00的, 這正是學習強度從易到難的體現.

2.2. 計算

可將 AE 過程視爲一個控制NN活性的網絡層, 即ac,i,jl+1=ac,i,jl+α(t)ec,i,ja^{l+1}_{c,i,j}=a^{l}_{c,i,j}+\alpha(t)e_{c,i,j}
其中,

  • ala^lal+1a^{l+1} 分別表示第 ll 層和第 l+1l+1 層的 activation tensor
  • (c,i,j)(c,i,j) 分別表示 通道數(channel number), 行數(row number), 列數(column number)
  • tt 表示epoch number
  • α(t)\alpha(t) 表示取決於 tt 激活因子, 其從開始訓練的非 00 值逐漸衰減到 00 (後續給出計算等式)
  • ee 表示 excitation tensor (後續給出計算公式)

對於 ee 的計算,首先定義一個 bounding-box map gg ,即通過定義在b-box內的像素值記爲11, 不在b-box內的像素值記爲00, 來實現得到一個 00-11 mask 矩陣: g(i,j)={1,    If some bbox exists at cell(i,j)0,    If   no  bbox exists at cell(i,j)g_{(i,j)}=\left\{\begin{matrix} 1,~~~~{\rm If~some~bbox~exists~at~cell}(i,j)\\ 0,~~~~{\rm If~~~no~~bbox~exists~at~cell}(i,j) \end{matrix}\right.
然後通過共享所有通道上bbox的位置信息來進行激活求得 ee: ec,i,j=g(i,j)dc=1da(c,i,j)e_{c,i,j}=\frac{g_{(i,j)}}{d} \sum^{d}_{c=1}a_{(c,i,j)} 其中 dd 是特徵的總通道數.

對於 α\alpha 的計算: α=0.5×1+cos(π.t)Max_Iteration\alpha=0.5 \times \frac{1+\cos(\pi.t)}{\rm Max{\_}Iteration}

顯然這是比較直觀的, 隨着α\alpha的逐漸減小, GT 透露給模型的信息就越來越少, 訓練難度逐漸增大, 符合學習過程由易到難的特點.

三. 總結

雖說作者提出 AE 是爲了解決YOLO的定位和樣本不均勻的問題, 但是這種思想可以運用到其他的一些工作上.

本文的主要亮點在於: 由易到難的學習策略

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章