論文名稱:Assisted Excitation of Activations:A Learning Technique to Improve Object Detectors
論文作者:Mohammad Mahdi Derakhshani, Saeed Masoudnia, Amir Hossein Shaker, Omid Mersa, Mohammad Amin Sadeghi, Mohammad Rastegari, Babak N. Araabi
發行時間:Submitted on 12 Jun 2019
論文地址:https://arxiv.org/abs/1906.05388
代碼開源:無
一. 概要
在不改進網絡結構, 不改進檢測過程的情況下, 僅僅在訓練過程中引入一個 Assisted Excitation 的學習策略來幫助網絡更好的定位.
Assisted Excitation 策略是來源於 curriculum learning(課程學習) 這一思想的, 簡單理解就是: “從剛接手一項任務開始, 先學習比較簡單的任務, 然後隨着學習的不斷深入, 再學習複雜的任務, 即學習強度從簡單到複雜”.
1.1. Motivation
傳統的YOLO都存在如下問題:
- 難以準確定位: 由於在YOLO中分類和迴歸是同時進行的, 但高層的語義信息適合分類但不適合定位
- 正負樣本數不平衡: 由於是Single-stage, 並不會對 proposal 進行篩選, 造成大量的proposal, 而其中大多是都是負樣本(背景), 這些可能對梯度其主導作用, 引發不平衡的現象
故作者提出僅僅在訓練階段用 Assisted Excitation (AE)來解決.
該方法是通過引入GT的mask來進行圖像增強, 並按照訓練的iter引入的mask從多到少, 最終不引入. 這正是 curriculum learning的思想.
經過實驗, 在不影響檢測速度的情況下, 檢測性能有一定的提升.
二. Assisted Excitation
2.1. 過程描述
在訓練階段, 通過AE階段來"手動"激活對應位置上的激活函數.
如上圖所示:
- 將 activation tensor 作爲AE層的輸入
- 對輸入的 activation tensor 在channels上做平均操作得到一個單通道的 average tensor
- 將上述單通道的 average tensor 與GT的mask進行點乘操作得到 excitation tensor
- excitation tensor 再乘上激活因子
- 將[4.]操作得到值再和AE層的輸入的activation tensor的每一個channel進行加操作
其中, 激活因子的值是從逐漸減小到的, 這正是學習強度從易到難的體現.
2.2. 計算
可將 AE 過程視爲一個控制NN活性的網絡層, 即
其中,
- 和 分別表示第 層和第 層的 activation tensor
- 分別表示 通道數(channel number), 行數(row number), 列數(column number)
- 表示epoch number
- 表示取決於 激活因子, 其從開始訓練的非 值逐漸衰減到 (後續給出計算等式)
- 表示 excitation tensor (後續給出計算公式)
對於 的計算,首先定義一個 bounding-box map ,即通過定義在b-box內的像素值記爲, 不在b-box內的像素值記爲, 來實現得到一個 - mask 矩陣:
然後通過共享所有通道上bbox的位置信息來進行激活求得 : 其中 是特徵的總通道數.
對於 的計算:
顯然這是比較直觀的, 隨着的逐漸減小, GT 透露給模型的信息就越來越少, 訓練難度逐漸增大, 符合學習過程由易到難的特點.
三. 總結
雖說作者提出 AE 是爲了解決YOLO的定位和樣本不均勻的問題, 但是這種思想可以運用到其他的一些工作上.
本文的主要亮點在於: 由易到難的學習策略