基於多尺度全卷積孿生網絡的目標跟蹤算法

一.背景技術介紹

傳統的跟蹤算法大多從物體的外觀出發，只能在線學習，從當前的視頻中在線抓取數據進行學習跟蹤的算法，如：TLD、Struck、KCF，這類算法必須足夠簡單才行，否則耗時嚴重。當然現在也有人使用卷積網絡進行離線訓練，在線跟蹤，但是當跟蹤目標未知時，需要利用隨機梯度下降法(SGD)在線微調網絡權重，從而使得速度下降，做不到實時跟蹤。

綜上，淺層學習方式，如相關濾波，利用網絡內部參數作爲特徵，這樣不能充分發揮“端對端”的優勢。而利用SGD微調多層網絡參數的方式無法實時跟蹤。

近期的研究工作有：

1.利用RNN網絡進行訓練，通過預測目標在各幀中的位置來跟蹤，同時加入了可區分的“注意力機制”。雖然該方法目前無法在現有的標準測試集上取得顯著的結果，但是有足夠的潛力；

2.利用粒子濾波的方式，通過訓練好的距離矩陣比較當前幀與第一幀的區別，其中距離矩陣是利用了首先玻爾茲曼機（RBM）和隨機點的方式訓練所得。此方法與本文中的方法差異太大，因此沒有使用該方法。

3.離線預訓練+在線微調方式，其中SO-DLT和MDNet均離線訓練了一個相似性檢測的卷積網絡，並在線使用SGD算法進行微調。利用這種方法的Deep SRDCF和 FCNT均取得了很好的結果，但是在速度上依舊不行。

4.GOTURN算法也採用了YCNN的結構，但是該算法無法控制下一幀的變換形式，不具有變換的內在不變性，除非樣本集包含所有種類所有位置的變換。並且不能自適應調節搜索區域的大小。

5.SINT（Siamese Instance search Tracker）算法從名字上看像是從Instance級別上去搜索，它採用非全卷積的結構，在圖像中均勻分佈着類似Struck算法中的圓形區域，然後利用光流和標記框的修正來提升效果，並通過ROI區域來提升速度，最終達到了2fps。

二.算法原理

該算法採用了全卷積式的Siamese網絡，作者在文中給出了簡化版的網絡結構，其中卷積層分別是對模板圖像和搜索圖像進行的操作，共5層，然後利用一種相似性度量函數將兩個矩陣合併成一個得分矩陣。如圖：

由表可以看到網絡的卷積層部分結構和參數是一致的，並且前兩層卷積層後都接有池化層：

1.輸入圖像

對於輸入圖像的處理，該算法類似於GOTURN算法，都對目標區域作了擴充。如果目標區域尺寸爲w和h，那麼則對其邊界各擴增p，其中p=(w+h)/4。而對於模板圖像A=127²，則利用以尺度變換s使得新的區域面積等於其面積：

s的變換方式是在原有尺寸不變的前提下填充原圖RGB各通道均值像素，而待搜索圖像則也是以目標區域爲中心，都是從視頻中選取的與模板圖像相差不超過T幀的圖像。

另外，作者還在文中提到，對於待搜索圖像，選取了多個尺度。其中初始的SiamFC採用了5種尺度，分別是1.025^{{-2,-1,0,1,2}}，針對這些尺度採用了以0.35爲步長的線性函數作爲抑制。另外SiamFC-3s則是採用了3種尺度。

2.卷積層

作者在文中只給出了卷積層的簡單表示，通過查閱文獻可知，實際上作者是採用的Hinton的學生Krizhevsky設計的網絡結構：

從圖中可以看到，一共有5層卷積，各層的參數可以簡化說明如下：

C1：96個11113的卷積核，步長爲4；

C2：256個5548的卷積核，步長爲1；

C3：384個33256的卷積核，步長爲1；

C4：384個33192的卷積核，步長爲1；

C5：256個33192的卷積核，步長爲1。

並且作者使用了雙GPU並行的方式，在第三層處還同時使用了兩個GPU的結果。其中前兩個卷積層後面都接有最大池化層，前四個卷積層都用了Relu激勵函數。作者在文中還提到，前兩個卷積層（Conv）後都直接進行了mini-batch normalization即批規範化，爲了防止梯度擴散。查閱文獻可知原理如下：