關於深度學習在目標跟蹤領域的學習心得

關於深度學習在目標跟蹤領域的學習心得

目標跟蹤算法可以被分爲產生式（generative model）和判別式（discriminative model）兩大類別，產生式方法運用生成模型描述目標的表觀特徵，之後通過搜索候選目標來最小化重構誤差；判別式方法通過訓練分類器來區分目標和背景。在現實情況中，由於目標跟蹤只提供第一幀的bounding box，且具有不確定性，在遮擋、旋轉、光照變換等情況下易產生目標對象漂移、跟蹤失敗的情況。我們可以利用深度模型對大量標註或未標註訓練數據進行預訓練並學習，提高目標跟蹤的準確率和實時性（現行大部分深度學習目標跟蹤方法都歸屬於判別式框架）。現將瞭解到的主要實現方法歸納如下：

一、利用輔助圖片數據預訓練深度模型，在線跟蹤時微調

代表：①Learning a Deep Compact Image Representation for Visual Tracking NIPS2013

②Transferring Rich Feature Hierarchies for Robust Visual Tracking arXiv2015

雖然解決了跟蹤過程中訓練樣本不足的問題，但是輔助圖片是無關聯的，使用更貼合跟蹤實質的關聯數據會是更好的選擇。

二、利用現有大規模分類數據集預訓練深度模型

CNN分類網絡提取特徵

代表：①Visual Tracking with Fully Convolutional Networks ICCV2015

FCNT通過對大規模分類數據集訓練出的CNN網絡獲得目標的特徵表示，並可以通過不同層輸出的特徵圖譜進行分析，利用集成學習來彌補不同層上的不足，達到一個1+1>>2的效果。

②Hierarchical Convolutional Features for Visual Tracking ICCV2015

同樣對深度特徵進行提取，發現在高層特徵主要反映目標的語義特性，對目標的表觀變換比較魯棒，而在低層特徵保存了更多細粒度的空間特性，對跟蹤目標的精確定位更有效。同時利用相關濾波確定最終的bounding box.

以上兩種實現都是利用CNN網絡提取特徵，在此基礎上進行加工得到更好效果的案例。但是分類任務以相似的物體爲一類，而目標追蹤只需要追蹤一類物體中的一個，需要區別其他的同類物體，所以重點在於尋找方法融合多層特徵來達到理想的效果。

利用遞歸神經網絡進行目標跟蹤

代表：①Recurrently Target-Attending Tracking CVPR2016

利用多方向遞歸神經網絡來建模和挖掘對整體跟蹤有用的可靠目標部分，最終解決預測誤差累積和傳播導致的跟蹤漂移問題。利用遞歸結構，使得每個分塊的輸出值都受到其他關聯分塊的影響，避免單個方向的影響，同時可以置權，比僅僅考慮當前位置的準確度更高。

利用循環神經網絡進行目標跟蹤

代表：①Structure-Aware Network for Visual Tracking arXiv2016

循環神經網絡會對前面的信息進行記憶並應用於當前輸出的計算中，即隱藏層之間的節點不再無連接而是有連接的，並且隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出，使信息能夠持續保存。

②Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking arXiv2016

作爲特殊的遞歸神經網絡，可以學習長期依賴信息，具有更加良好的表現性能。

三、利用跟蹤序列預訓練

代表作品：①Learning Multi-Domain Convolutional Neural Networks for Visual Tracking CVPR2016

MDNet直接用跟蹤視頻預訓練CNN來獲得目標表示能力，將網絡分爲共享層與domain-specific層兩部分，經過訓練，在共享層中獲得對序列共有特徵的表達能力。

②Siamese Instance Search for Tracking CVPR2016

使用有標註了association的視頻數據集作爲訓練數據，通過相似性學習的方式進行目標跟蹤的孿生網絡。其最大的特點是，該方式訓練好的網絡直接在跟蹤上使用，不需要更新。網絡同樣採用了不同層的特徵融合和邊框迴歸來提升目標跟蹤的性能。

個人認爲根據視頻序列來進行目標跟蹤效果會更好，從直觀上理解，目標跟蹤應該是對同一物體的辨別，而不是一類物體，應該更看重於一個物體的內在變化，而從視頻序列中提取共同特徵能夠較好的解決這個問題。

就以上所學來看，從卷積神經網絡到長短期神經網絡的使用，從輔助圖片到視頻序列的訓練，深度學習在目標跟蹤方面有非常好的應用前景。但是，現存的問題主要在於實時性欠佳，而且在較爲複雜的視頻序列中魯棒性仍然不夠，期待更爲高精度、高魯棒性、高實時性的算法！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

關於深度學習在目標跟蹤領域的學習心得

如何基於surging跨網關跨語言進行緩存降級

2024合集

程序員天天 CURD，怎麼才能成長，職業發展的思考(2)

移位操作搞定兩數之商

教你用Perl實現Smgp協議

如何通過前端表格控件在10分鐘內完成一張分組報表？

win11關閉自動檢測病毒刪文件

通用代碼生成器簡介

lightdb 單機模式下數據庫平移

千兆寬帶實際網速能到達多少？

OpenCV實現膨脹與腐蝕

雙邊濾波器

OpenCV實現漫水填充（待完善）

殘缺棋盤問題

Ubuntu 14.04 LTS環境下安裝torch 7以及相關

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結