【論文翻譯】Multi-object Tracking via End-to-end Tracklet Searching and Ranking

本文是地平線在CVPR2020發表的一篇多目標跟蹤文章,代碼即將在審覈後公開。

Multi-object Tracking via End-to-end Tracklet Searching and Ranking

通過端到端Tracklet搜索和排名來進行多目標跟蹤

pdf鏈接:https://arxiv.org/pdf/2003.02795.pdf

摘要

在多目標跟蹤方面的最新研究中,採用序列模型計算出目標與前一目標之間的相似度。然而,在訓練階段ground truth 中的強曝光,會導致訓練推理偏差問題(the forced exposure to ground-truth in the training stage leads to the training-inference discrepancy problem),即訓練推理偏差、曝光偏差,即關聯誤差會在推理中累積,使軌跡漂移。在本文中,我們提出了一種新的優化軌跡跟蹤一致性的方法,該方法通過引入一個在線的端到端軌跡跟蹤搜索訓練過程,直接將預測誤差考慮在內。值得注意的是,我們的方法直接優化了整個tracklet評分,而不是兩兩親和(pairwise affifinity.)。該跟蹤器以序列模型作爲跟蹤器的表徵編碼器,在常規跟蹤器的基礎上獲得了可重新標記的性能增益。我們的方法使用公共檢測和在線設置在MOT15~17挑戰基準上取得了 state-of-the-art。

1.介紹

多目標跟蹤(MOT)是計算機視覺[12]中一個非常重要而又具有挑戰性的任務,它的目的是估計視頻序列中多個目標的運動軌跡。從機器學習的角度出發,提出了連續序列預測和生成的問題。在跟蹤過程中,一個共同關心的問題是,當錯誤的預測或關聯發生時,如何防止錯誤的積累,特別是當相鄰的單個對象的外觀非常相似時。隨着基於深度學習的對象檢測算法的顯著進步[19,35,48],MOT社區非常關注基於檢測的跟蹤幀工作,它的目標是在給定檢測邊界框[12]的情況下正確地跨幀鏈接對象。也叫做:數據關聯。多目標跟蹤算法中數據關聯的一種常用選擇是基於親緣模型的成對檢測匹配[25,45,3,4]。在這些方法中,相鄰幀的檢測結果是根據從外觀[25,45]或運動[3,4]特徵中獲得的親和度評分進行關聯的。然而,這些方法只利用當前幀的信息,而忽略了tracklets中前一幀的時間線索。因此,這種方法在關聯長期一致軌跡方面的能力有限,並通過局部匹配將其裁剪爲局部最優。爲了解決這個問題,一些最近的方法[22,37,29,26]在序列模型的基礎上建立它們的仿射模型,如遞歸神經網絡 (RNNs[18])。作爲一種常用的方法,這些方法通常迫使模型去學習小軌與候選檢測之間的親和力,目的是爲了擴大正確匹配的親和力,減少反匹配部分。他們的工作已經證明了基於tracklet的方法建模高階信息的有效性和潛力。然而,這些方法有兩個缺點。首先,這種利用遞歸神經網絡產生具有代表性的軌跡特徵進行匹配的方法可能存在一定的不適定性。要迫使具有內部方差的目標序列在外觀上達成一致是很困難的。同時,最後一個特徵是很難解釋的,更不用說在多線索參與的情況下。其次,我們假設之前訓練的軌跡是一個ID相同的純檢測序列,即ground truth tracklet。然而,這不是推理的情況,在任何時候都可能發生錯誤的關聯。這種理想的假設導致了一個潛在的弱點,即模型是按照與測試場景不同的分佈進行訓練的,這既會降低可辨別力,又會導致推理過程中的錯誤積累。這一問題在自然語言處理中也得到了強調[2,15,34,44],其名稱爲暴露偏差(exposure bias),當模型只暴露於訓練數據分佈時就會發生這種偏差。這些早期的論文也說明了將模型暴露於預測數據分佈的重要性。
在這項工作中,我們爲上述兩個問題提供了一個可能的解決方案。我們提出了一個全局評分來衡量tracklet的內部外觀一致性,就像測量tracklet和目標對象之間的親和力一樣。值得注意的是,我們margin損失優化了整個tracklet。此外,本文還提出了一種新的算法,通過引入現實的混亂候選模型來模擬訓練的預測數據分佈。這在很大程度上有助於消除暴露偏差問題。

圖1.該提議的學習方法基於在線假設搜索。搜索部分:在線訓練中從t到t+1搜索tracklet pro- posals。時間步t + 1中的小軌建議是對之前時間步的擴展。只有tracklets的TopK分數保留給損失計算和下一步更新。地面真值部分:地面真值測定和軌跡用綠色表示。該網絡學會了在搜索分支中擴大地面真實小波與搜索小波之間的距離。
  
  綜上所述,我們的算法具有以下特點:
  1. 提出了一種基於margin損失和rank損失的tracklet評分模型來量化tracklet質量,提高了tracklet數據關聯的一致性。
  2. 我們提出了一個週期性的基於搜索的優化框架,該框架能顯著地暴露錯誤的訓練關聯。訓練過程遵循一個搜索-學習-排名-修剪的流水線。該方法解決了以往MOT研究中未能解決的序列建模中存在的暴露偏差問題。
  3.我們的方法在MOT的三個基準數據集上進行了驗證,取得了最新的結果。我們進行了廣泛的消融研究,證實了各成分的顯著增強作用。我們的代碼將在審查後公開。

2.相關工作

在本節中,我們將概述tracklet水平跟蹤以及與我們的方法相關的減少暴露偏差的方法。

2.1 Tracklet級跟蹤模型

近年來,隨着深探測技術的發展,基於檢測的跟蹤方法[8]以其令人印象深刻的性能成爲MOT中最受歡迎的方法。目前主流的檢測跟蹤方法主要有兩類:基於小波級的跟蹤方法成對檢測關聯方法。基於tracklet級別的跟蹤在tracklet級別上構造一個親緣模型,然後使用它將tracklet與檢測關聯起來或連接短的tracklet。兩兩關聯方法建立孤立檢測的親和模型,由下而上產生跟蹤結果。這兩種方法共同關心的是保證整個相關目標的一致性。許多以前的方法[10,40,45]已經訓練了一個二元分類器來確定檢測對之間的關聯。然而,這些方法僅限於建模非常短期的相關性,即。,兩個幀。對長期的時間依賴性進行建模和處理出現變化等挑戰場景是很困難的。最近的一些方法在tracklet級別上構建關聯模型,以利用高階信息[11,22,37,47]。在這些工作中,tracklet的表徵來自於通過遞歸神經網絡、時間檢測[11]或關係模型[47]進行個體檢測的融合特徵[22,37]。結果表明,長期的外觀信息有助於預測檢測結果是否屬於某一給定的軌跡。然而,這種融合的特徵並不是完全無法解釋的,因爲他們試圖找到一個對拖尾(tailing)目標具有代表性的特徵。另一方面,這些模型是在地面軌跡剪輯上訓練的,這使得它們容易受到曝光偏差的影響。

2.2 跟蹤中的曝光偏差

暴露偏差問題定義了模型只暴露於訓練數據分佈(模型分佈),而不暴露於自身預測(數據分佈)的現象。該問題普遍存在於機器學習相關的任務中,如文本摘要[33]和機器翻譯[46],當對歷史樣本進行預測時,所有的歷史樣本在訓練範式中都加入了ground truth。NLP的研究人員已經提出了他們的解決方案[2,38,42]來減少偏差。在此之前,Bengio[2]提出了一個訓練計劃,使模型使用自身的輸出作爲輸入,在整個訓練過程中有一個內壓痕的概率。一些研究試圖使用非條件概率模型來避免暴露偏差。Semeniuta[38]提出了一個反向語言模型評分來評估模型生成性能。Tevet[42]使用生成式對抗式網絡工程(GAN)[14]來近似序列的分佈。這些工作激勵我們通過將預測數據應用於模型訓練來避免暴露偏差。不幸的是,暴露偏差在多目標跟蹤領域並沒有引起研究者的足夠重視。最新的工作[27]試圖消除曝光偏差通過設計一個近似的IDF評分損失,但它未能平衡多目標跟蹤精度(MOTA)和IDF的指標。其結果根據大量的假陰性向具有鑑別能力的候選人傾斜。

3.方法

在檢測跟蹤範式中,MOT由兩個階段組成:在每一幀檢測目標(檢測)和爲每一幀檢測結果分配跟蹤ID(關聯)。通常根據航跡/探測之間的相似性來分配IDs。在這一節中,我們首先對我們提出的框架進行了總體架構描述,並使用了檢測跟蹤的方法,然後在各個小節中對細節進行了擴展。
  我們提出了一個新的框架來直接優化tracklet分數與保證金損失通過tracklet在線搜索。該框架由迭代搜索、學習、排序和修剪過程組成,如圖2所示。在得到一個模型後,我們採用了在線Hun- garian算法[32]和近似在線算法MHT[21]進行推理,對其有效性進行了綜合說明。最後,我們逐幀運行這個分配過程,得到一組隨時間變化的目標軌跡。

3.1 Tracklet 級優化

如第1節所述,爲了解決暴露偏差和基於RNN的親和模型的問題,我們提出了一個新的框架,通過搜索-學習-排序-剪枝範式來優化軌跡片段(tracklets)。核心部分包括如何執行得分學習,以及如何進行基於搜索的tracklet優化。
  學習得分。 設 aaa爲視頻中目標 i 的軌跡,由D i檢測補丁 T i = {b T i} T 0 +D i T = T 0組成。給出了t時刻已經獲得的tracklets作爲t t,以及一系列新的觀測檢測結果{b t+1 1,b x+1 ,…,b t+1 i,…,b t+1 j}。我們提出了一個基於軌跡搜索的方法來優化擴展軌跡T T i b T + 18j ?(如圖1所示)的核心。我們的目標是找到一個有利於訓練和推理階段一致性的評分函數。在給出深度網絡實現的評分函數的基礎上,我們首先探討了如何通過端到端訓練來學習深度網絡,而將網絡設計留給3.2部分。

      對於一個被跟蹤的對象,假設我們在t時刻有一組預先指定的候選tracklets,這裏,跟蹤可以被理解爲最大化軌跡片段和ground truth軌跡一致性的得分和最小化錯誤連接的軌跡。與其對tracklet分數的值施加嚴格的約束,我們更願意爲實例內部的差異留出一些空間,如果它們的分數可能導致歧義,則懲罰錯誤關聯。( but punish the wrong associations if their scores may lead to an ambiguity)。我們就定義一個邊緣損失,用來約束ground truth tracklets的分數超過錯誤的tracklets的分數通過一個餘裕\alpha

邊緣損失試圖將ground-truth的tracklets與預測的候選者區分開來,卻無法消除候選者之間的差異。具有較低身份切換(IDS)的候選者應該具有較高的傳播保持概率。然而,IDS是一個不可微的度量,不能直接優化。在學習[6]排序思想的啓發下,我們可以採用成對的排序損失,並將不可微度量編碼到連續函數中。

這裏,\gamma是成對tracklets的排序標籤,IDS()代表的是一個tracklets的IDS。然後,總損失爲

基於搜索Tracklet優化 。我們現在介紹一種創新的tracklet 級訓練算法,稱爲基於搜索的tracklet優化(SBTO)。它避免了前面提到的暴露偏差問題,因爲我們反覆地在訓練中去除模糊的候選軌跡。

我們的SBTO的總體架構如圖1和算法1所示,它由5個主要步驟組成:

1. 對於特定的被跟蹤對象o,假設我們在 t 時刻有K個保留的tracklet提案(修剪後)=,這裏 K 爲限制保留tracklets proposals 數量的一個常量。

2.根據 t+1 幀的檢測結果,應用搜索候選者擴展每條軌跡並建立假設傳播樹。這裏,讓 C 表示每個被搜索目標的候選者數目。在這一步以後,我們在 t+1 幀得到 K x C 個假設tracklets提議

圖2。我們提出了的網絡架構的訓練概覽。利用CNN(藍色空心梯形)提取每個檢測的外觀特徵,通過帶有邊緣損失和排序損失的在線假設tracklet搜索訓練的編碼器(灰色虛線矩形)網絡獲得tracklet的外觀嵌入。使用tracklet分數來表示tracklet一致性,然後通過在線搜索逐幀生成一組假設tracklet。 

 3.使用打分函數計算每個假設tracklet 提議 和ground truth tracklets之間的得分,在本文中,我們使用一個編碼器模型對進行編碼。具體地說,我們用序列模型提取tracklet的外觀特徵來實現編碼器。(詳見3.2節)。然後,我們將tracklet分數按降序排列。

4. 我們使用排序的tracklet評分來刪除簡單的假設tracklet提議,以限制提議的數量。根據定義tracklets

作爲第K個被排序的假設tracklets提議。我們保留最高的K個tracklets提議:

5. 我們定義在 t+1 幀的損失爲最高分數K個假設tracklets提議的損失的總和。最後,爲了學習tracklets在時間上的長期依賴性,我們遞歸地累積每一步隨時間的損耗。設N爲tracklets的總步長,每個tracklets的總損失爲:

圖3。訓練中假設tracklet建議的Top2排序,數字表示每次步進的tracklet得分。

不同於其他標準的網絡的訓練,SBTO需要運行搜索來收集所有的最高的K個假設的tracklets提議。在前向過程中,我們記錄了序列模型的 和隱藏狀態,在傳播假設tracklets提議的過程中,這些模型在每個時間步長對損失作出了貢獻。在向後傳遞中,我們通過調整時間反向傳播(BPTT)算法來向後傳播誤差[31]。如圖3所示,在線搜索還可以挖掘與ground truth tracklets高度相似的困難樣例tracklets,並在訓練階段經過幾個epoch後通過邊緣損失給它分配一個低分。

3.2 在線表徵編碼

視覺跟蹤依賴於時間背景,這促使我們結合歷史內容中的外觀特徵來豐富tracklet的表現。從這個角度看,可以直接對時間表象信息和長期依賴關係進行建模的方法是序列模型,如RNN。在我們的框架中,我們通過不同的序列模型構建評分函數來編碼tracklets的外觀信息,如圖2所示。

對於帶有tracklet 的被跟蹤對象,讓邊界框表示在每一幀 t 的位置。我們使用卷積神經網絡(CNN)來提取每個邊界框的外觀。特別是CNN接受raw patch作爲輸入,輸出CNN的最後一層feature map。讓表示每步的pathes的外觀特徵,這裏是一個H維向量。我們的在線表徵編碼接收序列作爲輸入,循環地輸出H維的隱藏狀態向量

基於序列模型,實現了tracklet的外觀編碼器。我們已經探索了各種序列模型來實現編碼器,包括LSTM [18], LSTM帶有注意力[1]和轉換器(transformer)[43]。在本節中,我們將以LSTM爲例說明編碼器。定義步驟t時的上下文向量爲,然後它可以被計算爲歷史信息的加權和:

表示的轉置,則可以用公式表示爲:

將第t+1步時注意層的輸出傳遞給另一個全連通層,該全連通層將H維向量壓縮爲一個標量。

3.3 在跟蹤中的應用

我們的方法遵循在線跟蹤檢測範例,它通過關聯幀之間的檢測結果來生成軌跡。爲了進一步驗證SBTO對於不同關聯算法的有效性,我們使用匈牙利算法(Online)和多重假設跟蹤算法(MHT, near Online)進行數據關聯。認爲匈牙利算法是MOT中的一種通用算法。在本節中,我們將簡要總結與實現的多重假設跟蹤相關的關鍵步驟。MHT的關鍵步驟包括假設樹構建、門控、MWIS關聯和修剪。更多關於MHT的細節可以在[21]中找到。

假設樹結構。對於每一個目標對象,假設樹從它第一次出現的檢測開始,在下一幀中通過追加子檢測來擴展。假設樹中的每個樹節點對應一個檢測。從根到葉的每個路徑表示一個候選的tracklet建議。在這個生成子進程的步驟中,只考慮門控區域內的檢測。這個過程不斷重複,直到最終的假設樹被完全構造出來。在樹的構建過程中,基於我們提出的每條假設路徑的評分函數的tracklet評分被記錄下來,以後用於樹的修剪。

閘門和關聯。爲了避免在生成樹的過程中出現組合爆炸,我們需要在下一幀中進行干擾檢測。我們使用第n次檢測與最後一次檢測tracklet方案之間的IOU作爲門控標準。從門控中選擇檢測,我們可以建立假設樹來運行多個假設的傳播。之後,我們使用MWIS(maximum weight independent set)來尋找最佳的軌跡集合,具體細節參考[5]

剪枝。我們使用標準的N-scan剪枝方法來刪除衝突的假設路徑。對於第t幀中選擇的每條路徑,我們都要回溯到第 t-N 幀中的節點,並對與該節點上選擇的路徑衝突的子樹進行修剪。注意,N越大,延遲決策的窗口越大,這將帶來精度的提高,但需要更多的時間消耗。修剪後,在下一幀只更新倖存的假設路徑。

4.實驗

在本節中,我們首先介紹了數據集的細節、評估度量和實現細節,然後在MOT挑戰中對各種基準數據集進行了深入的分析。最後,我們提出了更多的見解和消融研究我們提出的方法。

 4.1. 數據集及度量

 數據集。爲了測試我們的方法的能力,我們報告了MOT挑戰基準測試中三個數據集的定量結果[24,28]。該基準被廣泛用於評估多目標跟蹤器的性能。

2DMOT2015 [24] 它由11個訓練序列和11個測試序列組成。該數據集僅包含500個訓練集的軌跡,但由於分辨率低、檢測噪聲大,潛在的挑戰更大。
MOT16 [28] 它由7個訓練序列和7個測試序列組成,在不同的行人場景中使用移動和固定攝像機。MOT16提供了用於訓練和測試的DPM[13]的檢測響應。
MOT17 它包含與MOT16相同的視頻,但是有更精確的註釋。此外,序列還提供了另外兩種檢測算法的檢測結果:fast - rcnn[35]和SDP[48]。
爲了進行公平的比較,我們使用每個數據集提供的公共檢測結果作爲我們的方法的輸入。
評估度量標準 對於績效評估,我們遵循標準的清晰貼切的指標[30]用於非常貼切的基準,由多個對象的跟蹤精度(粘土),多個對象跟蹤精度(MOTP)主要是跟蹤目標(MT),主要是失去了目標(ML),假陽性(FP),假陰性(FN) ID開關(IDS), ID F1得分(IDF1) ID精密(IDP)、ID召回(IDR),片段錯誤(碎片彈)。關於這些度量的詳細描述可以在[30]中找到。

4.2 實現細節

網絡架構。我們使用預訓練的ResNet-50[16]和ImageNet圖像分類任務[36]作爲骨幹網絡,然後在MOT訓練數據集上對該模型進行細化。將ResNet-50的最後一個卷積層的輸出特徵映射輸入到一個嵌入網絡中。該嵌入網絡由輸出通道256的卷積層和輸出維數256的全連通層組成,分別用來縮小通道維數和生成最終的外觀特徵。

根據檢測的邊界框,我們將其裁剪並調整爲12864的大小,並將其輸入到主幹和嵌入網絡中,生成外觀特徵。跟蹤編碼器是由LSTM與注意。利用隱藏大小爲256的單層LSTM對時間信息進行建模,構造軌跡網。LSTM的最後一步隱藏狀態,通過注意機制計算與前一步隱藏狀態對應的上下文特徵。然後將上下文特徵反饋給單層全連接網絡,生成tracklet分數。

Tracklet提議。由於gpu的內存限制,我們構造了一個最大長度爲的人工tracklet方案作爲訓練數據。首先,我們從註釋中隨機選擇一個長度爲的ground truth tracklet,它是整個軌跡的剪輯。對於本tracklet方案中的每一幀,我們都隨機抽取其他包圍盒中的候選對象作爲tracklet假設生成過程中的候選對象。最後,我們構造 patch作爲每一次訓練迭代的一批輸入。

訓練。在訓練期間,我們應用Adam優化器[23]對網絡進行端到端訓練,並將權值衰減率設置爲5e-4。我們使用5個epoch進行模型熱身,然後以1e-5的學習率訓練另外45個epoch。margin α設置爲1。batch size設置爲16。最佳模型的最大長度和候選數分別爲8和8。

推斷。在推理過程中,根據在線跟蹤方法[39]的一般實踐,對原始的檢測結果進行預處理。每幀生成的候選tracklets的分數根據3.1節計算。然後通過求解二部圖(在線)或MHT(近在線)實現關聯。我們將MHT中的超參數修剪K設爲3。

平臺。所有的實驗都是在一個1.2GHZ的Intel Xeon服務器和8個NVIDIA TITAN X gpu上進行的。我們使用的深度學習框架是Pytorch。

4.3 與最先進的技術比較

我們使用公開檢測結果進行比較。爲了進一步驗證我們的方法對於不同關聯算法的有效性,我們使用匈牙利算法(Online)和MHT (Near Online)進行了實驗。我們分別在表1、2、3中報告了與其他SOTA方法在MOT挑戰15/16/17基準上的性能比較。爲了進行公平的比較,我們在在線跟蹤器中選擇了最近發佈的跟蹤器,如STRN[47]、FAMNet[10],以及幾乎所有基於mhc的跟蹤器。此外,我們增加了一些離線的全面性跟蹤器,如SAS[27],它也試圖解決曝光偏差的問題。注意,我們的方法只在評分模型中使用外觀特徵。據我們所知,我們的跟蹤器實現了最有希望的結果與類似的設置。在在線設置中,我們的方法在MOT15、MOT16和MOT17上分別實現了MOTA 40.0、50.1、52.6,在最近發佈的結果中,幾乎擊敗了所有的在線方法。我們在基於MHT的近在線版本跟蹤器中獲得了更好的結果,它在三個主要度量MOTA和IDF的基準數據集中表現優於所有其他基於MHT的方法。與[27]相比,[27]傾向於減少許多短的期望軌跡並導致更高的FN,我們對tracklet質量的中性測量可以平衡各種MOT指標而不犧牲MOTA。

4.4 消融實驗

我們現在透明地展示了我們爲實現這兩個目標所採取的每一個組成部分的影響。我們對MOT17進行了對比實驗,並報告了最小驗證損失模型的跟蹤結果。對於本節的所有實驗,我們從訓練集(DPM、FRCNN和SDP三個檢測器的MOT17-02、MOT17-05、MOT17-09)中分離出三個序列進行驗證,其餘的序列進行訓練。爲了更好的說明,我們報告了我們的在線關聯方法(匈牙利算法)的結果。

margin損失和在線tracklet搜索的影響。我們首先通過測量驗證集的性能來調查我們的方法中每個組件的貢獻。我們在我們的模型的三個變體上進行基線實驗。在EXP1中,我們將邊緣損失和秩損失(方程3)替換爲交叉熵損失作爲基線。並去除訓練階段的在線假設軌跡搜索,即,正/負曲目在訓練集中隨機抽樣。爲了避免LSTM對固定長度序列的過擬合,我們構造了變長人工軌跡建議,該建議由[22]中的地面真道註釋生成。在EXP2中,我們保留了margin loss,但是刪除了rank loss和tracklet search作爲EXP1。在EXP3中,我們只刪除了原始模型中的tracklet搜索。爲了比較公平,我們在三個實驗中將最大序列長度Nlength設置爲8。如表4所示,在邊緣損失和秩損失的情況下,MOTA的跟蹤精度分別比對照組提高了6.8和2.1。值得指出的是,我們提出的邊緣損失和秩損失顯著降低了FP和IDS,這表明該代價函數可以幫助跟蹤器更準確地識別不正確的關聯。與EXP3相比,我們的方法實現了額外的2.5 MOTA和-259 IDS改進,這符合我們的期望,即在線tracklet搜索可以減少暴露偏差。

超參數對在線tracklet搜索的影響。然後,我們進行敏感性分析,並檢查各種超參數配置在成本計算和在線假設軌跡搜索中的影響。如前所述,保留的tracklet提案K的數量是我們方法中的一箇中心參數。最好使用較大的K值,這樣可以採集到足夠的和多樣化的小軌。相比之下,較大的K將爲給定的有限的C引入簡單的軌跡,這可能會導致模型過早地收斂。另一個關鍵參數是候選數C,我們傾向於使用較大的C來搜索無法區分的檢測,生成無法提前裁剪的假設軌跡。但是,由於GPU內存的限制,我們不能無限制地增加C。圖4顯示了我們對K和c不同參數的分析結果。在這些實驗中,我們將最大序列長度Nlength設置爲8,其他所有參數在訓練和推理階段都是一致的。結果表明,C值對跟蹤精度有正向影響。這是很直觀的,因爲大C可以引入我們前面分析過的足夠的訓練樣本。另一方面,當C固定時,由於K太小或太大,導致跟蹤精度下降,這也符合我們的假設。綜上所述,圖4表明,同時增加C和K來擴展搜索空間,可以提高跟蹤性能。

圖4。同時增加K和C可以改善MOTA,降低IDS。

序列模型的有效性。如上所述,注意LSTM只是tracklet編碼器的一個實現。在本節中,我們探討了不同類型的序列模型對跟蹤性能的影響。爲了消除訓練序列長度的影響,我們在不同模型的訓練/推理中將序列長度設置爲8,並比較驗證集上的跟蹤性能。如表5所示,所有的序列模型,包括LSTM、transformer和LSTM,只要注意,都實現了與基線相比的性能提升。這一結果表明,我們的學習框架可以有效地減少曝光偏差,並且tracklet編碼器是可插拔的,可以擴展到更強大的模型。我們的研究結果也率先發現了注意使用LSTM而不是LSTM的優點,而LSTM是MOT領域的常見做法[2,22,37]。

表1。在2DMOT2015基準數據集上跟蹤性能。 

表2。在MOT2016基準數據集上跟蹤性能。 

表3。在MOT2017基準數據集上跟蹤性能。 

5. 結論

暴露偏差作爲序列產生和關聯的一個基本問題,已經引起了許多研究者的關注。然而,與自然語言處理中的其他任務不同,暴露偏見在MOT社區中仍然是一個開放的問題。在本文中,我們提出了一種新的優化軌跡一致性的方法,該方法直接考慮了訓練階段的預測誤差,可以有效地消除曝光偏差。其次,我們的方法直接優化了整個軌跡積分,而不是幀級的代價,這是一個比成對匹配更合適的模型。實驗結果表明,該方法能有效地提高系統的整體性能,並在MOT挑戰基準測試中獲得SOTA結果。我們的方法在解決訓練推理失配問題上沒有更進一步。在未來的工作中,我們將把這種方法擴展到更大的應用場景,如車輛跟蹤、交通燈跟蹤、多攝像頭多目標跟蹤,這將進一步挖掘我們方法的潛力。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章