AAAI 2020:北大開源算法姿態輔助多攝像機協作以進行主動對象跟蹤

 

 

我們知道主動對象跟蹤(AOT)對於許多基於視覺的應用程序至關重要,例如移動機器人,智能監控。但是,在複雜場景中部署主動跟蹤時存在許多挑戰,例如,目標經常被障礙物遮擋,這篇paper描述將單攝像機AOT擴展到多攝像機設置,其中攝像機以協作方式跟蹤目標。

 

爲了實現攝像機之間的有效協作,作者提出了一種新穎的PoseAssisted多攝像機協作系統,該系統可以通過共享攝像機姿勢進行主動對象跟蹤,使攝像機與其他攝像機進行協作。每個攝像機都配備有兩個控制器和一個切換器:基於視覺的控制器根據觀察到的圖像跟蹤目標。基於姿勢的控制器根據其他攝像機的姿勢移動攝像機。在每個步驟中,切換臺都會根據目標的可見性來決定從兩個控制器採取哪個動作。實驗結果表明,我們的系統優於所有基線,並且能夠推廣到看不見的環境。

圖1:我們的多攝像機協作系統的概述。 當目標可見時,攝像機使用其基於視覺的控制器做出動作決定。 否則,相機將選擇基於姿勢的控制器。 例如,攝像機1的基於視覺的控制器無法跟蹤。 因此,它改爲使用基於姿勢的控制器的輸出操作,並將無用的視覺觀察標記爲灰色。

 

作者信息

 

 

方法

 

 

在本文設計的多攝像機協作機制下,每個攝像機都有一個基於視覺信息的控制器、一個基於姿態信息的控制器和一個轉換器。基於視覺的控制器使用圖片作爲輸入輸出攝像機代理的動作。基於姿態的控制器利用所有攝像機的姿態信息,即所有攝像機的位置、視角和變換器的兩類標籤作爲輸入,輸出攝像機的動作。轉換器負責在兩個控制器之間切換。當攝像機的視覺信息不足以跟蹤時,也就是說,基於視覺信息的控制器失敗,如圖1中的攝像機1所示,轉換器將使用基於輔助的姿態控制器執行相機行爲控制,從而確保多攝像機系統的穩定的協同跟蹤。

 


圖2:我們系統的網絡架構。 對於每臺攝像機,基於視覺的控制器都將原始圖像作爲輸入。

 

如圖2所示,基於視覺信息的控制器模塊使用CNN(卷積神經網絡)進行特徵提取,然後訪問LSTM(長短期記憶神經網絡)進行歷史信息處理,最後訪問FC(全連接網絡),LSTM輸出的特徵將由變換器中的FC處理以輸出兩類概率,攝像機執行的最終動作是相應控制器以最高概率輸出的動作。基於姿態的控制器採用門遞歸神經網絡(GRU)融合多攝像機姿態信息,然後由FC網絡輸出各攝像機的動作。轉換器由一個FC網絡組成。輸入爲LSTM處理後的特徵,輸出爲二值分類概率。

 

通過這種協同機制,當視覺信息不足以支持攝像機的決策時,攝像機可以學會利用有效的姿態信息來指導行爲。

 

實驗

  • 環境環境

首先,作者構建了許多用於學習和測試的高保真虛擬環境。

圖3:從上到下是用於培訓,花園,城市和測試的3D環境隨機室。 請注意,我們的模型僅在隨機室中訓練。

這樣做而不是直接在現實環境中運行,原因有以下三個:

  1. 強化學習需要經常與環境互動,並從步入錯誤中學習,這在現實環境中是高成本的; 

  2. 在現實世界中,獲取地面真相以計算用於訓練和評估的獎勵函數既困難又昂貴。 

  3. 先前的一些論文證明在虛擬環境中通過環境增強訓練的跟蹤器能夠推廣到真實場景。我們爲CMC-AOT任務構建了許多新的3D環境,其中環境中有更多的攝像頭和更多的障礙,旨在模仿現實世界中的多攝像機主動跟蹤場景。動作空間是離散的,包含11個候選動作(向左轉,向右轉,向上轉,向下轉,左上角,右上角,左下角,右下角,放大,縮小並保持靜止) 。

  • 評估指標

    我們使用攝像機方向和目標方向之間的角度誤差來評估主動對象跟蹤的質量。角度誤差是絕對俯仰角誤差和絕對偏航角誤差的平均值。運轉良好的相機應在俯仰角和偏航角上均能準確跟蹤目標。

  • 與兩階段方法比較

    作者的方法與傳統的兩階段跟蹤方法進行了比較,即控制器根據視頻跟蹤器的目標邊界框旋轉攝像機。採用三個視頻跟蹤器來獲取邊界框:TLD,BACF和DaSiamRPN。

    建立了一個啓發式控制器來控制相機旋轉角度。該控制策略基於相機移動其角度以及檢測到的邊界框的位置的規則,即,當邊界框位於圖像的左側時,控制器輸出向左轉信號。表1顯示了在花園和城市環境中平均錯誤和成功率評估指標的具體結果。我們可以看到,傳統的跟蹤方法在CMC-AOT系統中表現較差。我們分析了傳統的跟蹤器存在兩個通常會使其失敗的問題.

    1)對象外觀變化很大

    2)目標經常被障礙物遮擋。由於這些方法都需要用於對象特徵匹配的模板,因此當對象在相機視野之外消失時,跟蹤器將無法使用有效的圖像信息,從而容易導致跟蹤錯誤。

在實驗中,我們發現傳統的方法在字符形狀變化較大、障礙物較大等情況下容易出現跟蹤失敗。然而,當我們的相機失去目標時,我們可以根據姿勢信息的引導來跟蹤它,如圖4所示。結果表明,3號攝像機圖像中目標信息丟失,其行爲由基於視覺的控制器轉變爲基於姿態的控制器。姿態控制器通過與其他攝像機目標保持一致,輸出動作,使其能夠找到目標,保證了長期跟蹤的良好性能。實驗的具體定量結果(平均角誤差和成功率)如表1所示。

 

圖4:在Garden測試環境中工作的方法的屏幕快照序列。

 

爲了驗證本文設計的協同機制的有效性,我們設計了一系列的燒蝕實驗,比較了每臺攝像機的個體跟蹤(SV)、使用Bi GRU進行多攝像機視覺信息融合(MV)、使用FC網絡進行視覺信息和姿態信息融合(SV+P)的方法。其中,我們的方法獲得了最低的誤差結果和最高的成功率,並證明了將視覺信息和姿態信息與轉換機制相結合可以獲得最佳的協同跟蹤效果。

 

結論

作者介紹了協作式多攝像機主動對象跟蹤(CMC-AOT)問題,並提出了一種有效的姿態輔助多攝像機協作系統來進一步提高跟蹤性能。通過將攝像機姿勢引入多攝像機協作中,作者的方法具有處理挑戰性場景的能力,並且在各種多攝像機主動對象跟蹤環境上均優於傳統的對象跟蹤方法。在不同現實環境下的結果還表明,該方法有可能推廣到更多看不見的場景。

 

論文地址:

https://arxiv.org/pdf/2001.05161.pdf

項目地址:

https://sites.google.com/view/pose-assisted-collaboration

源碼地址:

https://github.com/LilJing/pose-assisted-collaboration

 

更多論文地址源碼地址:關注“圖像算法”微信公衆號

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章