谷歌開源:使用MediaPipe在移動設備上進行實時3D對象檢測

 

計算機視覺大部分研究都集中在二維對象預測上。雖然2D預測只提供2D邊界框,但是通過將預測擴展到3D,可以捕捉到物體在世界上的大小、位置和方向,從而在機器人、自動駕駛車輛、圖像檢索和增強現實等領域有着廣泛的應用。雖然二維目標檢測技術已經比較成熟,在工業上得到了廣泛的應用,但是由於數據的缺乏和一個類別內目標的形狀和外觀的多樣性,從二維圖像中進行三維目標檢測是一個具有挑戰性的問題。

 

 

最近,谷歌宣佈發佈MediaPipe Objectron,這是一個針對日常對象的移動實時3D對象檢測管道。此管道檢測二維圖像中的對象,並通過機器學習(ML)模型估計其姿勢和大小,該模型在新創建的三維數據集上進行訓練。Objectron在MediaPipe中實現,這是一個開源的跨平臺框架,用於構建管道來處理不同模式的感知數據。Objectron在移動設備上實時計算面向對象的三維邊界框。

 

從單個圖像中檢測三維物體。MediaPipe Objectron在移動設備上實時確定日常對象的位置、方向和大小。

 

獲取真實世界的三維訓練數據

 

雖然有大量的街道場景三維數據,但由於對依賴於激光雷達等三維捕獲傳感器的自動駕駛汽車的研究的普及,對於更細粒度的日常物體,帶有地面真實三維註釋的數據集極其有限。爲了解決這一問題,我們利用移動增強現實(AR)會話數據開發了一種新的數據管道。隨着ARCore和ARKit的到來,數以億計的智能手機現在具備了AR功能,並能夠在AR會話期間捕獲附加信息,包括相機姿勢、稀疏的3D點雲、估計的照明和平面。爲了標記地面真實數據,我們構建了一個新的用於AR會話數據的註釋工具,它允許註釋器快速標記對象的3D邊界框。此工具使用拆分屏幕視圖顯示二維視頻幀,其中左側是覆蓋的三維邊界框,右側是顯示三維點雲、相機位置和檢測到的平面的視圖。註釋器在三維視圖中繪製三維邊界框,並通過查看二維視頻幀中的投影來驗證其位置。對於靜態對象,我們只需要在一個幀中標註一個對象,然後利用AR會話數據中的地面真像攝像機姿態信息將其位置傳播到所有幀中,這使得該過程具有很高的效率。

 

三維物體檢測的真實世界數據標註。右:三維邊界框在三維世界中使用檢測到的曲面和點雲進行註釋。左:帶註釋的三維邊界框的投影覆蓋在視頻幀的頂部,使驗證註釋更容易。

 

AR合成數據生成

 

一種流行的方法是用合成數據來補充真實數據,以提高預測的準確性。然而,這樣做的嘗試通常會產生糟糕的、不現實的數據,或者在真實感渲染的情況下,需要大量的努力和計算。我們的新方法,稱爲AR合成數據生成,將虛擬對象放置到具有AR會話數據的場景中,這允許我們利用相機姿勢、檢測到的平面表面和估計的照明來生成物理上可能的位置,並使用與場景匹配的照明。這種方法可以生成高質量的合成數據,其中的渲染對象尊重場景幾何體並無縫地適應真實背景。將真實數據與AR合成數據相結合,可以使精度提高10%左右。

AR合成數據生成的一個例子。虛擬的白棕色麥片盒被渲染成真實的場景

 

一種用於三維目標檢測的ML流水線

 

我們建立了一個單階段模型,從一個單一的RGB圖像預測物體的姿態和物理尺寸。模型主幹具有基於MobileNetv2的編碼器-解碼器體系結構。我們採用多任務學習方法,通過檢測和迴歸聯合預測物體的形狀。形狀任務根據可用的地面真值註釋(例如分割)預測對象的形狀信號。如果訓練數據中沒有形狀批註,則此選項是可選的。對於檢測任務,我們使用帶註釋的邊界框並將高斯擬合到框中,中心位於框的質心,標準差與框的大小成正比。檢測的目標是預測這種分佈,其峯值代表物體的中心位置。迴歸任務估計八個邊界框頂點的二維投影。爲了獲得邊界框的最終三維座標,我們使用了一種建立良好的姿態估計算法(EPnP)。它可以在不預先知道物體尺寸的情況下恢復物體的三維邊界盒。給定三維包圍盒,可以方便地計算出物體的姿態和大小。下圖顯示了我們的網絡架構和後處理。該模型足夠輕,可以在移動設備上實時運行(Adreno 650移動GPU上的每秒26幀)。

 

三維目標檢測的網絡結構和後處理。

網絡樣本結果-[左]原始二維圖像估計邊界框,[中]目標檢測高斯分佈,[右]預測分割掩模。

 

MediaPipe中的檢測與跟蹤

 

當該模型應用於移動設備捕獲的每一幀時,由於在每一幀中估計的3D包圍盒的模糊性,它可能會受到抖動的影響。爲了緩解這種情況,我們採用了最近在我們的二維目標檢測和跟蹤解決方案中發佈的檢測+跟蹤框架。此框架減少了在每一幀上運行網絡的需要,允許使用更重的模型,因此更精確,同時保持管道在移動設備上的實時性。它還跨幀保留對象標識,並確保預測在時間上一致,從而減少抖動。爲了進一步提高移動管道的效率,我們每幾幀只運行一次模型推斷。下一步,我們採取預測,並跟蹤它隨着時間的推移使用的方法,在我們以前的博客中描述的即時運動跟蹤和運動靜像。當進行新的預測時,我們將檢測結果與基於重疊區域的跟蹤結果合併。爲了鼓勵研究人員和開發人員基於我們的產品線進行實驗和原型製作,我們正在MediaPipe中發佈我們的設備內ML產品線,包括端到端的演示移動應用程序,以及我們針對鞋和椅子兩類產品的培訓模型。我們希望與廣大的研究和開發社區分享我們的解決方案,將激發新的用例、新的應用程序和新的研究工作。在未來,我們計劃將我們的模型擴展到更多的類別,並進一步提高我們的設備上性能。

 

框架地址:

https://github.com/google/mediapipe/

項目地址:

https://github.com/google/mediapipe/blob/master/mediapipe/docs/objectron_mobile_gpu.md

更多論文地址源碼地址:關注“圖像算法”微信公衆號

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章