LatentFusion:華盛頓大學與英偉達聯合提出6D姿態估計新方法

作者 | Keunhong Park、Arsalan Mousavian、Yu Xiang、Dieter Fox

譯者 | 劉暢

編輯 | Jane

出品 | AI科技大本營(ID:rgznai100)


【導讀】在本文中,華盛頓大學和英偉達聯合提出了一種新的用於未見過目標 6D姿態估計的框架。作者設計了一個端到端的神經網絡,該網絡使用少量目標的參考視角來重構目標的3D表示。使用學習到的3D表示,網絡可以從任意視角對目標進行渲染。使用該神經網絡渲染器,我們可以對輸入圖像的姿勢直接進行優化。通過使用大量3D形狀訓練該網絡進行重構和渲染,使該網絡可以很好地推廣到未見過的目標。作者還爲未見的物體姿態估計提供了一個新的數據集-MOPED。並且最後在MOPED以及ModelNet數據集上評估了未見物體姿態估計方法的性能。



論文地址:

https://arxiv.org/abs/1912.00416


目標姿態定義了它在空間中的位置以及方向。一個目標的姿態通常是由3D方向(旋轉)和6個自由度(6D)定義的。瞭解目標的姿態對於涉及與現實世界對象交互的任務是至關重要的。例如,爲了使機器人能夠操縱目標,它必須能夠推理出目標的姿態。在增強現實任務中,6D姿態估計可以實現虛擬交互和對現實目標的重新渲染。


爲了估計目標的6D姿態,當前最新的方法需要爲每個物體建立一個3D模型。儘管現在的3D重構和掃描技術可以生成目標的3D模型,但它們通常需要耗費大量的精力。很容易看出用這種方法爲每個目標都去構建一個3D模型是不太現實的。





此外,現有的姿態估計方法在不同的光照和遮擋下,需要進行大量的訓練。對於針對多目標訓練一個網絡的方法,姿態估計精度會隨着目標的增加而顯著下降。這是由於目標的外觀與姿勢變化很大。無論使用單個或多個網絡,所有基於模型的方法都需要對訓練集中沒有的測試目標,進行額外的訓練。


在本文中,作者研究了在沒有3D模型的情況下,並且在測試時無需爲未見目標進行額外訓練的情況下,學習用於6D目標姿態估計的3D目標表示問題。本文方法的核心是根據已知的姿態獲取目標的一些參考RGB圖像,並在內部構建該目標的3D表示。使用內部的3D表示,網絡可以渲染目標的任意視角。爲了估計目標姿態,網絡以梯度下降方式將輸入圖像與其渲染圖像進行比較,以搜索渲染圖像與輸入圖像匹配的最佳姿態。那如何將該網絡應用於未見過的目標呢?我們僅需要使用傳統方法來收集已經有的姿態視角圖。並將這些視角圖與相關的姿態一起提供給網絡,它不需要花費時間和計算資源進行額外的訓練。


爲了重構和渲染未曾見過的目標,作者使用ShapeNet數據集(該數據集使用MS-COCO的圖像,並在不同光照下進行紋理化)在隨機的3D網格上訓練。本文的實驗表明,該模型可以推廣到新的目標類別和實例上。從實際角度看,作者認爲在缺少高保真紋理的3D模型情況下,從有限的視角圖對未曾見過的目標進行姿態估計是一個十分重要的問題。爲此,作者提出了一個新的評估數據集,稱爲MOPED(Model-free Object Pose Estimation Dataset)。本文的主要貢獻如下:


本文提出了一種新的神經網絡,該神經網絡可以在參考視圖數量有限的情況下重構一個新對象的潛在表示,並且可以從任意角度對其進行渲染而無需額外的訓練.

本文演示瞭如何在沒有額外訓練時,對給定參考視圖的未見目標進行姿態估計。

本文介紹了一個數據集MOPED。並提供了在可控環境中拍攝的目標參考圖像,以及在不可控環境中拍攝的測試圖像。


方法


在方法部分,作者分了兩部分來闡述。一個是重構和渲染,一個是目標姿態估計。 



上圖是本文方法的概況圖。整個流程主要有兩個組成部分:(1)通過預測每個視圖的特徵量並將其融合爲單個潛在表示來對目標進行建模。(2)對潛在表示進行深度和顏色上的渲染。





本文的建模過程受到了space carving的啓發,考慮從多個視圖中來獲得觀察結果,並利用多視圖的一致性來構建規範化的表示。但是作者並沒有使用光學一致性,而是使用隱藏特徵來表示每個視圖。上圖闡述了每個視圖特徵的生成過程。





使用通道平均池化可以產生較好的結果,但是本文發現使用RNN可以稍微提高重構的精度,作者在實驗章節做了相應的消融實驗來驗證。具體的融合模塊如上圖所示。


在目標姿態估計的方法上,作者使用了兩個損失函數,一個是標準的L1損失,另一個是作者提出的一種潛在損失,它根據重構網絡的結果來評估姿態的合適度。如下公式所示





實驗


本文在兩個數據集上評估了提出的方法:一個是ModelNet,一個是MOPED。用於評估未見目標的姿態估計精度。


在實驗細節方面,訓練數據是來自ShapeNet,其中包含了近51300個shapes。採用Blender的UV映射生成了多個UV圖。採用Beckmann模型進行渲染,其中渲染的概率是0.5。


網絡輸入大小是128*128。並對輸入的目標進行了“放大”處理,使得每個目標的距離保持一致。在每輪訓練中,會採樣一個3D模型,然後採樣16個隨機的參考姿態和16個隨機的目標姿態。作者使用Adam優化器,固定學習率爲0.001等。


表格1展示了在ModelNet數據集上定量的結果。平均下來,本文的方法是最SOTA的。但是本文在有些目標上的表現卻較差,原因之一可能是圖像和空間分辨率。我們網絡的輸入和輸出圖像分辨率是128*128,立體表示的分辨率是16*16*16。這些可能會影響性能。





另外,本文介紹了MOPED數據集,它包含了11個目標,如下圖所示,對於每個目標,作者拍攝了覆蓋各個視角的RGB-D視頻。





表2展示了在MOPED數據集上的定性比較。需要注意的是,本文的方法並未對測試目標進行額外的訓練,而PoseRBPF方法對每個目標都單獨訓練了一個編碼器。本文的方法在ADD和ADD-S兩個指標上,都超越了之前的方法。



下圖展示了對於不同測試圖像的姿態估計結果。





作者做了一些消融實驗,表格3顯示了模型精度會隨着參考視圖數量的增加而增加。表格4展示了對兩個View Fusion變量的量化評估。儘管目標的平均性能非常接近,但是ConvGRU的性能略優於平均池化。



總結


本文提供了一個新的框架,用於從參考視圖中學習3D目標表示。本文的網絡能夠對該表示進行解碼,以合成新的視圖並估算物體的6D姿態。通過使用上千種3D形狀來訓練網絡,我們的網絡學會了在推理過程中重構和估計未見目標的姿態。與當前的6D目標姿態估計方法相比,本文的方法不需使用高質量的3D模型或對每個目標進行額外訓練。因此,該方法具有處理大量目標並進行姿勢估計的潛力。在未來的工作中,一個方向是可以研究在複雜場景中未見目標的姿態估計,在這些場景中目標可能會相互遮擋。另一個方向是使用網絡優化技術來計算姿態估計過程。

(*本文爲AI科技大本營編譯文章,轉載請微信聯繫 1092722531)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章