基於深度學習目標姿態估計的論文一覽

https://zhuanlan.zhihu.com/p/108381101

論文只選了那些單目圖像的深度學習方法,上部主要是半年以前的論文。

•PoseCNN: A CNN for 6D Object Pose Estimation in Cluttered Scenes (RSS 2017)

估計已知目標的6D姿勢對於機器人與現實世界進行交互非常重要。由於目標的種類繁多以及目標之間的干擾和遮擋導致場景的複雜性,因此該問題具有挑戰性。這項工作介紹了用於6D姿勢估計的PoseCNN模型,通過在圖像中定位目標中心並預測其與相機的距離來估計目標的3D平移量。通過迴歸四元數表示來估算目標的3D旋轉。它還引入了損失函數,該函數使PoseCNN可以處理對稱目標。它爲6D目標姿態估計構建了一個大型視頻數據集,稱爲YCB-Video數據集。該數據集提供了來自YCB數據集的21個對象的準確6D姿勢,這些姿勢在92個視頻中觀察到,具有133,827幀。

代碼和數據集位於 https://rse-lab.cs.washington.edu/projects/posecnn/

包括三部分:semantic labeling, 3D translation estimation, 3D rotation regression.

PoseCNN網絡包含兩個階段。第一階段包括13個卷積層和4個最大池化圖層,它們從輸入圖像中提取具有不同分辨率的特徵圖。由於提取的特徵在網絡執行的所有任務之間共享,因此此階段是網絡的骨幹。第二階段包含一個嵌入步驟,該步驟將第一階段生成的高維特徵圖嵌入到低維、任務特定的特徵中。然後,網絡執行3個不同的任務,從而實現6D姿勢估計,即語義標記(FCN的變型),3D平移估計和3D旋轉回歸。

它通過在圖像中定位2D目標中心並估計距相機的目標距離來估計3D平移。網絡迴歸到圖像中每個像素的中心方向,然後霍夫投票層找到目標的2D中心。

從霍夫投票層預測目標邊框,利用兩個RoI合併層,“裁剪併合並(crop and pool)”網絡第一階段爲3D旋轉回歸生成的視覺特徵。

如下是架構圖:

一些定性結果例子:

 


•Real-Time Seamless Single Shot 6D Object Pose Prediction (2017)

這是一種單步方法,可以同時檢測RGB圖像中的目標並預測其6D姿勢,無需多步或不得不檢查多個假設。與最近提出的單樣本方法SSD-6D不同,其僅預測需要修正的近似6D姿態,而這種方法的精確度無需進行額外的後處理。速度更快,在Titan X(Pascal)GPU上爲50 fps,更適合於實時處理。關鍵組件是CNN體系結構,可直接預測目標3D邊框投影頂點的2D圖像位置。然後,使用PnP算法估算目標的6D姿勢。

如圖是採用的CNN架構圖:

如圖從左到右依次是:具有四個目標的示例輸入圖像-》S×S網格顯示負責檢測四個目標的單元-》每個網格預測圖像中投影的3D邊框角點2D位置-》來自網絡的3D輸出張量代表每個網格的矢量,該矢量由2D角點位置、類別概率和與預測相關的置信度值組成。

下圖是一些結果(最後一行是失敗例子):


•Vehicle Detection and Pose Estimation for Autonomous Driving (Thesis 2017)

以前在介紹自動駕駛的目標3-D檢測方法提過,略過。


•BB8: A Scalable, Accurate, Robust to Partial Occlusion Method for Predicting the 3D Poses of Challenging Objects without Using Depth (CVPR 2017)

本文介紹了一種僅從彩色圖像進行3D目標檢測和姿態估計的方法。它首先使用分割來檢測在部分遮擋和背景混亂中感興趣的2D目標。與基於補丁(patch-based)的方法相比,它依靠“整體(holistic)”方法:將經過訓練的CNN應用於檢測到的目標,以其3D邊框角點的2D投影形式預測其3D姿勢。但是,這不足以處理來自最近的T-LESS數據集中的目標:這些目標有旋轉對稱軸,並且在兩個不同姿勢下,該目標的兩個圖像相似性使訓練CNN模型具有挑戰性。

它通過限制用於訓練的姿勢範圍,並引入分類器在估計運行之前識別姿勢的範圍來解決此問題。它還使用可選的附加步驟來細化預測的姿勢。完整的方法也是可擴展的,因爲可以同時針對多個目標訓練單個網絡。

下圖是定位的示意圖:

而下圖展示的是有旋轉對稱軸目標的姿態估計:

下圖介紹姿態修正過程:

接着討論合成訓練圖像的方法,如下是兩個例子:

最後是一些定性結果示例:


•SSD-6D: Making RGB-Based 3D Detection and 6D Pose Estimation Great Again (ICCV 2017)

這是一種用於檢測3D模型實例並根據RGB數據估計其6D姿勢的方法。爲此,擴展流行的SSD檢測範例以覆蓋整個6D姿勢空間,並僅訓練合成模型數據。該方法可以競爭或超越目前在多個具有挑戰性的數據集上利用RGB-D數據的最新方法。它產生約10Hz的結果,比相關方法快許多倍。

如圖是SSD樣式的網絡預測示意圖。 爲網絡提供299×299 RGB圖像,並用InceptionV4的分支從輸入圖像中生成六個比例不同的特徵圖。 然後,將每特徵圖與經過訓練的、形狀爲(4 + C + V + R)的預測內核進行卷積,以確定目標類別,2D邊框以及對可能的視點和平面內旋轉的得分,這些得分將被解析以構建6D姿勢假設。 因此,C表示目標類別的數量,V表示視點的數量,並且R表示平面內旋轉類別的數量。 其他4個值用於細化離散邊框的角點以緊緊適合檢測到的目標。

如下是一些結果示例:


•Implicit 3D Orientation Learning for 6D Object Detection from RGB Images (2018)

一個用於目標檢測和6D姿態估計的基於RGB圖像的實時流水線。該3D方向估計基於去噪 Autoencoder的一種變型,該變型使用域隨機化(Domain Randomization)方法在3D模型的模擬視圖上進行訓練。

域隨機化方法建立在以下假設的基礎上:在各種半現實設置(增強的隨機光照條件、背景和飽和度等)下用渲染視圖訓練模型,可推廣到真實場景。

與現有方法相比,這種增強自動編碼器(AAE,Augmented Autoencoder)具有以下優點:

  • 由於訓練獨立於SO(3)中目標方向的具體表示(例如四元數),因此避免了從圖像到方向的一對多映射,能夠處理由對稱視圖導致的歧義姿勢。
  • 學習專門對3D方向進行編碼的表示形式,同時實現針對遮擋、雜亂背景以及廣泛應用於不同環境和測試傳感器的魯棒性。
  • AAE不需要任何實際的帶姿勢註釋的訓練數據; 取而代之的是,它經過訓練可以以自我監督的方式對3D模型視圖進行編碼,從而克服了對帶有大型姿勢註釋數據集的需求。

如圖是目標檢測流水線圖:

關於對稱目標的姿態歧義性示意圖如下:

下圖是AAE的訓練過程:

這是自動編碼器的架構圖:

訓練後,AAE能夠從許多不同相機傳感器的真實場景中提取3D目標。 解碼器重建的清晰度和方向是編碼質量的指標。 爲了從測試場景確定3D目標朝向,它創建了一個碼本(codebook),如圖所示:

好的結果不提,這裏有些失敗的檢測和估計例子:

 


•PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation (2018.12)

本文解決了在嚴重遮擋或截斷情況下從單個RGB圖像進行6DoF姿態估計的挑戰。最近的許多工作表明,首先檢測關鍵點然後解決PnP問題的姿勢估計兩階段方法可實現出色的性能。但是,大多數這些方法僅通過對稀疏關鍵點進行定位來回歸它們對遮擋和截斷敏感的圖像座標或熱圖。

這裏引入了逐像素投票網絡(PVNet,Pixel-wise Voting Network),迴歸指向關鍵點的逐像素單位向量,並用這些向量通過RANSAC對關鍵點位置進行投票。這創建了一個靈活的表示形式,用於定位被遮擋或被截斷的關鍵點。此表示的另一個重要特徵是,它提供了關鍵點位置的不確定性,PnP求解可以進一步利用這些不確定性。實驗表明,所提出的方法在很大程度上改進了LINEMOD、Occlusion LINEMOD和YCB-Video數據集上的現有技術,同時有效地進行實時姿態估計。該代碼將在 https://zju-3dv.github.io/pvnet/ 上提供。

下圖是定義姿態估計是PnP的示意圖:注意小標題。

如圖是關鍵點定位的概述圖:(a)輸入圖像。 (b)PVNet的架構。 (c)指向目標關鍵點的逐像素單位矢量。 (d)語義標籤。 (e)通過投票產生的關鍵點假設。 (f)根據假設估算的關鍵點位置的概率分佈。

下面是結果示例:


•SilhoNet: An RGB Method for 6D Object Pose Estimation (2019.6)

自主機器人操縱涉及操縱目標的平移和方向,即6自由度(6D)姿勢估計。使用RGB-D數據的方法在解決此問題方面已顯示出巨大的成功。但是,在某些情況下,成本限制或工作環境可能會限制RGB-D傳感器的使用。當僅限於單攝像機時,姿勢估計的問題非常具有挑戰性。

對於某些應用程序(例如AR),瞭解目標在圖像中如何被遮擋是很重要的,在這些應用程序中,僅希望投影在目標的可見部分上。

這項工作介紹了基於RGB的深度學習方法SilhoNet,該方法可以根據單目圖像預測目標6D姿勢。它用一個CNN流水線(如圖所示),採用ROI提議來預測具有關聯遮擋模版和3D平移向量的目標中間輪廓(silhouette)表示。然後,3D朝向從預測的輪廓中迴歸。

上圖可以看出:該方法分兩階段,首先預測目標的中間輪廓表示和遮擋模版,以及描述3D平移的向量,然後從預測的輪廓迴歸3D朝向的四元數;網絡的輸入是RGB圖像,其中包含針對檢測到的目標ROI提議和相關的類別標籤。第一個階段用VGG16爲主幹,該主幹的末尾具有去卷積層,從RGB輸入圖像生成特徵圖(與PoseCNN中使用的相同);從輸入圖像中提取的特徵與來自一組渲染目標視點的特徵連接在一起,然後通過3個網絡分支,其中兩個具有相同的結構以預測完整的未遮擋輪廓和遮擋模版;第三分支預測3D矢量,該3D矢量在像素座標中對目標中心以及來自相機的目標中心的距離編碼;網絡的第二階段將預測的輪廓通過兩個FCL的ResNet-18架構,輸出表示2D朝向的L2歸一化四元數。

下圖是一個示例的遮擋和非遮擋輪廓預測:

 

繼續介紹,下面是最近半年的論文(2019-2020年)。


•Pix2Pose: Pixel-Wise Coordinate Regression of Objects for 6D Pose Estimation (2019.8)

由於存在諸如遮擋和對稱性等問題,僅使用RGB圖像估計目標的6D姿勢仍然具有挑戰性。沒有專家知識或專門的掃描設備,也很難構建具有精確紋理的3D模型。爲了解決這些問題,它提出了一種姿態估計方法Pix2Pose,它可以在沒有紋理模型的情況下預測每個目標像素的3D座標。該文設計一個自動編碼器(auto-encoder )體系結構,旨在估計每個像素的3D座標和誤差。然後,這些按像素進行的預測在多步中形成2D-3D對應關係,直接用RANSAC迭代的PnP算法計算姿態。該方法通過對抗性生成訓練來精確地恢復被遮擋的部分,其對遮擋是魯棒的。此外,提出了一種損失函數,即變換器損失(transformer loss),將預測引導至最接近的對稱姿態來處理對稱目標。

下圖是模型架構圖和訓練流水線:

Pix2Pose用目標的裁剪區域預測單個像素的3D座標。通過恢復被遮擋部分的3D座標並運用目標區域的所有像素進行姿勢預測,建立魯棒估計。

訓練一個單一網絡用於每個目標類。3D模型的紋理對於訓練和推理不是必需的。網絡輸入是檢測目標類別的邊框的裁剪圖像。

網絡輸出是目標座標中每個像素的標準化3D座標以及來自Pix2Pose網絡每個預測的估計誤差。目標輸出(target output)通過在真實姿態下繪製彩色座標模型,可以輕鬆導出真實輸出。

下圖是一個姿勢估計過程的示例。 圖像和二維檢測結果作爲輸入。 第一階段,預測結果用於指定重要像素並調整邊框,同時去除背景和不確定像素。 第二階段,有效座標值和較小誤差預測的像素,用附加RANSAC的PnP算法來估計姿態。 結果中,綠線和藍線表示真實姿勢和估計姿勢的目標3D邊框。

如圖是一些結果示例:


•Accurate 6D Object Pose Estimation by Pose Conditioned Mesh Reconstruction (2019.10)

當前的6D目標姿勢估計方法由針對單個目標完全優化的深CNN模型組成,但其結構在具有不同形狀的目標之間進行了標準化。這項工作明確地利用了每個目標的獨特拓撲信息,即在任何後期處理優化之前,其姿態估計模型中的3D密集網格(dense meshes)。

爲此,它提出了一個學習框架,其中圖卷積神經網絡(Graph Convolutional Neural Network )重構了目標的姿態條件3D網格(pose conditioned 3D mesh)。

在規範和重構密集3D網格之間可微分地計算Procrustes對齊(Procrustes’ alignment),可恢復同心圓朝向(allocentric orientation)的估計。使用附加模版和2D質心投影,自中心姿勢(egocentric pose)估計可以提升到6D。通過測量重構網格的質量可驗證其姿勢估計。

如圖是姿態估計的流水線圖:

給定單眼RGB輸入圖像,目標是估計剛性物體的完整6D姿勢。它旨在通過充分利用目標的先驗信息,以自動化的方式設計每個目標不同的體系結構。重建階段將已知目標的拓撲與圖像提取的編碼姿態信息結合在一起。估計的網格信息用於恢復目標的同心軸朝向。用預訓練的基於FasterRCNN的2D目標檢測器,採用訓練數據進行微調,以檢測2D空間中的目標。該檢測器用於裁剪目標ROI,用於高分辨率,在流水線的下一階段提取目標外觀的精細細節。注意,該特設(ad hoc)檢測器是獨立訓練的。

如圖是一些定性結果例子:


•DeepIM: Deep iterative matching for 6d pose estimation (2019.10)

儘管近來的幾種技術已將深度相機用於目標姿態估計,但是這種相機在幀速率、視場、分辨率和深度範圍方面具有侷限性,這使得很難檢測小、薄、透明或快速移動的物體。從圖像估計目標6D姿勢是各種應用(例如機器人操縱和虛擬現實)中的重要問題。雖然將圖像直接回歸到目標姿態的準確性有限,但是將目標的渲染圖像與輸入圖像進行匹配可以產生準確的結果。

這項工作爲6D姿勢匹配提出了一個名爲DeepIM的深度神經網絡。在給出初始姿勢估計的情況下,該網絡能夠通過將渲染的圖像與觀察到的圖像進行匹配來迭代地改善姿勢。用3D位置和3D方向的解纏表示法(disentangled representation)以及迭代訓練過程對網絡訓練預測其相對姿態變換。DeepIM能夠匹配以前沒見過的目標。

如圖所示是DeepIM的示意圖。 訓練網絡預測其相對SE(3)轉換,該轉換可以應用於初始姿勢估計並進行迭代的姿勢優化。 給定目標的6D姿勢估計(無論是來自PoseCNN還是來自先前迭代的姿勢)以及目標的3D模型,它都會在粗略姿勢估計下生成顯示目標外觀的渲染圖像。 利用渲染圖像和觀察圖像的圖像對,網絡可以預測相對變換,該變換可用於完善輸入姿勢估計。

觀察到的圖像、渲染的圖像和兩個模版被連接到網絡的8通道張量輸入(對於觀察/渲染的圖像爲3通道,每個模版爲1通道)。它使用FlowNetSimple架構作爲骨幹網絡,該網絡經過訓練可以預測兩個圖像之間的光流。姿勢估計分支將FlowNetSimple的10個卷積層之後的特徵圖作爲輸入。它包含兩個全連接層,每個層的尺寸均爲256,然後是兩個附加的全連接層,分別用於預測3D旋轉的四元數和3D平移。在訓練過程中,兩個輔助分支可以規範化網絡的特徵表示,並提高訓練的穩定性和性能。訓練一個分支以預測渲染圖像和觀察圖像之間的光流,另一分支被訓練以預測在觀察圖像中模版的前景模版。其原理直觀圖如下圖所示。

最後是一些試驗結果示例:


•CDPN: Coordinates-Based Disentangled Pose Network for Real-Time RGB-Based 6-DoF Object Pose Estimation (ICCV, 2019)

從單個RGB圖像進行6自由度目標姿態估計是計算機視覺中一個基本且長期存在的問題。當前的領先方法是通過訓練深度網絡來解決該問題的,該網絡可以直接從圖像中迴歸旋轉和平移;也可以構建2D-3D對應關係,並進一步通過PnP方法間接解決。

作者認爲旋轉和平移的顯着差異應區別對待。 這項工作提出了一種新穎的6自由度姿勢估計方法:基於座標的解纏姿勢網絡(CDPN,Coordinates-based Disentangled Pose Network),該方法可以解開姿勢分別預測旋轉和平移,實現高度準確和魯棒的姿勢估計。這種方法靈活和高效,可以處理沒有紋理和被遮擋的目標。

其步驟如圖所示,給定輸入圖像,先放大目標,然後解開旋轉和平移以進行估計。 具體而言,旋轉是通過PnP從預測的3D座標中解決的,而平移則直接從圖像中估算出來。

首先,其使用快速輕便的檢測器(例如微型YOLOv3)進行粗略檢測;其次,實現固定大小的分割以提取目標像素。對於檢測,姿態估計系統可以在很大程度上歸因於動態放大(DZI,Dynamic Zoom-In),因此可以忍受檢測誤差,故快速但精度較低的檢測器就足夠了。

分割,將其合併到座標迴歸,足夠輕和快。這個兩步流水線可以在各種情況下有效地提取準確的目標區域。在平移方面,爲了獲得更魯棒和準確的估計,從圖像而不是2D-3D對應關係進行預測,以避免在預測的3D座標中受到比例誤差的影響。縮放不變平移估計(SITE)方法不是從整個圖像上回歸平移,而是從檢測到的目標區域估計平移。這樣,將有關旋轉和平移的解纏結過程統一到單個網絡中,即基於座標的解纏姿勢網絡(CDPN)。

下面是一些結果例子:


•DPOD: 6D Pose Object Detector and Refiner (ICCV, 2019)

本文提出了一種僅從RGB圖像進行3D目標檢測和6D姿態估計的深度學習方法。此方法稱爲(DPOD,Dense Pose Object Detector)密集姿勢目標檢測器,用於估計輸入圖像和可用3D模型之間的密集多類2D-3D對應圖。給定對應關係,可通過PnP和RANSAC計算6DoF姿態。基於深度學習的定製細化方案對初始姿態估計值進行細化。

與其他用真實數據而不在合成渲染數據進行訓練的方法不同,它對合成和真實訓練數據都進行評估,與最近的檢測器相比,在細化之前/之後均顯示出優異的結果。儘管很精確,但所提出的方法仍具有實時能力。

如圖所示是DPOD的架構圖。

給定輸入的RGB圖像,具有編碼器-解碼器神經網絡的對應塊迴歸目標ID掩碼和對應圖。 後者提供了明確的2D-3D對應關係,而目標ID掩碼則估算了每個檢測目標應採用的對應關係。 然後,姿勢模塊基於PnP + RANSAC有效地計算各個6D姿勢。

DPOD的推理流水線分爲兩個模塊:對應模塊和姿勢模塊。對應塊由具有三個解碼器頭的編碼器-解碼器CNN組成,它們從大小爲320×240×3的RGB圖像中迴歸目標ID掩碼和密集的2D-3D對應圖。編碼器部分基於類似ResNet的12層架構,具有殘差層,可加快收斂速度。解碼器使用一堆雙線性內插和卷積層將特徵上採樣到其原始大小。

姿勢塊負責姿勢預測:給定估計的目標ID掩碼,觀察在圖像中檢測到哪些目標及其2D位置,而對應圖將每個2D點映射到實際3D模型的座標。然後,使用PnP(Perspective-n-Point)姿勢估計方法去估計6D姿勢。該方法在給定對應關係和照相機固有參數的情況下可估計照相機姿勢。

最後還有一個細化架構,如下圖所示:網絡會根據初始姿態建議預測精煉姿態。 真實圖像和渲染的作物被饋送到兩個平行的分支中。 計算出的特徵張量之差是爲了估計精確的姿勢。

最後一些結果例子:


•ConvPoseCNN: Dense Convolutional 6D Object Pose Estimation (2019.12)

基於特徵和基於模板的方法廣泛用於6D目標姿態估計。基於特徵的方法依賴於可區分的特徵,並且對於紋理較差的目標表現不佳。如果目標被部分遮擋,則基於模板的方法將無法正常工作。隨着深度學習方法成功地解決了一些圖像相關的問題,啓發或擴展這些模型已得到越來越多的使用。對稱目標對方位估計提出了特殊的挑戰,因爲存在多個解決方案或解決方案的多種形式。

這項工作介紹了ConvPoseCNN,一種全卷積體系結構,避免裁剪出單個目標。它提出了目標姿態的平移和朝向分量的像素級密集預測,其中密集朝向以四元數形式表示。它提出了用於密集朝向預測的不同聚合方法,包括平均和聚類方案。密集朝向預測隱式地學習如何對付無遮擋且特徵豐富的目標區域。下圖是ConvPoseCNN的示意圖:

如下圖所示:從PoseCNN派生的ConvPoseCNN體系結構,從RGB圖像預測每個目標的6D姿勢。該網絡從提取特徵的VGG16的卷積主幹開始。隨後在三個分支中對它們進行處理:預測像素級語義分割的全卷積分割分支,預測中心朝向和深度像素級估計的全卷積頂點分支,以及四元數估計分支 。分割和頂點分支結果組合在一起,在Hough變換層中爲目標中心投票。Hough變換層還預測檢測目標的邊框。然後,PoseCNN使用這些邊框來裁剪和合並提取的特徵,再將這些特徵輸入到全連接的神經網絡體系結構中。該全連接部分預測每個邊框的朝向四元數。

一些定性結果示例:


•LatentFusion: End-to-End Differentiable Reconstruction and Rendering for Unseen Object Pose Estimation (2019.12)

當前的6D目標姿態估計方法通常需要爲每個目標提供3D模型。這些方法還需要進行額外的訓練才能合併新目標。結果,它們難以擴展到大量目標,並且不能直接應用於沒見過的目標。

這項工作提出了一個沒見過目標的6D姿態估計框架。它設計了端到端神經網絡,該網絡使用少量目標的參考視圖來重建目標的潛在3D表示。用學習的3D表示,網絡可以從任意視圖渲染目標。使用該神經渲染器,可以根據輸入圖像直接優化姿勢。通過使用大量3D形狀訓練網絡進行重構和渲染,該網絡可以很好地推廣到沒見過的目標。此外,它提出了一個用於沒見過的物體姿態估計的數據集-MOPED(Model-free Object Pose Estimation Dataset)。

下圖是其流水線結構圖:

給定一組具有相關聯的目標姿態和目標分割掩碼的N個參考圖像,它試圖構建可以用任意相機參數渲染的目標表示。將目標表示爲潛在的3D體素網格,可使用標準3D轉換直接對其進行操作-自然地可以滿足新視圖渲染的要求。重建流水線有兩個主要組件:1)通過預測每個視圖的特徵容量並將其融合爲單個規範的潛在表示對目標建模; 2)將潛在表示渲染爲深度和彩色圖像。

建模步驟的靈感來自於空間雕刻(space carving),因爲該網絡從多個視圖中獲取觀察結果,並利用多視圖一致性來構建規範表示。渲染模塊獲取融合的目標體積,並在給定任意相機參數的情況下對其進行渲染。首先進行深度渲染,然後使用基於圖像的渲染方法來生成彩色圖像,並通過神經網絡保留高頻細節。

下圖是體系結構的高級概覽:1)該建模網絡獲得圖像和掩碼,並預測每個輸入視圖的特徵容量;然後,通過融合模塊將預測的特徵容量融合到單個規範的潛在目標中。 2)給定潛在目標,渲染網絡會爲任何一個輸出相機生成深度圖和掩碼。

下面是一些模型性能的比較表格:

注:Ref[6] X Deng, A Mousavian, Y Xiang, F Xia, T Bretl, and D Fox. “PoseRBPF: A rao-blackwellized particle filter for 6D object pose tracking”. Robotics: Science and Systems (RSS), 2019.


•HybridPose: 6D Object Pose Estimation under Hybrid Representations (2020.1)

HybridPose,一個6D目標姿態估計方法,利用混合中間表示在輸入圖像中表達不同的幾何信息,包括關鍵點、邊緣向量和對稱對應關係。與單一表示相比,當一種類型的預測表示不準確時(例如,遮擋),混合表示允許姿勢迴歸利用更多且多樣化的特徵。HybridPose利用強大的迴歸模塊來濾除預測的中間表示中的異常值。可以通過相同的簡單神經網絡預測所有中間表示,而不會犧牲整體性能。與SOA姿勢估計方法相比,HybridPose在運行時間上具有可比性,並且準確性更高。HybridPose代碼:https://github.com/chensong1995/HybridPose。

如圖所示是HybridPose運行的直觀圖:(a)輸入RGB圖像;(b)紅色標記表示預測的2D關鍵點;(c)邊緣向量由所有關鍵點之間的完全連接圖定義;(d)對稱對應關係將目標上的每個2D像素連接到其對稱的對應目標。

HybridPose的輸入是包含已知類別目標的圖像,假設該類目標具有規範的座標系(即3D點雲),在該座標系下HybridPose輸出圖像目標的6D相機姿態。HybridPose由預測模塊和姿勢迴歸模塊組成。HybridPose利用三個預測網絡來估計一組關鍵點、一組關鍵點之間的邊緣以及一組圖像像素之間的對稱對應關係。

關鍵點網絡採用了現成的預測網絡PVNet。邊緣網絡沿着預定義關鍵點圖預測邊緣向量,當關鍵點在輸入的圖像比較混亂時,這可以穩定姿勢迴歸。對稱網絡(FlowNet 2.0的擴展)預測反映基本(部分)反射對稱軸的對稱對應。姿態迴歸模塊優化目標的姿態適合三個預測網絡的輸出(如同遵循EPnP框架的P3P求解器)。如下圖是其架構圖:

下圖結果展示遮擋的處理示例:


• 6DoF Object Pose Estimation via Differentiable Proxy Voting Loss (2020.2)

由於存在遮擋或缺少紋理,因此從單個圖像估計6DOF目標姿勢非常具有挑戰性。基於矢量場的關鍵點投票已證明其在解決這些問題上的有效性和優越性。但是,矢量場的直接回歸忽略了像素和關鍵點之間的距離也極大地影響了假設的偏差。換句話說,當像素遠離關鍵點時,方向矢量的小誤差可能會產生嚴重偏離的假設。

本文旨在通過將像素和關鍵點之間的距離納入目標函數來減少此類誤差。爲此,它產生了可微分的代理投票損失(DPVL,differentiable proxy voting loss),該損失模擬了投票程序中的假設選擇。利用投票損失,可以端到端的方式訓練網絡。

下圖是DPVL示意圖: 假設方向矢量的估計誤差相同(例如α),則像素與關鍵點之間的距離會影響假設與關鍵點之間的接近度。 DPVL最小化代理假設fk(p⋆)與關鍵點ki之間的距離d⋆,以此實現關鍵點投票的準確假設。

下圖所示是該系統的流水線圖。這項工作着重於獲得準確的初始姿態估計。特別是,此方法旨在精確定位和估計目標的朝向和平移而無需任何改進。目標姿態由從目標座標系到攝像機座標系的剛性轉換表示。由於基於投票的方法已經證明了其對遮擋和視圖更改的魯棒性,因此這裏採用基於投票的姿勢估計流程。具體地,該方法首先從矢量場對目標關鍵點的2D位置進行投票,然後通過解決PnP問題來估計6DOF姿勢。

以前工作採用L1-loss(損失函數類型)迴歸逐像素的矢量場。但是,矢量場中的小誤差可能會導致假設的較大偏差誤差,因爲損失並未考慮像素與關鍵點之間的距離。因此,通過模擬投票過程中的假設選擇,提供了可微分代理投票損失(DPVL)以減少此類錯誤。此外,得益於DPVL,網絡可以更快地收斂。

最後展示的是一些結果例子:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章