【綜述翻譯】Deep Learning for 3D Point Clouds: A Survey

Deep Learning for 3D Point Clouds: A Survey爲國防科技大學發佈的綜述文章,這裏只翻譯摘要,第一章與第三章。
下載鏈接:https://arxiv.org/abs/1912.12033;
倉庫鏈接:https://github.com/QingyongHu/SoTA-Point-Cloud。

摘要

由於點雲學習在計算機視覺,自動駕駛和機器人等許多領域的廣泛應用,近來引起了越來越多的關注。作爲AI中的主要技術,深度學習已成功用於解決各種2D視覺問題。但是,由於使用深度神經網絡處理點雲所面臨的獨特挑戰,因此點雲上的深度學習仍處於起步階段。近年來,在點雲上的深度學習甚至變得蓬勃發展,提出了許多方法來解決該領域的不同問題。爲了激發未來的研究,本文對點雲深度學習方法的最新進展進行了全面的回顧。它涵蓋了三個主要任務,包括3D形狀分類,3D對象檢測和跟蹤以及3D點雲分割。它還提供了一些可公開獲得的數據集的比較結果,以及有見地的觀察和啓發性的未來研究方向。

索引詞-深度學習,點雲,3D數據,形狀分類,對象檢測,對象跟蹤,場景流,實例分割,語義分割,場景理解

隨着3D採集技術的飛速發展,3D傳感器變得越來越便宜可用,包括各種類型的3D掃描儀,LiDAR和RGB-D相機(例如Kinect,RealSense和Apple深度相機)[1]。這些傳感器獲取的3D數據可以提供豐富的幾何,形狀和比例信息[2],[3]。與2D圖像互補,3D數據爲更好地瞭解機器周圍環境提供了機會。 3D數據在不同領域具有衆多應用,包括自動駕駛,機器人技術,遙感,醫療和設計行業[4]。
3D數據通常可以用不同的格式表示,包括深度圖像,點雲,網格和體積網格。作爲一種常用格式,點雲表示將原始幾何信息保留在3D空間中,而不會進行任何離散化。因此,它是許多場景理解相關應用(例如自動駕駛和機器人技術)的首選表示形式。近年來,深度學習技術已主導了許多研究領域,例如計算機視覺,語音識別,自然語言處理(NLP)和生物信息學。然而,在3D點雲上進行深度學習仍然面臨數個重大挑戰[5],例如數據集規模小,維度高和3D點雲的非結構化性質。在此基礎上,本文着重分析用於處理3D點雲的深度學習方法。
點雲上的深度學習已吸引了越來越多的關注,尤其是在過去的五年中。還發布了一些公開可用的數據集,例如ModelNet [6],ShapeNet [7],ScanNet [8],Semantic3D [9]和KITTI Vision Benchmark Suite [10]。這些數據集進一步推動了對3D點雲的深度學習的研究,提出了越來越多的方法來解決與點雲處理有關的各種問題,包括3D形狀分類,3D對象檢測和跟蹤以及3D點雲分割。很少有關於3D數據的深度學習綜述,例如[11],[12],[13],[14]。但是,我們的論文是第一個專門針對點雲的深度學習方法的論文。此外,我們的論文全面涵蓋了分類,檢測,跟蹤和分割等不同應用。圖1顯示了3D點雲的現有深度學習方法的分類。
在這裏插入圖片描述
圖1:用於3D點雲的深度學習方法分類。
與現有文獻相比,這項工作的主要貢獻可以歸納如下:
1)據我們所知,這是第一篇針對3D形狀分類,3D對象檢測和跟蹤以及3D點雲分割等重要點雲相關任務全面涵蓋深度學習方法的綜述論文。
2)與現有的[11],[12]相反,我們專門關注於3D點雲的深度學習方法,而不是所有類型的3D數據。
3)本文涵蓋了點雲上深度學習的最新和最先進的進展。因此,它爲讀者提供了最新的方法。
4)提供了現有方法在幾個可公開獲得的數據集上的全面比較(例如,表1、2、3、4),並給出了簡短的摘要和有見地的討論。

算法對比:

3D對象檢測和跟蹤
在本節中,我們將回顧3D對象檢測,3D對象跟蹤和3D場景流估計的現有方法。

3.1 3D對象檢測

3D對象檢測的任務是在給定場景中準確定位所有感興趣的對象。類似於圖像中的對象檢測[96],3D對象檢測方法可分爲兩類:基於區域提議的方法和single shot方法。圖6展示了幾種里程碑方法。
在這裏插入圖片描述
圖6:按時間順序概述的最相關的基於深度學習的3D對象檢測方法。

3.1.1基於區域提案的方法

這些方法首先提議幾個包含對象的可能區域(也稱爲提議),然後提取區域特徵來確定每個提議的類別標籤。根據其對象提案生成方法,這些方法可以進一步分爲三類:基於多視圖,基於分割和基於視錐的方法。
多視圖方法。 這些方法融合了來自不同視圖的建議性特徵(例如,LiDAR前視圖,鳥瞰圖(BEV)和圖像)以獲得3D旋轉框,如圖7(a)所示。這些方法的計算成本通常很高。
Chen等。 [4]從BEV地圖中生成了一組高度精確的3D候選框,並將其投影到多個視圖的特徵圖(例如LiDAR前視圖圖像,RGB圖像)。然後,他們將這些從不同視圖獲得的區域特徵進行組合,以預測定向的3D邊界框,如圖7(a)所示。儘管此方法在只有300個提議的情況下以0.25的交叉路口(IoU)召回率達到99.1%,但對於實際應用而言,它的速度仍然太慢。隨後,從兩個方面開發了幾種方法來改進多視圖3D對象檢測方法。
首先,已經提出了幾種方法來有效地融合不同模態的信息。爲了生成對小物體具有較高召回率的3D建議,Ku等人[97]提出了一種基於多模式融合的區域提議網絡。他們首先使用裁剪和調整大小操作從BEV和圖像視圖中提取大小相等的特徵,然後使用逐元素均值合併融合這些特徵。樑等[98]利用連續卷積來實現圖像和3D LiDAR特徵圖在不同分辨率下的有效融合。具體來說,他們爲BEV空間中的每個點提取了最接近的對應圖像特徵,然後使用雙線性插值法將圖像特徵投影到BEV平面中以獲得密集的BEV特徵圖。實驗結果表明,密集的BEV特徵圖比離散圖像特徵圖和稀疏LiDAR特徵圖更適合3D對象檢測。樑等[99]提出了一種用於端到端訓練的多任務多傳感器3D對象檢測網絡。具體而言,可以利用多種任務(例如2D目標檢測,地面估計和深度補全)來幫助網絡學習更好的特徵表示。進一步利用學習到的跨模態表示來產生高度準確的對象檢測結果。實驗結果表明,該方法在2D,3D和BEV檢測任務上取得了顯着改進,並且優於TOR4D基準[100],[101]上的最新技術。
其次,已經研究了不同的方法來提取輸入數據的魯棒表示。 Lu等。 [102]通過引入空間通道注意力(SCA)模塊探索了多尺度上下文信息,該模塊捕獲了場景的全局和多尺度上下文並突出了有用的特徵。他們還提出了擴展空間非採樣(ESU)模塊,通過組合多尺度低層特徵來獲得具有豐富空間信息的高層特徵,從而生成可靠的3D對象建議。儘管可以實現更好的檢測性能,但是上述多視圖方法需要較長的運行時間,因爲它們爲每個建議執行特徵池化。隨後,Zeng等人[103]使用pre-RoI池化卷積來提高[4]的效率。具體來說,他們將大多數卷積運算移到了RoI池化模塊的前面。因此,RoI卷積對於所有對象建議都執行一次。實驗結果表明,該方法可以11.1 fps的速度運行,是MV3D的5倍[4]。

在這裏插入圖片描述
圖7:三類3D對象檢測方法的典型網絡。 從上到下:(a)基於多視圖的(b)基於分割的方法和(c)基於視錐的方法。
基於分割的方法。 這些方法首先利用現有的語義分割技術來去除大多數背景點,然後在前景點上生成大量高質量的建議以節省計算量,如圖7(b)所示。與多視圖方法[4],[97],[103]相比,這些方法實現了更高的對象召回率,並且更適合於對象被高度遮擋和擁擠的複雜場景。
楊等。 [104]使用2D分割網絡來預測前景像素,並將其投影到點雲中以去除大多數背景點。然後,他們在預測的前景點上生成提案,並設計了一個名爲PointsIoU的新標準,以減少提案的冗餘性和歧義性。繼[104]之後,Shi等人[105]提出了一個PointRCNN框架。具體來說,他們直接分割3D點雲以獲得前景點,然後融合語義特徵和局部空間特徵以生成高質量3D框。繼[105]的RPN階段之後,Jesus等人[106]提出了一項開拓性的工作,以利用圖卷積網絡(GCN)進行3D對象檢測。具體來說,引入了兩個模塊以使用圖卷積來完善對象建議。第一個模塊R-GCN利用提案中包含的所有點來實現按提案的特徵聚合。第二個模塊C-GCN將所有提案中的每幀信息融合在一起,以通過利用上下文來回歸準確的對象框。 Sourabh等[107]將點雲投影到基於圖像的分割網絡的輸出中,並將語義預測分數附加到這些點上。將繪製的點饋送到現有的檢測器[105],[108],[109]中,以實現顯着的性能改進。楊等[110]將每個點與球形錨點關聯。然後,使用每個點的語義評分來刪除多餘的錨點。因此,與先前的方法[104],[105]相比,該方法以較低的計算成本實現了更高的召回率。另外,提出了一個PointsPool層來學習提議中內部點的緊湊特徵,並引入了一個並行的IoU分支來提高定位精度和檢測性能。實驗結果表明,該方法在KITTI數據集[10]的困難集(汽車類)上明顯優於其他方法[99],[105],[111],並且以12.5 fps的速度運行。
基於視錐的方法。 這些方法首先利用現有的2D對象檢測器生成對象的2D候選區域,然後爲每個2D候選區域提取3D視錐提案,如圖7(c)所示。儘管這些方法可以有效地建議3D對象的可能位置,但分步流水操作使其性能受到2D圖像檢測器的限制。
F-PointNets [112]是這個方向的開拓性工作。它爲每個2D區域生成一個視錐提案,並應用PointNet [5](或PointNet ++ [27])來學習每個3D視錐的點雲特徵,以進行模態3D框估計。在後續工作中,Zhao等人。 [113]提出了一種Point-SENet模塊來預測一組比例因子,這些比例因子還用於自適應地突出顯示有用的特徵並抑制信息量少的特徵。他們還將PointSIFT [114]模塊集成到網絡中以捕獲點雲的方向信息,從而獲得了強大的形狀縮放魯棒性。與F-PointNets [112]相比,該方法在室內和室外數據集[10] [115]上均取得了顯着改善。
徐等[116]利用2D圖像區域及其對應的平截頭體點來精確地迴歸3D框。爲了融合點雲的圖像特徵和全局特徵,他們提出了用於框角位置直接回歸的全局融合網絡。他們還提出了一個密集的融合網絡,用於預測每個角的逐點偏移。 Shin等[117]首先從2D圖像中估計對象的2D邊界框和3D姿勢,然後提取多個在幾何上可行的對象候選對象。這些3D候選對象被輸入到框迴歸網絡中,以預測準確的3D對象框。 Wang等[111]沿着截頭圓錐體軸爲每個2D區域生成了一系列截頭圓錐體,並應用PointNet [5]爲每個截頭圓錐體提取特徵。對視錐級別的特徵進行了重新生成以生成2D特徵圖,然後將其輸入到完全卷積的網絡中以進行3D框估計。該方法在基於2D圖像的方法中達到了最先進的性能,並在官方KITTI排行榜中排名第一。 Lehner等[118]首先在BEV圖上獲得了初步的檢測結果,然後根據BEV預測提取了小點子集(也稱爲圖塊)。應用局部優化網絡來學習圖塊的局部特徵,以預測高度精確的3D邊界框。
其他方法。 得益於軸對齊IoU在圖像目標檢測中的成功,Zhou等人[119]將兩個3D旋轉邊界框的IoU集成到幾個最先進的檢測器[105],[109],[120]中,以實現一致的性能改進。 Chen等[121]提出了一個兩階段的網絡架構,以同時使用點雲和體素表示。首先,將點雲體素化並饋入3D骨幹網絡以產生初始檢測結果。第二,進一步利用初始預測的內點特徵來進行box優化。儘管此設計從概念上講很簡單,但在保持16.7 fps速度的同時,可達到與PointRCNN [105]相當的性能。
受基於Hough投票的2D對象檢測器的啓發,Qi等[122]提出了VoteNet直接對點雲中對象的虛擬中心點進行投票的方法,並通過彙總投票特徵來生成一組高質量的3D對象建議。 VoteNet僅使用幾何信息就大大優於以前的方法,並在兩個大型室內基準(即ScanNet [8]和SUN RGB-D [115])上實現了最先進的性能。但是,對於部分遮擋的對象,虛擬中心點的預測是不穩定的。此外,馮等[123]添加了方向矢量的輔助分支,以提高虛擬中心點和3D候選框的預測精度。此外,構建提案之間的3D對象-對象關係圖以強調用於精確對象檢測的有用特徵。 Shi等人的發現啓發了3D對象的地面真相框提供對象內部零件的準確位置。 [124]提出了P art A2網絡,它由部分感知階段和部分聚集階段組成。零件感知階段使用具有稀疏卷積和稀疏反捲積的類UNet網絡來學習點狀特徵,以預測和粗略生成對象內零件位置。零件彙總階段採用RoI感知池來彙總預測零件的位置,以進行box評分和位置優化。

3.1.2 single-shot方法

這些方法使用單階段網絡直接預測類概率並回歸對象的3D邊界框。這些方法不需要區域提議的生成和後處理。結果,它們可以高速運行,非常適合實時應用。根據輸入數據的類型,單次拍攝方法可分爲兩類:基於BEV的方法和基於點雲的方法。
基於BEV的方法。 這些方法主要以BEV表示爲輸入。楊等[100]離散化了具有等距像元的場景的點雲,並以類似的方式對反射率進行編碼,從而得到規則的表示。然後,使用完全卷積網絡(FCN)來估計對象的位置和航向角。這種方法在以28.6 fps的速度運行時,勝過大多數single-shot方法(包括VeloFCN [125],3D-FCN [126]和Vote3Deep [127])。後來,楊等人[128]利用高清(HD)映射提供的幾何和語義先驗信息來提高[100]的魯棒性和檢測性能。具體來說,他們從HD地圖中獲取了地面點的座標,然後用相對於地面的距離替換了BEV表示中的絕對距離,以彌補由道路坡度引起的平移差異。此外,他們沿通道維度將二進制路面掩模與BEV表示連接起來,以專注於移動物體。由於高清地圖並非隨處可用,因此他們還提出了在線地圖預測模塊,以從單個LiDAR點雲中估計地圖先驗。該地圖感知方法在TOR4D [100],[101]和KITTI [10]數據集上明顯優於其基線。但是,其針對不同密度的點雲的泛化性能很差。爲了解決這個問題,Beltran等人[129]提出了一個歸一化圖來考慮不同LiDAR傳感器之間的差異。歸一化圖是具有與BEV圖相同的分辨率的2D網格,它對每個單元中包含的最大點數進行編碼。結果表明,該歸一化圖顯着提高了基於BEV的檢測器的歸納能力。
基於點雲的方法。 這些方法將點雲轉換爲常規表示形式(例如2D地圖),然後應用CNN預測對象的類別和3D框。
Li等[125]提出了使用FCN進行3D對象檢測的第一種方法。他們將點雲轉換爲2D點圖,並使用2D FCN預測對象的邊界框和置信度。後來,他們[126]將點雲離散爲具有長度,寬度,高度和通道尺寸的4D張量,並將基於2D FCN的檢測技術擴展到3D域以進行3D對象檢測。與[125]相比,基於3D FCN的方法[126]獲得的準確度超過20%以上,但是由於3D卷積和數據稀疏性,不可避免地要花費更多的計算資源。爲了解決體素的稀疏性問題,Engelcke等人[127]利用以特徵爲中心的投票方案爲每個非空體素生成一組投票,並通過累積投票獲得卷積結果。它的計算複雜度方法與所佔用體素的數量成正比。 Li等[130]通過堆疊多個稀疏3D CNN構造了3D骨幹網絡。此方法旨在通過充分利用體素的稀疏性來節省內存並加速計算。這個3D骨幹網絡提取了豐富的3D特徵用於對象檢測,而不會帶來繁重的計算負擔。
周等[108]提出了一種基於體素的端到端可訓練框架VoxelNet。他們將點雲劃分爲等距的體素,並將每個體素中的要素編碼爲4D張量。然後連接區域提議網絡以產生檢測結果。儘管其性能強,但由於體素稀疏和3D卷積,該方法非常慢。後來,Yan等[120]使用稀疏卷積網絡[134]來提高[108]的推理效率。他們還提出了正弦誤差角損失,以解決0和π方向之間的歧義。 Sindagi等[131]通過在早期融合圖像和點雲特徵來擴展VoxelNet。具體來說,他們將[108]生成的非空體素投影到圖像中,並使用預訓練網絡爲每個投影體素提取圖像特徵。然後將這些圖像特徵與體素特徵連接在一起,以生成準確的3D框。與[108],[120]相比,該方法可以有效地利用多模式信息來減少誤報。 Lang等[109]提出了一種名爲PointPillars的3D對象檢測器。這種方法利用PointNet [5]來學習垂直列(柱)中組織的點雲的特徵,並將學習到的特徵編碼爲僞圖像。然後將2D對象檢測管線應用於預測3D邊界框。就平均精度(AP)而言,PointPillars優於大多數融合方法(包括MV3D [4],RoarNet [117]和AVOD [97])。而且,PointPillars在3D和BEV KITTI [10]基準上均可以62 fps的速度運行,使其非常適合實際應用。
其他方法。 Meyer等[132]提出了一種稱爲LaserNet的高效3D對象檢測器。該方法預測每個點在邊界框上的概率分佈,然後組合這些每點分佈以生成最終的3D對象框。此外,將點雲的密集範圍視圖(RV)表示用作輸入,並提出了一種快速均值漂移算法來減少按點預測所產生的噪聲。 LaserNet在0至50米的範圍內實現了最先進的性能,其運行時間大大低於現有方法。 Meyer等[133]然後擴展LaserNet以利用RGB圖像(例如50至70米)提供的密集紋理。具體來說,他們通過將3D點雲投影到2D圖像上來將LiDAR點與圖像像素相關聯,並利用這種關聯將RGB信息融合到3D點中。他們還認爲3D語義分割是學習更好的表示形式的輔助任務。該方法在遠程(例如50至70米)目標檢測和語義分割方面均實現了顯着改進,同時保持了LaserNet的高效率[132]。

3.2 3D對象跟蹤

給定對象在第一幀中的位置,對象跟蹤的任務是估計其在後續幀中的狀態[135],[136]。由於3D對象跟蹤可以使用點雲中的豐富幾何信息,因此有望克服基於2D圖像的跟蹤所面臨的一些缺點,包括遮擋,照明和比例變化。
受到基於圖像的對象跟蹤的孿生網絡[137]的啓發,Giancola等人[138]提出了一種具有形狀補全規則化的3D孿生網絡。具體來說,他們首先使用卡爾曼濾波器生成候選,然後使用形狀正則化將模型和候選編碼爲緊湊的表示形式。餘弦相似度然後用於在下一幀中搜索被跟蹤對象的位置。這種方法可以用作對象跟蹤的替代方法,並且明顯優於大多數2D對象跟蹤方法,包括Staple CA [139]和SiamFC [137]。爲了有效地搜索目標物體,Zarzar等人[140]利用2D孿生網絡在BEV表示上生成大量的粗略候選對象。然後,他們通過利用3D孿生網絡中的餘弦相似度來優化候選。這種方法在精度(即18%)和成功率(即12%)方面均明顯優於[138]。西蒙等[141]提出了一種語義點雲的3D對象檢測和跟蹤架構。他們首先通過融合2D視覺語義信息生成體素化的語義點雲,然後利用時間信息來提高多目標跟蹤的準確性和魯棒性。此外,他們引入了功能強大且簡化的評估指標(即“標度-旋轉-翻譯分數(SRF)”),以加快訓練和推理速度。他們提出的Complexer-YOLO提出了有希望的跟蹤性能,並且仍然可以實時運行。

3.3 3D場景流估計

與2D視覺中的光流估計類似,幾種方法已經開始從一系列點雲中學習有用的信息(例如3D場景流,時空信息)。
劉等[142]提出了FlowNet3D,以直接從一對連續的點雲中學習場景流。 FlowNet3D通過流嵌入層學習點級特徵和運動特徵。但是,FlowNet3D存在兩個問題。首先,一些預測的運動矢量在方向上與真實情況大不相同。其次,很難將FlowNet應用於非靜態場景,尤其是對於以可變形對象爲主的場景。爲了解決這個問題,王等人[143]引入了餘弦距離損失,以最小化預測值與真實值之間的夾角。此外,他們還提出了點到平面的距離損失,以提高剛性和動態場景的精度。實驗結果表明,這兩個損失項將FlowNet3D的準確性從57.85%提高到63.43%,並加快並穩定了訓練過程。 Gu等[144]提出了一種分層多面體格流網(HPLFlowNet)來直接估計來自大規模點雲的場景流。提出了幾個雙邊卷積層以從原始點雲恢復結構信息,同時降低了計算成本。
爲了有效地處理順序點雲,Fan和Yang [145]提出了PointRNN,PointGRU和PointLSTM網絡以及一個序列到序列模型來跟蹤運動點。 PointRNN,PointGRU和PointLSTM能夠捕獲時空信息併爲動態點雲建模。同樣,劉等[146]提出MeteorNet直接從動態點雲中學習表示。該方法學習從時空相鄰點聚合信息。進一步引入直接分組和鏈流分組來確定時間鄰居。但是,上述方法的性能受到數據集規模的限制。米塔爾等[147]提出了兩個自監督的損失來訓練他們的網絡上的大型未標記數據集。他們的主要思想是,魯棒的場景流估計方法在前向和後向預測中均應有效。由於場景流注釋不可用,因此預測的變換點的最近鄰居被視爲僞真實值。但是,真實的真實值可能與最近的點不同。爲避免此問題,他們計算了反向的場景流,並提出了循環一致性損失,以將點轉換爲原始位置。實驗結果表明,這種自我監督方法超越了基於監督學習的方法的最新性能。

主要結果:

在這裏插入圖片描述
在這裏插入圖片描述

KITTI [10]基準是自動駕駛中最具影響力的數據集之一,已在學術界和工業界普遍使用。表2和表3分別顯示了在KITTI 3D和BEV基準測試中,不同檢測器所獲得的結果。可以觀察到以下幾點:
基於區域提議的方法是這兩種方法中研究最頻繁的方法,並且在KITTI 3D測試和BEV基準測試中都大大優於單發方法。
現有的3D對象檢測器有兩個限制。首先,現有方法的遠程檢測能力相對較差。其次,如何充分利用圖像中的紋理信息仍然是一個未解決的問題。
多任務學習是3D對象檢測的未來方向。例如,MMF [99]學習了一種跨模態表示,通過合併多個任務來實現最新的檢測性能。
3D對象跟蹤和場景流估計是新興的研究主題,自2019年以來逐漸吸引了越來越多的關注。

請各位關注公衆號。更多的文章可以關注公衆號查看。
在這裏插入圖片描述

發佈了32 篇原創文章 · 獲贊 29 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章