多傳感器數據深度圖的融合:最近基於深度學習的方法

最近討論過數據層傳感器融合問題,特別是最近採用深度學習方法估計深度圖的方法。主要是激光雷達等深度傳感器的數據比較稀疏分辨率低(特別是便宜的低線束激光雷達),好處是數據可靠性高;而攝像頭傳感器獲取的圖像比較緻密並分辨率高,缺點是獲取的深度數據可靠性差。下面介紹一下最近看到的深度學習方法。

“HMS-Net: Hierarchical Multi-scale Sparsity-invariant Network for Sparse Depth Completion ”2018

密集的深度線索對於各種計算機視覺任務很重要。在自動駕駛中,激光雷達傳感器用於獲取車輛周圍的深度測量值以感知周圍環境。然而,由於其硬件限制,激光雷達的深度圖通常是稀疏的。最近深度圖完整吸引了越來越多的關注,其目的是從輸入的稀疏深度圖生成密集的深度圖。

爲了有效利用多尺度特徵,這裏提出3種稀疏性不變(sparsity-invariant)操作。基於此,稀疏不變(sparsity-invariant)分層多尺度編碼器/解碼器網絡(hierarchical multi-scale encoder-decoder network,HMS-Net)用於處理稀疏輸入和稀疏特徵圖。可以合併其他RGB特徵,以進一步提高深度完整系統的性能。

如圖所示:(a)稀疏不變卷積的CNN只能逐漸對特徵圖進行下采樣,在以後階段失去大量分辨率;(b)提出的稀疏不變編碼器-解碼器網絡可以有效地融合來自不同層的多尺度特徵做深度完整。

以下依次是三個稀疏不變操作:(a) 稀疏不變雙線性上採樣、(b) 稀疏不變疊加、和 © 聯合稀疏不變的聯結和卷積。

a

b

c

之前用於密集像素分類的多尺度編碼器-解碼器網絡結構有U-Net、特徵金字塔網絡(FPN)和全分辨率殘差網絡(FRN)。將稀疏不變卷積直接集成到這些多尺度結構不可行,因爲那些結構還需要其他操作做多尺度特徵融合,如稀疏不變特徵上採樣,加法和串聯。

如圖是基於上述三個稀疏不變操作的的分級多尺度編碼器-解碼器網絡(HMS-Net)結構,用於深度圖完整化,(a)是不帶RGB引導的架構,(b)是帶RGB引導的架構。

圖(a)提出兩個基本構建塊,一個2-尺度塊和一個3-尺度塊,由稀疏不變操作組成。2-尺度塊具有一條上路徑,通過k×k稀疏不變卷積非線性地變換全分辨率低層特徵。而一條下路徑將下采樣的低層特徵作爲輸入,通過另一個k×k卷積學習高層特徵(k = 5)。然後,對生成的高層特徵進行上採樣,並添加到全分辨率低層特徵。與2-尺度塊相比,3-尺度塊將特徵從兩個較高層融合到上低層特徵路徑中,利用更多輔助的全局信息。這樣,全分辨率的低層特徵可以有效地與高層信息融合在一起,並經過多次非線性轉換學習更復雜的預測函數。最終網絡在第一層運行5×5稀疏不變卷積;生成的特徵經過3-尺度塊,然後做稀疏不變最大池化,再進行三次上採樣生成全分辨率特徵圖。最終特徵圖通過一個1×1卷積層轉換生成最終的逐像素預測結果。

圖(b)輸入圖像首先由RGB子網絡處理得到中層RGB特徵。子網的結構遵循ERFNet的前六個模塊,由兩個下采樣模塊和四個殘差模塊組成。下采樣塊有2×2卷積層(步幅爲2)和2×2最大池化層。輸入特徵同時饋入到兩層,其結果沿着通道維聯結在一起,獲得1/2大小的特徵圖。殘差塊的主路徑有兩組:1×3 conv → BN → ReLU → 3×1 conv → BN → ReLU。由於中層RGB特徵下采樣至原始大小的1/4,因此它們會被放大到輸入圖像的原始大小。通過一系列卷積對上採樣RGB特徵進行轉換,充當附加的引導信號,並與不同多尺度塊的低層稀疏深度特徵圖相連。

如圖是HMS-Net和其他方法的實驗結果比較:(a)輸入稀疏深度圖示例,(b)相應的RGB圖像,(c)ADNN(基於壓縮感知)的結果,(d)稀疏不變卷積的結果,(e)手工製作的傳統(形態)圖像處理方法得出的結果,以及(f)HMS-Net的結果。

“Sparse and noisy LiDAR completion with RGB guidance and uncertainty”2019.2

這項工作提出了一種新方法,可以精確地完整化RGB圖像引導的稀疏激光雷達深度圖。對於自動駕駛車輛和機器人,必須使用激光雷達才能實現精確的深度預測。大量的應用程序取決於對周圍環境的瞭解,並使用深度線索進行推理並做出相應的反應。一方面,單目深度預測方法無法生成絕對且精確的深度圖。另一方面,基於激光雷達的方法仍然明顯優於立體視覺方法。

深度完整(depth completion)任務的目標是從稀疏、不規則、映射到2D平面的點雲生成密集的深度預測。這裏提出了一個框架,同時提取全局和局部信息生成適當的深度圖。簡單的深度完整並不需要深度網絡。但是,該文提出一種融合方法,由單目相機提供RGB指導,利用目標信息並糾正稀疏輸入數據的錯誤,這樣大大提高了準確性。此外,利用置信度掩碼考慮來自每種模態深度預測的不確定性。

注:原代碼在https://github.com/wvangansbeke/Sparse-Depth-Completion

如圖所示,該框架由兩部分組成:位於頂部的全局分支和位於下方的局部分支。 全局路徑輸出三個圖:引導圖,全局深度圖和置信度圖(guidance map, global depth map,confidence map)。 局部圖通過全局網絡的引導圖預測置信度圖)和局部深度圖(local depth map)。 該框架在後期融合方法中基於置信度圖融合了全局和局部信息。

全局網絡是基於ERFNet(實時分割網絡模型)的編解碼器網絡,而局部網絡是堆疊的沙漏網絡(hourglass network)。後者由兩個沙漏模塊組成,獲得原始深度預測的殘差,總共只有350k參數。每個模塊由六層組成,小感受野,通過跨步卷積(strided convolutions)做兩次下采樣。在第一個卷積層和第一個沙漏模塊的編碼器中,沒有批次歸一化(BN),因爲零的數量會使該層的參數產生偏差,尤其是在輸入稀疏度變化的情況下。

以利用全局信息,全局引導圖與稀疏的激光雷達框架融合在一起,類似於前融合對局部網絡的引導。將置信度圖與其深度圖相乘並添加來自兩個網絡的預測,可以生成最終預測。置信度圖的概率用softmax函數計算。該選擇過程,從全局深度圖選擇像素,或者從堆疊的沙漏模塊中選擇調整的深度值。因此,最終的深度預測dˆ開發置信度圖X和Y。

如圖看結果。

“3D LiDAR and Stereo Fusion using Stereo Matching Network with Conditional Cost Volume Normalization”2019.4

主動和被動深度測量技術的互補特性促使激光雷達傳感器和立體雙目相機融合,以改善深度感知。作者不直接融合激光雷達和立體視覺模塊來估計深度,而是利用帶兩種增強技術的立體匹配網絡:激光雷達信息的輸入融合和條件成本容積歸一化(Conditional Cost Volume Normalization,CCVNorm)。 所提出的框架是通用的,並且緊密地與立體匹配神經網絡中成本容積組件集成。

如圖是3D 激光雷達和立體視覺融合方法的插圖。立體匹配流水線的概念包括立體圖像對2D特徵提取、像素對應以及最終視差計算。與立體匹配網絡緊密集成的(1)輸入融合和(2)條件成本容積歸一化(CCVNorm)。 通過利用激光雷達和立體視覺模塊的互補性,該模型可以生成高精度的視差估計。

3D LiDAR和立體融合框架的概述如圖所示:(1)輸入融合,將稀疏的激光雷達深度的幾何信息與RGB圖像結合起來,作爲成本計算階段的輸入,學習聯合的特徵表示;以及(2)CCVNorm代替批量歸一化 (BN)層,在立體匹配網絡的成本正則化(Regularization)階段以激光雷達數據爲條件調製成本容積特徵F。

在立體匹配網絡的成本計算階段,立體雙目對的左圖像和右圖像都經過卷積層以提取特徵。在輸入融合(Input Fusion),通過深度變成視差的三角化原理,將激光雷達掃描重新投影到左右圖像座標轉換爲深度,從而形成與立體圖像相對應的兩個稀疏激光雷達深度圖。

而將稀疏的激光雷達深度點信息納入立體匹配網絡的成本正則化階段(即3D-CNN),學習去減少匹配的搜索空間並解決多義性問題。

受條件批量歸一化(Conditional Batch Normalization,CBN)的啓發,這裏條件成本容積歸一化(CCVNorm)將稀疏的激光雷達信息編碼爲4-D成本容積的C×H×W×D特徵。由於以下三點考慮,在立體匹配網絡中直接將CBN直接應用於3D-CNN可能會引起問題:(1)設置的條件輸入是一個稀疏圖,其像素間的值一直變化 ,這意味着歸一化參數按像素進行; (2)需要一種替代策略來解決稀疏圖中包含的無效信息; (3)稀疏圖中的有效值對成本容積的每個視差級有不同的貢獻。因此,CCVNorm根據成本特性更好地協調3D激光雷達信息,以解決上述問題。

這裏採用兩種不同的方法構造CCVNorm:

1) 分類CCVNorm(categorical CCVNorm):構造一個Dˆ-條目查找表,每個元素作爲D×C向量,將激光雷達值映射到不同特徵通道和視差級別的歸一化參數{γ,β},其中激光雷達深度值離散化爲Dˆ 級的條目索引。

2) 連續CCVNorm(Continuous CCVNorm):用CNN將稀疏激光雷達數據與D×C通道的歸一化參數之間連續映射建模。這裏用ResNet34的第一個塊編碼激光雷達數據,然後分別在不同層對CCVNorm進行一次1×1卷積。

爲了減小模型大小,文中提出CCVNorm的分層擴展,即HierCCVNorm。如圖是CCVNorm的示意圖。每個像素(紅色虛線框),基於相應激光雷達數據的離散視差,分類CCVNorm從Dˆ條目查找表中選擇調製參數γ,而無效值的激光雷達點採用附加參數集單獨處理(灰色表示)。 另一方面,HierCCVNorm通過2步分級調製生成γ。

如圖顯示的是,該方法與其他基準方法及其變型相比,通過利用激光雷達和立體視覺模塊的互補特性來捕獲複雜結構區域(白色虛線框)中的細節。

“Deep RGB-D Canonical Correlation Analysis For Sparse Depth Completion”2019.6

完整關聯網絡(Correlation For Completion Network,CFCNet)是一種端到端的深度模型,用RGB信息做稀疏深度完整化。2D深度規範相關性分析(2D deep canonical correlation analysis,2D2CCA),作爲網絡約束條件,可確保RGB和深度的編碼器捕獲最相似語義信息。

該網絡將RGB特徵轉換到深度域,並且互補的RGB信息用於完整丟失的深度信息。完整的密集深度圖被視爲由兩部分組成。一個是可觀察並用作輸入的稀疏深度,另一個是無法觀察和恢復的深度。

同樣,相應深度圖的整個RGB圖像可以分解爲兩部分,一個稱爲稀疏RGB,在稀疏深度可觀察位置保留相應的RGB值,另一部分是互補RGB(complementary RGB),即從整個RGB圖像中減去稀疏RGB的部分。在訓練期間,CFCNet會學習稀疏深度和稀疏RGB之間的關係,並用所學知識從互補RGB中恢復不可觀察的深度。

如圖所示,輸入的0-1稀疏掩碼錶示深度圖的稀疏模式。 互補掩碼(complementary mask)與稀疏掩碼互補。通過掩碼將整個圖像分爲稀疏RGB和互補RGB,然後將它們與掩碼一起饋入網絡。CFCNet接受稀疏深度圖,稀疏RGB和互補RGB。在類似VGG16的編碼器中使用稀疏-覺察注意卷積(Sparsity-aware Attentional Convolutions,SAConv)。

SAConv受到局部注意掩碼(local attention mask,LAM)的啓發,LAM引入了分割-覺察掩碼(segmentation-aware mask),使卷積“聚焦”在與分割掩碼一致的信號上。如圖是SAConv架構圖。 ⊙Hadamard積,⊗卷積, +逐元加法。 對於卷積和最大池化,其內核大小3×3,步幅(stride)1。

爲了傳播來自可靠來源的信息,用稀疏性掩碼(sparsity masks)使卷積操作參與來自可靠位置的信號。與局部注意掩碼LAM的區別在於,SAConv不應用掩碼歸一化,它會影響之後2D2CCA的計算穩定性,原因是多次歸一化後它產生的數值較小的提取特徵。此外,在SAConv之後對掩碼使用最大池化操作以跟蹤其可見性。如果卷積核可見至少一個非零值,則最大池化將在該位置處計算得到值爲1。

規範相關性分析(canonical correlation analysis ,CCA)是一種標準的統計技術,學習跨多個原始數據空間的共享子空間。對於兩種模態,從共享子空間來看,每個表示形式對另一個的預測最強,而另一個的可預測性也最高。在小樣本高維空間(high-dimensional space with small sample size,SSS)情況下,單向CCA(one-directional CCA)方法會遇到協方差矩陣的奇異性問題。所以,現在的方法已將CCA擴展爲雙向(two-directional)方式,以避免SSS問題。

大多數多模態深度學習方法只是聯結或逐元添加瓶頸特徵。但是,當元素之間提取的語義和特徵數值範圍不同時,多模態數據源的直接聯結接和添加不會比單模態數據源產生更好的性能。爲避免此問題,這裏用編碼器從兩個分支提取更高級別的語義,2D2CCA確保從兩個分支提取的特徵具有最大的相關性。

直覺告訴我們,從RGB和深度域要捕獲相同的語義。接下來,用變換器網絡(transformer network)將提取的特徵從RGB域轉換爲深度域,使不同來源提取的特徵共享相同的數值範圍。在訓練階段,用稀疏深度和相應的稀疏RGB圖像特徵來計算2D2CCA損失和轉換器損失。

雙向CCA的協方差矩陣爲:

其中

而正則化常數r1和單位矩陣I的協方差矩陣爲

這樣,圖像和深度特徵之間的相關性,爲

2D2CCA的損失即爲−corr(FsD , *FsI *) 。而整個損失函數是:

如圖是一些結果例子:(a)RGB圖像,(b)500點稀疏深度作爲輸入,(c)完整深度圖。 (d)MIT方法的結果。

“Confidence Propagation through CNNs for Guided Sparse Depth Regression“ 2019.8

通常,卷積神經網絡(CNN)可在規則網格(例如網格)上處理數據,即普通相機生成的數據。設計用於稀疏和不規則間隔輸入數據的CNN仍然是一個開放的研究問題。

本文有幾個特點:

1) 提出的代數約束歸一化卷積層,針對稀疏輸入數據的CNN,相對來說網絡參數量較少。

2) 提出從卷積運算確定置信度並將其傳播到後繼層的策略。

3) 定義一個目標函數,可同時最小化數據誤差最大化輸出置信度。

4)爲了集成結構信息,提出融合策略,可以在標準化卷積網絡框架中結合深度和RGB信息。5)使用輸出置信度作爲輔助信息來改善結果。

如圖是示例圖像的場景深度完整化的流水線。流水線的輸入是一個非常稀疏的投影激光雷達點雲、一個輸入置信度圖(在缺失像素處爲0,否則爲1)以及一個RGB圖像。 輸入稀疏點雲和置信度被饋送到多尺度無引導(unguided)網絡,其作爲數據的通用估計器。 然後,將連續輸出置信度圖與RGB圖像連接起來,並饋入特徵提取網絡。來自非引導網絡和RGB特徵提取網絡的輸出聯結在一起饋送到融合網絡,生成最終的密集深度圖。

CNN框架的標準卷積層可用少量修改的歸一化卷積層代替。 首先,該層同時接受兩個輸入,即數據及其置信度。 然後修改前向傳遞(forward pass),並修改後向傳播(back-propagation)加入非負強制函數(enforcement function)的導數項。 爲了將置信度傳播到後繼層,已經計算的分母項被濾波器元素之和歸一化。如圖所示,歸一化卷積層接受兩個輸入即數據和置信度,並輸出一個數據項和一個置信度項。

下圖是非引導場景深度完整任務中採用歸一化卷積層的多尺度體系結構。 用最大池化對置信度圖下采樣,池化像素的索引用於今後從特徵圖中選擇置信度最高像素。 上採樣較粗尺度特徵並將其與較細尺度特徵連接起來,可以融合不同尺特徵。 然後,基於置信度信息歸一化卷積層融合特徵圖。 最後,1×1歸一化卷積層將不同通道合併爲一個通道,並生成密集深度圖和輸出置信度圖。

對於引導場景深度完整任務,和兩個常用的架構進行比較。如圖所示:(a)一種多流體系結構(multi-stream architecture),其中包含一個深度流和一個RGB +輸出置信度特徵提取流。 之後,融合網絡將兩個流合併產生最終的密集輸出。(d)一種多尺度編碼器-解碼器體系結構,其中將深度饋入非引導網絡,然後是編碼器,隨後將輸出置信度和RGB圖像連接起來,饋入相似編碼器。兩個流在對應尺度之間的解碼器設置跳連接。 (c)與(a)類似,不過算早期融合,(b)與(d)類似,但是早期融合。

第一個體系結構是早期融合(EF)的多流(MS)網絡,稱爲MS-Net [EF],其變型爲MS-Net [LF](後期融合)。 第二種架構是編碼器-解碼器架構,其早期融合表示爲EncDec-Net [EF],其變體是後期融合的EncDec-Net [LF]。如圖是實驗結果:(a)RGB輸入,(b)MS-Net [LF] -L2方法(gd),(c)Sparse-to-Dense(gd)方法,和(d)HMS-Net(gd)方法。對每個預測,方法MS-Net [LF] -L2(gd)的性能略好,而“Sparse-to-Dense”由於使用平滑度損失而產生了更平滑的邊緣。

“Learning Guided Convolutional Network for Depth Completion”2019.8

密集深度感知對於自動駕駛和其他機器人應用至關重要。因此,有必要完整稀疏激光雷達數據,通常同步的引導RGB圖像促進此完整化。受著名的引導圖像濾波(guided image filtering)方法啓發,引導網絡(guided network)可以從引導圖像(guidance image)中預測內核權重。然後將這些預測核用於提取深度圖像特徵。

以這種方式,一個網絡生成內容相關和空間變化的內核,用於多模態的特徵融合。此外,動態生成的空間變量內核可能導致GPU內存消耗過大和計算開銷,而卷積分解可減少計算和內存消耗,這樣GPU內存的減少使特徵融合可以在多步方案中運行。

如圖所示,該網絡體系結構包括兩個子網:橙色GuideNet和藍色DepthNet。 在GuideNet和DepthNet的開頭以及DepthNet的末尾添加捲積層。淺橙色和淺藍色分別是GuideNet和DepthNet的編碼器步,而對應的深橙色和深藍色是GuideNet和DepthNet的解碼器步。 ResBlock是兩個連續3×3卷積層的基本殘差塊結構。

下圖是引導卷積模塊架構圖:(a)引導卷積模塊的整體流水線,在給定圖像特徵輸入的情況下,濾波器生成層動態地生成引導核(guided kernels),將其用於輸入深度特徵並輸出新的深度特徵;(b)引導核與輸入深度特徵之間卷積的細節,其分解爲兩步卷積,即逐通道卷積和跨通道卷積。

內容相關和空間變化內核的優點是雙重的。 首先,這種內核允許網絡將不同的濾波器用於不同的目標(和不同的圖像區域)。因此,根據圖像內容和空間位置動態生成內核將很有幫助。 其次,在訓練期間,空間不變核的梯度計算爲下一層所有圖像像素的平均值。這樣的均值更可能導致梯度接近於零,甚至覺得學習的內核對於每個位置而言不是最優,這可能會產生次優結果。相比之下,空間變化的內核可以緩解此問題,並使訓練表現得更好,從而獲得更好的結果。

最後是KITTI測試集上最新方法的結果定性比較,如圖所示:選擇的方法有‘Sparse-to-Dense’, ‘DDP’ , ‘DeepLiDAR’, ‘CSPN’和‘NConv-CNN’,以及本文的方法。

“DFineNet: Ego-Motion Estimation and Depth Refinement from Sparse, Noisy Depth Input with RGB Guidance”2019.8

深度估計是自動駕駛汽車瞭解和重建3D環境以及避免障礙的一項重要功能。精確的深度傳感器(例如機械式激光雷達)通常很笨重和昂貴,並且只能提供稀疏深度,而較輕的深度傳感器(例如,立體雙目相機)則相對含噪。

DFineNet是一種端到端的學習算法,能夠用稀疏、含噪的輸入深度進行細化和深度填充。該模型輸出攝影機姿勢作爲副產品。如圖所示,稀疏、含噪的深度輸入(第一行),真實深度的3D可視化(第二行)和模型輸出的3D可視化(底部)示例。 爲了可視化,RGB圖像(第1張)和有稀疏、含噪的深度輸入疊在一起。

再看一個DFineNet實例,如圖所示:它細化稀疏含噪的深度輸入(第三行),並輸出高質量的密集深度(下一行)。

下圖是DFineNet的架構圖。該網絡由兩個分支組成:一個CNN學習估計深度(ψd)的函數,另一個CNN學習估計姿勢(θp)的函數。其將圖像序列和相應的稀疏深度圖作爲輸入,並輸出變換以及密集深度圖。在訓練過程中,訓練信號會同時更新兩組參數。它是MIT深度網絡的修正,稱爲Depth-CNN,而Pose-CNN改編自Sfmlearner。

訓練中整個損失函數表示爲

其中平滑損失記爲Lsmo,而監督損失定義爲:

光度損失定義爲:

掩碼光度損失定義爲:

最後是結果:左邊是本文方法結果,中間是關於RGB引導(第二行)及其不確定性(第三行)的方法結果,最右邊是MIT方法的結果。

“PLIN: A Network for Pseudo-LiDAR Point Cloud Interpolation”2019.9

激光雷達可以在低頻(約10Hz)下提供可靠的3D空間信息,並已廣泛應用於自動駕駛和無人機領域。但是,實際應用中具有較高頻率(約20-30Hz)的攝像機必須降低,以便與多傳感器系統中的激光雷達匹配。

僞激光雷達內插網絡(Pseudo-LiDAR interpolation network,PLIN),用於增加激光雷達傳感器的頻率。PLIN旨在解決相機和激光雷達之間的頻率不匹配問題,同時生成時空高質量的點雲序列。爲此,它採用連續稀疏深度圖和運動引導的粗內插階段,以及由真實場景引導的精細內插階段。這種從粗到細的級聯結構,可以逐步感知多模態信息。

如圖是PLIN的總體流程圖。該方法將三個連續彩色圖像和兩個稀疏深度圖作爲輸入,內插一箇中間密集深度圖,然後根據相機內參將其進一步轉換Pseudo-LiDAR點雲。

僞激光雷達內插網絡(PLIN)概述圖如下:整個架構由三個模塊組成,即運動引導(motion guidance)模塊、場景引導(scene guidance)模塊和變換(transformation)模塊。首先有一個基準網絡(一個編碼器-解碼器架構)從兩個連續稀疏深度圖來生成內插圖。 然後,爲了構造更合理的慢動作結果,用雙向光流包含的運動信息來指導內插過程(基於LiteFlowNet網絡)。此外,對輸入的深度圖進行扭曲(warping)操作得到中間的粗略深度圖,其中包含了顯式運動關係。最後中間彩色圖像在場景引導下細化粗略的深度圖(基於一個輕型U-Net網絡),從而獲得更準確、更密集的中間深度圖。

下面是實驗展示。如圖所示是PLIN獲得的內插深度圖結果:對每個示例,顯示彩色圖像、稀疏深度圖、密集深度圖和PLIN結果。該方法可以恢復原始深度信息並生成更密集分佈。

如圖顯示的結果:從上到下是內插的密集深度圖、生成Pseudo-LiDAR的兩個視圖以及放大的區域。完整網絡生成更準確的深度圖,並且Pseudo-LiDAR的分佈和形狀與真實點雲的分佈和形狀更相似。

“Depth Completion from Sparse LiDAR Data with Depth-Normal Constraints”2019.10

深度完整旨在從稀疏深度測量中恢復密集的深度圖。它對自動駕駛的重要性日益增加,並引起了視覺界的越來越多的關注。大多數現有方法直接訓練網絡學習從稀疏深度輸入到密集深度圖的映射,這比較難利用3D幾何約束,以及處理實際傳感器噪聲。

爲了規範化深度完整解法並提高抗噪能力,作者提出一個統一的CNN框架:1)在發散模塊(diffusion module)中模擬深度和表面法線之間的幾何約束,2)預測稀疏激光雷達測量的置信度以減輕噪聲的影響。 具體而言,編碼器-解碼器主幹網同時預測激光雷達輸入的表面法線、粗深度和置信度,然後將其輸入到擴散細化模塊(diffusion refinement module)獲得最終深度完整的結果。

如圖所示:從稀疏的激光雷達測量和彩色圖像(a-b),該模型首先推斷出粗深度和法線圖(c-d),然後強制深度和法線之間約束反覆細化初始深度估計。 此外,爲了解決實際激光雷達測量的噪聲(g),用解碼器分支預測稀疏輸入深度的置信度(h),實現更好的正則化。

在介紹該統一框架之前,需要簡單提一下定義的平面原點距離空間(plane-origin distance space)。X爲3D空間點,x爲其在像平面的2D投影點。在3D點X處的表面法線N(x) 定義爲垂直於切平面F的向量,其法平面方程爲N(x)·X−P =0。如圖所示,切平面方程建立了深度和法線之間關係。P=N(x)·X,稱爲平面原點距離。

下圖是整個框架的概覽:預測網絡是共享權重編碼器和獨立解碼器,其預測表面法線圖N、粗深度圖D和稀疏深度輸入的置信度圖M。 然後,將稀疏深度輸入D̄和粗略深度D轉換爲平面原點距離空間,分別爲P̄和P。接下來,細化網絡,一個各向異性發散(anisotropic diffusion)模塊,在平面原點距離子空間中細化粗略深度圖D來強制深度和法線之間的約束,併合並置信稀疏深度輸入的信息。在細化期間,發散引導度(diffusion conductance)取決於引導特徵圖G的相似性。最後,當發散結束,細化距離P逆變換獲得細化深度圖Dr。

如圖是可微分擴散塊(Differentiable diffusion bloc)架構圖。 在每個細化迭代中,引導特徵圖(guidance feature map)G中的高維特徵向量(例如,維數爲64),通過兩個不同的函數f和g(建模爲兩個卷積層,然後進行歸一化)獨立地進行變換。 然後,計算從每個位置xi(在平面原點距離圖P中)到其相鄰的K個像素(xj∈Ni)的引導度。最後,發散經一個卷積運算操作,其內核由先前計算的引導度所定義。通過這種發散,深度完整的結果由深度和法線之間約束而規範化。

這裏訓練的損失函數定義爲:

其中重建損失定義爲

細化重建損失定義爲

法線預測的損失定義爲

深度損失定義爲


如圖是結果展示例子。實際上是與其他三個方法的定量比較:對每種方法,深度完整的結果以及細節和誤差的放大圖,還有法線預測和置信度預測的結果。

作者介紹

黃浴,奇點汽車美研中心總裁和自動駕駛首席科學家,上海大學兼職教授。曾在百度美研自動駕駛組、英特爾公司總部、三星美研數字媒體研究中心、華爲美研媒體網絡實驗室,和法國湯姆遜多媒體公司普林斯頓研究所等工作。發表國際期刊和會議論文30餘篇,申請30餘個專利,其中13個獲批准。

原文鏈接

注:本文源自黃浴的知乎:https://zhuanlan.zhihu.com/p/90773462

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章