基於深度學習的單目深度估計-Monocular depth estimation based on deep learning


參考自單目深度估計**綜述**文章:https://arxiv.org/abs/2003.06620
文章圍繞單目深度估計的數據集、評估指標、相關工作(有監督,半監督以及無監督)等進行了簡介和綜述。

簡介

對於自主系統,如自主機器人和無人車等,無論對周圍環境感知還是對自身狀態感知避障軌跡規劃等,都離不開對深度信息的計算。目前來說,獲取深度的三種方式:基於深度傳感器,基於幾何求解,基於深度學習求解。
基於傳感器的方法主要問題在於,一方面其價格和單目相機相比差距很大,另外其尺寸、功耗等都限制了其在小型自主系統(如小型無人機)上的應用;對於能夠生產稠密深度圖的RGB-D相機來說,其主要應用在室內環境,測量精度也容易收到外界影響。 基於幾何的方法也是目前廣泛使用與SLAM或VO中的方法,其能夠利用相鄰圖像序列之間的建立幾何約束實現對圖像上像素點深度信息的求取以及相機位姿變換的求解;基於幾何的方法在於一方面算法比較複雜,而且一般只能求取稀疏特徵點的像素深度信息,其精度依賴於後端的優化環節。基於深度學習的方法優點和缺點也都很明顯,優點在於算法框架簡單,入門快,不需要像幾何方法那種包含很多專業知識和幾何約束在裏面,端到端實現單目稠密深度圖的估計;缺點在於算量大,目前的高精度深度估計網絡的參數量都是千萬級起步,這就意味着其對算力的需求之大以及實時性不足;但是隨着嵌入式算力的不斷提升,算力似乎在未來並不是什麼很致命的問題。

算法分類(按訓練方式)

從單張視圖中獲取深度信息一直是一個很有挑戰的方向,因爲它是個 ill-posed 問題。傳統的方向都是藉助於一些人爲設定的幾何先驗,比如在一些簡單場景(樓道)中線條的幾何關係(垂直or平行)實現從單張視圖的3D結構感知。近年來深度神經網絡的強大圖像處理能力也爲單目深度估計的實現提供了另一種思路:端到端的從單目圖像中估計稠密深度圖。目前根據其訓練模式(Ground Truth 的使用程度)可以劃分爲三類:有監督,無監督和半監督。

有監督(Supervised methods)

由於使用GroundTruth (GT) 作爲網絡的主要監督信號,深度網絡可以直接從GT中學習RGB圖和深度圖之間的映射關係,所以有監督方法的精度較高,整個框架設計也相對更加的簡單。但是“成也GT敗也GT”,這種方法的實際應用嚴重受限於帶GT的數據集,而GT的獲取並不是那麼容易,代價高昂。所以今年來半監督和無監督方法得到的關注度更多,相關的論文也更多。

無監督(Unsupervised methods)

考慮到獲取GT的代價問題,無監督方法採用幀間幾何約束代替GT作爲網絡的監督信號。無監督方法的訓練過程只需要單目圖像序列即可完成對位姿估計網絡深度估計網絡的聯合估計。訓練過程的網絡輸入3-5幀的短視頻序列,位姿網絡估計中間幀和其他幀之間的位姿變化,深度估計網絡輸入中間幀並輸出其對應的稠密深度圖。然後利用視圖重構算法從其他幀合成中間幀:首先利用投影建立幀間的像素投影關係;然後利用線性插值warping 將像素從其他幀採集並填補。最後計算合成視圖和原始圖之間的差異作爲網絡的主要監督信號;除此之外,還有一些平滑損失等用於對深度預測進行進一步的優化。

半監督方法的主要問題在於,固有問題以及重構過程造成的問題。 固有問題包括單目序列所固有的尺度模糊問題,而且由此進一步造成的尺度不一致問題。重構過程主要建立在投影函數上,基於投影的幀間像素對應依賴於靜態場景假設;但是由於場景中的動態物體,遮擋,視野變化等,都會導致相鄰視圖之間像素的不完全對應,從而會對重構過程造成影響。

半監督(Semi-supervised methods)

半監督方法主要劃分爲兩大類,一類是基於稀疏LIDAR真值的方法,一類是基於雙目立體圖像對的方法。
LIDAR和RGB-D相比的優勢很明顯,一方面LIDAR可以用於室外場景,另一方面其穩定性、測量範圍和分辨率都更具有優勢,這也是其作爲當前自動駕駛的主流傳感元器件的原因。但是其採集的深度信息是離散和稀疏的,這給其直接用作監督信號帶來了不小的挑戰。因爲如果採用插值的方式對稀疏幀間處理成稠密深度圖,網絡的精度會受到插值效果的嚴重影響;而直接利用稀疏真值與預測結果的差異作爲監督信號又會面臨梯度的反向傳遞問題。
基於雙目立體圖像對的方法,很多人(主要是研究這一塊的人)也把他們叫做無監督方法,而一些做單目序列的人會把其作爲半監督。這兩種說法都有道理,本文之所以將其稱爲半監督方法,主要依據是,雙目相機之間的參數是需要提前標定的,這個參數就相當於單目方法中的位姿已知,而且這個位姿還是帶有尺度信息的GT位姿。所以,基於雙目立體圖像對的方法估計結果包含尺度信息。雙目方法經過近幾年的方法,逐漸從逆深度估計轉換爲雙目視圖之間的視差估計。訓練過程的主要監督信號源於由視圖合成算法從右視圖合成的左視圖與真實的左視圖之間的差異。

發展趨勢

至於發展趨勢的話,主要是位於其精確性、遷移性和實時性等幾個方面展開的。例如採取不同的網絡結構,如對抗學習,遷移學習,蒸餾學習,圖卷積,LSTM,注意力機制以及輕量級網絡等;新的框架,如多任務框架,結合語義,相機內參估計,動態物體分割等任務,通過利用各個任務之間的相互約束關係,實現共同的性能提升;新的概念,如域自適應,提升網絡在合成數據集和真實數據集等不同域上的適應性;新的幾何約束,如考慮基於單目序列方法的尺度不一致問題,設計新的幾何約束項對尺度的一致性進行約束。

基於雙目的半監督方法和基於單目序列的無監督方法結果對比:
基於雙目的半監督方法和基於單目序列的無監督方法結果對比

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章