Depth Estimation Summary 深度估計

求取場景所對應的深度值

比較常用的方法是從kinect的紅外傳感器中得到深度(NYU Depth V2)或者藉助於激光雷達(KITTI),kinect雖然比較廉價,但是所採集到的深度範圍(超過4m kinect估計的深度的精度就會下降)和精度都有限。而激光雷達的成本就比較高了。

雙攝像頭可以測距和建立立體環境

首先三維和二維的區別,這個大家都容易理解,二維只有x、y兩個軸,比如一張素描畫,我們整體的感覺是“平”的,而三維則是多了一個z軸的維度,這個z軸的直觀理解就是點離我們的距離,也即 “depth(深度)”。

左右圖像的“差異”到“深度”的轉換,光學三角關係圖

物體上的點p12分別對應左右圖像上點p1和p2,求解p1、p2、p12構成的三角形,我們就能得到點p12的座標,也就能得到p12的深度。在工程上的雙目視覺三維重建,核心目標就是解上圖所示的三角形,相機可以抽象成一個簡單的透視系統:

空間點p經過相機成像,映射到圖像上點(x,y),其中Oc是相機光心,WCS、DCS、ICS分別是世界座標系、設備(相機)座標系、圖像座標系。空間點p到相機圖像上點的幾何變換可以用相機內參來描述,具體公式就不說了,可以簡單地理解爲相機拍照是對點的幾何座標變換,而相機內參就是決定這個變換的一些參數。

 

繼續看之前的光學三角關係圖,O1、O2分別是左右相機的光心,現在我們要做的就是確定這兩個相機的相對位置關係:可以用旋轉矩陣R和平移向量T來描述,確定了R和T,兩個相機的位置關係就確定了,這個步驟叫做相機的外參標定。一般的做法是用三維重建的逆過程來做,即由一系列已知的p1、p2和p12來求解光學三角形,估計出最優的R、T。簡而言之,外參標定確定相機之間的相對位置關係。

現在我們只需要知道p1、p2的座標,我們就能輕鬆算出p12的座標,完成三維重建。我們把p1、p2稱爲一個點對(pair),他們是同一個空間點在不同相機中的成像點。尋找這樣的點對的過程稱爲立體匹配,它是三維重建最關鍵,也可以說是最難的一步。

 

深度求解的數學推算

參考文獻:

1.https://zhuanlan.zhihu.com/p/29968267   深度學習之單目深度估計 (Chapter.2):無監督學習篇

2. https://www.zhihu.com/question/23418797   雙眼可以測距和建立立體環境,雙攝像頭可以嗎?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章