Depth Estimation Summary 深度估計

原創

2020-06-24 07:27

求取場景所對應的深度值

比較常用的方法是從kinect的紅外傳感器中得到深度(NYU Depth V2)或者藉助於激光雷達（KITTI），kinect雖然比較廉價，但是所採集到的深度範圍(超過4m kinect估計的深度的精度就會下降)和精度都有限。而激光雷達的成本就比較高了。

雙攝像頭可以測距和建立立體環境

首先三維和二維的區別，這個大家都容易理解，二維只有x、y兩個軸，比如一張素描畫，我們整體的感覺是“平”的，而三維則是多了一個z軸的維度，這個z軸的直觀理解就是點離我們的距離，也即 “depth(深度)”。

左右圖像的“差異”到“深度”的轉換，光學三角關係圖：

物體上的點p12分別對應左右圖像上點p1和p2，求解p1、p2、p12構成的三角形，我們就能得到點p12的座標，也就能得到p12的深度。在工程上的雙目視覺三維重建，核心目標就是解上圖所示的三角形，相機可以抽象成一個簡單的透視系統：

空間點p經過相機成像，映射到圖像上點(x,y)，其中Oc是相機光心，WCS、DCS、ICS分別是世界座標系、設備(相機)座標系、圖像座標系。空間點p到相機圖像上點的幾何變換可以用相機內參來描述，具體公式就不說了，可以簡單地理解爲相機拍照是對點的幾何座標變換，而相機內參就是決定這個變換的一些參數。

繼續看之前的光學三角關係圖，O1、O2分別是左右相機的光心，現在我們要做的就是確定這兩個相機的相對位置關係：可以用旋轉矩陣R和平移向量T來描述，確定了R和T，兩個相機的位置關係就確定了，這個步驟叫做相機的外參標定。一般的做法是用三維重建的逆過程來做，即由一系列已知的p1、p2和p12來求解光學三角形，估計出最優的R、T。簡而言之，外參標定確定相機之間的相對位置關係。

現在我們只需要知道p1、p2的座標，我們就能輕鬆算出p12的座標，完成三維重建。我們把p1、p2稱爲一個點對(pair)，他們是同一個空間點在不同相機中的成像點。尋找這樣的點對的過程稱爲立體匹配，它是三維重建最關鍵，也可以說是最難的一步。

深度求解的數學推算

參考文獻：

1.https://zhuanlan.zhihu.com/p/29968267 深度學習之單目深度估計 (Chapter.2)：無監督學習篇

2. https://www.zhihu.com/question/23418797 雙眼可以測距和建立立體環境，雙攝像頭可以嗎？

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Depth Estimation Summary 深度估計

求取場景所對應的深度值

深度求解的數學推算

工作中用到的腳本合集

24-5-18 X

Pytorch 小知識點彙總三--numpy數組求均值，方差，標準差

Computer Vision 相關數據集彙總介紹

Depth Estimation Summary 深度估計

數據分析 data analysis_Python編程問題彙總

PyTorch-網絡的創建

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結