透視投影原理詳解

本篇文章爲轉載，在學習時發現這篇問題寫的很好，怕以後找不到，所以搬運過來了，如有侵權，請聯繫本人刪除。

透視投影是3D固定流水線的重要組成部分，是將相機空間中的點從視錐體(frustum)變換到規則觀察體(Canonical View Volume)中，待裁剪完畢後進行透視除法的行爲。在算法中它是通過透視矩陣乘法和透視除法兩步完成的。
透視投影變換是令很多剛剛進入3D圖形領域的開發人員感到迷惑乃至神祕的一個圖形技術。其中的理解困難在於步驟繁瑣，對一些基礎知識過分依賴，一旦對它們中的任何地方感到陌生，立刻導致理解停止不前。
沒錯，主流的3D APIs如OpenGL、D3D的確把具體的透視投影細節封裝起來，比如gluPerspective(„) 就可以根據輸入生成一個透視投影矩陣。而且在大多數情況下不需要了解具體的內幕算法也可以完成任務。但是你不覺得，如果想要成爲一個職業的圖形程序員或遊戲開發者，就應該真正降伏透視投影這個傢伙麼？我們先從必需的基礎知識着手，一步一步深入下去（這些知識在很多地方可以單獨找到，但我從來沒有在同一個地方全部找到，但是你現在找到了）。
我們首先介紹兩個必須掌握的知識。有了它們，我們才不至於在理解透視投影變換的過程中迷失方向（這裏會使用到向量幾何、矩陣的部分知識，如果你對此不是很熟悉，可以參考

可以找到一組座標(v1,v2,v3)，使得
v = v1 a + v2 b + v3 c （1）
而對於一個點p，則可以找到一組座標（p1,p2,p3），使得
p – o = p1 a + p2 b + p3 c （2）
從上面對向量和點的表達，我們可以看出爲了在座標系中表示一個點（如p），我們把點的位置看作是對這個基的原點o所進行的一個位移，即一個向量——p – o（有的書中把這樣的向量叫做位置向量——起始於座標原點的特殊向量），我們在表達這個向量的同時用等價的方式表達出了點p:
p = o + p1 a + p2 b + p3 c (3)
(1)(3)是座標系下表達一個向量和點的不同表達方式。這裏可以看出，雖然都是用代數分量的形式表達向量和點，但表達一個點比一個向量需要額外的信息。如果我寫出一個代數分量表達(1, 4, 7)，誰知道它是個向量還是個點！
我們現在把（1）（3）寫成矩陣的形式：

這裏(a,b,c,o)是座標基矩陣，右邊的列向量分別是向量v和點p在基下的座標。

這樣，向量和點在同一個基下就有了不同的表達：3D向量的第4個代數分量是0，而3D點的第4個代數分量是1。像這種這種用4個代數分量表示3D幾何概念的方式是一種齊次座標表示。

“齊次座標表示是計算機圖形學的重要手段之一，它既能夠用來明確區分向量和點，同時也更易用於進行仿射（線性）幾何變換。”——F.S. Hill, JR

這樣，上面的(1, 4, 7)如果寫成（1,4,7,0），它就是個向量；如果是(1,4,7,1)，它就是個點。下面是如何在普通座標 (Ordinary Coordinate)和齊次座標(Homogeneous Coordinate)之間進行轉換：

從普通座標轉換成齊次座標時，如果(x,y,z)是個點，則變爲(x,y,z,1); 如果(x,y,z)是個向量，則變爲(x,y,z,0)

從齊次座標轉換成普通座標時，如果是(x,y,z,1)，則知道它是個點，變成(x,y,z);

如果是(x,y,z,0)，則知道它是個向量，仍然變成(x,y,z)

以上是通過齊次座標來區分向量和點的方式。從中可以思考得知，對於平移T、旋轉R、縮放S這3個最常見的仿射變換，平移變換隻對於點纔有意義，因爲普通向量沒有位置概念，只有大小和方向，這可以通過下面的式子清楚地看出：

而旋轉和縮放對於向量和點都有意義，你可以用類似上面齊次表示來檢測。從中可以看出，齊次座標用於仿射變換非常方便。
此外，對於一個普通座標的點P=(Px, Py, Pz)，有對應的一族齊次座標(wPx, wPy, wPz, w)，其中w不等於零。比如，P(1, 4, 7)的齊次座標有(1, 4, 7, 1)、（2, 8, 14, 2）、（-0.1, -0.4, -0.7, -0.1）等等。因此，如果把一個點從普通座標變成齊次座標，給x,y,z乘上同一個非零數w，然後增加第4個分量w；如果把一個齊次座標轉換成普通坐標，把前三個座標同時除以第4個座標，然後去掉第4個分量。
由於齊次座標使用了4個分量來表達3D概念，使得平移變換可以使用矩陣進行，從而如F.S. Hill, JR所說，仿射（線性）變換的進行更加方便。由於圖形硬件已經普遍地支持齊次座標與矩陣乘法，因此更加促進了齊次座標使用，使得它似乎成爲圖形學中的一個標準。
簡單的線性插值
這是在圖形學中普遍使用的基本技巧，我們在很多地方都會用到，比如2D位圖的放大、縮小，Tweening變換，以及我們即將看到的透視投影變換等等。基本思想是：給一個x屬於[a, b]，找到y屬於[c, d]，使得x與a的距離比上ab長度所得到的比例，等於y與c的距離比上cd長度所得到的比例，用數學表達式描述很容易理解：

這樣，從a到b的每一個點都與c到d上的唯一一個點對應。有一個x，就可以求得一個y。
此外，如果x不在[a, b]內，比如x < a或者x > b，則得到的y也是符合y < c或者y > d，比例仍然不變，插值同樣適用。
透視投影變換
好，有了上面兩個理論知識，我們開始分析這次的主角——透視投影變換。這裏我們選擇OpenGL的透視投影變換進行分析，其他的 APIs會存在一些差異，但主體思想是相似的，可以類似地推導。經過相機矩陣的變換，頂點被變換到了相機空間。這個時候的多邊形也許會被視錐體裁剪，但在這個不規則的體中進行裁剪並非那麼容易的事情，所以經過圖形學前輩們的精心分析，裁剪被安排到規則觀察體(Canonical View Volume, CVV)中進行，CVV是一個正方體，x, y, z的範圍都是[-1，1]，多邊形裁剪就是用這個規則體完成的。所以，事實上是透視投影變換由兩步組成：
1）用透視變換矩陣把頂點從視錐體中變換到裁剪空間的CVV中。
2） CVV裁剪完成後進行透視除法（一會進行解釋）。

我們一步一步來，我們先從一個方向考察投影關係。

上圖是右手座標系中頂點在相機空間中的情形。設P(x,z)是經過相機變換之後的點，視錐體由eye——眼睛位置，np——近裁剪平面，fp——遠裁剪平面組成。N是眼睛到近裁剪平面的距離，F是眼睛到遠裁剪平面的距離。投影面可以選擇任何平行於近裁剪平面的平面，這裏我們選擇近裁剪平面作爲投影平面。設 P’(x’,z’)是投影之後的點，則有z’ = -N。通過相似三角形性質，我們有關係：

同理，有

這樣，我們便得到了P投影后的點P’

從上面可以看出，投影的結果z’始終等於-N，在投影面上。實際上，z’對於投影后的P’已經沒有意義了，這個信息點已經沒用了。但對於3D圖形管線來說，爲了便於進行後面的片元操作，例如z緩衝消隱算法，有必要把投影之前的z保存下來，方便後面使用。因此，我們利用這個沒用的信息點存儲z，處理成：

這個形式最大化地使用了3個信息點，達到了最原始的投影變換的目的，但是它太直白了，有一點蠻幹的意味，我感覺我們最終的結果不應該是它，你說呢？我們開始結合CVV進行思考，把它寫得在數學上更優雅一致，更易於程序處理。假入能夠把上面寫成這個形式：

那麼我們就可以非常方便的用矩陣以及齊次座標理論來表達投影變換：

其中

哈，看到了齊次座標的使用，這對於你來說已經不陌生了吧？這個新的形式不僅達到了上面原始投影變換的目的，而且使用了齊次座標理論，使得處理更加規範化。注意在把

變成

的一步我們是使用齊次座標變普通座標的規則完成的。這一步在透視投影過程中稱爲透視除法（Perspective Division），這是透視投影變換的第2步，經過這一步，就丟棄了原始的z值（得到了CVV中對應的z值，後面解釋），頂點纔算完成了投影。而在這兩步之間的就是CVV裁剪過程，所以裁剪空間使用的是齊次座標

，主要原因在於透視除法會損失一些必要的信息（如原始z，第4個-z保留的）從而使裁剪變得更加難以處理，這裏我們不討論CVV裁剪的細節，只關注透視投影變換的兩步。
矩陣

就是我們投影矩陣的第一個版本。你一定會問爲什麼要把z寫成

有兩個原因：
1） P’的3個代數分量統一地除以分母-z，易於使用齊次座標變爲普通座標來完成，使得處理更加一致、高效。
2）後面的CVV是一個x,y,z的範圍都爲[-1，1]的規則體，便於進行多邊形裁剪。而我們可以適當的選擇係數a和b，使得

這個式子在z = -N的時候值爲-1，而在z = -F的時候值爲1，從而在z方向上構建CVV。
接下來我們就求出a和b：

這樣我們就得到了透視投影矩陣的第一個版本：

使用這個版本的透視投影矩陣可以從z方向上構建CVV，但是x和y方向仍然沒有限制在[-1,1]中，我們的透視投影矩陣的下一個版本就要解決這個問題。
爲了能在x和y方向把頂點從Frustum情形變成CVV情形，我們開始對x和y進行處理。先來觀察我們目前得到的最終變換結果：

我們知道-Nx / z的有效範圍是投影平面的左邊界值（記爲left）和右邊界值（記爲right），即[left, right]，-Ny / z則爲[bottom, top]。而現在我們想把-Nx / z屬於[left, right]映射到x屬於[-1, 1]中，-Ny / z屬於[bottom, top]映射到y屬於[-1, 1]中。你想到了什麼？哈，就是我們簡單的線性插值，你都已經掌握了！我們解決掉它：

則我們得到了最終的投影點：

式出發反推出下一個版本的透視投影矩陣。注意到

是

經過透視除法的形式，而P’只變化了x和y分量的形式，az+b和-z是不變的，則我們做透視除法的逆處理——給P’每個分量乘上-z，得到

而這個結果又是這麼來的：

則我們最終得到：

M 就是最終的透視變換矩陣。相機空間中的頂點，如果在視錐體中，則變換後就在CVV中。如果在視錐體外，變換後就在CVV外。而CVV本身的規則性對於多邊形的裁剪很有利。OpenGL在構建透視投影矩陣的時候就使用了M的形式。注意到M的最後一行不是(0 0 0 1)而是(0 0 -1 0)，因此可以看出透視變換不是一種仿射變換，它是非線性的。另外一點你可能已經想到，對於投影面來說，它的寬和高大多數情況下不同，即寬高比不爲1，比如640/480。而CVV的寬高是相同的，即寬高比永遠是1。這就造成了多邊形的失真現象，比如一個投影面上的正方形在CVV的面上可能變成了一個長方形。解決這個問題的方法就是在對多變形進行透視變換、裁剪、透視除法之後，在歸一化的設備座標(Normalized Device Coordinates)上進行的視口(viewport)變換中進行校正，它會把歸一化的頂點之間按照和投影面上相同的比例變換到視口中，從而解除透視投影變換帶來的失真現象。進行校正前提就是要使投影平面的寬高比和視口的寬高比相同。
便利的投影矩陣生成函數
3D APIs都提供了諸如gluPerspective(fov, aspect, near, far)或者D3DXMatrixPerspectiveFovLH(pOut, fovY, Aspect, zn, zf)這樣的函數爲用戶提供快捷的透視矩陣生成方法。我們還是用OpenGL的相應方法來分析它是如何運作的。
gluPerspective(fov, aspect, near, far)
fov即視野，是視錐體在xz平面或者yz平面的開角角度，具體哪個平面都可以。OpenGL和 D3D都使用yz平面。
aspect即投影平面的寬高比。
near是近裁剪平面的距離
far是遠裁剪平面的距離。

上圖中左邊是在xz平面計算視錐體，右邊是在yz平面計算視錐體。可以看到左邊的第3步top = right / aspect使用了除法（圖形程序員討厭的東西），而右邊第3步right = top x aspect使用了乘法，這也許就是爲什麼圖形APIs採用yz平面的原因吧！

在上一篇文章中我們討論了透視投影變換的原理，分析了OpenGL所使用的透視投影矩陣的生成方法。正如我們所說，不同的圖形API因爲左右手座標系、行向量列向量矩陣以及變換範圍等等的不同導致了矩陣的差異，可以有幾十個不同的透視投影矩陣，但它們的原理大同小異。這次我們準備討論一下Direct3D（以下簡稱D3D）以及J2ME平臺上的JSR184（M3G）（以下簡稱M3G）的透視投影矩陣，主要出於以下幾個目的：
（1）我們在寫圖形引擎的時候需要採用不同的圖形API實現，當前主要是OpenGL和D3D。雖然二者的推導極爲相似，但D3D的自身特點導致了一些地方仍然需要澄清。
（2）       DirectX SDK的手冊中有關於透視投影矩陣的一些說明，但並不詳細，甚至有一些錯誤，從而使初學者理解起來變得困難，而這正是本文寫作的目的。
（3）       M3G是J2ME平臺上的3D開發包，採用了OpenGL作爲底層標準進行封裝。它的透視投影矩陣使用OpenGL的環境但又進行了簡化，值得一提。
本文努力讓讀者清楚地瞭解D3D與M3G透視投影矩陣的原理，從而能夠知道它與OpenGL的一些差別，爲構建跨API的圖形引擎打好基礎。需要指出的一點是爲了完全理解本文的內容，請讀者先理解上一篇文章《深入探索透視投影變換》的內容，因爲OpenGL和它們的透視投影矩陣的原理非常相似，因此這裏不會像上一篇文章從基礎知識講起，而是對比它們的差異來推導變換矩陣。我們開始！
OpenGL與D3D的基本差異
前面提到，不同API的基本差異導致了最終變換矩陣的不同，而導致OpenGL和D3D的透視投影矩陣不同的原因有以下幾個：
（1）       OpenGL默認使用右手座標系，而D3D 默認使用左手座標系。

（2） OpenGL使用列向量矩陣乘法而D3D使用行向量矩陣乘法。

（3） OpenGL的CVV的Z範圍是[-1, 1]，D3D的CVV的Z範圍是[0, 1]。
以上這些差異導致了最終OpenGL和D3D的透視投影矩陣的不同。
D3D的透視投影矩陣推導
我們先來看最最基本的透視關係圖（上一篇文章開始的時候使用的圖）：

這裏我們考察的是xz平面上的關係，yz平面上的關係同理。這裏o是相機位置。np是近裁剪平面，也是投影平面，N是它到相機的距離。fp是遠裁剪平面，F 是它到相機的位置。p是需要投影的點，p’是投影之後的點。根據相似三角形定理，我們有

則有

注意到OpenGL使用右手座標系，因此應該使用-N（請參考上一篇文章的這一步），而D3D使用左手座標系，因此使用N，這是二者的不同點之一。這樣，我們得到投影之後的點

第三個信息點是變換之後的z在投影平面上的位置，也就是N，它已經沒用了，我們把p’寫成

從而用第三個沒用信息點它來存儲z（如果讀者對這一點不太瞭解，請參考上一篇文章）。接下來我們求出a和b，從而在z方向上構建CVV。請注意這裏是 OpenGL和D3D的另一個不同點，OpenGL的CVV的z範圍是[-1, 1]，而D3D的CVV的z範圍是[0, 1]。也就是說，D3D 中在近裁剪平面上的點投影之後的點會處於CVV的z=0平面上，而在遠裁剪平面上的點投影之後的點會在CVV的z=1平面上。這樣我們的計算方程就是

從而我們得到了透視投影矩陣的第一個版本

即

這個時候第三個分量變換到CVV情形了，CVV的z範圍是[0,1]。接下來根據上一篇文章所講到的，我們要把前兩個分量變成CVV情形，CVV的x和y範圍是[-1, 1]，如下圖所示：

使用線性插值，我們有：

這裏left和right是投影平面的左右範圍，top和bottom是投影平面的上下範圍。xcvv和ycvv是我們需要算出的在CVV情形中的x和y，也就是我們要計算出的結果。但在算出它們之前，我們先把上面的式子寫成：

這裏有一個需要注意的地方，如果投影平面在x方向上居中，則

那麼第一個式子就可以銷掉等號兩邊的1/2，寫成

同理，如果投影平面在y方向上居中，則第二個式子可以寫成

則我們現在分兩種情況討論：
（1）投影平面的中心和x-y平面的中心重合（在x和y方向上都居中）
（2）一般情況
我們分別討論：
（1）特殊情況方程

這組是特殊情況，方程比較簡單，但也是使用頻率最高的方式（這是D3DXMatrixPerspectiveLH、 D3DXMatrixPerspectiveRH、D3DXMatrixPerspectiveFovLH、 D3DXMatrixPerspectiveFovRH四個方法所使用的情況）。我們導出它：

則我們反推出透視投影矩陣：

其中

而 r-l和t-b可以分別看作是投影平面的寬w和高h。最後那個矩陣就是D3D的透視投影矩陣之一。另外呢，如果我們不知道right、left、top以及bottom這幾個參量，也可以根據視野（FOV – Field Of View）參量來求得。下面是兩個平面的視野關係圖：

其中，兩個fov分別是在x-z以及y-z平面上的視野。如果只給了一個視野，也可以通過投影平面的寬高比計算出來：

用一個視野算出w或者h，然後用寬高比算出h或者w。
（2）一般情況的方程

這組方程比較繁瑣，但更具一般性（和OpenGL一般矩陣的推導一致，這也是D3DXMatrixPerspectiveOffCenterLH和 D3DXMatrixPerspectiveOffCenterRH兩個方法所使用的情況）。我們導出它：

我們繼續反推出透視投影矩陣：

其中

最後那個矩陣就是D3D的一般透視投影矩陣。
好了，目前爲止，我們已經導出了D3D的兩個透視投影矩陣。下面我把上一篇導出的OpenGL的透視投影矩陣寫出來，大家可以拿它和剛剛導出的D3D的一般性透視投影矩陣做一個對比。

如果仔細觀察，可以發現二者在元素的佈局上是一個轉置的關係，這個就是由它們使用的左右手座標系以及使用的行列矩陣的差異造成的。而另外在一些元素的細節上也存在着差異，這是由於D3D的CVV的z範圍不同造成的。可見在原理相同的情況下，細微的環境差異可以造成非常大的變化，而這就是透視投影矩陣存在諸多不同版本的原因。一般情況的透視投影矩陣也可以使用視野方式來定義，方法和特殊情況相同。
M3G的透視投影矩陣
M3G是對OpenGL進行的一個封裝，它的透視投影變換矩陣被放到了類Camera裏面。因爲它封裝了OpenGL，因此環境和OpenGL相同：右手座標系、列向量乘法、CVV範圍[-1， 1]。它唯一和OpenGL有些差異的地方就在於它只使用投影平面的中心和x-y平面的中心重合（在x和y方向上都居中）的情況（就是我們上面D3D的第一種特殊情況）。我們用OpenGL透視投影矩陣最終版本來說明（再次提醒，如果讀者對此感到迷惑，請參考第一篇文章）：
上面是OpenGL透視投影矩陣的最終版本，也是一般性版本，我們要把它變成特殊性，版本，非常簡單，和上面D3D的特殊情況一樣，我們從對x和y進行插值的那一步來看：

和 D3D的第一種情況一樣，銷掉兩邊的1/2，得到：

則我們反推出透視投影矩陣：

最右邊那個矩陣就是M3G的透視投影矩陣。仍然可以通過視野參數來設置透視投影矩陣，這裏請讀者自行推導，方法與上面D3D的完全相同。

透視投影原理詳解

本篇文章爲轉載，在學習時發現這篇問題寫的很好，怕以後找不到，所以搬運過來了，如有侵權，請聯繫本人刪除。

985 碩士程序員，空窗 4 個月沒有 Offer！

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

模糊邏輯學習--什麼是模糊邏輯

使用自定義功能構建Mamdani系統

模糊邏輯學習--模糊邏輯的基礎

模糊邏輯學習--建立Mamdani系統（GUI）

tensorflow2.1學習--認識張量和常用函數一

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結