對於計算機視覺的一些思考

rel="File-List" href="file:///C:%5CDOCUME%7E1%5Cdaviddai%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_filelist.xml">

看最新的文章，可以緊跟研究的熱點；看經典的論文，可以理清研究的思路和方向，爲什麼這樣，爲什麼不同的人有不同的觀點，他們研究分析問題的出發點是什麼？我們的目標是什麼，要解決什麼樣的問題，如何解決，可能的模型是什麼。建立模型，求解模型，得到結果，理論分析。

想想我研究的方向，目的是什麼：從圖像、視頻中獲得對於三維世界的認知，理解三維世界。也就是說要從海量、大量圖像中讓機器實現自動的認知、理解。到這裏有兩個關鍵問題出現了，一個是海量和大量圖像，一個是自動的處理，而在處理的輸入上我們希望的是任意的圖像和視頻，那麼對於其就不應該有過多的要求，任意，正如我們人類，從大量的圖像中認知世界。圖像之間的變化自然是任意的，從本質上將都是利用相機對於真實三維世界的觀察、採樣，相機系統進行的模型是投影變換，是透視相機模型，實現了從三維信息到二維圖像的映射，每個圖像都是部分觀察，成像的過程不僅有位置信息的變化過程還有顏色的變換，顏色信息是我們人類認知世界的重要因素，當然還有紋理，經過這樣的系統，我們獲得大量觀察，我們的目的是希望計算機能夠像我們人類一樣，將這些圖像進行自動的組織、處理，使得我們獲得全景，獲得三維模型，獲得合成視角，可以註解圖像，可以定位，可以測量，可以對於三維模型進行編輯，可以復原現場，可以獲得場景的時間、空間關係，可以進行變化檢測，可以識別場景，可以計數，可以檢索，可以自動漫遊等等。

針對上面提到的三個問題：

1. 數據量大，對於圖像源，互聯網的發展爲我們提供了大量場景圖像，通過Google，Flickr語義檢索可以獲得大量圖像，當然作爲關鍵字檢索的結果，是存在錯誤情形的，這些圖像千差萬別，拍攝條件（位置、角度、時間）差異很大；另一種數據源是視頻數據，這個數據量也很大，幾個小時的拍攝會產生25×3600×n 幾萬到幾十萬的圖像，當然視頻具有視頻的特點，連續性好，即可以在視頻數據中採樣處理，而且數據獲取上具有內參數等等的連續性，因此其處理似乎相對容易，當然尚沒有這樣的完整系統，其中的問題值得繼續研究，其最主要的特點是人爲控制，但是將來等我們針對用戶上傳的視頻重建三維世界的時候，數據量將迅速增加。

2. 自動化處理是難點，我們希望系統能夠直接根據輸入的圖像自動重建，但是在自動實現方面還有很大的障礙，原因在圖像或者視頻數據獲取上的任意性，而且退化情形也是難點，重複的結構也會造成處理的困難；

3. 處理的效率：Snavely2006年的處理對於幾百上千幅圖像的處理需要幾天的時間，今年來也提出了一些加速算法，但是效率仍是核心，距離實時算法差距遙遠，現在很多傾向於使用GPU，當然這樣的應用肯定是專業型的。

4. 漸增式的重建，從少量的圖像出發每增加圖像均會改善結構，進行微調，但是問題是這樣的結構速度如何？

從上面的分析可以看出，這樣的系統其實就是在模擬人類對於世界的認知過程，計算機視覺說到底就是讓計算機（機器人）通過圖像認知世界。我感覺在認知方面主要有兩個方面，即獲得幾何信息和獲得類別屬性信息。對於幾何信息的認知基本思路就是單目、雙目、多目，利用對應信息恢復和重建觀察的世界。而類別屬性信息的認知現在主流的思路就是按照模式識別的思路，首先獲得局部信息得到描述符，然後設計各種分類器進行訓練學習。現在來看幾何這裏做的相對成熟，最近的熱點在識別方面。幾何的思路雖說成熟完整，但是尚有大量的問題沒有得到完美解決，展開來講，主流的思路是首先提取局部描述符，進行匹配建立對應關係，追蹤Track，對於攝像機進行定標，恢復三維結構。但是單單在局部描述方面就仍是Open的問題，Harris，Canny，SIFT，20多年的發展，到SIFT的提出很大程度上成爲匹配的Gold Standard算法，但是誤匹配仍然存在；在得到匹配恢復結構的SfM上，基本已經形成標準流程，對應-----》基礎矩陣、本質矩陣------》分解得到Relative Pose------》Global Registration-----》Reconstruction。每一部分都有多種算法性能不同，基礎矩陣的估計，線性的，非線性的，8點，7點，6點，5點基本完整了，Ransac也已經成爲一種基本方法，它的應用使得Minimal問題的研究得到重視，從two view five points, three views four points到有無定標等多個Minimal問題，目的均在於增強穩定性，想盡辦法去除噪聲的影響，當然Ransac方法的效果在有些極端和退化情形下的能力還需要增進，看來噪聲是信號處理永恆不變的話題。從本質矩陣得到Relative pose方法完全是確定的。下一階段的問題是如何根據Relative得到Global，方法主要有兩個類別，即Factorizitation和分步求解，分解的方法也是一大類其核心在於矩陣逼近，也就是說如何從觀察數據中分解出滿足秩或者正交性等要求的矩陣，其缺點在於深度信息的處理和對於像素可見性的要求上面；而基於分步求解的思路在於通過幾步或者迭代將全局的攝像機位置信息回覆，方法包括了直接求解，首先求解旋轉再求解平移的方法，一般轉化爲線性方程組或者最小二乘問題，當然現在由於L-Infinity的應用，其在這方面也得到應用。最後在得到攝像機位姿和內參數後，恢復了初步的攝像機投影矩陣，下面的問題是利用相機參數恢復三維點，最後進行優化，在優化這裏標準的方法現在是Bundle Adjustment，但是其問題在效率如何，對於初始值穩定性怎麼樣，是不是會出現局部極小，我現在尚沒有Bundle Adjustment的評價和衡量，但是貌似其處理速度還是蠻快的。另外的思路是引入L-Infinity進行優化，其好處在於可以找到全局最小，並且是對歐氏距離的好的初始值，問題在於其受噪聲影響太大，從而使得噪聲數據的消除再次成爲話題。從上面的描述看出幾何方面的兩個關鍵問題：噪聲和優化。優化是一個恆久的話題，因爲我們總是期望着最好，最小，最大等等，爲了優化，我們首先需要得到目標，即衡量什麼，然後建立其數學模型，確定參數和其範圍，下面的思路似乎是尋找對應的求解模型，關鍵的問題在於避免局部極小。現在視覺中的優化應用凸集優化的方法比較多，Convex Optimization，這一優化包括了最小二乘、線性規劃、Second Order Cone Programming等。L-Infinity主要利用的SOCP的方法，爲了得到最大值的上界，基本的方法是採用二分查找的辦法，在每一個區間內判斷SOCP問題是否有解，最近也有所改進即對於區間採取梯度下降等等加速策略，相對而言L-Infinity的速度還是問題啊。最近CV方面在優化方面出現了不少文章，主要的方法還是集中在Convex Programming方面，研究怎麼樣應用範數的特點加速優化過程保證最優。而在匹配的Mismatch和Missing Match方面，我最近也看了一些文章，基本的觀點在於利用Multi-View中數據的特點，通過假設檢驗的思路去除外點，包括匹配三角，匹配的傳播，基本的視點不變性特徵，利用概率或者貝葉斯的方法，絕對消除外點是不可能的，而且在消除外點的時候成本是很大的，即我們也去除了大量的內點，爲進一步的稠密重建造成了問題。在這一方面還是可以有所作爲的。另外的問題是退化情形，即大量匹配點共面，圖像中存在重複或者相似的物體，這些因素的存在是自動重建的障礙。