Distinctive Image Features from Scale-Invariant Keypoints 翻譯

從尺度不變的關鍵點選擇可區分的圖像特徵

David G.Lowe

溫哥華不列顛哥倫比亞省加拿大英屬哥倫比亞大學計算機科學系

[email protected]

2003年1月10日接受,2004年1月7日修改,2004年1月22日採用

 

摘要:本文提出了一種從圖像中提取獨特不變特徵的方法,可用於完成不同視角之間目標或場景的可靠匹配的方法。這種特徵對圖像的尺度和旋轉具有不變性。並跨越很大範圍的對仿射變換,三維視點的變化,添加的噪音和光照變化的圖像匹配具有魯棒性。特徵是非常鮮明的,場景中的一個單一特徵和一個許多圖像的大型特徵數據庫也有很高的概率進行正確匹配。本文還介紹了一個使用該功能來識別目標的方法。通過將個別特徵與由已知目標特徵組成的數據庫進行快速最近鄰算法的匹配,然後使用Hough變換來識別屬於單一目標的聚類(clusters),最後通過最小二乘解執行一致的姿態參數的核查確認。這種識別方法對於處於雜亂和遮擋情形中的物體的識別具有很好的魯棒性,並且可以得到進實時性的性能。

關鍵詞:不變特徵,目標識別,尺度不變性,圖像匹配

 

1. 引言

  

圖像匹配是計算機視覺領域中很多問題的關鍵,包括目標和場景識別、多幅影像進行三維構建、立體對應(correspondence)、運動追蹤等。本文描述的圖像特徵很實用,因爲它具備很多可以將一個目標或場景的不同影像進行匹配的特性。這些特徵對於圖像尺度和旋轉具有不變性,並在光照變化和三維相機視點變化的情況下具有部分的不變性。它在空間域和頻率域都可以很好地定位,減少了遮擋(occlusion)、雜亂和噪音的影響。可以使用一些有效的算法把大量的特徵從典型的圖像裏提取出來。另外,這些特徵是非常鮮明的,使一個單一特徵可以以很高的概率與大型數據庫中的特徵進行匹配,爲目標和場景識別提供了基礎。

  通過一個層疊(級聯)的過濾算法來將提取這些特徵的代價最小化,這樣,最昂貴的運算僅在最初測試通過處。下面是生成圖像特徵集計算的一些主要步驟:

1)  尺度空間極值探測:第一階段對整個尺度和圖像位置進行搜索。通過使用高斯差分函數來有效地識別對尺度和方向具有不變性的潛在的興趣點。

2)  關鍵點定位:在每一個候選區,都可以確定一個詳細模型的位置和尺度。基於關鍵點的穩定性進行選擇。

3)  方位分配:基於局部圖像的梯度方向,給每個關鍵點位置指定一個或多個方向。所有隨後的圖像數據操作都是將每個特徵的方向、尺度和位置進行相關變換得到的,因此這些變換具有不變性。

4)  關鍵點描述子局部梯度是在每個關鍵點附近的區域所選尺度上測量得到的。這些可以轉化成爲一個允許顯著的局部形狀變化和光照變化的表示法。

  這種方法被命名爲尺度不變的特徵轉換法(SIFT),因爲它可以基於局部特徵把圖像數據轉換到尺度不變的座標上。(因爲它把圖像數據裝換成相對局部特徵點尺度不變的座標)

  該方法的一個重要方面是它生成了大量特徵,它們密集的覆蓋了整個圖像尺度和位置。一幅500*500像素的典型圖片可以產生約2000個穩定的特徵(儘管這個數字依賴於圖像內容和幾個參數的選擇)。特徵的數量對目標識別尤爲重要,在目標識別裏要想探測雜亂背景下的小目標,就要求每個目標至少有三個特徵被正確匹配纔是可靠的識別。

  對於圖像匹配和識別,SIFT特徵首先從一組參考圖像中提取並存儲在數據庫中。一個新的圖像通過將這幅新圖像中的各個特徵與之前數據庫的特徵進行一一對比並基於特徵向量的歐氏距離找到候選的匹配特徵。本文將討論可以在大型數據庫中快速執行的快速近鄰算法。

  關鍵點描述子是非常鮮明的,可以使單個特徵在大型特徵數據庫中以很大概率進行正確匹配。然而,在雜亂的圖像中,很多背景中的特徵不能與數據庫進行正確匹配,除了產生一些正確的匹配外還會產生很多錯誤的配對。通過確定與新圖像在目標、目標的位置、尺度和定向一致的關鍵點的子集,可以將正確的匹配從匹配的全集中過濾出來。若干個特徵偶然地與這些參數一致的可能性比任一個特徵匹配錯誤的可能性要小很多。確定這些一致的聚類,可以通過一個高效的廣義Hough變換的散列表快速執行。

  每個擁有三個及三個以上特徵與目標和它的姿態一致的聚類,都要進行進一步更精細的確認。首先,用最小二乘估計對目標姿態進行仿射近似。其他與這個姿態相一致的圖像特徵會被確定,並且異常值都忽略不計。最後,通過一個詳細的計算用來得出一組特徵能表明目標存在的概率大小,符合的準確度的概率和可能的錯誤匹配數的概率。經過所有的這些測試驗證,才能可以得出這個結論:目標匹配是成功的,而且準確率很高。

2. 相關研究

  使用一組局部興趣點來進行圖像匹配的發展可以追溯到1981年Moravec在立體匹配中使用的角點檢測。Moravec的探測器在1988年被Harris和Stephens改進,在小的圖像變動和近邊緣區域具有了更高的重複性。Harris還展示了它在有效運動追蹤方面和由運動恢復進行三維建模中的價值(Harris,1992),Harris的角探測器自此在很多其他的圖像匹配工作中被廣泛的使用。儘管這個特徵探測器被稱爲角探測器,但它並不是只能選擇角,而且還可以探測到一個預先確定尺度中,在各個方向上都有較大的梯度的圖像位置。

  該方法的最初應用是立體或短距離運動追蹤,後來又被擴展到解決一些更困難的問題。Zhang等人在1995年在每個角的周圍使用相關窗口來選擇可能的匹配,使得Harris的角進行大幅圖像範圍的匹配成爲可能。通過求解一個剛性場景中兩個視角間的幾何關係的基礎矩陣和移除不符合大多數解的匹配來去除異常值。同年(1995),Torr研發了一種類似的方法來進行大間距的運動匹配,使用幾何約束來移除圖像中移動剛體的異常值。

  1997年,Schmid和Mohr的開創性的工作展示了不變的局部特徵匹配可以被擴展到一般的圖像識別問題中,即使用一個特徵與大型圖像數據庫進行匹配。他們還使用Harris角探測器來選擇興趣點,但他們使用的是一個局部圖像區域的旋轉不變的描述子來代替相關窗口。這時特徵可以在兩幅圖像之間進行任意方向變化時進行匹配。此外,他們還證明多特徵匹配可以通過確定一致的匹配特徵聚類,在遮擋和混雜的情況下完成一般的識別工作。

  Harris角探測器對圖像尺度的變化非常敏感。因此,對於不同尺度的圖像匹配,Harris的角反射器並不能提供很好的有效性。本文作者(Lowe)在1999年的早期工作中擴展了局部特徵方法來實現尺度不變性。這個工作還闡述了一種新的局部描述子,可以降低對局部圖像變形的敏感度(如三維視點的變換),同時可以提供更加鮮明的特徵。本文提出了對早前這一方法更加深入的的研究和分析,同時在穩定性和特徵不變性上也進行了大量改進。

  在之前的研究中,有相當多的研究工作是關於在尺度變化的情形下確定穩定的表示方法。最早在這個領域進行研究的有Crowley和Parker,1984年,他們在尺度空間發現了一種表徵(表示法)可以識別峯和脊,並把它們與樹結構聯繫起來。然後,就可以在任意尺度變換的圖像間進行樹結構的匹配。在近期基於圖像匹配的工作中,Shokoufandeh等人在1999年使用小波係數提出了一種更加鮮明的特徵描述子。Lindeberg在1993-1994年對識別一個合適並且一致的尺度用於特徵探測這一問題進行了深入研究。他描述這個爲尺度選擇問題,我們在下面使用了這一結論。

  最近,有了大量令人印象深刻的是關於將局部特徵擴展爲對全局仿射變換具有無關性的工作(Baumberg,2000;Tuytelaars和Van Gool,2000;Mikolajczyk和Schmid,2002;Schaffalitzky和Zisserman,2002;Brown和Lowe,2002)。這使得在變化的正射三維投影平面上的特徵匹配具備了不變性,多數情況下采用對圖像局部仿射框架進行重採樣的方法來達到特徵的無關性匹配。然而,還沒有一個方法實現了完全的仿射不變性(無關性),由於充分勘探仿射空間的成本過高,因此他們用一個非仿射不變的方式對最初特徵、尺度和位置進行選擇。仿射框架與尺度無關特徵相比,對噪音更加敏感,因此,在實際中仿射特徵比尺度不變性特徵重複率要低 ,除非在仿射變形與平面傾斜程度大於40度時(Mikolajczyk,2002),。對於很多應用,更寬的仿射不變性可能並不重要,因爲爲了獲得三維目標的非平面變化和遮擋的影響,瞄準視角至少每30度旋轉一下視點(也就是說對於最靠近的瞄準視角,識別也是在15度以內進行的)。

  儘管本文中的方法不具備完全的仿射不變性,但它使用了一種不同的方法,在這個方法裏局部描述子可以隨着描述子很小的變化來顯著地改變相關特徵的位置。這種方法不僅使描述子可以在相當大範圍的仿射變形時進行可靠地匹配,還可以使特徵在非平面的三維視點變化時具有更好的魯棒性。另一個優點是更有效的特徵提取和識別更多大量特徵的能力。另一方面,在非常大尺度的視角變化下,仿射不變性對匹配平坦的平面來說是一個很有價值的屬性,以後的研究應該是用最有效和穩定的方式把這個和非平面3D視角不變性結合起來。

  還有許多其他的被推薦進行識別的特徵類型,有的可以用於協助本文所述方法在不同環境中進行進一步的匹配工作。其中一種就是利用圖像輪廓或區域邊緣的特徵,(可被用來減少目標邊界附近的雜亂背景所帶來的干擾)應該減少這些輪廓和邊緣被目標邊界附近的雜亂的背景所幹擾。Matas等人在2002年稱他們的最大穩定極端區域可以產生大量具有良好穩定性的匹配特徵。Mikolajczyk等人在2003年使用局部邊緣(edge)同時忽略附近的無關邊緣,發現了一種新的描述子,使得即使是疊加在雜亂背景上的狹窄形狀的邊界附近也可以尋找到穩定的特徵。Nelson和Selinger在1998年使用基於圖像輪廓分組的局部特徵得到了很好的結果。類似的,Pope和Lowe在2000年使用的是基於圖像輪廓的等級分類的特徵,尤其是對於缺少詳細紋理的目標特別有用。

  關於視覺識別研究的歷史包含了致力於其他不同的圖像屬性的一些工作,這些圖像屬性可被用作特徵提取。  Carneiro和Jepson在2002年描述了一種基於相位的局部特徵來表示相位而不是用局部空間頻率的大小來表示,這種方法更有利於對於光照不變形的提高。Schiele和Crowley在2000年提出了使用多維直方圖來概括圖像區域內的測量值的分佈。(這種特徵對於紋理明顯的形狀畸變的目標尤爲有效)這種特徵可能對那些可變形狀有紋理目標的識別特別有用。Basri和Jacobs在1997年證明了提取局部區域邊界對於識別的價值。其他可以吸納的有用屬性有諸如顏色、運動、圖形背景識別、區域形狀描述子和立體景深提示等。(當有對魯棒性有提高的可以增強匹配成功率的新特徵類型時,只要它們的計算成本對其他特徵的影響較小)當新的特徵類型在提供正確匹配的時候可以提高魯棒性,而且除了計算開銷外不會對匹配有其他的影響時,   都可以簡單地被局部特徵方法採納作爲額外的特徵。因此,以後的系統可能會由很多特徵類型組合而成。

3. 尺度空間極值的發現

  引言中已經提到了,我們使用一種高效的算法先識別候選位置然後進一步確認的層疊過濾方法來探測關鍵點。關鍵點探測的第一步是識別同一目標在不同視角下可被重複分配的位置和尺度。使用被稱爲尺度空間的尺度連續函數,通過在所有可能的尺度上搜索穩定的特徵,完成對圖像尺度變化具有不變性的位置探測。(Witkin,1983)。

  Koenderink和Lindeberg分別在1984年和1994年已經證明,在一系列合理的假設下,尺度空間唯一可行的核就是高斯函數。因此,一幅圖像的尺度空間被定義爲一個函數L(x,y,σ),是由尺度可變的高斯函數G(x,y,σ)和輸入圖像I(x,y)的卷積產生:其中*爲x和y之間的卷積運算。而

  爲了在尺度空間中高效地探測出穩定的關鍵點位置,我們假設(Lowe,1999)(使用尺度空間在高斯差分中的極值與圖像卷積)使用高斯差分函數中的尺度空間極值與圖像卷積。可以由常數倍增因子k分離兩個相鄰的尺度的差值                                                                                                                                                                                           得到:

  有很多選擇這個函數的理由。首先,這是一個高效計算的函數,因爲平滑圖像L需要計算尺度空間特徵描述的任何情況,而D只需計算簡單的圖像減法。

  另外,Lindeberg於1994年研究表明,高斯差分函數和尺度歸一化的高斯拉普拉斯函數非常近似。

Lindeberg還證明了用對拉普拉斯進行歸一化對於真正意義上的尺度不變性是很有必要的。2002年Mikolajczyk在詳細的實驗比較中發現尺度歸一化的高斯拉普拉斯函數的極大值和極小值同其它的特徵提取函數,例如:梯度,Hessian或Harris角特徵比較,能夠產生最穩定的圖像特徵。

       D和的關係可以從熱擴散公式來理解(參數以σ而不是常見的形式):

       由此,我們可以看出 可以對使用有限差分法得到,其中有限差分法中使用相鄰的尺度爲   :

因此,

  這表明,當高斯差分函數的尺度被常係數區分開後,它就包含了拉普拉斯尺度不變性要求的尺度標準化。等式中的係數(k-1)是所有尺度中的常數,因此不影響極值的位置。K越接近1,估計誤差就越趨向於0,但是實際上我們發現估值對極值探測或定位的穩定性影響即使是在尺度有顯著差異的時候,如 時,也幾乎沒有什麼影響。

  構建D(x,y,σ)的有效方法如圖1所示。初始圖像與高斯函數遞增地卷積形成圖像,通過尺度空間的常係數k被分開,如左圖堆疊的圖像。我們將尺度空間中的每個組(如σ的兩倍)分爲整數,間距爲s,所以。我們必須在每個組的堆中建立s+3幅模糊的圖像才能完成覆蓋整個組的極值探測。臨近的圖像尺度相減便產生了高斯差分圖像,如右圖所示。一旦完成了整個組的處理,我們就用σ代替初始值2σ(頂層的堆中會產生2幅圖像)以每行每列的第二個像素對高斯圖像進行重採樣。相對於σ,採樣的精度與第一個組沒有差別,但計算量被很大程度上地降低了。

圖1. 對於每個尺度空間的組,初始圖像與高斯函數多次卷積所得尺度空間如圖像左邊所示。相鄰的高斯圖像相減產生了右邊的差分高斯圖像。每個組後,高斯圖像被降採樣2倍,重複該過程。

 3.1 局部機制探測

  爲了探測到D(x,y,σ)的局部最大值和最小值,每個樣本點都要和它當前圖像的八個近鄰已經上下尺度上的各九個近鄰相比較(如圖2)。只有在它比所有近鄰大或者小時纔會被選擇。因爲在前幾次檢查中大多數的樣本點會被排除,因此,這個檢查的代價相對較小。

圖2. 在現下的尺度和鄰近度(記爲圓),通過將一個像素(記爲叉)與其臨近的3*3區域內的26個像素進行對比,得到高斯差分圖像的最大值和最小值。

       確定圖像和尺度空間中樣本的頻率非常重要,需要對極值進行可靠地探測。不幸的是,無法找到可以探測到所有極值的最小採樣間隔,因爲極值之間可以任意程度的接近,無規律可循。可以想象黑色背景上有一個白色的圓圈,在尺度空間的最大值處爲圓形高斯差分函數區域的正中心,它與圓的大小和位置匹配。對於一個被拉長的橢圓形,它的每個端點(end)都有一個最大值。最大值的位置是一個圖像的連續函數,對於那些中間被拉長的橢圓形將有從一個極值到兩個極值的過渡,在過渡中,極值會任意的接近彼此。

       因此,我們必須使用一個權衡效率和完整性的方案。實際上,正如我們所想,也被我們的實驗所證實,相鄰近的極值對圖像很小的攝動是很不穩定的。我們可以通過對很大範圍內採樣頻率的研究和使用那些在匹配任務的逼真模擬中提供了最可靠結果(的數據)來決定最好的選擇。

3.2 尺度採樣的頻率

圖3. 第一幅圖上一條線是關鍵點在一幅被轉換的圖像的同一位置和尺度被重複探測的百分率,作爲一個組採樣的尺度數的值。下面的那條線是關鍵點的描述子與大型數據庫正確匹配的百分率。第二幅圖表示的是在一幅典型圖像中被探測到的關鍵點總數,以此作爲尺度採樣的數值。

  如圖3和圖4所示爲列舉採樣頻率使得極值有最大穩定性的實驗。這些圖(以及本文中的大多數模擬)是基於一組來自不同種類的32幅真實圖像的匹配任務,圖像包括外景、人臉、航空影像和工業圖像(經研究發現圖像域對結果無任何影響)。每幅圖像都經過了一系列的變換,包括旋轉、縮放、仿射拉伸、明亮度對比度變化和增加圖像噪聲。因爲是人工改變圖像的,所以可以精確地推斷初始圖像的每個特徵在轉換後的圖像中是怎麼樣的,從而可以對每個特徵 測量正確的重複率和位置的準確性。 


圖4. 圖中頂部的那條線表現的是關鍵點位置在轉換的圖像中被重複探測到的百分率,被作爲對每個組第一級優先圖像平滑的函數。

  圖3所示爲用於檢查 在極值探測前採樣的圖像函數每個組尺度數變化的效果。在這個情況下,每幅圖像在隨機旋轉一個角度和初始圖像0.2-0.9倍的隨機縮放後,就會被重採樣。降低分辨率後的圖像的關鍵點與初始圖像進行匹配,因此所有關鍵點的尺度將被呈現在匹配圖像中。另外,添加了1%的圖像噪聲,也就是說在[0,1]範圍內的像素值將會加上一個在[-0.01,0.01]內的隨機數字(相當於降低圖像像素6比特的準確度)。

  圖3中第一幅圖中的上面一條線顯示了,在一個被轉換後的圖像中,在匹配的位置和尺度上探測到的關鍵點的百分比。本文中所有的例子,我們都將匹配尺度定義爲正確尺度的倍以內,匹配位置爲σ個像素以內,σ爲關鍵點的尺度(定義爲高斯差分函數中使用的最小高斯函數的標準差)。圖中下面的一行爲使用最近鄰匹配法,與有40,000個關鍵點的大型數據庫正確匹配的關鍵點數,詳細過程在第六章講述(這表明關鍵點一旦可以被重複定位,就有可能對識別和匹配工作很有用)。正如這幅圖所示,最高的重複率是在每層金字塔中採樣三個尺度時獲得的,這也是本文中其它實驗所使用的採樣尺度數。

  採樣的尺度不是越高重複率就越高,這一點可能讓人覺得有些奇怪。這是因爲在很多被探測到的局部極值結果中,這些(採樣尺度高的)結果平均來看會更加不穩定,因此在轉換圖像中被探測到的機率也就降低了。這可以由圖3中的第二幅圖看出,它表示的是在每幅圖像中被正確探測和匹配的關鍵點數目。關鍵點數隨採樣尺度增加而提高。由於目標識別成功與否更多的是依賴於被正確匹配的關鍵點的數量,而不是它們匹配的正確率,因此對於很多應用而言,選擇較大的尺度採樣纔是最佳選擇。然而,計算成本也會隨之增大,因此本文中的實驗我們選擇使用每個組3個採樣尺度。

  總而言之,這些實驗表明高斯差分函數的尺度空間有很多的極值,所以完全的探測到它們成本會很高。幸運的是,我們可以使用一些較大的採樣尺度就可以探測到最穩定和最有用的子集。

3.3 空間域採樣的頻率

       我們剛決定尺度空間每組的採樣頻率,接下來要確定與平滑尺度相關的圖像域中的採樣頻率。考慮到極值可能任意程度上的接近彼此,這裏有一個類似的對採樣頻率和探測率的權衡。圖4所示爲 確定模糊量的實驗過程,這個模糊量在建立一個Octave的尺度空間表示之前,要運用在每層的圖像上。同樣,圖中頂部的那條線表示關鍵點探測到的重複率,結果顯示重複率隨σ的增大而增大。然而,使用大的σ對效率有所影響,所以我們選用σ=1.6,使用這個值可以使我們接近最佳的重複率。這個值在本文中(包括圖3中的試驗中)被普遍應用。

       當然,如果我們在極值探測前對圖像進行預平滑處理,我們就有效地剔除了最高的空間頻率。這樣,爲了充分利用輸入,相比初始圖像,圖像將原始圖像擴展(expand)來獲取更多的採樣點。在建立金字塔第一層之前,我們使用線性插值使輸入圖像的大小加倍。對原始圖像使用亞像素補償濾波可以有效的等價運算,但圖像加倍的實現更加有效。我們假設原始圖像有至少σ=0.5的模糊(最小值用來防止大的走樣),因此相對新的像素空間,加倍的圖像的模糊量爲σ=1.0。這意味着在創建尺度空間的第一組Octave前,增加小量的平滑是必要的。圖像加倍使穩定的關鍵點數增加了近4倍,但使用更大的擴展係數就沒有更明顯的提高了。

 

4. 準確的關鍵點定位

  完成了像素與其近鄰的比較就可以得到關鍵點的候選值,下一步就是完成附近數據位置、尺度和主曲率的精細配置(fit)。這個信息使低對比度的點(對噪音敏感)和不穩定的邊緣響應點被淘汰。

這個方法的初步實現(Lowe,1999)是簡單地將關鍵點定位唉唉中心樣本點的位置和尺度。然而,Brown最近改進了此方法(Brown和Lowe,2002)。對局部樣本點進行三維二次方程擬合來決定最大值的插值位置。他的實驗表明這一改進很大程度地提高了匹配和穩定性。他的方法對尺度空間方程D(x,y,σ)使用了泰勒級數展開(到二階)變換,把樣本點作爲原點。

                                                                                                                                                                               (2)

  其中D和它的導數在樣本點處被估值,x爲極值點的偏移量,而爲極值點的位置。通過對函數求關於x求偏導並設爲零得到極值的位置 :

 

                                                                                                                                            (3)

  如Brown建議的,Hessian矩陣和D的導數都是對相鄰樣本點使用差分來求估計值的。可以在最小的成本下得到3*3的線性系統的結果。如果偏移量在任何維度都大於0.5,就意味着極值與另一個樣本點更爲接近。這時,樣本點改變,並對該點進行插值。最後迭代得到的偏移量加到樣本點的位置上來得到極值位置的插值估計。

  極值處的函數值可以用來去除低對比度不穩定的關鍵點。這個可以通過把(3)帶入(2)得到的值。

 

  對於本文中的實驗來說,對於所有極值點和相應的小於0.03的都要被排除(如前假設,我們設圖像像素值在[0,1]的範圍內)。

  圖5所示爲在自然圖像上進行關鍵點選擇的結果。爲了防止太多的雜亂,我們使用了一個233*189像素的低分辨率圖像,關鍵點以矢量形式給出,包含了關鍵點的位置、尺度和方向(方向的指定見下文)。圖5(a)所示爲原始圖像,後面的圖像對其進行了對比度的降低。圖5(b)所示爲高斯差分函數探測到的所有最值中的832個關鍵點。而(c)所示爲除去絕對值小於0.03的點後所剩的729個關鍵點,(d)部分將在後面的章節中介紹。 

圖5. 本圖表示的是關鍵點選擇的階段。(a)233*189個像素的初始圖像。(b)高斯差分公式最大值和最小值確定出的832個關鍵點位置,關鍵點被顯示爲矢量形式,表示尺度,方向和位置。(c)對最小值對比設置臨界值後,還剩下729個關鍵點。(d)附加一個主曲率極限後,最終剩下的536個關鍵點。

4.1  去除邊緣響應

  對於穩定性,只去除低對比度的關鍵點是不夠的。即便在邊緣處的點具有很差的決策性並且對很小的噪聲很不穩定,高斯差分函數也會有很強的反應。高斯差分函數中一個定義不好的峯值將會在橫跨邊緣處產生很大的主曲率,而在垂直方向上產生很小的主曲率。主曲率可以通過一個2*2的Hessian矩陣來計算。H在關鍵點的位置和尺度上被計算:

                                                                                                                                                            (4)

  通過對近鄰樣本點的差分來估計導數值。

  H的特徵值與D的主曲率成比例。借用Harris和Stephens(1988)的方法,我們可以不用顯式地計算特徵值,因爲我們只關心它們的比率。設α爲大的特徵值,而β爲小的特徵值。然後我們可以通過求H的跡來獲得特徵值的和,從行列式獲得它們的積:

  

       行列式不可能爲負,曲率符號不同時,點不爲極值,捨去。設r爲最大量級特徵值和最小特徵值之比。所以α=rβ。接下來,

  上面這個式子只取決於特徵值的比而不是它們各自的值。當兩個特徵值相等時,(r+1)2/r最小,並隨r的增加而增加。因此,要看主曲率是否低於某個極限,我們只需要檢查: 

  這個計算非常高效,當對每個關鍵點只需進行小於20次的浮點運算檢測。本文中的實驗使用的r值爲10,這樣就可以去除在主曲率間的比值大於10的關鍵點。圖5中(c)到(d)的轉換即爲這個運算的結果。

(注:D的主曲率和H的特徵值成正比,令爲α最大特徵值,β爲最小的特徵值,則公式的值在兩個特徵值相等時最小,隨着的增大而增大。值越大,說明兩個特徵值的比值越大,即在某一個方向的梯度值越大,而在另一個方向的梯度值越小,而邊緣恰恰就是這種情況。所以爲了剔除邊緣響應點,需要讓該比值小於一定的閾值

 

5. 關鍵點方向分配

  通過局部圖像屬性給每個關鍵點指定一個的方向,關鍵點描述子可以與這個方向相關,從而實現圖像旋轉的不變性。這個方法和Schmid和Mohr(1997)的方法形成了對比,他們的每個圖像屬性都是基於一個旋轉不變的測量。他們方法的缺點就是它限制了可用的描述子,並因爲沒有要求所有測量都基於一個一致的旋轉而丟失了圖像信息。

  下面的實驗使用了很多方法來分配一個局部方向,下面的方法能夠得到最穩定的結果。關鍵點的尺度是用來選擇尺度最接近的高斯平滑圖像L的,這樣所有的計算都是在一個尺度不變條件下進行的。對於每個圖像樣本L(x,y),在這個尺度下,梯度量級m(x,y)和方向θ(x,y)是用像素差預計算出來的:

   一個方向直方圖是用關鍵點周圍區域的樣本點的梯度方向組成的。在該直方圖中,將360度的方向分成36個bins,每個bin包含10度。每個加到直方圖的樣本都被它的梯度量級定權,再被該處關鍵點尺度1.5倍的σ的高斯圓形窗口定權。

  方向直方圖的峯值則代表了該特徵點處鄰域梯度的方向,以直方圖中最大值作爲該關鍵點的主方向並且所有大於最高峯80%的峯值也被轉化爲一個新的特徵點,這個新的特徵點和原來的特徵點一樣擁有相同的位置和尺度,但是新特徵點的方向是另一個峯值,。所以方向將一個特徵點分爲多個特徵點。只有15%的點會被指定多個方向,但它們對匹配的穩定性意義很大。最後,對最接近每個峯值的三個直方圖值進行拋物線插值來得到峯值位置,這樣會有更好的準確性。

  圖6所示爲在不同數量的圖像噪聲下,位置、尺度和方向指定的實驗穩定性。如前,圖像被隨機地旋轉縮放過。頂端的線爲關鍵點位置和尺度指定的穩定性。第二條線爲當方向指定在15度以內的匹配穩定性。上面兩條線之間的差距可以看出,即使加了10%的像素噪聲。方向指定保留了時間95%的準確性(相當於相機有小於3比特的準確度)。正確匹配的方向量測變化爲25度左右,當有10%的噪聲時,升爲3.9度。圖6最下面一條線爲一個關鍵點描述子與一個有40,000個關鍵點的數據庫匹配正確的最終準確率(下文討論)。如圖所示,SIFT特徵對大量的像素噪聲具有抵抗性,而錯誤的主要原因在初始位置和尺度的探測。

圖6. 圖中頂行顯示的百分率爲像素噪聲的函數,是可重複檢測的關鍵點的位置和尺度。第二行顯示的是之後的重複率,同樣要求方向一致。最下一行爲最後與大型數據庫正確匹配的描述子的百分率。

 

6. 局部圖像描述子

  之前的操作已經指定了圖像的位置,尺度和每個關鍵點的方向。這些參數定義(impose)了一個可重複的局部二維座標系統,可以在裏面定義局部圖像區域,從而爲這些參數提供不變式。下一步就是爲局部圖像區域計算描述子,它要非常鮮明,同時對於剩下的變化儘可能的保持不變性,如光照或三維視點的改變。

  一個明顯的方法就是在合適的尺度的關鍵點周圍的局部圖像亮度進行採樣,使用歸一化的相關方法進行匹配。然而,簡單的圖像塊的相關性對變化非常敏感,,從而導致樣本的誤匹配,如仿射變化或三維視點變化或非剛性變形。Edelman等人在1997年提出了一個更好的方法。他們提出的方法是基於生物視覺的,尤其是主視覺皮層中複雜的神經細胞。這些複雜的神經細胞對某個方向和空間頻率的梯度變化反應,但梯度在視網膜上的位置卻是在一個可以接受的範圍(field)內變化而不是精確地固定。Edelman等人假設這些複雜神經細胞的函數使得我們進行匹配和一定視點範圍內三維目標的識別。他們展示了詳細的實驗,通過三維計算機目標和動物形狀的模型表明在允許位置變化下的匹配梯度比在三維旋轉下的分類結果要好得多。(They have performed de-tailed experiments using 3D computer models of object and animal shapes which show that matching gradients while allowing for shifts in their position results in much better classification under 3D rotation.)比如說,在使用複雜的細胞模型後,三維目標在20度景深下旋轉的識別準確率從35%的梯度相關性升爲94%。我們的下面的實踐正是受這個思想的啓發,但使用的是另一種計算機制來允許位置變化。 

圖7. 要創建一個關鍵點描述子首先要計算關鍵點位置附近區域的每個圖像樣本點的梯度大小和方向,如左圖所示。它們由高斯窗口定權,由重疊的圓形表示。然後如右圖所示,將這些樣本聚集爲方向直方圖,每4*4個子區域概括爲一個。這裏的每個箭頭的長度均爲該區域內這個方向附近梯度模值的總和相對應。圖中所示的2*2的描述子箭頭就是由8*8的樣本集計算出來的,本文所使用的是由16*16的樣本集中計算出來的4*4的描述子。

6.1 描述子表示

  圖7展示了關鍵點描述子的計算。首先,在關鍵點附近進行梯度幅值和大小的採樣,使用關鍵點的尺度來選擇圖像高斯模糊的程度。爲了達到方向不變性,我們描述子的座標和梯度方向都旋轉爲關鍵點的方向。爲了高效性,如第五章中所提到的,金字塔中每一層的梯度都預先被計算出來。在圖7的左邊,它們在每個樣本位置處以小箭頭標出。

    用一個高斯加權函數來給每一個樣本點的梯度幅值添加一個權值,其中函數中的等於描述子窗口寬度的一半。圖7左圖中的圓形窗口證明了這一點 ,當然權值是平緩的下降的。這個高斯窗口的目的是爲了避免描述子在窗口位置發生微小變化下的突變,同時使得距離特徵點越遠,要加入直方圖的像素點的梯度大小越小。因爲這些經常被被配準誤差所影響。

  關鍵點描述子如圖7右側所示。它通過在4*4的樣本區域建立方向直方圖使得梯度位置可以發生較大的變化。每個方向直方圖有八個方向,每個箭頭的長度與該直方圖的幅值有關。一個左邊的梯度樣本可以變爲四個樣本位置,並向右邊的直方圖輸出值,從而實現了更大的局部位置變化的目的。

  當樣本從一個直方圖轉到另一個直方圖或從一個方向平滑地變向另一個方向時發生突變,描述子會突然的改變,所以避免所有的邊緣影響很重要。因此,三線性插值用來給每個梯度樣本向鄰近的箱(柱子)內分配值。換句話說,就是每個箱中的輸入都是乘過了1-d各個方向的權值的,其中d爲以直方圖各柱子之間的空間爲單位測量的樣本到中心柱子的距離值。

  描述子由保存所有方向直方圖的值得矢量得到,對應於圖7右邊圖中箭頭的長度。圖像顯示了一個2*2陣列的方向直方圖,而我們下面的實驗表明每個方框裏有八個方向的4*4陣列的直方圖所得結果最優。因此,本文所用的爲每個關鍵點有4*4*8=128個元素特徵矢量的。

  最終,爲了減弱光照變化的影響,特徵矢量被修改。首先,矢量被標準化爲單位長度。對圖像對比度的改變就是講每個像素值乘以一個常數,這樣整個梯度也會乘上同一個常數,這種對比度變化會被矢量歸一化抵消掉。亮度變化中圖像裏的每個像素都會加一個常數,這不會影響到梯度值,因爲梯度值是像素值之差。因此,描述子對於光照的仿射變化是具有不變性的。然而,非線性光照變化也可能是由於相機飽和度或光照變化影響了不同數量不同方向的三維表面。這些影響可能會造成一些梯度相關量級的巨大變化,但對梯度方向影響很小。因此,我們減少將每個單位特徵矢量不大於0.2的這個限定對大的梯度量級的影響,然後對單位長度進行重歸一化。這意味着匹配大梯度量級不再是一件重要的事,而更加強調方向的分佈。值0.2是通過圖像對相同的三維目標保留不同光照的實驗得到的。

6.2 描述子測試

  有兩個參數可以變化描述子的複雜度:直方圖中的方向數r和方位直方圖的nxn數組中的n的寬n。最終描述子矢量的大小爲。當描述子的複雜度增加時,在大型數據庫中的區分度更好,但它對形狀畸變和遮擋也更爲敏感。

 圖8. 本圖描述的爲寬爲n*n的關鍵點描述子以及每個直方圖方向數的函數,是關鍵點與數據庫中40,000個關鍵點正確匹配的百分率。

  圖8顯示了當方向數和描述符的大小改變時的實驗結果。圖是用一個視點變換得到的,在這個視角變換裏,平面相比觀察者傾斜了50度,並添加了4%的噪聲。這接近了可靠匹配的極限,因爲在這種更加困難的情況下,描述子的性能纔是最重要的。結果顯示了在40,000個關鍵點的數據庫在找到正確匹配的最近鄰單點的關鍵點百分數。圖中顯示所得,單個方向的直方圖(n=1)的區分度很差,但增加直至一個4*4陣列的八方向直方圖的過程中結果一直在改善。這之後,再增加方向或加大描述子只對匹配造成了影響,使得描述子對畸變更加的敏感。在其他視角角度變化和噪聲情況下,結果是相似的。儘管在一些簡單的情況下,區分度(從最高級)繼續提高直至5*5和更高的描述子大小。但我們在本文中仍使用4*4的8方向描述子,可產生128維的特徵矢量。儘管描述子的維數好像很高,但我們發現這在一系列匹配任務中比低維度表現更好,而且匹配的計算成本在使用如下介紹的近似的最近鄰方法中也很低。

6.3 仿射變化敏感度

 圖9. 本圖所示爲關鍵點位置、方向和最終與數據庫匹配的探測的穩定度,作爲仿射變換的一個函數。仿射變換的程度由平面內一組等視點景深旋轉來表示。

  描述子對仿射變化的敏感度如圖9所示。圖中所示爲關鍵點位置和尺度選擇、方向分配和與一個與遠離觀察者的平面中進行深度旋轉函數的數據庫進行最近鄰匹配的可靠性。可以看出,每個計算階段中,隨着仿射畸變的增加,重複率的下降,但在最後,對於一個視點變化50度時,匹配的準確度仍是保持在50%之上。

  爲了實現大視點角情況下可靠的匹配,如第二章所講,可以使用一種仿射不變的探測器來對圖像區域進行選擇和重採樣。那裏提到,由於這些方法都是起源於一個非仿射不變的圖像的初始特徵位置,所以它們並不具有真正的仿射不變性。在看起來最具有仿射不變性的方法中,Mikolajczyk(2002)對Harris仿射探測器假設並執行了詳細的實驗。他發現,它的關鍵點重複率比這裏給出的50度的視點角要低,但在角度爲70度時,保持在接近40%的重複率上,在極值仿射變換中表現更好。缺點是計算成本高,關鍵點數量少和在噪聲下設定一致仿射變換框架誤差對小的仿射變換穩定性差。實際上,三維目標允許的範圍是遠少於對平面的,所以仿射不變性在匹配視點變化時並不是限制因素。如果要求大範圍的仿射不變性,如要求表面爲平面,那麼一個簡單的解決方案就是去採用Pritchard和Heidrich(2003)的方法,生成由訓練圖像的4仿射變換的版本到60度視點的變化的附加SIFT特徵。這使得標準SIFT特徵的使用在圖像識別處理中沒有增加新的運算成本,但在因素爲3的特徵數據庫的大小增加了。

6.4 與大型數據庫匹配

圖10. 虛線表明關鍵點與數據庫正確匹配的百分率,爲數據庫大小的一個函數(使用對數尺度)。實線爲關鍵點分配正確的位置、尺度和方向。圖像有隨機尺度和旋轉變換,30°的仿射變換和2%的圖像噪聲被預先加入匹配中。

  一個測量特徵鮮明性的重要遺留問題是匹配重複率如何作爲一個匹配數據庫中的特徵數的函數變化。本文中大多數的例子是使用一個32幅圖像,40,000個關鍵點的數據庫而生成的。圖10所示匹配重複率如何作爲一個數據庫大小的函數變化的。這幅圖像是使用一個更大的有112幅圖像的數據庫生成的,視點旋轉深度爲30度,添加了2%的噪聲,圖像進行了隨機地尺度變化和旋轉。

  虛線顯示了數據庫中以最近鄰爲正確匹配的圖像特徵的部分,它作爲數據庫大小的函數以對數的規模顯示出來。最左端的點是與一張圖像中的特徵進行匹配而最右端的點是從含有112幅圖像的所有特徵的的數據庫中進行匹配。可以看出匹配的可靠性在以干擾項數目的增加而降低,然而所有的顯示都表明在更大的數據庫大小下更多的正確匹配將繼續被找到。

  實線爲在變換圖像的正確的匹配位置和方向被識別的關鍵點百分比,所以只有這些點在有機會再數據庫中有匹配的描述子。這條線扁平(flat)的原因是測試在整個數據庫中運行了每個值,但只改變了數據庫中一部分用來干擾的部分。有趣的是,兩條線之間的間隔很小,表明匹配失敗更多的是因爲初始特徵定位和方向分配的問題,而不是特徵鮮明性的問題,更不是大型數據庫大小的問題。

7. 目標識別的應用

  如上所示,本文主要的主題是鮮明不變性關鍵點的引出。爲了展示它們的應用,我們給出它們在有遮擋和雜亂情況下進行目標識別的描述。更多關於這些特徵的識別應用參見其它文獻(Lowe,1999;Se等人,2002)。

  目標識別首先要將每個關鍵點獨立的與從訓練圖像中提取的關鍵點進行匹配。由於模糊的特徵和從背景雜斑中得到的特徵導致很多初始的匹配是不正確的。 因一個至少包含三個特徵點的聚類被識別看是否和一個目標或者姿勢相符合,因爲這些聚類比那些單個的特徵匹配有更大的可能是匹配正確的。接下來,通過執行一個詳細的幾何匹配,並判斷結果,決定採納還是放棄。

7.1關鍵點匹配

  通過在由訓練圖像得到的關鍵點數據庫中識別最近鄰,我們找到了每個關鍵點的最佳候選匹配。如第六章所述,最近鄰定義爲每個關鍵點的不變描述子矢量之間的最短歐氏距離。

  然而,圖像中的很多特徵與訓練數據庫可能沒有任何正確的匹配,因爲它們是從背景雜斑中提取出來的或者是他們沒有在訓練圖像中被探測出來過。因此,如果有一種方法可以用來丟棄在數據庫中沒有匹配的特徵,將會很有用。如果使用最近鄰距離作爲閾值的話效果不會特別好,因爲一些描述子比其他的要鮮明很多。更有效的方法是通過比較最近距離與次近距離。如果有同一目標的很多訓練圖像時,我們定義與第一個來自不同目標的次近距離爲最近距離,就像使用含有不同目標的已知圖像一樣。這個方法執行很好,因爲正確匹配需要最近鄰顯著地接近那些最接近的錯誤匹配來達到可靠性匹配。對於錯誤的匹配,由於特徵空間的高維度,相似距離內會有很多其他的錯誤匹配。我們可以把次近距離匹配作爲對特徵空間的這一部分錯誤匹配密度的一個估計並同時識別特徵不明確的特殊實例。

圖11. 匹配的正確性可由距離比率決定,即用最近鄰距離除以次近鄰的距離得到。使用一個有40,000個關鍵點的數據庫,實線顯示的爲正確匹配距離比率的概率密度函數,而點線爲錯誤的概率密度函數。

  圖11表明用這種方法對真實圖像數據的測量值。正確和不正確匹配的可能性密度函數以每個關鍵點最近鄰與次近鄰之比表示。最近鄰爲正確匹配的概率密度函數的中心比錯誤匹配的比率低很多。對於我們的目標識別的執行,我們丟棄那些距離比值大於0.8的匹配,這樣可以在僅僅丟棄5%的正確匹配的前提下,減少90%的錯誤匹配。圖像是在一個40,000關鍵點的數據庫中,以隨機尺度和方向變化下匹配圖像生成的,旋轉深度爲30度,添加了2%的噪聲。

7.2 有效的最近鄰函數

  沒有一個現行算法可以在識別高維空間點的準確最近距離時優於窮搜索法(exhaustive search)。我們的關鍵點描述子有128維的特徵矢量,而最好的算法,如k-d樹(Friedman等人,1977年)也無法在多於10維的空間中提供比窮搜索法更快速的性能。因此,我們用了一種近似的算法,叫做最優盒優先(BBF)算法(Beis和Lowe,1997)。這是在場景中近似的返回具有最高可能性的最近鄰。

  BBF算法使用了一種k-d樹算法的改進算法,使得特徵空間中的箱是以它們在隊列位置中最的近距離的順序被檢索。這種優先順序最早是由Arya和Mount(1993)實踐的,他們在Arya等人(1998)的文獻中對其計算性能提供了更進一步的研究。這個搜索順序要求使用一種基於堆優先的隊列來實現搜索順序的高效決策。在檢索了特定量的最近箱之後,中斷進一步的搜索可以低計算成本的返回一個近似結果。在我們的實現中,我們在檢查了最開始的200個最近鄰候選值後,中斷了搜索。對於一個有100,000個關鍵點的數據庫,它比準確的最近鄰搜索加速了約兩個數量級,而正確匹配的結果只損失了不到5%。BBF算法運行如此良好的一個原因是我們只考慮了最近鄰比次近鄰小於0.8以內的這些匹配(如前面章節中提到的),因此無需考慮那些很多近鄰距離非常接近的困難情況。

7.3 霍夫變換的聚類

  對小而高度遮擋的目標識別實現最大化,我們希望以最少的可能的特徵匹配數進行目標識別。我們發現在最少使用3個特徵的情況下可靠識別是可能的。一個有着2,000個或更多特徵的典型圖像可能會有很多不同的目標和聚類背景。而第七章中所述的距離比率實驗允許我們從聚類背景中丟棄大量的錯誤匹配,而這並不減少其他有效目標的匹配。通常,我們仍需要從含有99%異常值的匹配中找到那少於1%的正常值識別正確的子集。很多衆所周知的穩健地配置(fitting)方法,如RANSAC或最小平方中值,在正常值小於50%時運算結果就會很差。幸運的是,在姿態(pose)空間使用Hough轉換(Hough,1962;Ballard,1981;Grimson,1990)的聚類特徵可以很好的表現。

  霍夫轉換通過每個特徵與所有目標中特徵一致的姿態進行投票通過(vote for)的一致性解譯來識別聚類。當發現特徵聚類與一個目標投票通過了同一姿態,這種解譯正確的可能性比任何單一特徵要高很多。我們的每個關鍵點都有4個參數:二維位置,尺度和方向,而數據庫中每個匹配的關鍵點都有這個關鍵點與找到的訓練圖像相關聯的記錄。因此,我們可以建立一個霍夫變換,由匹配假設輸入預計的模型位置,方向和尺度。這個預計有很大的誤差界限,因爲這四個參數的相似變換隻是一個三維目標全六自由度的姿態空間的估計值,並且沒有做任何非剛性的變換。因此,我們30度方向的寬箱大小,2因素的尺度以及投影訓練圖像位置維數(使用預計的尺度)最大值的0.25倍。爲了防止邊界效應在箱指定中的問題,每個關鍵點匹配在每個維度中都指定(vote for)了兩個最近的箱,這個假設共有16個輸入,姿態範圍擴寬更多。

  在多數霍夫轉換的實現中,用多維陣列來表現箱。然而,很多潛在的箱保持爲空,由於它們共有的依賴性,很難計算箱值可能的範圍(比如說,選擇範圍上可能的位置離散值的依賴性)。這些問題可通過使用箱值的僞隨機散列函數向一維散列表中插入投票(votes),從而可以簡單的探測到衝突。

 7.4 仿射參數的解決方法

  霍夫轉換是用來識別箱中至少有三個實體的所有聚類。每一個這樣的聚類都要進入一個用最小二乘法來計算與訓練圖像向新圖像轉換有關的最佳的仿射投影參數的幾何驗證程序。

  在正射投影下,仿射變換可以正確求解(account for)一個平面的三維旋轉,但對於非平面的目標的三維旋轉估值就很差了。更普遍的方法是解基礎矩陣(Luong和Faugeras,1996;Hartley和Zisserman,2000)。然而,與仿射法只需要3個點匹配相比,一個基礎矩陣式要求至少7個,而實際中,爲了更好的穩定性,需要更多的匹配。我們希望只用三個特徵匹配就完成識別,因此仿射變換就提供了一個很好的起始點,我們可以通過將允許的殘差值增大來計算(account for)仿射估計中的誤差。想象在目標周圍放了一個球形,然後將球形旋轉30度,球內的任意點不會移動超過球形投影直徑的0.25倍。對於本文中的一個典型三維目標的例子,在我們允許殘差不大於目標投影維數的最大值的0.25倍時,仿射方法可以很好地解決問題。Brown和Lowe(2002)提出了一種更普遍的方法,初值由相似變換得到,然後計算已經找到足夠匹配數的基礎矩陣。

  模型點對於圖像的仿射變換可以被寫爲:

  其中,爲模型變換,而mi參數表示仿射旋轉、縮放和拉伸。

  我們希望解出變換參數,因此,上式可以被重寫爲將未知量變爲列向量的形式:

  這個等式表示的是一個單獨的匹配,但可以添加後續匹配的數值,每個匹配都要在第一個和最後一個矩陣中加兩行。要解這個式子,至少需要三對匹配。

  我們可以把這個線性系統寫爲:

  參數x的最小二乘法可以通過解對應的法方程得到,

  它爲投影模型的位置到圖像位置的距離平方和的最小值。這個最小二乘法可以擴展來解決鉸接的靈活的目標的三維姿態和內部參數(Lowe,1991)。

  通過檢查每個圖像特徵和模型之間的一致度就可以移除異常值。有了更加準確的最小二乘法,我們要求每個匹配要在霍夫轉換箱(bin)中的參數的誤差一半的範圍以內。如果排除異常值後少於三個點,則這次匹配失敗。當排除異常值後,要用最小二乘法再次計算留下的點,依次迭代下去。另外,自上而下的進行相位(phase)是爲了增加與投影模型位置一致的匹配。可能會在霍夫轉換箱時丟失的一些匹配是由於轉換的相似性或其它錯誤。

  最後是否接受這個假設取決於之前文章中提到過的精細概率模型(Lowe,2001)。這個方法首先用來在給出模型的投影大小,區域中的特徵數和配置(fit)的準確度的情況下,解決模型姿態的錯誤匹配期望數。貝葉斯分析給出了目標基於實際找到的匹配特徵被表現出來的可能性。如果最終正確解譯出的可能性大於0.98,我們就接收這個模型。對於投影到圖像很小的區域的情況,3個特徵就足夠進行可靠地識別了。對於紋理較多的大面積目標,錯誤匹配的期望值較高,可能會需要是個特徵匹配這麼多。

 

8. 識別實例

  圖12所示爲一個從包含三維目標的聚類遮擋圖像中進行目標識別的例子。如左圖所示,測試圖像爲一個玩具火車和青蛙。中圖(大小爲600*480像素)爲含有被遮蔽的測試目標,並有大量聚類背景的圖片。因此,即使是人眼也很難立即發現。右圖所示爲最後正確識別後疊加在一個降對比度版本下的圖像。用於識別的關鍵點顯示爲小方形,有一條線來指示方向。方形的大小與用於構建描述子的圖像區域對應。在每個識別目標的外圍有一個外包的平行四邊形,它的邊界是測試圖像在識別過程中在仿射變換下的投影。

  另一個潛在的方法應用是位置識別,這樣運動的車輛和設備就可以通過識別熟悉的位置來確定位置了。圖13給出了這個應用的一個例子,其中訓練圖像是從場景中很多地方拍攝的。如左上圖所示,這些目標看起來都不太顯眼,如木牆或是垃圾桶旁的樹。而右上方的測試圖像(大小爲640*315像素)是將初始圖像場景旋轉30度後的視點拍攝的,但是,訓練圖像還是很容易的被找到了。

  識別的全部過程都被高效完成,所以圖12和圖13的所有目標在一臺2GHz的奔騰4處理器上的識別總用時少於0.3秒。我們在一臺筆記本上用一臺攝影照相機實施該算法,並在多種環境下廣泛的測試了它們。一般來說,有紋理的平面在被旋轉50度以內,在提供做夠光亮的或不是過度強烈的幾乎任何光照條件下,都可以被可靠地識別。對於三維目標,可靠識別的任意向深度旋轉範圍只有30度,而光照變化的干擾性也更明顯。因此,三維目標的識別最好是從多視角的綜合特徵入手,如局部特徵視角聚類法(Lowe,2002)。

  這些關鍵點還被用於解決機器人定位和製圖的問題,這個在其他文章中有詳細的闡述(Se等人,2001)。在這個應用中,一個三目的立體系統被用來決策關鍵點定位的三維估計決策。關鍵點只有同時出現在三幅圖像中,並有一致的不同性時才被使用,這樣可以保證出現較少的異常值。機器人運動時,它通過與現有的三維地圖進行特徵匹配來確定自己的位置,然後在更新它們的三維位置時,使用卡爾曼濾波來遞增地向地圖添加特徵。這爲機器人在一個位置環境中定位提供了一種具有魯棒性和準確性的解決方案。這項工作還處理了位置識別的問題,這樣,機器人可以在一幅大型地圖中被轉換到可以識別自己的位置的狀態(Se等人,2002),相當於目標識別的三維實現。

圖12. 左圖所示爲兩目標的測試圖片。它們可以在大量遮擋的聚類圖片中被識別出來,見中圖。識別結果見右圖。每個識別目標周圍都畫有一個平行四邊形來顯示初始測試圖像的邊界,識別過程中解決了仿射變換問題。小方形爲用於進行識別的關鍵點。 

 圖13. 這個例子表明在複雜場景中的位置識別。用於定位的測試圖像爲左上方640*315像素的圖像,是從右上角圖像的不同視角拍攝的。識別區域如下圖所示,小的方形爲識別的關鍵點,外圍的平行四邊形爲仿射變換後初始測試圖像的邊界。

 

9. 結論

  本文中所述的SIFT關鍵點在它的鮮明性方面尤爲突出,可以是關鍵點與大型數據庫中的其他關鍵點進行正確的匹配。這一鮮明性由裝配在圖像的局部區域內代表圖像梯度高維的矢量來實現。關鍵點對圖像旋轉具有不變性,對大尺度的仿射變形具有魯棒性。從典型圖像中可以提取大量的關鍵點,從而使在混雜背景下提取小目標具有更好的魯棒性。可以從整個尺度範圍提取關鍵點意味着小的局部特徵可以與小而高度遮擋的目標進行匹配,而大的關鍵點則在圖像噪音和模糊時具有了更好的表現。它們的計算是高效的,在標配的PC機上,幾千個關鍵點可以被近實時的從典型圖像中提取出來。

  本文還提出了一種用關鍵點進行目標識別的方法。這種方法使用了近似的近鄰查找,用來識別與目標姿態一致的聚類的Hough變換和最小二乘法進行最後的決策和核查。另一個可能的應用是三維重建、運動跟蹤和分割、機器人定位、圖像全景集合(assembly)、對極(epipolar)配準和其他需要進行圖像間匹配位置識別的視角匹配。

  對於圖像特徵的不變性和鮮明性,未來的研究可以由有很多方向。全三維視點和光照變化數據點集需要進行系統的測試。本文所述特徵只使用了單色亮度的圖像,因此,進一步的鮮明性可以從光照不變的顏色描述子中得出(Funt and Finlayson, 1995; Brown and Lowe, 2002)。同樣,局部紋理測量在人類視覺中也具有重要作用,合併在描述子中後,可以比當前這個從單個空間頻率進行研究的描述子更具有普遍的形式。局部特徵不變量匹配方法一個吸引人的地方在於這裏無需挑選一個特徵類型,因爲最好的結果往往是使用很多不同特徵得到的,因此,本方法可以貢獻於獲得有用的匹配並提高整體的魯棒性。

  另一個未來的研究方向是研究可以識別的目標分類的特徵。這對類屬目標尤爲重要,分類必須包含所有可能的外形,這是一個巨大的範圍。Weber等人的研究(2000)和Fergus等人的研究(2003)顯示通過學習小型數據集的適合識別目標類屬的局部特徵,這種方法有實現的可能性。從長遠角度來看,特徵集應該包含優先的(prior)和博學的(learned)特徵,這些特徵將基於對大量目標分來有效的訓練數據的數量來使用。

致謝

  我要尤其感謝Matthew Brown,他對本文在內容和表述上給了我很多改進的建議,而他本人在特徵定位和不變性上的工作也對本方法有貢獻。另外,我想謝謝大家寶貴的建議,他們是Stephen Se,Jim Little,Krystian Mikolajczyk,Cordelia Schmid,Tony Lindeberg和Andrew Zisserman。這個研究是由加拿大國家科學工程研究協會(NSERC)、機器人學與智能系統協會(IRIS)和Excellence網絡中心支持完成的。

 

參考文獻

Arya, S. and Mount, D.M. 1993. Approximate nearest neighbor queries in fixed dimensions. In Fourth Annual ACM-SIAM Symposium on Discrete Algorithms (SODA’93), pp. 271–280.

Arya, S., Mount, D.M., Netanyahu, N.S., Silverman, R., and Wu, A.Y. 1998. An optimal algorithm for approximate nearest neighbor searching. Journal of the ACM, 45:891–923.

Ballard, D.H. 1981. Generalizing the Hough transform to detect arbitrary patterns. Pattern Recognition, 13(2):111–122.

Basri, R. and Jacobs, D.W. 1997. Recognition using region correspondences. International Journal of Computer Vision, 25(2):145–166.

Baumberg, A. 2000. Reliable feature matching across widely separated views. In Conference on Computer Vision and Pattern Recognition, Hilton Head, South Carolina, pp. 774–781.

Beis, J. and Lowe, D.G. 1997. Shape indexing using approximate nearest-neighbour search in high-dimensional spaces. In Conference on Computer Vision and Pattern Recognition , Puerto Rico, pp. 1000–1006.

Brown, M. and Lowe, D.G. 2002. Invariant features from interest point groups. In British Machine Vision Conference, Cardiff, Wales, pp. 656–665.

Carneiro, G. and Jepson, A.D. 2002. Phase-based local features. In European Conference on Computer Vision (ECCV), Copenhagen, Denmark, pp. 282–296.

Crowley, J.L. and Parker, A.C. 1984. A representation for shape based on peaks and ridges in the difference of low-pass transform. IEEE Trans. on Pattern Analysis and Machine Intelligence , 6(2):156–  170.

Edelman, S., Intrator, N., and Poggio, T. 1997. Complex cells and object recognition. Unpublished manuscript:

http://kybele.psych.cornell.edu/ ∼edelman/archive.html

Fergus, R., Perona, P., and Zisserman, A. 2003. Object class recognition by unsupervised scale-invariant learning. In IEEE Conference on Computer Vision and Pattern Recognition, Madison, Wisconsin, pp. 264–271.

Friedman, J.H., Bentley, J.L., and Finkel, R.A. 1977. An algorithm for finding best matches in logarithmic expected time. ACM Transactions on Mathematical Software, 3(3):209–226.

Funt, B.V. and Finlayson, G.D. 1995. Color constant color indexing. IEEE Trans. on Pattern Analysis and Machine Intelligence, 17(5):522–529.

Grimson, E. 1990. Object Recognition by Computer: The Role of Geometric Constraints, The MIT Press: Cambridge, MA. Harris, C. 1992. Geometry from visual motion. In Active Vision, A. Blake and A. Yuille (Eds.), MIT Press, pp. 263–284.

Harris, C. and Stephens, M. 1988. A combined corner and edge detector. In Fourth Alvey Vision Conference, Manchester, UK, pp. 147– 151.

Hartley, R. and Zisserman, A. 2000.Multiple view geometry in computer vision, Cambridge University Press: Cambridge, UK.

Hough, P.V.C. 1962. Method and means for recognizing complex patterns. U.S. Patent 3069654.

Koenderink, J.J. 1984. The structure of images. Biological Cybernetics, 50:363–396.

Lindeberg, T. 1993. Detecting salient blob-like image structures and their scales with a scale-space primal sketch: A method for focus-of-attention. International Journal of Computer Vision, 11(3):283–318.

Lindeberg, T. 1994. Scale-space theory: A basic tool for analyzing structures at different scales. Journal of Applied Statistics, 21(2):224–270.

Lowe, D.G. 1991. Fitting parameterized three-dimensional models to images. IEEE Trans. on Pattern Analysis and Machine Intelligence , 13(5):441–450.

Lowe, D.G. 1999. Object recognition from local scale-invariant features. In International Conference on Computer Vision , Corfu, Greece, pp. 1150–1157.

Lowe, D.G. 2001. Local feature view clustering for 3D object recognition. IEEE Conference on Computer Vision and Pattern Recognition, Kauai, Hawaii, pp. 682–688.

Luong, Q.T. and Faugeras, O.D. 1996. The fundamental matrix: Theory, algorithms, and stability analysis. International Journal of Computer Vision, 17(1):43–76.

Matas, J., Chum, O., Urban, M., and Pajdla, T. 2002. Robust wide baseline stereo from maximally stable extremal regions. In British Machine Vision Conference, Cardiff, Wales, pp. 384–393.

Mikolajczyk, K. 2002. Detection of local features invariant to affine transformations, Ph.D. thesis, Institut National Polytechnique de Grenoble, France.

Mikolajczyk, K. and Schmid, C. 2002. An affine invariant interest point detector. In European Conference on Computer Vision (ECCV), Copenhagen, Denmark, pp. 128–142.

Mikolajczyk, K., Zisserman, A., and Schmid, C. 2003. Shape recognition with edge-based features. In Proceedings of the British Ma-chine Vision Conference, Norwich, U.K.

Moravec, H. 1981. Rover visual obstacle avoidance. In International Joint Conference on Artificial Intelligence ,Vancouver, Canada, pp. 785–790.

Nelson, R.C. and Selinger, A. 1998. Large-scale tests of a keyed, appearance-based 3-D object recognition system. Vision Research, 38(15):2469–2488.

Pope, A.R. and Lowe, D.G. 2000. Probabilistic models of appearance for 3-D object recognition. International Journal of Computer Vision , 40(2):149–167.

Pritchard, D. and Heidrich, W. 2003. Cloth motion capture. Computer Graphics Forum (Eurographics 2003), 22(3):263–271.

Schaffalitzky, F. and Zisserman, A. 2002. Multi-view matching for unordered image sets, or ‘How do I organize my holiday snaps?”’ In European Conference on Computer Vision , Copenhagen, Den-mark, pp. 414–431.

Schiele, B. and Crowley, J.L. 2000. Recognition without correspondence using multidimensional receptive field histograms. International Journal of Computer Vision , 36(1):31–50.

Schmid, C. and Mohr, R. 1997. Local gray value invariants for image retrieval. IEEE Trans. on Pattern Analysis and Machine Intelligence,19(5):530–534.

Se, S., Lowe, D.G., and Little, J. 2001. Vision-based mobile robot localization and mapping using scale-invariant features. In International Conference on Robotics and Automation , Seoul, Korea, pp. 2051–2058.

Se, S., Lowe, D.G., and Little, J. 2002. Global localization using distinctive visual features. In International Conference on Intelligent Robots and Systems, IROS 2002 , Lausanne, Switzerland, pp. 226–231.

Shokoufandeh, A., Marsic, I., and Dickinson, S.J. 1999. View-based object recognition using saliency maps. Image and Vision Computing , 17:445–460.

Torr, P. 1995. Motion segmentation and outlier detection, Ph.D. The-sis, Dept. of Engineering Science, University of Oxford, UK.

Tuytelaars, T. and Van Gool, L. 2000. Wide baseline stereo based on local, affinely invariant regions. In British Machine Vision Conference, Bristol, UK, pp. 412–422.

Weber, M., Welling, M., and Perona, P. 2000. Unsupervised learning of models for recognition. In European Conference on Computer Vision, Dublin, Ireland, pp. 18–32.

Witkin, A.P. 1983. Scale-space filtering. In International Joint Conference on Artificial Intelligence , Karlsruhe, Germany, pp. 1019–1022.

Zhang, Z., Deriche, R., Faugeras, O., and Luong, Q.T. 1995. A robust technique for matching two uncalibrated images through the recovery of the unknown epipolar geometry. Artificial Intelligence, 78:87–119.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章