SPM——Spatial Pyramid Matching

本文主要介紹:SPM(空間金字塔匹配)的基本原理和計算方法。

基本介紹

    SPM 全稱是Spatial Pyramid Matching,出現的背景是bag of visual words模型被大量地用在了圖像表示(Image representation)中,但是BOVW模型完全缺失了特徵點的位置信息。SPM考慮空間信息,將圖像分成若干塊(sub-regions),分別統計每一子塊的特徵,最後將所有塊的特徵拼接起來,形成完整的特徵這就是SPM中的Spatial。在分塊的細節上,採用了一種多尺度的分塊方法,即分塊的粒度越大越細(increasingly fine),呈現出一種層次金字塔的結構,這就是SPM中的Pyramid

如下圖,對圖像採用不同的尺度進行分塊,得到不同尺度的圖像,不同尺度構成層次關係:


上圖中,不同的點可以看作不同的特徵,每層中,點的個數,可以理解爲該關鍵點或區域特徵在該層次圖像出現的頻率,統計每個特徵在不同層次圖像中分佈情況,可以得到每個特徵的金字塔:



     從level 2 level 0類似The Pyramid Match Kernel中,直方圖取不同間隔,即把level 2看做間隔爲1,有16binlevel 1間隔爲2,得到4bin....因此,對於兩幅圖像,用相同的尺度劃分層次,並統計每個層次中每個cells中某特徵出現的次數,得到該特徵下的金字塔。

計算方法

   可以用和The Pyramid Match Kernel相似的方法計算兩個圖形在該特徵下的匹配程度(也可理解爲相似度)。匹配方法如下:

每個層次的匹配點數:



說明:

 1. SPM介紹了兩幅圖像匹配的方法。如要用於場景分類,上式就等於M(L+1)個直方圖相交運算的和,其實也就等於一個更大的向量直接進行直方圖相交運算而已。而這個向量,就等於每個被劃分的圖像子區域上的visual words直方圖連在一起。這個特徵,就是用來分類的特徵。

2. 作者在實驗中表明,不同L下,M200取到400對分類性能影響不大,也就是降低了碼書的大小對分類效果的影響。

3. 這個方法可以作爲一個模板,每個分塊圖像(sub-region)中統計的直方圖可以多種多樣,簡單的如顏色直方圖,也可以用HOG,這就形成了PHOG(分層梯度直方圖)。

4. 只不過這種空間分類信息仍然有侷限性-----一幅相同的圖像旋轉90度,匹配的結果就不會太高了。所以模型隱含的假設就是圖像都是正着存儲的(人都是站立的,樹都是站立的.......)。Spatial BOW Spatial-bag-of-features[C])好像可以解決這個問題。

5. 另外空間Pyramid的分塊方法也沒有考慮圖像中目標完整性(僅僅是利用SIFT特徵來描述了Object,即,在對圖像分塊時,可能會把一個目標分在不同塊中。


理論原文Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章