本文主要介紹:SPM(空間金字塔匹配)的基本原理和計算方法。
1 基本介紹
SPM 全稱是Spatial Pyramid Matching,出現的背景是bag of visual words模型被大量地用在了圖像表示(Image representation)中,但是BOVW模型完全缺失了特徵點的位置信息。SPM考慮空間信息,將圖像分成若干塊(sub-regions),分別統計每一子塊的特徵,最後將所有塊的特徵拼接起來,形成完整的特徵,這就是SPM中的Spatial。在分塊的細節上,採用了一種多尺度的分塊方法,即分塊的粒度越大越細(increasingly fine),呈現出一種層次金字塔的結構,這就是SPM中的Pyramid。
如下圖,對圖像採用不同的尺度進行分塊,得到不同尺度的圖像,不同尺度構成層次關係:
上圖中,不同的點可以看作不同的特徵,每層中,點的個數,可以理解爲該關鍵點或區域特徵在該層次圖像出現的頻率,統計每個特徵在不同層次圖像中分佈情況,可以得到每個特徵的金字塔:
從level 2 到level 0類似The Pyramid Match Kernel中,直方圖取不同間隔,即把level 2看做間隔爲1,有16個bin,level 1間隔爲2,得到4個bin....因此,對於兩幅圖像,用相同的尺度劃分層次,並統計每個層次中每個cells中某特徵出現的次數,得到該特徵下的金字塔。
2 計算方法
可以用和The Pyramid Match Kernel相似的方法計算兩個圖形在該特徵下的匹配程度(也可理解爲相似度)。匹配方法如下:
每個層次的匹配點數:
說明:
1. SPM介紹了兩幅圖像匹配的方法。如要用於場景分類,上式就等於M(L+1)個直方圖相交運算的和,其實也就等於一個更大的向量直接進行直方圖相交運算而已。而這個向量,就等於每個被劃分的圖像子區域上的visual words直方圖連在一起。這個特徵,就是用來分類的特徵。
2. 作者在實驗中表明,不同L下,M從200取到400對分類性能影響不大,也就是降低了碼書的大小對分類效果的影響。
3. 這個方法可以作爲一個模板,每個分塊圖像(sub-region)中統計的直方圖可以多種多樣,簡單的如顏色直方圖,也可以用HOG,這就形成了PHOG(分層梯度直方圖)。
4. 只不過這種空間分類信息仍然有侷限性-----一幅相同的圖像旋轉90度,匹配的結果就不會太高了。所以模型隱含的假設就是圖像都是正着存儲的(人都是站立的,樹都是站立的.......)。Spatial BOW (Spatial-bag-of-features[C])好像可以解決這個問題。
5. 另外空間Pyramid的分塊方法也沒有考慮圖像中目標的完整性(僅僅是利用SIFT特徵來描述了Object),即,在對圖像分塊時,可能會把一個目標分在不同塊中。
理論原文:Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories