行人檢測(Pedestrian Detection)小結-Part II(資源庫總結)

轉自:行人檢測 - 清風捷影 - 博客大巴

----------------------------------------------------------------------------------------------------------------------

這篇調研是上研開題的時候寫的,沒想到訪問量這麼高,很多人朝我要畢業論文,懶得一個個發了,請自行下載:http://www.kuaipan.cn/file/id_71521745328145434.htm?source=1 其實主要都不是行人檢測=。=寫得也很水。。。。

這篇調研現在看寫得很爛,酌情參考吧。。。。。

2014.3.17

----------------------------------------------------------------------------------------------------------------------

看了將近半年的行人檢測的資料,最近開題了,我也趁着這個機會把腦袋裏的東西總結一下:

      先說下常用的數據庫:最早的是MIT,這個庫比較簡單,行人圖片背景簡單,只有正面和背面。在2005年以前流行,2005年後隨着HOG的提出,MIT庫上的準確率已經達到100%,所以INRIA成爲標準數據庫中的大家通用的數據庫。這個庫背景複雜,人的姿 勢也比較多,還有些光照等環境的影響。另外一個關於車輛內行人的圖像庫是Daimler,不過我總下載不下來。。。

      現在常用的方法分這麼幾類:行人檢測的目標是得到每個行人在視頻中每幀的空間位置。根據對行人描述(表達)方法的不同,行人檢測算法可以基本分爲三類:基於形狀模板匹配的方法和基於表觀特徵描述的方法,以及將形狀和紋理結合的方法。根據對人體是以一個整體進行檢測還是分部件進行檢測,又可以將行人檢測算法分爲基於部件的檢測方法和基於整體的檢測方法。下面針對國際上常用的行人檢測方法進行闡述。
(1)基於形狀模板匹配的檢測方法
      形狀是人體明顯的一個特徵,例如頭肩部的“Ω”形、軀幹部分的豎直邊緣輪廓,可以利用形狀之間的相似性來判斷圖像中是否有行人的存在。Gavrila[3-5]使用一系列人體形狀來表示人體形狀,然後在測試圖像中提取邊緣,基於Chamfer距離來評測圖像與模板之間的相似性。LinZhe[6]等將人體分爲頭肩軀幹、大腿和小腿三個部件,然後按照從上倒下使用Gavrila提出的方法分層次進行匹配,最後和基於背景建模得到的前景圖像進行形狀匹配,在檢測行人的同時將其大致形狀從背景中分割出來。
基於形狀匹配方法的優點是直接描述人體的形狀,比較直觀,檢測完成以後可以根據模板的形狀和姿勢,判斷檢測到行人的姿勢並切割出行人的大致輪廓。但由於其在線檢測時很難獲得待匹配圖像中目標的輪廓,且其利用樣本來描述類別的形狀,導致其一些顯著的缺點:離線訓練時的人體外圍輪廓需手工標定,邊緣提取受背景的影響,沒有采取鑑別性學習等
(2)基於表觀特徵向量的檢測方法
      基於表觀特徵向量的檢測方法使用能夠描述目標表觀特性的特徵向量表示目標模式和非目標模式,然後使用基於統計學習得到的分類器根據特徵向量做出判決。
      特徵提取將原始的圖像灰度(彩色)信息映射到特徵空間,其目的是減小待分類類別的類內變化和增大類間變化,理想的特徵是不同類別的分佈沒有交疊,完全可分。特徵提取的方法有兩種:基於整體特徵向量的方法和基於關鍵點提取的方法。
      在基於整體特徵向量的方法中,較早用於行人檢測的是Haar小波,Papageorgiou[7]等使用Haar小波變化係數描述行人,然後使用線性SVM分類器進行判決,建立了一個基於統計學習和表觀特徵相結合的行人檢測系統。之後,爲了避免邊緣提取誤差,很多方法直接使用梯度信息來表示人體的形狀,提高的魯棒性。例如局部邊緣方向直方圖EOH[8](Local Edge Orientation Histograms)、Edgelet[9]和Shapelet[10]等,這其中以Dalal[1]等人提出的HOG(Histograms of Oriented Gradients)的工作影響最大。HOG特徵成爲最近一個主流使用的特徵。在找尋更好描述行人特徵的同時,另一個發展的趨勢的特徵融合。實驗證明:融合多種能夠描述人不同特點的特徵,能夠獲得比僅利用單一特徵類型時的檢測性能。
基於感興趣區域的人體描述方法,首先使用感興趣點(或關鍵點)提取算法,提取關鍵區域,然後使用這些感興趣區域內提取到的特徵向量,描述相關的區域,然後使用關鍵區域的空間位置關係描述人體。由於衣服多樣性和人體姿勢變化等因素的影響,人體上的感興趣區域提取不夠穩定,限制了該方法的性能。
(3)基於部件檢測的方法
       Felzenszwalb[11]等人根據人體的關節特性,將人體的分爲十個部件,每個部位都有自己的表觀特徵,部位之間的幾何關係允許一定的變化,建立了一個運行形變的基於部件的檢測模型。之後對部件的數量進行了改進,以及檢測結果的一些特徵融合。
基於部件檢測的方法在一定程度上可以客服局部遮擋帶來的問題,,但是由於這種方法都是人工將人體劃分部件,而且要求訓練數據中標定每一個部件的位置,造成了人力資源的消耗和性能的不確定性。因此,現在在使用這一方法時,經常與HOG等特徵結合使用,以提高性能。

      現在主要的檢測方法還是以HOG特徵爲主,我把我看過的幾篇論文放在這裏,需要的朋友們可以點擊下載:
(1)最初提出HOG特徵的論文:hog_cvpr2005,這篇文章是研究行人檢測的必看文章

(2)Dalal(上面那篇文章的作者)的博士論文:Dalal-phd06(較大,鏈接在俺的機子上,可能不能下載)  對大家進一步瞭解HOG會有很大幫助

(3)Fast Hog,對最初的HOG特徵進行了改進:Zhu_Fast Human Detection Using a Cascade of Histograms of Oriented Gradients 。這篇論文在原文的基礎上加入了積分圖,cascade結構。我沒有把這篇論文實現,因爲cascade中的每一級所使用的弱分類器是svm,訓練時間會很長——如文中所述的“a few days”

另外還有Edgelet特徵貌似也不錯。不過,我沒研究過。不做評論。

(4)再鏈接兩篇中國人發的關於行人檢測的cvpr:Granularity-tunable Gradients Partition (GGP) Descriptors for Human Detection(翻過,沒細研究)

cvpr09-0515-Adaptive Contour Features in Oriented Granular Space for Human Detection(仔細研讀了:提出一種新的特徵,但是有些特別重要的地方沒講清楚)

(5)現在在INRIA庫上的最好結果是:Maji S., Berg A C, Malik J. Classification using Intersection Kernel Support Vector Machine is Efficient. 是對SVM進行了改進。

上面主要是針對圖像庫來檢測的。不能達到實時,要做到實時是不可能的。下面是我草擬的一個行人檢測的流程:

離線訓練過程:
1.輸入爲標準圖像庫中的圖像,對於正樣本,直接提取特徵;對於負樣本,多尺度遍歷整幅圖像,進行特徵提取。提取Harr,LBP,HOG三種特徵並保存爲積分圖形式。
2.對於cascade的每一級進行如下操作:用Adaboost進行特徵選擇,選出最好的特徵。
在前面的幾級用Harr和LBP這兩種計算較快的特徵,後幾級用HOG。
3.進行級數調整,直到達到要求的檢測率和錯誤率。

檢測過程: 1.輸入圖像,多尺度遍歷整幅圖像,進行特徵提取:提取Harr,LBP,HOG三種特徵並保存爲積分圖形式。 2.將所有子窗口輸入訓練得到的模型中,如下圖,經cascade分類器後,根據檢測結果即可標定行人區域,通過一些後處理(例如,合併臨近的窗口),就可以對行人進行定位,達到檢測的目的。 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章