Pedestrian Detection paper

 

一、論文

綜述類的文章

[1]P.Dollar, C. Wojek,B. Schiele, et al. Pedestrian detection: an evaluation of the state of the art [J].IEEE Transactions on PatternAnalysis andMachine Intelligence, 2012, 34(4): 743-761.

[2]M. Enzweiler, and D.Gavrila. Monocular pedestrian detection: survey and experiments [J]. IEEE Transactions on Pattern Analysis andMachine Intelligence, 2009, 31(12): 2179-2195.

[3]D. Geronimo, A. M.Lopez and A. D. Sappa, et al. Survey of pedestrian detection for advanced driverassistance systems [J]. IEEE Transactionson Pattern Analysis and Machine Intelligence, 2010, 32(7): 1239-1258.

[4]蘇松志, 李紹滋, 陳淑媛等. 行人檢測技術綜述[J]. 電子學報, 2012, 40(4): 814-820.

[5]賈慧星, 章毓晉.車輛輔助駕駛系統中基於計算機視覺的行人檢測研究綜述[J], 自動化學報, 2007, 33(1): 84-90.

[6] 許言午, 曹先彬,喬紅. 行人檢測系統研究新進展及關鍵技術展望[J], 電子學報, 2008, 36(5): 368-376.

[7] 杜友田; 陳峯;徐文立; 李永彬;基於視覺的人的運動識別綜述, 電子學報, 2007. 35(1): 84-90.

[8]朱文佳. 基於機器學習的行人檢測關鍵技術研究[D]. 第一章碩士學位論文, 上海交通大學. 2008. 指導教師: 戚飛虎.

二、Source Code

1.INRIA Object detection and Localization Toolkit, Dalal於2005年提出了基於HOG特徵的行人檢測方法,行人檢測領域中的經典文章之一。HOG特徵目前也被用在其他的目標檢測與識別、圖像檢索和跟蹤等領域中。

2. Real-time Pedestrian Detection. Jianxin Wu實現的快速行人檢測方法。

3. Hough Transfom for Pedestrian Detection. Olga Barinova, CVPR 2010 Paper: On detection of multiple object instances using Hough Transforms

4. HIKSVM, HOG+LBP+HIKSVM, 行人檢測的經典方法.

5. GroundHOG, GPU-based Object Detection with Geometric Constraints, In: ICVS, 2011.  CUDA版本的HOG+SVM,  video.

6.  100FPS_PDS, Pedestrian detection at 100 frames per second, R. Benenson.  CVPR, 2012. 實時的(⊙o⊙)哦。 Real-time!!!

7. POM: Probabilistic Occupancy Map.  Multiple camera pedestrian detection.

三、DataSets

MIT數據庫

    該數據庫爲較早公開的行人數據庫,共924張行人圖片(ppm格式,寬高爲64x128),肩到腳的距離約80象素。該數據庫只含正面和背面兩個視角,無負樣本,未區分訓練集和測試集。Dalal等採用“HOG+SVM”,在該數據庫上的檢測準確率接近100%。

INRIA數據庫

    該數據庫是目前使用最多的靜態行人檢測數據庫,提供原始圖片及相應的標註文件。訓練集有正樣本614張(包含2416個行人),負樣本1218張;測試集有正樣本288張(包含1126個行人),負樣本453張。圖片中人體大部分爲站立姿勢且高度大於100個象素,部分標註可能不正確。圖片主要來源於GRAZ-01、個人照片及google,因此圖片的清晰度較高。在XP操作系統下部分訓練或者測試圖片無法看清楚,但可用OpenCV正常讀取和顯示。

Daimler行人數據庫

    該數據庫採用車載攝像機獲取,分爲檢測和分類兩個數據集。檢測數據集的訓練樣本集有正樣本大小爲18x36和48x96的圖片各15560(3915x4)張,行人的最小高度爲72個象素;負樣本6744張(大小爲640x480或360x288)。測試集爲一段27分鐘左右的視頻(分辨率爲640x480),共21790張圖片,包含56492個行人。分類數據庫有三個訓練集和兩個測試集,每個數據集有4800張行人圖片,5000張非行人圖片,大小均爲18x36,另外還有3個輔助的非行人圖片集,各1200張圖片。

Caltech行人數據庫

    該數據庫是目前規模較大的行人數據庫,採用車載攝像頭拍攝,約10個小時左右,視頻的分辨率爲640x480,30幀/秒。標註了約250,000幀(約137分鐘),350000個矩形框,2300個行人,另外還對矩形框之間的時間對應關係及其遮擋的情況進行標註。數據集分爲set00~set10,其中set00~set05爲訓練集,set06~set10爲測試集(標註信息尚未公開)。性能評估方法有以下三種:(1)用外部數據進行訓練,在set06~set10進行測試;(2)6-fold交叉驗證,選擇其中的5個做訓練,另外一個做測試,調整參數,最後給出訓練集上的性能;(3)用set00~set05訓練,set06~set10做測試。由於測試集的標註信息沒有公開,需要提交給Pitor Dollar。結果提交方法爲每30幀做一個測試,將結果保存在txt文檔中(文件的命名方式爲I00029.txt I00059.txt ……),每個txt文件中的每行表示檢測到一個行人,格式爲“[left, top,width, height, score]”。如果沒有檢測到任何行人,則txt文檔爲空。該數據庫還提供了相應的Matlab工具包,包括視頻標註信息的讀取、畫ROC(Receiver Operatingcharacteristic Curve)曲線圖和非極大值抑制等工具。

TUD行人數據庫

    TUD行人數據庫爲評估運動信息在行人檢測中的作用,提供圖像對以便計算光流信息。訓練集的正樣本爲1092對圖像(圖片大小爲720x576,包含1776個行人);負樣本爲192對非行人圖像(手持攝像機85對,車載攝像機107對);另外還提供26對車載攝像機拍攝的圖像(包含183個行人)作爲附加訓練集。測試集有508對圖像(圖像對的時間間隔爲1秒,分辨率爲640x480),共有1326個行人。Andriluka等也構建了一個數據庫用於驗證他們提出的檢測與跟蹤相結合的行人檢測技術。該數據集的訓練集提供了行人的矩形框信息、分割掩膜及其各部位(腳、小腿、大腿、軀幹和頭部)的大小和位置信息。測試集爲250張圖片(包含311個完全可見的行人)用於測試檢測器的性能,2個視頻序列(TUD-Campus和TUD-Crossing)用於評估跟蹤器的性能。

NICTA行人數據庫

    該數據庫是目前規模較大的靜態圖像行人數據庫,25551張含單人的圖片,5207張高分辨率非行人圖片,數據庫中已分好訓練集和測試集,方便不同分類器的比較。Overett等用“RealBoost+Haar”評估訓練樣本的平移、旋轉和寬高比等各種因素對分類性能的影響:(1)行人高度至少要大於40個象素;(2)在低分辨率下,對於Haar特徵來說,增加樣本寬度的性能好於增加樣本高度的性能;(3)訓練圖片的大小要大於行人的實際大小,即背景信息有助於提高性能;(4)對訓練樣本進行平移提高檢測性能,旋轉對性能的提高影響不大。以上的結論對於構建行人數據庫具有很好的指導意義。

ETH行人數據庫

     Ess等構建了基於雙目視覺的行人數據庫用於多人的行人檢測與跟蹤研究。該數據庫採用一對車載的AVT Marlins F033C攝像頭進行拍攝,分辨率爲640x480,幀率13-14fps,給出標定信息和行人標註信息,深度信息採用置信度傳播方法獲取。

CVC行人數據庫

    該數據庫目前包含三個數據集(CVC-01、CVC-02和CVC-Virtual),主要用於車輛輔助駕駛中的行人檢測研究。CVC-01[Geronimo,2007]有1000個行人樣本,6175個非行人樣本(來自於圖片中公路區域中的非行人圖片,不像有的行人數據庫非行人樣本爲天空、沙灘和樹木等自然圖像)。CVC-02包含三個子數據集(CVC-02-CG、CVC-02-Classification和CVC-02-System),分別針對行人檢測的三個不同任務:感興趣區域的產生、分類和系統性能評估。圖像的採集採用Bumblebee2立體彩色視覺系統,分辨率640x480,焦距6mm,對距離攝像頭0~50m的行人進行標註,最小的行人圖片爲12x24。CVC-02-CG主要針對候選區域的產生,有100張彩色圖像,包含深度和3D點信息;CVC-02-Classification主要針對行人分類,訓練集有1016張正樣本,7650張負樣本,測試集分爲基於切割窗口的分類(570張行人,7500張非行人)和整張圖片的檢測(250張包含行人的圖片,共587個行人);CVC-02-System主要用於系統的性能評估,包含15個視頻序列(4364幀),7983個行人。CVC-Virtual是通過Half-Life 2圖像引擎產生的虛擬行人數據集,共包含1678虛擬行人,2048個非行人圖片用於測試。

USC行人數據庫

    該數據庫包含三組數據集(USC-A、USC-B和USC-C),以XML格式提供標註信息。USC-A[Wu, 2005]的圖片來自於網絡,共205張圖片,313個站立的行人,行人間不存在相互遮擋,拍攝角度爲正面或者背面;USC-B的圖片主要來自於CAVIAR視頻庫,包括各種視角的行人,行人之間有的相互遮擋,共54張圖片,271個行人;USC-C有100張圖片來自網絡的圖片,232個行人(多角度),行人之間無相互遮擋。 

四、其他

相關資料資料
1. Edgar Seemann維護的行人檢測網站,比較全,包括publications, code, datasets等。
2. Pedestrian detection: state of the art. A video talk byPitor Dollar. Pitor Dollar做了很多關於行人檢測方法的研究,他們研究小組的Caltech Pedestrian Dataset也很出名。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章