最近看的行人檢測文章概要

 [1]	Rodrigo Benenson, Mohamed Omran, Jan Hosang, Bernt Schiele. Ten Years of Pedestrian Detection, What Have We Learned ? In ECCV, CVRSUAD workshop, 2014. 1,2,3,4,5,6,7,8

  

      這篇文章回顧了過去十年pedestrian detection 的發展狀況: 過去十年提出的算法,幾個重要的benchmark。把主流的算法分成三類: DF、DPM、DN。DF就是用decision forests的方法,比如SquaresChnFtrs,DPM就是 Deformable part model,DN就是 deep network。大體算是三種technique吧,雖然裏面會有一些算法是雜糅了別的technique的。做了四個實驗,其中一個實驗將多種features、tricks加在SquaresChnFtrs上,得到performance很好的Katamari-v1方法。

      四個實驗簡敘如下:


實驗一:  Reviewing the effect of features

    過程:  在這十年間提出來的算法中,挑出若干進行實驗(挑出的這些方法,使用的特徵越來越複雜,越來越多)。

    結論:  說明,這些算法的提升,很大程度上依賴於使用了更好的特徵。



實驗二:  Complementarity of approaches

     過程:

      以SquaresChnFtrs爲基準算法,添加一些techniques得到一些變種: +DCT/SDt/2Ped... 順帶提出了一種新的算法:Katamari-v1 = SquaresChnFtrs + DCT + SDt + 2Ped,該方法也是截止到這篇論文發表的時候,最好的detector了。DCT的處理在論文4.1節第三段詳細提及;SDt使用了optical flow;2Ped使用了context。

結論:  

把這些techniques雜糅在一個方法上,有較大的提升。而且多techniques的算法相對於原SquareChnFtrs的提升與各technique相對於原SquareChnFtrs的提升之和比較接近。說明這些techniques/approaches的互補性比較強。但是可能還可以進一步提煉出更純粹的技巧。



實驗三:  How much capacity is needed ?

    過程:  

把訓練好的模型擴展到測試集上,是非常重要。那麼這對訓練集有什麼要求呢。讓一些方法使用 Caltech / INRIA 訓練集訓    練,然後在Caltech 測試集上跑,並比較。

    結論:  

在Caltech訓練集上訓練的方法的performance 明顯比在 INRIA訓練集上訓練的方法的performance要好。主要體現在    SquareChnFtrs(I)  和 SquareChnFtrs(C) 的對比上。個人覺得比較的樣本太少,存疑。



實驗四:  Generalisation across datasets

    過程:  

用不同的訓練集訓練(INRIA、Caltech、KITTI),然後用不同的測試集測試(INRIA、Caltech、KITTI、ETH),KITTI的    performance是用AUC衡量的,越高越好,其他的benchmark的performance是用MR衡量的,越低越好。另外還測試了一個    SquareChnFtrs的變種SquareICF方法在KITTI上的performance,還不錯。

     

    結論:

使用的INRIA訓練的模型,在各個測試集上都表現良好,兩個第1(INRIA、ETH),兩個第二(Caltech、KITTI);只要方法好,    在不同的benchmark上的表現都是穩定的。



結論: 這篇論文傾向於認爲,好的特徵和技巧對於提升行人檢測方法的性能至關重要,而且這些特徵大部都是經過人工反覆實驗(hand-crafted with trial and error)得到的。實驗大頭是使用將多種特徵、技巧加在SquaresChnFtrs上,得到performance很好的Katamari-v1方法。對deep networks的方法討論極少。而下面的論文[2]使用的network以raw pixels作爲輸入,由網絡自行學習特徵,不使用人工的特徵,實驗得到很好的performance !


[2]	Jan Hosang, Mohamed Omran, Rodrigo Benenson, Bernt Schiele. Taking a Deeper Look at Pedestrians.  In CVPR 2015.

  以往用於行人檢測(pedestrian detection)的dnn,除了Yann Lecun等人提出的ConvNet之外,大都依賴人工特徵(hand-crafted features),如HOG什麼的。 這些dnn(除了ConvNet)的提出者,對原始cnn的拓撲進行了修改,以適應他們的模型思想。

  這篇paper使用沒有修改拓撲的naive的CNN進行實驗,發現經過訓練後,在測試的時候,其 performance比  1)經過“特化”的CNN(如SDN)   2)以及大多數非CNN方法(如ACF、SCF)要好。

  paper裏邊使用了一大一小的dnn,大的爲“AlexNet”,(使用caffe框架自帶的R-CNN來實現),小的用CifarNet(caffe裏也有)。默認使用的detection proposals來自SquaresChnFtrs (這是Caltech上開放源代碼的最好的檢測算法了),默認的網絡輸入是raw RGB image。另外,還對一些參數(如training batch、 model window size、Number and type of layers...)的設置進行討論,選用較好的參數,用在主要的實驗裏邊。

  benchmark: Caltech1x、Caltech10x、KITTI。

  部分實驗結果:

  僅使用Caltech1x訓練的CifarNet在Caltech1x上的表現僅次於使用decision forests的SpatialPooling,前者的MR是30.7%,後者的MR是29.2%;

  僅使用Caltech1x訓練的AlexNet的MR是32.4%,不及CifarNet;

  在single-frame-detector(不算光流方法)中,僅使用Caltech10x訓練的AlexNet在Caltech10x上的表現僅次於LDCF,前者爲27.5%,後者爲24.8%;

  AlexNet是第一個在KITTI上測試的dnn,獲得50.1%的AP(average precision),次於Regionlets的55.0%和SpatialPooling的54.5%。

 

  部分圖表如下:




發佈了36 篇原創文章 · 獲贊 4 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章