最近看的行人檢測文章概要

 [1]	Rodrigo Benenson, Mohamed Omran, Jan Hosang, Bernt Schiele. Ten Years of Pedestrian Detection, What Have We Learned ? In ECCV, CVRSUAD workshop, 2014. 1,2,3,4,5,6,7,8

這篇文章回顧了過去十年pedestrian detection 的發展狀況: 過去十年提出的算法，幾個重要的benchmark。把主流的算法分成三類: DF、DPM、DN。DF就是用decision forests的方法，比如SquaresChnFtrs，DPM就是 Deformable part model，DN就是 deep network。大體算是三種technique吧，雖然裏面會有一些算法是雜糅了別的technique的。做了四個實驗，其中一個實驗將多種features、tricks加在SquaresChnFtrs上，得到performance很好的Katamari-v1方法。

四個實驗簡敘如下:

實驗一:　　Reviewing the effect of features

　　　　過程:　　在這十年間提出來的算法中，挑出若干進行實驗(挑出的這些方法，使用的特徵越來越複雜，越來越多)。

　　　　結論:　　說明，這些算法的提升，很大程度上依賴於使用了更好的特徵。

實驗二:　　Complementarity of approaches

　　過程:

以SquaresChnFtrs爲基準算法，添加一些techniques得到一些變種: +DCT/SDt/2Ped... 順帶提出了一種新的算法:Katamari-v1 = SquaresChnFtrs + DCT + SDt + 2Ped，該方法也是截止到這篇論文發表的時候，最好的detector了。DCT的處理在論文4.1節第三段詳細提及；SDt使用了optical flow；2Ped使用了context。

結論:　　

把這些techniques雜糅在一個方法上，有較大的提升。而且多techniques的算法相對於原SquareChnFtrs的提升與各technique相對於原SquareChnFtrs的提升之和比較接近。說明這些techniques/approaches的互補性比較強。但是可能還可以進一步提煉出更純粹的技巧。

實驗三:　　How much capacity is needed ?

　　　　過程:　　

把訓練好的模型擴展到測試集上，是非常重要。那麼這對訓練集有什麼要求呢。讓一些方法使用 Caltech / INRIA 訓練集訓練，然後在Caltech 測試集上跑，並比較。

　　　　結論:　　

在Caltech訓練集上訓練的方法的performance 明顯比在 INRIA訓練集上訓練的方法的performance要好。主要體現在 SquareChnFtrs(I) 和 SquareChnFtrs(C) 的對比上。個人覺得比較的樣本太少，存疑。

實驗四:　　Generalisation across datasets

　　　　過程:　　

用不同的訓練集訓練(INRIA、Caltech、KITTI)，然後用不同的測試集測試(INRIA、Caltech、KITTI、ETH)，KITTI的 performance是用AUC衡量的，越高越好，其他的benchmark的performance是用MR衡量的，越低越好。另外還測試了一個 SquareChnFtrs的變種SquareICF方法在KITTI上的performance，還不錯。

結論:

使用的INRIA訓練的模型，在各個測試集上都表現良好，兩個第1(INRIA、ETH)，兩個第二(Caltech、KITTI)；只要方法好，在不同的benchmark上的表現都是穩定的。

結論: 這篇論文傾向於認爲，好的特徵和技巧對於提升行人檢測方法的性能至關重要，而且這些特徵大部都是經過人工反覆實驗(hand-crafted with trial and error)得到的。實驗大頭是使用將多種特徵、技巧加在SquaresChnFtrs上，得到performance很好的Katamari-v1方法。對deep networks的方法討論極少。而下面的論文[2]使用的network以raw pixels作爲輸入，由網絡自行學習特徵，不使用人工的特徵，實驗得到很好的performance !

[2]	Jan Hosang, Mohamed Omran, Rodrigo Benenson, Bernt Schiele. Taking a Deeper Look at Pedestrians.  In CVPR 2015.

　　以往用於行人檢測(pedestrian detection)的dnn，除了Yann Lecun等人提出的ConvNet之外，大都依賴人工特徵(hand-crafted features)，如HOG什麼的。這些dnn(除了ConvNet)的提出者，對原始cnn的拓撲進行了修改，以適應他們的模型思想。

　　這篇paper使用沒有修改拓撲的naive的CNN進行實驗，發現經過訓練後，在測試的時候，其 performance比 1)經過“特化”的CNN(如SDN) 2)以及大多數非CNN方法(如ACF、SCF)要好。

　　paper裏邊使用了一大一小的dnn，大的爲“AlexNet”，(使用caffe框架自帶的R-CNN來實現)，小的用CifarNet(caffe裏也有)。默認使用的detection proposals來自SquaresChnFtrs (這是Caltech上開放源代碼的最好的檢測算法了)，默認的網絡輸入是raw RGB image。另外，還對一些參數(如training batch、 model window size、Number and type of layers...)的設置進行討論，選用較好的參數，用在主要的實驗裏邊。

　　benchmark: Caltech1x、Caltech10x、KITTI。

　　部分實驗結果:

　　僅使用Caltech1x訓練的CifarNet在Caltech1x上的表現僅次於使用decision forests的SpatialPooling，前者的MR是30.7%，後者的MR是29.2%；

　　僅使用Caltech1x訓練的AlexNet的MR是32.4%，不及CifarNet；

　　在single-frame-detector(不算光流方法)中，僅使用Caltech10x訓練的AlexNet在Caltech10x上的表現僅次於LDCF，前者爲27.5%，後者爲24.8%；

　　AlexNet是第一個在KITTI上測試的dnn，獲得50.1%的AP(average precision)，次於Regionlets的55.0%和SpatialPooling的54.5%。

　　部分圖表如下: