《Improved Crowd Counting Method Based onScale-Adaptive Convolutional Neural Network》論文筆記
論文地址
論文翻譯
ABSTRACT
由於場景轉換,複雜的人羣分佈,照明不均勻和遮擋等各種因素的影響,人羣計數是一項具有挑戰性的任務。爲了克服這些問題,規模自適應卷積神經網絡(SaCNN)使用卷積神經網絡來獲得高質量的人羣密度圖估計並整合密度圖以獲得估計的人數。提出了一種基於SaCNN的人羣計數方法。對SaCNN中使用的幾何自適應高斯核的擴展參數(即標準方差)進行了優化,以生成用於訓練的更高質量的地面真實密度圖。權重爲4e-5的絕對計數損失與密度圖損失共同優化,以提高行人少的人羣場景的網絡泛化能力。另外,採用隨機裁剪方法來改善訓練樣本的多樣性,以增強網絡泛化能力。上海科技大學公共數據集上的實驗結果表明,與SaCNN相比,該方法在人羣計數上可以獲得更準確,更可靠的結果。
I. INTRODUCTION
人羣計數的目的是在獲得人羣密度的同時,估計人羣場景中行人的數量。當人羣密度超過一定的閾值1時,人羣很容易失控,公衆安全受到嚴重威脅。因此,人羣計數的研究對安全領域具有重要意義,在視頻監控、交通監控、城市規劃建設等領域有着廣泛的應用。它也是對象分割2、3、行爲分析4、5、對象跟蹤6、7、場景感知8、9、異常檢測10、11等相關任務的組成部分。這可能是高水平認知能力12的基礎。與其他計算機視覺問題一樣,人羣計數也面臨着許多挑戰,如遮擋、不均勻的人口分佈、不均勻的光照、尺度和視角變化、複雜的場景變化等。任務的複雜性及其現實意義越來越受到研究者的關注。此外,人羣計數方法可以很容易地轉移到計算機視覺的其他任務中,如顯微鏡下的細胞計數13,14,車輛計數15,環境調查16。
與基於檢測的人羣計數方法(通常使用滑動窗口檢測每個行人並計數行人17、18的數量)相比,基於迴歸的方法在高密度人羣和嚴重遮擋場景1920的人羣計數中較爲流行,且效果良好。對於基於迴歸的方法,早期研究者提出學習從局部圖像塊19、21中提取的低水平特徵與行數之間的直接映射。然而,這種直接回歸的人羣計數方法忽略了重要的空間信息。2010年,Lempitsky和Zisserman19提出學習圖像塊局部特徵與其對應的密度圖之間的線性映射,其中包括空間信息,然後對密度圖上的任意區域進行積分,得到該區域內的物體總數。2015年,Phamet al.21提出學習圖像塊局部特徵與密度圖之間的非線性映射。2016年,Wang和Zou14針對現有人羣密度估計方法計算複雜度低的問題,提出了一種基於子空間學習的快速度估計方法。同年,受到人臉識別等其他研究領域的高維特徵的啓發,Xu和Qiu20提出了一種利用更豐富的特徵集來提高人羣計數估計性能的方法。由於初始高斯過程迴歸或嶺迴歸過於複雜,難以處理高維特徵,因此採用隨機森林作爲迴歸模型。
近年來,卷積神經網絡在許多計算機視覺任務中取得了很大的成功,這促使研究者們使用卷積神經網絡來學習從人羣圖像到密度圖或相應計數的非線性函數。2015年,Wanget al.22首先利用Alexnet架構23將卷積神經網絡應用於人羣計數任務。將4096個神經元的全連接層替換爲只有一個神經元的連接層來估計人羣圖像中的行人數量。但該方法只能用於人羣計數估計,無法獲得圖像的密度分佈信息。Fuet al.24提出人羣密度分爲5個等級:超高密度、高密度、中密度、低密度和極低密度。他們參考Sermanet等人提出的多尺度卷積神經網絡25、26來估計人羣的密度水平。Zhanget al.27認爲,當應用於與訓練數據集不同的新場景時,現有方法的性能急劇下降。爲了克服這個問題,提出了一種數據驅動的方法,利用訓練數據對預訓練的CNN模型進行微調,以適應未知的應用場景。然而,這種方法很大程度上依賴於準確的視角,需要大量的訓練數據。2016年,Zhang等人28提出了一個多列CNN (MCNN),通過構造一個包含三個不同大小的過濾器(大、中、小)的列的網絡。它可以適應由圖像分辨率、視角或行人頭部大小引起的變化。然而,由於訓練過程繁瑣,參數過多,網絡訓練難度大。Samet al.29在2017年提出了一個 Switching CNN,根據圖像中不同的人羣密度,使用一組特定的訓練數據的圖像patch訓練返回者。zhang和Shi30提出了尺度自適應CNN (scale-adaptive CNN, SaCNN)來估計人羣密度圖,並整合密度圖得到估計的人頭數量,該算法在2017年獲得了最先進的人羣計數性能。在SaCNN中,對幾何自適應高斯核進行了優化,以生成用於訓練的高質量地面真實密度圖。此外,還使用了密度圖和相對人羣計數損失函數進行聯合優化。
爲了獲得更好的人羣計數性能,提出了一種改進的基於SaCNN的人羣計數方法。擴展參數,即優化了幾何自適應高斯核的標準方差,生成了高質量的地面真值密度圖。利用加權4e-5的絕對計數損失與密度圖損失聯合優化,提高了行人較少人羣場景的網絡泛化能力。將原始圖像隨機裁剪爲256幅圖像,提高訓練樣本的多樣性,提高網絡泛化能力。
一般來說,我們工作的主要貢獻包括
(1) 通過分析SaCNN中用於幾何自適應高斯核的人頭大小估計的參數設置,發現人頭大小估計在相對稀疏的場景中會才產生較大的誤差,這可能會影響地面實況密度圖的質量並降低人羣的準確性。因此,對幾何自適應高斯核的標準方差進行了優化,以獲得更準確的頭部尺寸估計以及更高質量的地面真密度圖。
(2)使用絕對計數損失函數與密度圖損失進行聯合優化,以提高行人少的人羣場景的網絡泛化能力。
(3)在ShanghaiTech公共數據集上進行的實驗表明,我們改進的SaCNN的性能優於原始SaCNN。
本文的組織如下。在第二節中,SaCNNis進行了詳細介紹。第三節介紹了改進的SaCNN用於人羣計數,而第四節則進行了實驗並分析了結果。最終結論在第五節中給出。
II. INTRODUCTION ON SACNN
在SaCNN30中,將人羣圖像映射到相應的密度圖中,然後對密度圖進行積分,得到人羣計數。本節詳細介紹了SaCNN,包括地面真值密度圖的生成、體系結構和實現。
A. GENERATION OF THE GROUND TRUTH DENSITY MAP
在SaCNN中,利用幾何自適應高斯核生成訓練用的高質量地面真值密度圖。
假設在像素 處有一個行人頭部,由增量函數 表示。三角函數應使用高斯核 轉換爲連續密度函數,以進行網絡訓練。考慮到場景中的透視變換,頭部大小是不一致的。頭部到其鄰居的平均距離被用來估計幾何失真以獲得高質量的密度圖。對於給定的頭部座標 ,距近鄰的距離爲 ,平均距離爲 。
因此,具有幾何自適應高斯核的連續密度函數可以表示爲:
其中N表示人羣圖像中的總頭部數,散佈參數 表示幾何自適應高斯核的標準方差,取決於與 的平均距離(在參考文獻28中,k設置爲2) 每個頭部座標的鄰域和係數 (在參考文獻28中,其設置爲0.3)。
而且,對於人羣分佈相對稀疏的人羣場景,一些行人與其他行人之間的距離較遠,這會導致較大的誤差。因此,對於每個行人,頭部的大小(高斯內核的內核大小)需要限制在100個像素以內(當 > 100時,let = 100)。
B. ARCHITECTURE
SaCNN的結構如圖1所示,包括網絡和損失函數。
SaCNN的網絡是通過參考VGG設計的31。保留了VGG中的前5組卷積塊,下采樣係數爲8。爲了融合 和 的特徵圖,將池5的步長設置爲1,並通過反捲積運算對融合特徵進行上採樣 到原始圖像的 。然後,使用Conv43的跨層融合和反捲積特徵圖。 和 卷積層逐漸減少了特徵圖的數量。最後,使用帶 濾波器的卷積層獲得密度圖,可以將其集成以獲得人數估計。
在SaCNN中,使用密度圖損失函數和相對計數損失函數共同訓練網絡。
密度圖損失函數表示爲:
密度圖損失函數表示爲
其中 是要在網絡中學習的參數集, 是訓練圖像的總數, 是輸入圖像, 是相應的地面真實密度圖。 代表 估計密度圖。對每個像素應用歐氏距離,然後累加。
利用相對計數損失函數得到高質量的人羣密度分佈,進行準確的人羣計數:
其中 是通過積分獲得的估計頭數, 是地面真頭數。
C. IMPLEMENTATION
在SaCNN中,對於原始訓練數據集,使用隨機裁剪方法從每個圖像到增強訓練圖像裁剪9個補丁。每個色塊是原始圖像的1/4大小。 隨機梯度下降(SGD)優化器用於訓練。 學習率從1e-6開始,並隨着多步策略而下降到1e-8。 動量爲0.9,批量爲1。
REFERENCES
J. J. Fruin,Pedestrian Planning and Design. New York, NY, USA:Metropolitan Association of Urban Designers and Environmental Planners,1971. ↩︎
L. Dong, V. Parameswaran, V. Ramesh, and I. Zoghlami, ‘‘Fast crowdsegmentation using shape indexing,’’ inProc. Int. Conf. Comput.Vis. (ICCV), Rio de Janeiro, Brazil, Oct. 2007, pp. 1–8. ↩︎
K. Kang and X. Wang. (2014). ‘‘Fully convolutional neural networks forcrowd segmentation.’’ [Online]. Available: https://arxiv.org/abs/1411.4464 ↩︎
B. Zhou, X. Wang, and X. Tang, ‘‘Understanding collective crowd behav-iors: Learning a mixture model of dynamic pedestrian-agents,’’ inProc.IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Providence, RI, USA,Jun. 2012, pp. 2871–2878. ↩︎
J. Shao, C. C. Loy, and X. Wang, ‘‘Scene-independent group profilingin crowd,’’ inProc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR),Columbus, OH, USA, Jun. 2014, pp. 2219–2226. ↩︎
S. Yi, X. Wang, C. Lu, J. Jia, and H. Li, ‘‘L0regularized stationary-timeestimation for crowd analysis,’’IEEE Trans. Pattern Anal. Mach. Intell.,vol. 39, no. 5, pp. 981–994, May 2017. ↩︎
M. Rodriguez, I. Laptev, J. Sivic, and J.-Y. Audibert, ‘‘Density-awareperson detection and tracking in crowds,’’ inProc. Int. Conf. Comput.Vis. (ICCV), Barcelona, Spain, Nov. 2011, pp. 2423–2430. ↩︎
F. Zhu, X. Wang, and N. Yu, ‘‘Crowd tracking with dynamic evolutionof group structures,’’ inProc. Eur. Conf. Comput. Vis. (ECCV), Zürich,Switzerland, Sep. 2014, pp. 139–154. ↩︎
J. Shao, K. Kang, C. C. Loy, and X. Wang, ‘‘Deeply learned attributes forcrowded scene understanding,’’ inProc. IEEE Conf. Comput. Vis. PatternRecognit. (CVPR), Boston, MA, USA, Jun. 2015, pp. 4657–4666. ↩︎
V. Mahadevan, W. Li, V. Bhalodia, and N. Vasconcelos, ‘‘Anomaly detec-tion in crowded scenes,’’ inProc. IEEE Conf. Comput. Vis. Pattern Recog-nit. (CVPR), San Francisco, CA, USA, Jun. 2010, pp. 1975–1981. ↩︎
W. Li, V. Mahadevan, and N. Vasconcelos, ‘‘Anomaly detection andlocalization in crowded scenes,’’IEEE Trans. Pattern Anal. Mach. Intell.,vol. 36, no. 1, pp. 18–32, Jan. 2014. ↩︎
V. A. Sindagi and V. M. Patel, ‘‘A survey of recent advances in CNN-basedsingle image crowd counting and density estimation,’’Pattern Recognit.Lett., vol. 107, pp. 3–16, May 2018. ↩︎
K. Chen, C. C. Loy, S. Gong, and T. Xiang, ‘‘Feature mining for localisedcrowd counting,’’ inProc. Brit. Mach. Vis Conf. (BMVC), Surrey, BC,Canada, vol. 1, no. 2, Sep. 2012, p. 3. ↩︎
Y. Wang and Y. Zou, ‘‘Fast visual object counting via example-baseddensity estimation,’’ inProc. Int. Conf. Image Process. (ICIP), Phoenix,AZ, USA, Sep. 2016, pp. 3653–3657. ↩︎ ↩︎
D. Oñoro-Rubio and R. J. López-Sastre, ‘‘Towards perspective-free objectcounting with deep learning,’’ inProc. Eur. Conf. Comput. Vis. (ECCV),Oct. 2016, pp. 615–629. ↩︎
G. French, M. Fisher, M. Mackiewicz, and C. Needle, ‘‘Convolutionalneural networks for counting fish in Fisheries surveillance video,’’ inProc.Mach. Vis. Animals Behav. (MVAB), Swansea, U.K., Sep. 2015, pp. 1–10. ↩︎
T. Zhao, R. Nevatia, and B. Wu, ‘‘Segmentation and tracking of multiplehumans in crowded environments,’’IEEE Trans. Pattern Anal. Mach.Intell., vol. 30, no. 7, pp. 1198–1211, Jul. 2008. ↩︎
W. Ge and R. T. Collins, ‘‘Marked point processes for crowd counting,’’inProc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Miami, FL,USA, Jun. 2009, pp. 2913–2920. ↩︎
V. Lempitsky and A. Zisserman, ‘‘Learning to count objects in images,’’inProc. Adv. Neural Inf. Process. Syst. (NIPS), Vancouver, BC, Canada,Dec. 2010, pp. 1324–1332. ↩︎ ↩︎ ↩︎
B. Xu and G. Qiu, ‘‘Crowd density estimation based on rich features andrandom projection forest,’’ inProc. IEEE Winter Conf. Appl. Comput.Vis. (WACV), Lake Placid, NY, USA, Mar. 2016, pp. 1–8. ↩︎ ↩︎
V.-Q. Pham, T. Kozakaya, O. Yamaguchi, and R. Okada, ‘‘COUNTforest: Co-voting uncertain number of targets using random forest forcrowd density estimation,’’ inProc. IEEE Conf. Comput. Vis. PatternRecognit. (CVPR), Boston, MA, USA, Dec. 2015, pp. 3253–3261 ↩︎ ↩︎
C. Wang, H. Zhang, L. Yang, S. Liu, and X. Cao, ‘‘Deep people counting inextremely dense crowds,’’ inProc. ACM Int. Conf. Multimedia, Brisbane,QLD, Australia, Oct. 2015, pp. 1299–1302. ↩︎
A. Krizhevsky, I. Sutskever, and G. E. Hinton, ‘‘ImageNet classificationwith deep convolutional neural networks,’’ inProc. Adv. Neural Inf. Pro-cess. Syst. (NIPS), Las Vegas, NV, USA, Dec. 2012, pp. 1097–1105. ↩︎
M. Fu, P. Xu, X. Li, Q. Liu, M. Ye, and C. Zhu, ‘‘Fast crowd densityestimation with convolutional neural networks,’’Eng. Appl. Artif. Intell.,vol. 43, pp. 81–88, Aug. 2015. ↩︎
P. Sermanet and Y. LeCun, ‘‘Traffic sign recognition with multi-scaleconvolutional networks,’’ inProc. Int. Joint Conf. Neural Netw. (IJCNN),San Jose, CA, USA, Jul./Aug. 2011, pp. 2809–2813. ↩︎
P. Sermanet, S. Chintala, and Y. LeCun, ‘‘Convolutional neural networksapplied to house numbers digit classification,’’ inProc. Int. Conf. PatternRecognit. (ICPR), Tsukuba, Japan, Nov. 2012, pp. 3288–3291. ↩︎
C. Zhang, H. Li, X. Wang, and X. Yang, ‘‘Cross-scene crowd counting viadeep convolutional neural networks,’’ inProc. IEEE Conf. Comput. Vis.Pattern Recognit. (CVPR), Boston, MA USA, Jun. 2015, pp. 833–841. ↩︎
Y. Zhang, D. Zhou, S. Chen, S. Gao, and Y. Ma, ‘‘Single-image crowdcounting via multi-column convolutional neural network,’’ inProc. IEEEConf. Comput. Vis. Pattern Recognit. (CVPR), Las Vegas, NV, USA,Jun. 2016, pp. 589–597. ↩︎
D. B. Sam, S. Surya, and R. V. Babu, ‘‘Switching convolutional neuralnetwork for crowd counting,’’ inProc. IEEE Conf. Comput. Vis. PatternRecognit. (CVPR), Honolulu, HI, USA, Jul. 2017, p. 6. ↩︎
L. Zhang, Q. Chen, and M. Shi. (2018). ‘‘Crowd counting via scale-adaptive convolutional neural network.’’ [Online]. Available: https://arxiv.org/abs/1711.04433 ↩︎ ↩︎
K. Simonyan and A. Zisserman. (2015). ‘‘Very deep convolutionalnetworks for large-scale image recognition.’’ [Online]. Available:https://arxiv.org/abs/1409.1556 ↩︎