《Improved Crowd Counting Method Based on Scale-Adaptive Convolutional Neural Network》論文筆記

論文地址

論文翻譯

Abstract

由於各種因素的影響,例如場景變換,複雜的人羣分佈,照明不均勻和遮擋,人羣計數是一項具有挑戰性的任務。爲了克服這些問題,規模自適應卷積神經網絡(SaCNN)使用卷積神經網絡來獲得高質量的人羣密度圖估計,並集成密度圖以獲得估計的人數。爲了獲得更好的人羣計數性能,提出了一種基於SaCNN的改進人羣計數方法。優化了用於SaCNN的幾何自適應高斯核的擴展參數(即標準方差),以生成用於訓練的更高質量的地面真實密度圖。權重爲4e-5的絕對計數損失用於與密度圖損失聯合優化,以提高行人少的人羣場景的網絡泛化能力。另外,採用隨機裁剪方法來改善訓練樣本的多樣性,以增強網絡泛化能力。在上海科技大學公共數據集上的實驗結果表明,與SaCNN相比,該方法在人羣計數上可以獲得更準確,更可靠的結果。

SECTION I. Introduction

人羣計數旨在估算人羣場景中的行人數量,同時獲得人羣密度。當人羣密度超過特定閾值1時,人羣將很容易失控,並將嚴重威脅公共安全。因此,對人羣計數的研究在安全領域具有重要意義,並廣泛應用於視頻監控,交通監控,城市規劃和建設。它也是對象分割23,行爲分析45,對象跟蹤67,場景感知89,異常檢測的組成部分1011和其他相關任務。它可能是高水平認知能力的基礎12。與其他計算機視覺問題一樣,人羣計數面臨許多挑戰,例如遮擋,人口分佈不均,照明不均,比例和視角變化以及複雜的場景變化。任務的複雜性及其實際意義已引起研究人員的越來越多的關注。此外,人羣計數方法可以輕鬆地轉移到計算機視覺的其他任務,例如在顯微鏡下進行細胞計數1314,車輛計數15和環境調查16
      ~~~~~~與通常使用滑動窗口來檢測每個行人並計算行人數量的基於檢測的人羣計數方法相比1718,基於迴歸的方法在高人羣計數方面很受歡迎並且性能良好人羣和嚴重阻塞場景192021。對於基於迴歸的方法,初期的研究人員建議學習低級特徵與從局部圖像塊中提取的人羣計數之間的直接映射1920。但是,這種基於直接回歸的人羣計數方法忽略了重要的空間信息。2010年,Lempitsky和Zisserman19提出要學習圖像塊的局部特徵與其對應的密度圖之間的線性映射,其中包括空間信息。然後,可以通過對密度圖中的任何區域進行積分來獲得該區域中對象的總數。在2015年,Pham 等人20提出學習圖像塊的局部特徵和密度圖之間的非線性映射。2016年,Wang和Zou14提出了一種基於子空間學習的快速密度估計方法,以解決現有人羣密度估計方法計算效率低的問題。同年,受其他研究領域的高維特徵啓發,例如面部識別,徐和邱21提出了一種通過使用更豐富的特徵集來提高人羣計數估計性能的方法。由於最初的高斯過程迴歸或山脊迴歸太複雜而無法處理高維特徵,因此採用隨機森林作爲迴歸模型。
      ~~~~~~近年來,卷積神經網絡在許多計算機視覺任務中都取得了巨大的成功,這激發了研究人員使用卷積神經網絡來學習從人羣圖像到其密度圖或相應計數的非線性函數。2015年,Wang 等22首先通過使用Alexnet架構將卷積神經網絡應用於人羣計數任務23,將4,096個神經元的完整連接層替換爲僅一個神經元的層,以估算人羣圖像中行人的數量。但是,該方法只能用於人羣計數估計,並且不能獲得圖像的濃度分佈信息。Fu 等24建議將人羣密度分爲五個等級:超高密度,高密度,中密度,低密度和極低密度。他們通過參考Sermanet 等人提出的多尺度卷積神經網絡來估計人羣的密度水平2526。張等27相信當將現有方法應用於不同於訓練數據集的新場景時,其性能會急劇下降。爲了克服這個問題,提出了一種數據驅動的方法,用訓練數據對預訓練的CNN模型進行微調,以適應未知的應用場景。但是,此方法很大程度上取決於準確的角度,並且需要大量的訓練數據。在2016年,Zhang 等28通過構建一個包含三列帶有不同大小(大型,中型和小型)過濾器的網絡,提出了多列CNN(MCNN)。它適應於由圖像分辨率,透視圖或行人頭部尺寸引起的變化。然而,由於繁瑣的訓練過程和太多的參數,使得網絡訓練困難。2017年,Sam 等人29提出了一種交換式CNN,它根據圖像中的不同人羣密度通過使用一組特定的訓練數據圖像補丁來訓練返回者。張和施30提出了規模自適應的CNN(SaCNN)來估計人羣密度圖並整合密度圖以獲得估計的人數,這在2017年獲得了最新的人羣計數性能。在SaCNN中,幾何自適應的高斯模型優化內核以生成用於訓練的高質量地面真實密度圖。而且,密度圖和相對人羣計數損失函數用於聯合優化。
      ~~~~~~爲了獲得更好的人羣計數性能,提出了一種基於SaCNN的改進人羣計數方法。優化了幾何自適應高斯核的擴展參數(即標準方差),以生成更高質量的地面真實密度圖。使用權重爲4e-5的絕對計數損失與密度圖損失共同優化,以提高行人少的人羣場景的網絡泛化能力。同樣,原始圖像被裁剪爲256 × 256 隨機提高訓練樣本的多樣性,可能會增強網絡泛化能力。
      ~~~~~~一般而言,我們工作的主要貢獻包括:

  • 通過對SaCNN中用於幾何自適應高斯核的頭部尺寸估計的參數設置進行分析,發現頭部尺寸估計在相對稀疏的場景中導致較大的誤差,這可能會影響地面真密度圖的質量並降低精度人羣計數。因此,對幾何自適應高斯核的標準方差進行了優化,以獲得更準確的磁頭尺寸估計以及更高質量的地面真實密度圖。
  • 使用絕對計數損失函數與密度圖損失共同進行優化,以提高行人少的人羣場景的網絡泛化能力。
  • 在ShanghaiTech公開數據集上進行的實驗表明,我們改進的SaCNN的性能優於原始SaCNN。
          ~~~~~~本文的組織如下。在第二部分中,將詳細介紹SaCNN。第三節介紹了改進的SaCNN用於人羣計數,而第四節則進行了實驗並分析了結果。最後的結論在第五節中介紹。

SECTION II. Introduction on SaCNN

      ~~~~~~在SaCNN 30中,將人羣圖像映射到相應的密度圖,然後對密度圖進行積分以獲得人羣計數。在本節中,將詳細介紹SaCNN,包括地面真密度圖的生成,體系結構和實現。

A. 生成地面真相密度圖

      ~~~~~~在SaCNN中,使用幾何自適應的高斯核生成高質量的地面真實密度圖進行訓練。
      ~~~~~~假設像素處有行人頭部 xix_i,用 δδ 函數 δ(xxi)δ(x-x_i) 表示。三角函數應使用高斯核轉化爲連續密度函數 GσG_σ 用於網絡訓練。考慮到場景中的透視變化,頭部大小是不一致的。頭部到頭部的平均距離 kk 近鄰被用來估計幾何畸變以獲得高質量的密度圖。對於給定的頭部座標 xix_i 距離 kk 最近的鄰居是 [d1i,d2i,...,dki][d^i_1,d^i_2, ... ,d^i_k],平均距離是 di=1kj1kdji\overline{d}^i=\frac{1}{k}\sum_{j-1}^{k}d_j^i,因此,具有幾何自適應高斯核的連續密度函數可以表示爲:
F(x)=i=1Nδ(xxi)Gσi(x),σi=βdi(1) F(x)= \sum \limits _{i=1}^{N} {\delta (x-x_{i})} \ast G_{\sigma i}\, (x),\sigma _{i} =\beta \overline {d}^{i}\tag{1}
其中 NN 表示人羣圖像中的總頭部數,散佈參數 σiσ_i 表示幾何自適應高斯核的標準方差,取決於與 kk 的平均距離(在參考文獻28中,kk 設置爲2) 每個頭部座標的近鄰和係數 ββ(在參考文獻28中,它設置爲0.3)。
      ~~~~~~另外,對於人羣分佈相對稀疏的人羣場景,一些行人與其他行人之間的距離較遠,這會導致較大的誤差。 因此,需要將每個行人的頭部的大小(高斯內核的內核大小)限制在100個像素以內(當di>100\overline{d}^i> 100時,讓 di=100\overline{d}^i=100)。

B. Architecture

SaCNN的結構如圖1所示,包括網絡和損耗函數。
在這裏插入圖片描述
      ~~~~~~SaCNN的網絡是通過參考VGG設計的31,保留了VGG中的前5個卷積塊,下采樣係數爲8。爲了融合 conv53conv5_3conv61conv6_1 的特徵圖,將池5的步長設置爲1,並採用解卷積運算上採樣定影功能爲原始圖像的1/8。然後,使用 Conv43Conv4_3 的跨層融合和反捲積特徵圖。Conv71Conv7_1Conv72Conv7_2 卷積層逐漸減少了特徵圖的數量。最後,使用帶 1×11×1 濾波器的卷積層獲得密度圖,可以將其集成以獲得人數計數估計。
      ~~~~~~在SaCNN中,使用密度圖損失函數和相對計數損失函數共同訓練網絡。
      ~~~~~~密度圖損失函數表示爲:
LD(θ)=1Mi=1MFd(Xi;θ)Di2(2){L_{D}} ({\theta })=\frac {1}{M} \sum \limits _{i=1}^{M} {\left \|{ {{F_{d}} ({X_{i}};{\theta })-{D_{i}}} }\right \|^{2}}\tag{2}
其中 θθ 是要在網絡中學習的一組參數,MM 是訓練圖像的總數,XiX_i 是輸入圖像,而 DiD_i 是相應的地面真實密度圖,Fd(Xi;θ)DiF_{d}({X_{i}};{\theta })-{D_{i}} 表示 XiX_i 的估計密度圖。 歐幾里得距離應用於每個像素,然後累加。
      ~~~~~~相對計數損失函數用於獲得高質量的人羣密度分佈以進行準確的人羣計數,可以將其表示爲:
LY(θ)=1Mi=1MFy(Xi;θ)YiYi+12(3)L_{Y} (\theta)=\frac {1}{M} \sum \limits _{i=1}^{M} {\left \|{ {\frac {F_{y} (X_{i};\theta)-Y_{i}}{Y_{i} +1}} }\right \|}^{2}\tag{3}
其中 Fd(Xi;θ)F_{d} ({X_{i}};{\theta }) 是通過積分獲得的估計頭數,YiY_i 是地面真頭數。

SECTION III. The Improved SaCNN for Crowd Counting

      ~~~~~~本文提出的方法是基於SaCNN的,同時對幾何自適應高斯核的參數設置,損失函數和實現進行了改進。在本節中,將詳細介紹改進之處。

A. 改進的SaCNN的地面真相密度圖的生成

      ~~~~~~地面真實密度圖的質量對於基於CNN的訓練模型如SaCNN具有重要意義。在SaCNN中生成用於訓練的地面真實密度圖的幾何自適應高斯核是有效的。但是,代表磁頭估計大小的內核大小和確定磁頭估計大小精度的散佈參數設置都可能影響地面真密度圖的質量。
      ~~~~~~通過分析SaCNN中適應幾何的高斯核的參數設置以生成地面真實密度圖,我們發現距高斯核的平均距離 kk 即使最近的鄰居估計每個行人的頭部大小也不適合稀疏人羣場景,即使頭部大小限制在100像素以內。如圖2所示(包圍框代表估計的頭部大小),在密集人羣中估計的頭部大小是適當的。例如,對於由於透視變換而導致的較小頭部大小,則到kk 最近的鄰居也很小。但是,它不適合人羣稀疏的場景。如圖3所示(邊界框代表估計的頭部大小),估計的頭部大小稍大,這導致估計值與地面實況之間存在相當大的誤差,並進一步影響了生成的地面實況密度圖的質量。
在這裏插入圖片描述
在這裏插入圖片描述      ~~~~~~因此,我們嘗試優化頭大小的最大限制(即 di\overline{d}^i 限制)和高斯核的擴展參數 σσ (標準方差),以估計頭大小。不幸的是,通過實驗,我們沒有找到 di\overline{d}^i 限制的另一種適當設置。然而,找到了高斯核的擴展參數 σσ 的適當設置。擴展參數 σσ 描述高斯概率分佈的離散度。σσ 值越大,分佈越分散,而 σσ 值越小,分佈越集中。因此,應將 σσ 值優化爲適當較小,以使概率分佈更加集中在中心區域。如圖1方程式所示, σσ 取決於係數 ββdi\overline{d}^i。根據我們的實驗,通過將 di\overline{d}^i 的最大限制設置爲與SaCNN的最大限制相同,同時將係數 ββ 設置爲0.12,可以實現最佳性能。

B. 改進的SaCNN的體系結構

      ~~~~~~圖4顯示了本文使用的架構。將我們的架構與圖1中的SaCNN架構進行比較,可以看出:

  • (1)兩種架構使用相同的網絡;
  • (2)在兩種架構中都使用了密度圖損失函數和計數損失函數來優化網絡;
  • (3)但是,使用SaCNN架構的計數損失函數與我們改進的SaCNN不同。
    SaCNN中使用的人頭計數損失函數是相對計數損失函數。如圖3所示,雖然我們改進的SaCNN中使用的人員數損失函數是絕對數損失,用等式表示4。
    LY(θ)=1Mi=1MFy(Xi;θ)Yi2(4){L_{Y} (\theta)}=\frac {1}{M}\sum \limits _{i=1}^{M} {\left \|{ {F_{y}} (X_{i};{\theta)-Y_{i}} }\right \|^{2}}\tag{4}
    其中 Fd(Xi;θ)F_{d} ({X_{i}};{\theta }) 是通過積分獲得的估計頭數,YiY_i 是地面真頭數。
    在這裏插入圖片描述
    通過使用權重爲4e-5的絕對計數損失代替相對計數損失,並將其與密度圖損失進行聯合訓練,可以提高行人少的人羣場景的網絡泛化能力。

C. 改進的SaCNN的實施

      ~~~~~~爲了提高訓練樣本的多樣性,增強網絡泛化能力,在訓練過程中,採用隨機裁剪方法對原始訓練數據集圖像中的patch進行每次迭代裁剪。由於輸入圖像的高度和寬度應該是8的倍數,所以裁剪後的圖像塊大小固定爲256×256,而裁剪位置是隨機的。動量優化器用於訓練。初始學習率設置爲1e-5,動量設置爲0.9。學習率從1e-5開始,並隨着均勻的等間隔變化策略而下降到1e-8。動量和batch大小與SaCNN中的相同。

SECTION IV. Experiments

      ~~~~~~實驗的實施基於伯克利視覺與學習中心(BCVL)提供的Caffe框架。 用於實驗的計算機是Intel(R)Xeon CPU E5-2683 v3 @ 2.00Ghz,而GPU是NVIDIA TESLA K80。 實驗平臺配備了64位ubuntu14.04,Anaconda3.4,CUDA Toolkit8.0和Opencv2.7.0。

A. Dataset

      ~~~~~~實驗是在具有挑戰性的ShanghaiTech數據集14上進行的,該數據集不僅具有不同的密度級別,而且具有不同的複雜場景,例如不同的比例和不同的透視變形。ShanghaiTech數據集包括兩個部分:A部分和B部分,總共包括1,198張圖像和330,165個帶有標籤的頭部。A部分包括從Internet上隨機選擇的482張圖像。B部分中的圖像取自上海的街頭攝影。與B部分相比,A部分包含更高密度的圖像。在我們的實驗中,這兩個部分都分爲訓練集和測試集。A部分中的300和182圖像分別用於訓練和測試,而B部分中的400和316圖像分別用於訓練和測試。

B. Evaluation Metrics

      ~~~~~~平均絕對誤差(MAE)和均方誤差(MSE)用於評估人羣計數的效果2627 28。MAE反映了預測的準確性,MSE反映了預測的魯棒性。定義如下:
MAE=1Mi=1Mziz^i(5) \textrm {MAE}=\frac {1}{M}\sum \limits _{i=1}^{M} {\left |{ {z_{i} -\hat {z}_{i}} }\right |} \tag{5}
MSE=1Mi=1M(ziz^i)2(6)\textrm {MSE}=\sqrt {\frac {1}{M}\sum \limits _{i=1}^{M} {(z_{i} -\hat {z}_{i})^{2}}}\tag{6}
其中 MM 是測試圖像的數量,ziz_iz^iẑ_i 分別表示第 ii 個圖像中的地面真實人數和估計人數。使用較小的MAE和MSE值,性能會更好。

C. Results and Analysis

      ~~~~~~並與MCNN28、switch - cnn29和SaCNN30進行了比較,實驗結果如表2所示。
在這裏插入圖片描述
在這裏插入圖片描述
      ~~~~~~根據表2,我們改進的SaCNN的MAE和MSE對於A部分分別僅爲75.84和124.88,而對於B部分,MAE和MSE分別僅爲11.03和18.55。改進後的SaCNN的所有結果均優於比較方法,這表明改進後的SaCNN具有更好的估計精度和更強的魯棒性。
      ~~~~~~圖5顯示了A部分的182個測試圖像的地面真實頭數和估計的頭數。圖6顯示了B部分的地面的真實頭計數和316個測試圖像的估計的頭數。帶有數據標記的折線圖用來顯示每個測試圖像的結果,這些圖像根據地面真實性的值按升序排序。其中,標有菱形的藍線代表地面真實人數。用正方形標記的橙色線表示估計的人數。用三角形標記的灰線表示估計的人數與地面真實人數之間的偏差。從圖5和圖6可以看出 說明我們的方法可以有效地適應不同的濃度水平,並且大多數圖像的估計結果都是準確的。
在這裏插入圖片描述
在這裏插入圖片描述      ~~~~~~然而,對A部分和B部分(參考圖5和圖6)的結果的進一步分析表明,對於高密度人羣圖像更可能出現大的估計誤差。當行人的數量超過約600時,模型的估計性能將降低並導致較大的誤差。同樣,估計的人數通常低於實際情況。我們對其進行了分析,發現在A部分的訓練集中不同的濃度水平(大量的低濃度水平訓練圖像樣本,而少量的高濃度水平訓練圖像樣本)使測試結果傾向於低濃度級別,這可以作爲我們未來提高人羣計數性能的工作之一。
      ~~~~~~圖7和圖8顯示了在A部分和B部分的測試集上的一些實驗結果,分別包括測試圖像,地面真實密度圖/地面真實頭數和估計密度圖/估計頭數。從地面真實密度圖和估計密度圖可以看出,我們的方法可以很好地指示圖像中的人羣分佈是密集場景還是相對稀疏場景,而估計的人頭數非常接近地面真實情況。
在這裏插入圖片描述
在這裏插入圖片描述

SECTION V. Conclusions

提出了一種基於尺度自適應卷積神經網絡(SaCNN)的改進的人羣計數方法,以解決密集場景中的人羣計數和密度估計問題。在對SaCNN的研究和分析的基礎上,對數據的預處理,損失函數等方面進行了優化,以獲得更好的人羣計數性能。優化了幾何自適應高斯核的參數設置,以生成更高質量的地面真密度圖,該圖用於估計人羣數。在每次迭代期間隨機裁剪訓練圖像,以提高訓練樣本的多樣性。使用權重爲4e-5的絕對計數損失與密度圖損失共同優化,以提高行人少的人羣場景的網絡泛化能力。
      ~~~~~~通過對現有方法的分析和我們的實驗結果,我們認爲:(1)密集連接的方法可增強底層特徵的可重用性和傳播,有利於進一步提高人羣計數和密度估計的準確性;(2)在生成地面真實密度圖時使用的最大頭大小限制的適當設置將有助於生成高質量的密度圖;(3)圖像語義分割和高分辨率重建工作將是烏鴉計數的可行方法,例如使用膨脹卷積運算來增加不合並的接收場;(4)對具有更多圖像的數據集進行訓練可能會獲得更好的結果。所有這些將是我們未來工作的重點。


  1. J. J. Fruin, Pedestrian Planning and Design, New York, NY, USA:Metropolitan Association of Urban Designers and Environmental Planners, 1971. ↩︎

  2. L. Dong, V. Parameswaran, V. Ramesh, I. Zoghlami, “Fast crowd segmentation using shape indexing”, Proc. Int. Conf. Comput. Vis. (ICCV), pp. 1-8, Oct. 2007. ↩︎

  3. K. Kang, X. Wang, Fully convolutional neural networks for crowd segmentation, 2014, [online] Available: https://arxiv.org/abs/1411.4464. ↩︎

  4. B. Zhou, X. Wang, X. Tang, “Understanding collective crowd behaviors: Learning a mixture model of dynamic pedestrian-agents”, Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), pp. 2871-2878, Jun. 2012. ↩︎

  5. J. Shao, C. C. Loy, X. Wang, “Scene-independent group profiling in crowd”, Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), pp. 2219-2226, Jun. 2014. ↩︎

  6. S. Yi, X. Wang, C. Lu, J. Jia, H. Li, " $L_{0}$ regularized stationary-time estimation for crowd analysis ", IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, pp. 981-994, May 2017. ↩︎

  7. M. Rodriguez, I. Laptev, J. Sivic, J.-Y. Audibert, “Density-aware person detection and tracking in crowds”, Proc. Int. Conf. Comput. Vis. (ICCV), pp. 2423-2430, Nov. 2011. ↩︎

  8. F. Zhu, X. Wang, N. Yu, “Crowd tracking with dynamic evolution of group structures”, Proc. Eur. Conf. Comput. Vis. (ECCV), pp. 139-154, Sep. 2014. ↩︎

  9. J. Shao, K. Kang, C. C. Loy, X. Wang, “Deeply learned attributes for crowded scene understanding”, Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), pp. 4657-4666, Jun. 2015. ↩︎

  10. V. Mahadevan, W. Li, V. Bhalodia, N. Vasconcelos, “Anomaly detection in crowded scenes”, Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), pp. 1975-1981, Jun. 2010. ↩︎

  11. W. Li, V. Mahadevan, N. Vasconcelos, “Anomaly detection and localization in crowded scenes”, IEEE Trans. Pattern Anal. Mach. Intell., vol. 36, no. 1, pp. 18-32, Jan. 2014. ↩︎

  12. V. A. Sindagi, V. M. Patel, “A survey of recent advances in CNN-based single image crowd counting and density estimation”, Pattern Recognit. Lett., vol. 107, pp. 3-16, May 2018. ↩︎

  13. K. Chen, C. C. Loy, S. Gong, T. Xiang, “Feature mining for localised crowd counting”, Proc. Brit. Mach. Vis Conf. (BMVC), vol. 1, no. 2, pp. 3, Sep. 2012. ↩︎

  14. Y. Wang, Y. Zou, “Fast visual object counting via example-based density estimation”, Proc. Int. Conf. Image Process. (ICIP), pp. 3653-3657, Sep. 2016. ↩︎ ↩︎ ↩︎

  15. D. Oñoro-Rubio, R. J. López-Sastre, “Towards perspective-free object counting with deep learning”, Proc. Eur. Conf. Comput. Vis. (ECCV), pp. 615-629, Oct. 2016. ↩︎

  16. G. French, M. Fisher, M. Mackiewicz, C. Needle, “Convolutional neural networks for counting fish in Fisheries surveillance video”, Proc. Mach. Vis. Animals Behav. (MVAB), pp. 1-10, Sep. 2015. ↩︎

  17. T. Zhao, R. Nevatia, B. Wu, “Segmentation and tracking of multiple humans in crowded environments”, IEEE Trans. Pattern Anal. Mach. Intell., vol. 30, no. 7, pp. 1198-1211, Jul. 2008. ↩︎

  18. W. Ge, R. T. Collins, “Marked point processes for crowd counting”, Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), pp. 2913-2920, Jun. 2009. ↩︎

  19. V. Lempitsky, A. Zisserman, “Learning to count objects in images”, Proc. Adv. Neural Inf. Process. Syst. (NIPS), pp. 1324-1332, Dec. 2010. ↩︎ ↩︎ ↩︎

  20. V.-Q. Pham, T. Kozakaya, O. Yamaguchi, R. Okada, “COUNT forest: Co-voting uncertain number of targets using random forest for crowd density estimation”, Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), pp. 3253-3261, Dec. 2015. ↩︎ ↩︎ ↩︎

  21. B. Xu, G. Qiu, “Crowd density estimation based on rich features and random projection forest”, Proc. IEEE Winter Conf. Appl. Comput. Vis. (WACV), pp. 1-8, Mar. 2016. ↩︎ ↩︎

  22. C. Wang, H. Zhang, L. Yang, S. Liu, X. Cao, “Deep people counting in extremely dense crowds”, Proc. ACM Int. Conf. Multimedia, pp. 1299-1302, Oct. 2015.v ↩︎

  23. A. Krizhevsky, I. Sutskever, G. E. Hinton, “ImageNet classification with deep convolutional neural networks”, Proc. Adv. Neural Inf. Process. Syst. (NIPS), pp. 1097-1105, Dec. 2012. ↩︎

  24. M. Fu, P. Xu, X. Li, Q. Liu, M. Ye, C. Zhu, “Fast crowd density estimation with convolutional neural networks”, Eng. Appl. Artif. Intell., vol. 43, pp. 81-88, Aug. 2015. ↩︎

  25. P. Sermanet, Y. LeCun, “Traffic sign recognition with multi-scale convolutional networks”, Proc. Int. Joint Conf. Neural Netw. (IJCNN), pp. 2809-2813, Jul./Aug. 2011. ↩︎

  26. P. Sermanet, S. Chintala, Y. LeCun, “Convolutional neural networks applied to house numbers digit classification”, Proc. Int. Conf. Pattern Recognit. (ICPR), pp. 3288-3291, Nov. 2012. ↩︎ ↩︎

  27. C. Zhang, H. Li, X. Wang, X. Yang, “Cross-scene crowd counting via deep convolutional neural networks”, Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), pp. 833-841, Jun. 2015. ↩︎ ↩︎

  28. Y. Zhang, D. Zhou, S. Chen, S. Gao, Y. Ma, “Single-image crowd counting via multi-column convolutional neural network”, Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), pp. 589-597, Jun. 2016. ↩︎ ↩︎ ↩︎

  29. D. B. Sam, S. Surya, R. V. Babu, “Switching convolutional neural network for crowd counting”, Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), pp. 6, Jul. 2017. ↩︎ ↩︎

  30. L. Zhang, Q. Chen, M. Shi, Crowd counting via scale-adaptive convolutional neural network, 2018, [online] Available: https://arxiv.org/abs/1711.04433. ↩︎ ↩︎ ↩︎

  31. K. Simonyan, A. Zisserman, Very deep convolutional networks for large-scale image recognition, 2015, [online] Available: https://arxiv.org/abs/1409.1556. ↩︎

發佈了26 篇原創文章 · 獲贊 6 · 訪問量 6488
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章