【深度學習】---行人檢測應用二

深度學習行人檢測應用二

涉及論文

*Luo, P., et al. (2014). Switchable deep network for pedestrian detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.

摘要

提出一種可切換深度網絡,Switchable Deep Network(SDN)用於行人檢測。SDN可以自動學習多級特徵,顯著性特徵和不同身體部分的混合。行人檢測面臨一些挑戰,如背景雜亂,由姿勢、視角不同和一些其他因素造成的行人表現多變性。其中一個主要貢獻是提出一種SRBM(Switchable Restricted Boltmann Machine),來給不同級的混亂進行建模。在特徵級,自動估計了顯著性map來對每個測試樣本爲了從可區分的區域中區分背景clusters。在身體部分級,可以推斷出最合適的全身和部分集合的模型。並且提出了一種高效預訓練SDN的方法。本算法在Caltech和ETH數據集上進行了評估。

Contributions

  1. 提出一種同意的深度模型來聯合學習特徵,顯著性特徵,以及可代表全身和部分混合的模型。
  2. 通過介紹了一種利用RBM的可切換的構建思路來豐富了傳統CNN網絡。
  3. 提出了一種類EM算法來預訓練可變換層。

核心內容

深度模型概要

SRBM

基本構架

圖 1 網絡結構圖
圖 1 網絡結構圖

RBM就是限制玻爾茲曼機。RBM的實現是根據可視層和隱層的聯合分佈,然後做最大似然法估計。類似於聚類。
SRBM,顧名思義,可切換。不像RBM是無監督,SRBM是同時觀察輸入和標註的,因爲有有監督信息可以提高分類性能。
能量函數:

能量函數
K代表部分的序號。Θ = {W, b, c, U, d},U是全連接權重,d是偏置矩陣。可切換參數 代表這一部分被激活。輸出的特徵是各部分隱藏特徵的線性組合。 是代表每個可區分行人區域的顯著性特徵。
圖 2行人和顯著性特徵
圖 3 行人和顯著性特徵
上圖(b)中,顯著性把行人和背景區分開來,背景出m值爲0,行人處爲1。
類似於RBM,可見層和隱藏層是條件獨立的,當給出其他的參數,條件概率可以寫成:
這裏寫圖片描述
這裏寫圖片描述

圖 4得分系統和最終得分,其中B_p是得到的和結果,

這裏寫圖片描述

m顯著性可以看做是初始輸入x和這裏寫圖片描述輸入 的聯繫。

預訓練算法

預訓練算法
圖 4 預訓練算法

預訓練分爲兩部分,(1)初始化(2)EM。初始化用k-means聚類輸入,訓練常規RBM,給每部分權重矩陣初始化。EM中,在E-step估計s然後固定,M-step最大化log最大似然log p(x,y|s),以 爲參照。
由於從上述公式看出需要學習5個參數,這個計算量比較大,於是可以採用類EM的算法來簡化。首先將可切換參數認爲是僞觀測參量,在這種強狂下,可以通過E-step直接估計他們的值。然後在M-step通過其他四個參數更新他的值。這種策略大約減少了20%的運算量。

EM算法

用於含有隱變量的概率模型參數的極大似然估計,或極大後驗概率估計,EM算法每次迭代分爲兩步,E,求期望,M,求極大。
輸入:觀測變量數據Y,隱變量數據Z,聯合分佈P(Y,Z|θ),條件分佈P(Z|Y, θ)
輸出:模型參數θ
1.選擇參數的初值θ^((0)),開始迭代
2.E步:記θ^((i))爲第i次迭代參數θ的估計值,聯合分佈P(Y,Z|θ),條件分佈P(Z|Y, θ);
Q(θ,θ^(i) )=E_z [logP(Y,Z│θ)│Y,θ^((i) ) ]
=∑_z▒〖logP(Y,Z│θ)P(Z|Y,θ^((i) ))〗
分佈都是當前情況下的分佈。
3.M步:求使Q(θ,θ^(i) )極大化的θ,確定第i+1次迭代的參數的估計值θ^(i+1)
Q(θ,θ^(i+1) )=〖argmax〗_θ Q(θ,θ^(i) )
4.重複(2)(3)直到收斂。

SDN

基本構架

系統整體網絡構架
圖 4 系統整體網絡構架
整個網絡分三部分,卷積層,可切換層(SRBM)和邏輯斯蒂迴歸。卷積層得到中低級特徵,可切換層得到高級混合模型和身體全身和部分的顯著性特徵,邏輯斯蒂迴歸得到預測結果。可擴展。
輸入數據六通道,尺寸108*36。前三通道是三個不同尺度的BB(bounding box)resize之後YUV域的Y通道值,後三通道是前三通道用Sober邊緣檢測的結果,這樣設計是處於多尺度和邊緣信息的考慮。
得到64通道數據,9*9*6
這裏寫圖片描述
W濾波器參數矩陣,b偏置項。對結果max pooling得到圖中的body,然後送入可切換層,每個切換層採用K部分(本文采用K=10)。在可切換層中,整體與部分並存,body整體分爲幾個身體的部分,本文采用的是分爲三個部分如(d)。最後進行邏輯斯蒂迴歸預測結果。

預訓練和微調

Gabor濾波器初始化卷積層濾波器,因爲Gabor濾波器可以捕捉行人的邊緣形狀。可切換層在之前的算法預訓練。
微調可以提高檢測效率,採用降低錯誤熵來進行微調
這裏寫圖片描述
參數通過隨機梯度下降來優化。
隨機梯度下降是每次使用一個樣本迭代,下降速度比梯度下降速度快很多,但有可能陷入局部極小值。

總結

本文提出了一種可切換深度網絡來對背景簇和複雜的行人外觀進行建模。本SDN通過加入了以SRBM爲典型的可切換層改進了cnn。檢測結果達到了高水平。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章