【深度學習】A model-based gait recognition method with body pose and human prior knowledge

標題:A model-based gait recognition method with body pose and human prior knowledge

概要

作者提出了一個新的基於模型的步態識別方法,PoseGait。步態識別是生物特徵識別中一個比較有挑戰且有吸引力的領域。之前的一些方法主要基於外形,而基於外形的特徵通常從人的體形中提取,很容易倍計算且比較高效。然而由於很多因素,外形一般不是不變的。一個基於體形方法的替代是基於模型的方法。然而,在低分辨率下比較困難。相對於之前的方法,作者使用人體3D姿態估計作爲步態識別的輸入。人體3D座標對於很多外部因素的改變是不變的。作者設計了一個3D姿態的時空特徵來提高識別率。作者的方法在兩個大型數據集上進行驗證。實驗結果也表現出了良好的魯棒性與SOTA。

1、介紹

行走風格作爲一個人的特徵,可以用於識別一個人。相比如其他生物特徵,例如指紋、人臉、虹膜和掌紋,步態有例如非接觸、難以造價和適合長距離識別等特點。步態識別算法在過去幾十年也越來越魯棒,並且在現實世界有了很多的應用。
步態是一種行爲生物識別特徵,不像例如指紋、虹膜和人臉等物理生物特徵那樣魯棒。當有些改變時,例如衣着、攜帶的東西,步態特徵就會劇烈的改變,一些之前的工作嘗試去建模人體並且捕捉在不同主題下的運動模式。使用人體部分運動思想是直觀且合理的。但是準確地定位和追蹤身體區域是很困難的。
在過去的幾十年,基於外貿的步態識別方法比基於模型的更加流行,基於外貌的方法通常使用人體外形作爲生輸入,這些方法在外貌沒有明顯改變時可以實現非常高的識別率。然而,真實世界中人外觀的改變可能會很巨大導致這個方法的表現變差。經過對比,基於模型特徵的方法基於人體結構和運動,所以對於人體的外形沒有那麼敏感。最近在姿態估計方面的進展爲基於模型的方法帶來了希望。基於模型的特徵通常從人體結構中提取,所以他們可能處理很多種變化,尤其是視角的變化。
作者提出了一個新穎的基於模型的自該估計方法,PoseGait,能夠提取人的姿態作爲特徵。作者通過實驗印證了能與基於外貌特徵相關的準確率,然而能夠對外界因素的改變有更好的魯棒性。該工作的主要貢獻如下:

  • 作者提出了一個新穎的基於模型的步態識別方法,能夠提取人的姿態作爲特徵。這個方法可以首先即使在低分辨率下的高準確率。
  • 作者基於3D姿態信息設計了特徵,具有足夠的優勢。
  • CNN和RNN/LSTM能夠通過兩種loss的融合成功提取時空步態特徵

2、相關工作

基於外貌的方法
基於姿態估計的方法

3、PoseGait


作者提出的方法以3D人體關節點作爲輸入,能夠有效應對角度改變。相比於很多基於外貌的特徵,例如GEI,本文使用的方法是低維的方法,只是用一些關節位置點。爲了抽取時間特徵,作者從一系列的幀中抽取特徵。根據之前的一些工作,運動模式和角度對人體識別十分重要。在本文的工作中,作者基於先驗知識設計了一些特徵來提高特徵提取的效率。作者將四種四種合併了起來,具體將在後面進行介紹。訓練過程中,作者設計了兩種loss來降低類內差異並增加類間差異。整個方法的框架如上圖。

Human body pose features

爲了降低攜帶東西以及衣物變化造成的影響,作者提出了一種姿態特徵。在之前的方法中,關節運動對識別不同物體有足夠的能力。但是自動化精確的識別卻有很大的挑戰。作者提出的方法使用OpenPose進行姿態估計,包括18個身體關節點。
圖像的大小根據目標與相機之間的距離調整,脖子到臀部的距離被記爲單元長度。然後身體關節座標便可以通過下面的方式歸一化:

這裏的Hnh就是脖子到臀部的距離。

這樣提取出的姿態是2D的,對於視角變化不夠魯棒。解決方法是估計3D的姿態。3D hunman pose estimation = 2D pose estimation + matching這篇文章中的方法使之成爲了可能。這個方法中的輸入是14個點,而OpenPose估計出來的方法是14個點,所以作者將臉部的一些特徵平均了一下。
爲了降低視角變化的影響,作者將x方法設置爲前進方向,y方向爲左右肩定義的方向,z方向是垂直於地面的方向。這個3D姿態經過了旋轉和歸一化。

Designing spatio-temporal features

有的3D姿態估計以後,下一步就是基於3D姿態設計一些特徵,例如關節角度、運動。基於先驗知識的特徵會有利於神經網絡的學習。參考論文21中有類似的方法,包括靜態姿態、運動和offset來提高動作識別的的效果。受到了這種方法的啓發,作者設計了三種額外的時空姿態特徵。分別是關節角度、肢體長度和關節運動。
關節角度
Wang等人提出的一種基於模型的方法使用關節角度和關節軌跡來捕捉人體的動態特徵。相比於這個方法,作者的方法認爲3D關節位置更加精確,不只是下肢,全部的特徵都可以被捕捉到。

角度被定義爲兩個關節點之間,包括{(1,0), (1,2), (2,3), (3,4), (1,5), (5,6), (6,7), (1,8), (8,9), (9,10),
(1,11), (11,12), (12, 13)},其中α和β被定義爲左肩和左肘之間。
肢體長度
肢體長度爲兩個相鄰的關節之間的距離,可以看做一個基於模型的空間特徵。

關節運動
行走風格可以通過關節運動描述。論文22中提出了一種FDEI特徵,使用幀之間的區別來捕捉動態信息。FDEI是人體輪廓之間的差異,這裏作者使用的是人體關節之間的差異。

Fusion of features


對於每一幀,可以得到四種特徵,可以合成一個向量。然後不同幀的特徵向量可以形成一個特徵矩陣。其中運動特徵比其他特徵少一個,作者設置了一個0向量使之完整。由於輸入特徵有一個固定的尺寸,可以直接作爲CNN模型的輸入。

The network design

由於特徵是逐幀的,所以很容易想到用RNN和LSTM。之前的工作作者提出了把CNN和LSTM合併的PTSN,但是有些研究者認爲CNN比RNN的特徵提取能力更強。相比於CNN,RNN的計算難度更大。有的研究者也證明了CNN有足夠的能力來處理時序數據,所以作者使用了CNN或LSTM。
對於步態識別任務,降低類內差異和擴大類間差異是很重要的。根據一些工作的建議,作者使用了多loss策略來提升網絡效果。一共設計了兩個loss,分別是softmax loss和center loss。前者用來把擴大類間差異,後者通過最小化類內變化來保持不同類特徵的可分離性。

4、實驗結果與分析

數據集

爲了評估給出的姿態識別方法,需要RGB的視頻幀,因爲人體的姿態估計需要根據彩色圖像而不能根據輪廓。作者選擇了CASIA B步態數據庫,因爲它包括原始的彩色視頻幀。OU-ISIR研究組提供了幾個比較大的姿態數據庫,但是因爲隱私問題不能提供原始的視頻幀,所以作者選擇了CASIA E作爲第二個數據集。

CASIA B是一個著名的公開步態數據集,廣泛被研究者們使用。一共包括124個對象(31個女性和93個男性)。每個對象有10個序列,6個序列爲正常行走,兩個爲揹着包,還有兩個爲穿着大衣。然後還有從11個相機同時拍攝的11個視角,角度爲{0◦, 18◦, , 180◦}。


CASIA E是一個新提出的步態數據集。包括1014個對象,比CASIA B大很多。不同於其他超過一千個個體的步態數據集,該步態數據從13個角度收集,從0度到180度以15度爲間隔。其中每個對象有6個序列,兩個正常行走,兩個揹着包,兩個穿着大衣。


如果CASIA B用這個因爲數據太少會過擬合。

實驗設置

第一組實驗在CASIA B上進行,其中前62個作爲訓練集,其他的作爲測試集,與SPAE 和
GaitGAN的配置一樣。正常行走的作爲gallery set,其他的作爲probe set。(gallery set爲記錄進系統的特徵,而probe set用於測試與系統中的步態特徵是否匹配)
CASIA E數據集的配置與CASIA B類似。其中前507個用作訓練集,後面的507爲測試集。測試中有兩類配置,正常行走的使用相應的視角。由於正常行走每類共有兩個,作者將第一個作爲gallery,第二個作爲probe。第二種配置,前兩個正常行走的作爲gallery,其他的作爲probe。

Experimental results on CASIA B dataset



Effectiveness of the handcrafted features by prior knowledge

爲了降低CNN特徵提取的負擔,並且使特徵更加有判別力,使用了通過人類先驗知識的特徵。爲了證明這些特徵的有效性,使用不同的特徵做了如下的實驗,其中的數值平均值。

這裏能得出一些結論:首先,如果沒有任何變化,fpose可以達到高達60.92%的準確率,在正常行走和揹着包的情況下是這些特徵中最好的。然後再穿大衣的情況下運動特徵更加重要,證明它對服裝變化有一定的魯棒性。如果將幾個特徵合併起來,會有比較顯著的識別率提升。

Comparisons with appearance-based methods


基於模型的特徵更加輕量,並且沒有像基於外貌特徵的那麼多的冗餘信息,說明特徵人能夠提取更加有挑戰性。從表中可以看出作者提出的方法比前三個都要好,與第四個相當。同時也可以看出這種方法在穿大衣的情況更具有魯棒性,這是基於模型方法的優點,而基於外貌的受之影響較大。
另外,論文9的方法實驗配置有所不同,爲了能夠比較作者同樣做了相關實驗。

而這個方法明顯優於本文提出的,這是因爲其使用了高維的外貌特徵;其次,他們以驗證的方式對CNN進行配對訓練,因此訓練的組合數量可能超過一百萬。相比之下,作者的模型是以分類和驗證的方式訓練的。樣本數量遠少於[9]中的樣本數量。

Effectiveness on view variation

給出的方法與SOTA效果類似,在服裝改變下魯棒性更好。爲了進一步驗證性能,作者還使用一些交叉視角的步態估計方法。probe角度採用了54,90和126。



可以發現,作者提出的方法當gallery angle和probe angle差異很大的時候比其他方法有更好地效果,提升效果更加顯著。因爲作者使用3D空間將兩者統一到一個視角,所以對於視角更加魯棒。

Experimental results on CASIA E dataset

爲了進一步驗證方法的效果,還在CASIA E上做了實驗。因爲該數據集沒有公開,所以不能引用原始論文的結果。


實驗結論與第一個數據集基本一致。

Computational cost analysis

5、結論與未來展望

隨着基於深度學習的人體建模方的進步,作者提出了一種基於建模的步態識別方法,稱爲PoseGait。它使用3D人體姿態作爲特徵,因爲只有關節點這個特徵非常的袖珍。作者在CASIA B和CASIA E數據集上做了實驗,表現出與SOTA類似的效果。另外,作者根據人體先驗知識合併了三種類型的時空特徵來提升識別率。實驗證明CNN比LSTM或RNN有更好的效果。
儘管只達到了與SOTA類似的效果,但是這種基於建模的方法表現出很大的潛力。除了OpenPose,還有其他建模方法例如DensePose,但是其建模有限制,導致數據不完整,無法用於不太估計。未來的人體建模會持續的提升,這種基於建模的方法也會隨之提升。

總結

這篇文章理論上的創新不是特別的大,包括使用的OpenPose也是提出了很長時間的。但是做了很多實踐性的工作,包括用OpenPose去解決步態估計,在其輸出的特徵點的基礎上再根據一篇有關從2D到3D的論文將其擴展到3D姿態估計,並且對於其中的特徵經過了比較精心的設計。至於模型也嘗試用CNN去代替RNN,這個思想在之前的一些論文中也有了,但是本篇論文實現了一個應用。總的來說,儘管沒有理論上的突破,但是實踐結果很好,能夠將領域內的優秀的方法實現應用,並且做了大量的對比實驗,工作量也是很大的。應用上的創新還是可以簡單總結一下:

  • 嘗試通過3D姿態估計(從OpenPose輸出的2D通過預測方法轉爲3D)解決步態識別問題
  • 根據先驗知識與3D姿態估計結果設計特徵
  • 設計了loss來擴大類間差異,縮小類內差異
  • 用特徵提取能力較強的CNN來代替RNN解決時序問題

總的來說,本篇文章對於用姿態估計解決步態識別還是很有啓發性的,包括從數據處理到特徵提取,再到模型驗證,都能反映領域的一般方法,有很多值得學習的地方。其實也可以看出,除了對3D姿態估計的應用,比較重要的一點是其設計的特徵,決定了學習的效果。從人體的軀幹動作出發對於步態識別其實也是更合理的,因此這個方向相比於基於外貌特徵的潛力應該要更大一些。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章