論文閱讀:《Flowing ConvNets for Human Pose Estimation in Videos》ICCV 2015

概述

本文主要用CNN網絡來進行人體姿態估計,加入了temporal 信息以提高精度。本文的四個貢獻:

1. 提出了一個更深的CNN網絡(相比於Alex-Net),不同於之前的迴歸座標,而是迴歸heatmap,這樣可以提高關節點定位的魯棒性,並且更利於在訓練過程中的可視化觀察。
2. 提出一種空間融合層,用來學習隱式空間模型,即用來提取關節點之間的內在聯繫
3. 使用光流信息,用來對準相鄰幀的heatmap 預測
4. 使用最後的參數池化層,學習將對齊的熱圖合併成一個聚集的置信圖

網絡框架

這裏寫圖片描述


網絡pipeline:對於當前幀t,輸入它的相鄰的前後n幀。利用全卷機神經網絡(Spatial Net + Spatial Fusion Layers)對每一幀輸出一個預測的heatmap。再利用光流信息將這些heatmap扭曲到當前幀t。之後將warped的heatmap合併到另一個卷積層中,該層學習如何權衡來自附近框架的扭曲的heatmap。最後使用集合熱圖的最大值作爲人體的身體關節。

Spatial Fusion Layers的細節結構

這裏寫圖片描述

增加該結構是爲了學習關節之間的內在聯繫,其獲取的是之前CNN中的conv3和conv7,將這兩層結合之後再經過5層卷積。關於loss一共有兩個,一個是spatial net中的loss1,用的是L2範式,計算公式是CNN中輸出的heatmap與ground truth中的目標的座標的高斯分佈的距離和。同理,spatial fusion net之後的loss2也是相同的計算方式。兩者是爲了保證學習的內容不同。

光流法增強heatmap

1. 使用密集光流將附近幀的信號與當前幀對準
2. 然後使用附加捲積層將這些置信度合併到複合置信度圖中
3. 對每一幀的最終上半身姿勢估計就是複合圖中最大置信度的位置

這裏寫圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章