論文閱讀:Deepcut&Deepercut:Joint Subset Partition and Labeling for Multi Person Pose Estimation

引言

本篇一起介紹兩篇相關文章——
《DeepCut: Joint Subset Partition and Labeling for Multi Person Pose Estimation》 CVPR 2016
《DeeperCut: A Deeper, Stronger, and Faster Multi-Person Pose Estimation Model》 ECCV 2016

Deepcut

概述

本文可以理解爲還是採用了自頂向下的方法針對多人進行姿態估計,所謂自頂向下的方法就是先使用CNN檢測人體,即body part candidates,再判斷這些關節點屬於哪一個人。最後使用ILP優化模型進行姿態估計。不過兩者在執行順序上有交叉的部分。

模型

這裏寫圖片描述

首先使用CNN提取body part candidates,每一個候選區域對應的是一個關節點, 每一個關節點作爲圖中的一個節點,所有的這些候選關節點組成代表的節點組成一副完整的圖,正如上圖dense graph所示。節點之間的關聯性作爲圖中的節點之間的權重。這時,可以將其看作是一個優化問題,將屬於同一個人的關節點(圖中的節點)歸爲一類,每一個人作爲一個單獨的類。同時,另一條分支,需要對檢測出來的節點進行標記,確定他們屬於人體的哪一個部分。最後,使用分類的人結合標記的部分構成最終的每個人的姿態估計。

模型優點

1. 在人數位置的情況下可以解決多人姿態估計問題,通過歸類可以得到每個人的關節點分佈
2. 通過圖論節點的聚類問題,有效的使用了非極大值抑制
3. 優化問題表示爲integer linear program(ILP)問題,可以用數學方法得到有效的求解

細節

1. 對於多人姿態估計問題,可以轉換爲一個優化問題。優化問題需要解決三個問題:
a,body part candidate 的選擇,即節點的選擇
b,每個選擇的節點的標記問題,即該節點屬於身體的哪個部分,eg:胳膊,腿,手等
c,分類問題,即每個選擇的節點屬於哪一個人
2. 通過圖論節點的聚類問題,有效的使用了非極大值抑制
3. 優化問題表示爲integer linear program(ILP)問題,可以用數學方法得到有效的求解

不足

由於使用了自適應的fast R-CNN進行人體的檢測,同時又使用ILP進行人體姿態估計,所以計算複雜度非常大,因此下面這篇文章DeeperCut就是對其的一個加速實現。

Deepercut

本文是在deepcut的基礎上,對其進行改進,改進的方式基於以下兩個方面:
(1)使用最新提出的residual net進行body part的提取,效果更加準確,精度更高
(2)使用Image-Conditioned Pairwise Terms的方法,能夠將衆多候選區域的節點壓縮到更少數量的節點,這也是本文爲什麼stronger和faster的原因所在。該方法的原理是通過候選節點之間的距離來判斷其是否爲同一個重要節點。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章