姿態檢測的挑戰:
- 每張圖片中人的數量是未知的;
- 人與人之間的交互複雜(接觸、遮擋等),使得部分關鍵點檢測變得困難;
- 圖像中人越多,time cost越大,使得real time應用變得困難;
檢測指標
- PCK,Percentage of Correct Keypoints,關鍵點正確估計的比例。計算檢測關鍵點與對應的 ground-truth 間的歸一化距離小於設定閾值的比例。FLIC數據集,是以軀幹直徑(torso size)作爲歸一化參考;MPII數據集,是以頭部長度(head length)作爲歸一化參考。
- PDJ,Percentage of Detected Joints,檢測到的關鍵點的比例。
- OKS,Object Keypoint Similarity,計算ground-truth與檢測人體關鍵點的相似度,啓發於IoU。
- OKS矩陣。
- AP,Average Precision,所有OKS中,統計其中大於閾值t的個數佔據關節點的比例。
- mAP,mean Average Precision,給定不同的閾值t,AP的均值。
其中,表示ground-truth中人的id,表示keypoint的id,表示ground-truth和預測關鍵點的歐氏距離,表示當前人的尺度因子,表示第i個關鍵點的歸一化因子(這個因子是對dataset所有ground-truth計算的標準差得到的,反映出當前骨骼標註時的標準差,越大表示越難標註),表示第p個人的第i個關節點是否可見,函數用於將可見點選出來計算的函數,是個布爾函數。
方法歸類
- top-down方法,先檢測到人(目標檢測),得到檢測框後,再進行單人(目標)的關鍵點檢測(單人姿態估計)。
- bottom-up方法,先檢測所有人的所有關節點,再對關節點進行分組、並聯,組合成人
一般top-down方法精度更高(先目標檢測,再關節點檢測的two-stage結構),bottom-up方法速度更快。
- 2016年,CPM,Hourglass,是當時的擔任檢測估計的SOTA算法;
- 2016年,OpenPose所使用的的方法,是COCO關鍵點檢測的冠軍;
- 2017年,CPN,是COCO關鍵點檢測的冠軍;
- 2018年,MSPN,是COCO關鍵點檢測的冠軍;
- 2019年,MSPA的xxx提出了HRNet,驗證了空間分辨率的重要性;