基於CNN的2D單人體姿態估計論文綜述

1.DeepPose(谷歌大佬首次提出人體關鍵點解決方案)
2.Joint-cnn-mrf(在cnn框架下利用條件隨機場對位置進行建模,提出了heatmap)
3.SpatialDropout (LeCun團隊首次將多尺度應用於人體關鍵點檢測)
4.Optical Flowing(首次將光流特徵應用於2D關鍵點檢測)
5.CPM(空間特徵學習機器,去掉了對馬爾科夫模型建模空間聯繫的依賴)
6.IEF (錯誤迭代反饋機制,去掉了對馬爾科夫模型建模空間聯繫的依賴)
7.Deepcut & Deepercut(僞多人關鍵點檢測方案)
8.Hourglass(首個以模塊形式堆疊形成的人體姿態估計網絡)
9.Pose Attention(以Hourglass爲基石,引入attention機制,引入CRF取代softmax)
10.PyraNet(以Hourglass爲基石,特徵金字塔)
11.MSSA(以Hourglass爲基石,多尺度特徵,掩碼訓練)
12.G-RMI(單人關鍵點檢測基石,有許多基礎思路)
13.Global and Local Normalization(肢體歸一化)
14.Adversarial PoseNet(使用生成對抗策略解決關鍵點遮擋問題)
15.Self Adversarial pose(利用對抗的方式使得熱度圖更精準)
16.alphapsoe1 & alphapsoe2(解決人體框不準和擁擠場景姿態估計)
17.Recurrent Human Pose Estimation(遞歸訓練實現人體關鍵點預測)
18.CPN(級聯金字塔網絡,2017coco關鍵點冠軍)
19.GNet-pose(利用外部構建圖特徵的方式進行引導學習)
20.PIL(利用外部身體部位信息的方式進行引導學習)
21.simple baseline(簡單高效的單人姿態估計網絡)
22.DLCM(首次用顯式的方式將關鍵點和連接進行分層學習)
23.Hrnet(coco2019關鍵點檢測冠軍)
24.MSPN(基於Hourglass,優化其存在的缺點)
25.FastPose(將知識蒸餾應用於人體關鍵點檢測)
26.Darkpose(首次對關鍵點的編解碼過程進行研究)
27.SSN(輕量級人體姿態估計網絡)
28 .LSTM_POSE_Machine(利用LSTM進行對視頻進行人體姿態估計)
29.UniPose_LSTM(最新視頻姿態估計SOTA)
30.High Performance(優於Hrnet)

·

1.DeepPose(谷歌大佬首次提出人體關鍵點解決方案)

CVPR2014 Google | DeepPose: Human Pose Estimation via Deep Neural Networks
3rdParty Code:pytorch
3rdParty Code:chainer
3rdParty Code:tensorflow
3rdParty Code:caffe

Google大佬首次提出,如何使用CNN來進行姿態估計的公式,並且提出了一種使用級聯的方式來進行更準確的姿態估計器。作者使用CNN並不是用的分類損失,而是使用線性迴歸損失,預測的關鍵點和ground-true 的 L2-loss。爲了得到更好的精確率,作者訓練一個級聯的姿態迴歸器。在第一個階段,先粗略的估計出部分的姿態輪廓,然後在下個階段,將通過已知關鍵點位置不斷的優化其他關鍵點的位置。每個stage都使用已經預測的關鍵點來切出基於這個關鍵點的鄰域,這個子圖像將被用於接下來的網絡輸入,而接下來的網絡就會看到更高分辨率的圖像,最終達到更好的精確率。

2.Joint-cnn-mrf(在cnn框架下利用條件隨機場對位置進行建模,提出了heatmap)

NIPS 2014 紐約大學 Yann LeCun | Joint Training of a Convolutional Network and a Graphical Model for Human Pose Estimation
Official Code:tensorflow
本文提出了一種新的混合體繫結構,該體系結構由CNN和馬爾可夫隨機場組成。作者展示了此架構如何成功應用於2D人體姿勢估計。該體系結構可以利用結構域約束,例如人體關節位置之間的幾何關係。 算法表明,這兩種模型範例的聯合訓練可提高性能,並使我們大大優於現有的最新技術。這是早期的deep learning應用到姿態估計的文章,所以有比較大篇幅網絡模型設計,作者通過理論結合實際提出網絡結構設計思想(當然現如今NSA已經勢不可擋)。下圖還展示了本文的核心思想就是不同類間的關鍵點存在位置上的結構性聯繫。
1、利用CNN做姿態估計,採用heatmap的方式來回歸出關鍵點
2、利用人體關鍵點之間的結構關係,結合馬爾科夫隨機場的思想來優化預測結果,主要針對於網絡預測的false postive。

3.SpatialDropout (LeCun團隊首次將多尺度應用於人體關鍵點檢測)

2014 紐約大學 Yann LeCun | Efficient Object Localization Using Convolutional Networks

深度卷積網絡(CNN)已實現了最新的人體姿勢估計性能。 傳統的CNN體系結構包括池化和子採樣層,可減少計算需求,引入不變性並防止過度訓練。 當然這些好處是以降低定位精度爲代價的。 本文提出了一種新穎的體系結構,其中包括有效的“位置細化”模型,該模型經過訓練可以估計圖像小區域內的關節偏移位置。 該精化模型與最新的CNN模型一起級聯訓練(形成一種新穎的級聯架構,該架構結合了精細和粗尺度卷積網絡),以提高人體關節位置估計的準確性。文章的主要貢獻有:
1、pooling層能爲網絡增強一些“局部不變性”、“旋轉不變性”之類的能力,也能降低參數等種種優點的同時對於迴歸heatmap的任務卻會帶來location的精度損失。因此提出了一種新的結構,用於彌補pooling的負效應,“position refinement”。
2、文章提出了全新的“SpatialDropout”策略。
3、多分辨率輸入,在更高的分辨率上微調關鍵點位置。

4. Optical Flowing(首次將光流特徵應用於2D關鍵點檢測)

ICCV 2015 | Flowing ConvNets for Human Pose Estimation in Videos
Official Code:caffe

這項工作的目的是對視頻中的人體進行姿勢估計。本文提出了一種CNN結構,該結構可以通過使用光流將多個幀中的信息組合在一起而從時間上下文中受益。該網絡架構:(i)比以前研究迴歸熱圖的網絡更深; (ii)學習隱式空間模型的空間融合層; (iii)光流用於對齊來自相鄰幀的熱圖預測; (iv)最終的參數化合並層,該層學習將相鄰幀熱圖合併爲整體置信度圖。

5.CPM(空間特徵學習機器,去掉了對馬爾科夫模型建模空間聯繫的依賴)

CVPR 2016 卡內基梅隆大學 | Convolutional Pose Machines
Official Code: caffe
3rdParty Code: Tensorflow v1
3rdParty Code: Tensorflow v2
3rdParty Code: Tensorflow v3
CPM爲學習豐富的隱式空間模型提供了一個時序預測框架。在這項工作中,作者展示了一個系統的設計,如何將卷積網絡納入CPM框架中學習圖像特徵,以及如何將依賴於圖像的空間模型用於姿態估計的任務。CPM同時用卷積圖層表達紋理信息和空間信息。主要網絡結構分爲多個stage,其中第一個stage會產生初步的關鍵點的檢測效果,接下來的幾個stage均以前一個stage的預測輸出和從原圖提取的特徵作爲輸入,進一步提高關鍵點的檢測效果。論文還通過提供一個自然的學習目標函數來加強中間監督來解決訓練中梯度消失的問題,從而補充反向傳播的梯度並調節學習過程。
本文的主要貢獻有:
1.提出了一種特殊的卷積網絡架構用以學習隱式空間模型。
2.給予上述空間模型設計系統的訓練方法,是的模型能夠學習圖像特徵和空間結構特徵, 且不需要引入類似第二篇文章Joint-cnn-mrf中的馬爾科夫模型對空間聯繫進行建模。

6.IEF (錯誤迭代反饋機制,去掉了對馬爾科夫模型建模空間聯繫的依賴)

CVPR 2016 | Human Pose Estimation with Iterative Error Feedback
Official Code: caffe
本文主要內容是提出了一個通用的框架,該框架通過從輸入和輸出的聯合空間學習特徵提取器,對輸入和輸出空間中豐富的結構化信息進行建模。文章引入了自頂向下的反饋機制,不直接預測目標輸出,而是在前饋過程中,預測當前估計的偏差並反饋迭代修正預測值,文中稱之爲IEF(Iterative Error Feedback)。通過上述架構,算法能夠提取人體姿態估計和物體分割任務中的結構化關係。與第五篇文章類似,該思想從網絡訓練和架構設計的角度學習網絡的結構化特徵,而不需要引入類似與馬爾科夫模型來建立圖模型。雖然標準的CNN提供了能夠在多個抽象級別捕獲圖像的層次表示,但輸出通常被建模爲平面圖像或像素級別的1-of-K標籤,或稍微複雜一些的手工設計表示。我們在本文的目的是通過引入迭代誤差反饋(IEF)來減輕這種不對稱性,迭代誤差反饋將層次表示學習擴展到輸出空間,同時在本質上利用相同的機制。廣義而言,IEF的工作方式是將重點從預測外部世界的狀態轉移到糾正對外部世界的期望,這是通過在標準模型中引入一個簡單的反饋連接來實現的。

7.Deepcut & Deepercut(僞多人關鍵點檢測方案)

CVPR 2016 | DeepCut: Joint Subset Partition and Labeling for Multi Person Pose Estimation
ECCV 2016 | DeeperCut: A Deeper, Stronger, and Faster Multi-Person Pose Estimation Model
Official Code: caffe

Deepcut:
該算法提出了一種聯合解決檢測和姿態估計的方法,首先利用CNN的方法提取圖像中的所有關鍵點,所有的關鍵點作爲節點組成一個dense graph(密度圖)。其次利用Fasterrcnn獲取人體位置,並聯合密度圖。最終將屬於同一個人的關鍵點(節點)歸爲一類,每個人作爲一個單獨類。
本文的思路具有以下幾個優勢:
1)可以解決未知個數人的圖像,通過歸類得到有多少個人
2)通過圖論節點的聚類,有效的進行了非極大值抑制
3)優化問題表示爲 Integer Linear Program (ILP),可以有效求解

Deepercut:
本算法是在Deepcut的基礎上,對其進行改進,改進的方式基於以下兩個方面:
(1)使用最新提出的residual net進行關鍵點的提取,效果更加準確,精度更高。
(2)使用Image-Conditioned Pairwise Terms的方法,能夠將衆多候選區域的節點壓縮到更少數量的節點,這也是本文爲什麼stronger和faster的原因所在。該方法的原理是通過候選節點之間的距離來判斷其是否爲同一個重要節點。

8.Hourglass(首個以模塊形式堆疊形成的人體姿態估計網絡)

ECCV 2016 | Stacked Hourglass Networks for Human Pose Estimation
3rdParty Code: Tensorflow
3rdParty Code: torch
3rdParty Code: pytorch

本文提出了一種用於人體姿態估計的新型卷積網絡結構。特徵跨所有尺度進行處理並整合,用以捕獲與身體相關的各種空間關係。文章展示瞭如何將重複的自底向上、自頂向下的處理與中間監督相結合使用,以提高網絡的性能。作者將該架構稱爲一個堆疊的沙漏網絡,它基於池化和上採樣的連續步驟,這些步驟將生成最終的預測集。在FLIC和MPII基準上獲得的最新結果超過了所有最近的方法。本論文中值得學習的思想如下: 1.使用模塊進行網絡設計 2.先降採樣,再升採樣的全卷積結構 3.跳級結構輔助升採樣 4.中繼監督訓練。

9.Pose Attention(以Hourglass爲基石,引入attention機制,引入CRF取代softmax)

CVPR 2017 港中文 | Multi-Context Attention for Human Pose Estimation
3rdParty Code: torch
3rdParty Code: pytorch
本文提出了將多上下文關注和對流引入到端到端的框架中,進行人體姿態估計。作者使用視覺注意力來指導上下文建模。同時作者引入條件隨機場(CRF)來進行空間相關建模,而不是使用全局Softmax。文章建立了多情境注意力模型。多分辨率、多語義、分層的整體部分注意方案。此外,爲了豐富傳統剩餘單元的表達能力,提出了一種沙漏剩餘單元(HRUs)來增加網絡的接受域。

10.PyraNet(以Hourglass爲基石,特徵金字塔)

ICCV 2017 | Learning Feature Pyramids for Human Pose Estimation
3rdParty Code: pytorch
Official Code

本文提出了兩種通用的方案包括:金字塔剩餘模塊(PRMs),多分支網絡初始化方案。PRMs用於增強離散神經網絡的尺度不變性。並證明了多分支網絡初始化方案的理論正確性和有效性。此外,還提出了一種簡單而有效的方法來防止在添加多個映射輸出時響應的方差爆炸。

11. MSSA(以Hourglass爲基石,多尺度特徵,掩碼訓練)

ECCV 2018 | Multi-Scale Structure-Aware Network for Human Pose Estimation

本文提出的方法是對hourglass沙漏模型的改進:第一:引入多尺度監控網絡(MSS-net)和多尺度迴歸網絡(MSR-net),結合豐富的多尺度特徵,通過跨尺度特徵匹配提高關鍵點定位的魯棒性。第二:MSS-net和MSR-net都是利用結構感知損失來明確地從多尺度特徵中學習人體骨骼結構,這些特徵在複雜場景中恢復遮擋時具有很強的先驗性。第三:提出了一個關鍵點掩碼訓練方案,該方案可以有效地對網絡進行微調,通過相鄰匹配對被遮擋的關鍵點進行魯棒定位。這些改進可以改善複雜活動、重遮擋、多對象和背景混亂等複雜情況下的姿態估計。

12.G-RMI(單人關鍵點檢測基石,有許多基礎思路)

CVPR2017 Google | Towards accurate multi-person pose estimation in the wild
Official Code: pytorch
本文提出了一種2D人體關鍵點檢測的方法,該方法是一種簡單而強大的自上而下的方法,包括兩個階段。在第一階段,算法預測圖片中人體的位置和大小;爲此,算法使用Faster RCNN檢測器。在第二階段,算法估計每個人體框框中可能包含的關鍵點。對於每種關鍵點類型,算法使用全卷積的ResNet預測對應的熱圖和偏移量。爲了結合這些輸出,算法引入了一種新穎的聚類來獲得高度本地化的關鍵點預測。文章還使用了一種全新的基於關鍵點的非極大值抑制(NMS),而不是較粗糙的基於人體的NMS,以及一種新穎的基於關鍵點的置信度估計的形式,而不是基於目標框評分。本文提出的基於關鍵點的NMS在後面的自上而下的文章中被普遍應用。

13. Global and Local Normalization(肢體歸一化)

ICCV 2017 | Human Pose Estimation using Global and Local Normalization

考慮到關節點相對位置分佈的多樣性,作者提出了兩階段的歸一化方案:人體歸一化和肢體歸一化,使分佈更加緊湊,有利於空間細化模型的學習。歸一化的核心是將特徵圖的指向垂直向下。

14.Adversarial PoseNet(使用生成對抗策略解決關鍵點遮擋問題)

ICCV 2017 | Adversarial PoseNet: A Structure-aware Convolutional Network for Human
Pose Estimation
Official Code: pytorch

對於單目圖像中的人體姿態估計,關節遮擋和人體重疊往往導致姿態預測的偏差。在這種情況下,可能會產生生物學上不可信的姿勢預測。相比之下,人類視覺可以通過利用關節間連接的幾何約束來預測姿態。爲了通過融合人體結構的先驗知識來解決這一問題,作者提出了一種新的基於結構感知的卷積網絡來隱式地在深度網絡訓練中考慮這些先驗知識。該隱式結構是一種新的姿態估計條件對抗網絡,它利用兩個鑑別器網絡訓練一個多任務的姿態發生器。這兩個鑑別器的作用就像一個專家,能把合理的姿勢和不合理的姿勢區分開來。通過訓練多任務位姿發生器來欺騙專家,使其相信生成的位姿是真實的,從而使訓練得到的網絡對人體的遮擋、重疊和扭曲具有更強的魯棒性。

15.Self Adversarial pose(利用對抗的方式使得熱度圖更精準)

ArXiv 2017 | Self Adversarial Training for Human Pose Estimation
Official Code: pytorch
Official Code: torch
作者使用生成式對抗網絡作爲整體學習方式,建立了兩個具有相同架構的堆疊沙漏網絡,一個作爲生成器,另一個作爲鑑別器。在訓練完成後,利用該生成器作爲人體姿態估計器。該算法利用圖像特徵來預測人體關鍵部位的熱度圖,並利用鑑別器來判斷人體關鍵部位的熱度圖。作者在三個標準基準數據集上對該方法進行了評估,結果表明該方法對於提高預測精度是有用的。

16.alphapsoe1 & alphapsoe2(解決人體框不準和擁擠場景姿態估計)

ICCV 2017 | RMPE: Regional Multi-person Pose Estimation
ArXiv 2018 | CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark
Official Code: caffe
Official Code: pytorch

RMRE(該方法能夠處理不準確的bounding box(邊界框)和冗餘檢測。):論文中值得學習的思想有三點: 第一:Symmetric Spatial Transformer Network – SSTN 對稱空間變換網絡:在不準確的bounding box中提取單人區域。第二:Parametric Pose Non-Maximum-Suppression – NMS 參數化姿態非最大抑制:解決冗餘。第三:Pose-Guided Proposals Generator – PGPG 姿態引導區域框生成器:增強訓練數據。

CrowdPose:論文中值得學習的思想有兩點: 第一: joint-candidate single person pose estimation (SPPE):通過候選點的概念,設計了對應的候選loss,從而抑制非當前人體實例的點,實現了對擁擠人體關鍵點的提取。第二:global maximum joints associatio:基於上述特定的單人姿態估計網絡,檢測到的關鍵點數量比實際要多,因此提出以圖論的方式,通過一個線性規劃求解最優解的方式實現最優圖的構建,從而實現最優實例的鏈接。

17.Recurrent Human Pose Estimation(遞歸訓練實現人體關鍵點預測)

FG 2017 | Recurrent Human Pose Estimation
Official Code: matlab

本文提出了一種人體姿態估計的遞歸人體模型,該模型能夠迭代地捕獲上下文信息,從而提高了定位性能。實驗結果顯示,迴歸熱圖可以用於預測關鍵點的遮擋。本文采用將前饋模塊與遞歸模塊相結合的架構,其中遞歸模塊可以迭代運行以提高性能,且爲輔助loss不參與在線推理。

18. CPN(級聯金字塔網絡,2017coco關鍵點冠軍)

CVPR 2018 Face++曠世科技 | Cascaded Pyramid Network for Multi-Person Pose Estimation
Official Code: tensorflow
3rdParty Code: pytorch

本文提出了一種新穎的網絡結構,稱爲級聯金字塔網絡(CPN),其目的是緩解一些遮擋等難例關鍵點檢測問題。更具體地說,算法包括兩個階段:GlobalNet和RefineNet。 GlobalNet是一個功能金字塔網絡,可以成功地定位“簡單”的關鍵點(如眼睛和手),但可能無法準確識別被遮擋或看不見的關鍵點。而RefineNet嘗試通過整合來自GlobalNet的多個尺度的特徵,通過擴大感受野的方式以及在線的關鍵點難例挖掘損失(OHKM loss)來優化對難例關鍵點的檢測。如下圖所示,網絡結構分爲多個stage,其中第一個stage會產生初步的關鍵點的檢測效果,接下來的幾個stage均以前一個stage的預測輸出和從原圖提取的特徵作爲輸入,進一步提高關鍵點的檢測效果。

19.GNet-pose(利用外部構建圖特徵的方式進行引導學習)

IEEE Transactions on Multimedia 2018 | Knowledge-Guided Deep Fractal Neural Networks for Human Pose Estimation
Official Code: Caffe
Official Code: matlab

作者以堆疊的沙漏的hourglass爲基礎設計,並建議使用inception-resnet作爲網絡的構建塊,在沒有明確的圖形建模的情況下,將人體姿態迴歸到熱圖中。Knowledge-guided學習是一個通用的方案,可用於其他深層神經網絡訓練任務。

20.PIL(利用外部身體部位信息的方式進行引導學習)

CVPR 2018 | Human Pose Estimation with Parsing Induced Learner
Official Code: pytorch

本文中,作者提出了一種新的解析誘導學習器(PIL),通過有效地利用解析信息(身體部位)來輔助人類姿態估計。PIL學習從解析特徵中預測特定的位姿模型參數,調整位姿模型,提取互補的有用特徵。整個模型是端到端可訓練的。此外,通過使用PIL訓練的LIP數據集到MPII數據集進行跨數據集的評估,顯示PIL具有良好的可轉移性。即使應用的數據集不提供任何解析信息,外部預訓練的PIL仍然可以幫助模型達到最好的效果。

21.simple baseline(簡單高效的單人姿態估計網絡)

ECCV 2018 | Simple Baselines for Human Pose Estimation and Tracking
Official Code: pytorch
3rdParty Code: tensorflow

如下圖所示,本論文提出了一種極其簡單的單人姿態估計網絡,因爲簡單有效,所以作者稱之爲baseline。alphapose中的CrowdPose就是使用了這種baseline。該baseline表示即使用下圖中的c,簡單的降採樣加升採樣就可以實現類似a圖中的hourglass,b圖中的CPN等網絡的性能。 這一結論很值得深思啊。。。

22.DLCM(首次用顯式的方式將關鍵點和連接進行分層學習)

ECCV 2018 | Deeply Learned Compositional Models for Human Pose Estimation

文章提出DLCM模型,該模型能夠描述人體各部分之間複雜而現實的組成關係,提出了一種新的零件表示方法。它簡潔地編碼了每個部分的方向、比例和形狀,並避免了它們潛在的大型狀態空間。與以往的深度神經網絡(如針對HPE設計的CNNs)相比,該模型具有層次結構和跨多個語義層次的自底向上,自頂向下推理階段。作者在實驗中表明,DLCM的組成性質有助於他們解決自底向上的姿態預測中出現的模糊性。

23.Hrnet(coco2019關鍵點檢測冠軍)

CVPR 2019 | Deep High-Resolution Representation Learning for Human Pose Estimation
Official Code: pytorch

並行連接高低分辨率子網,而不是像大多數現有解決方案那樣串聯連接。因此,本文的方法能夠保持高分辨率而不是通過從低到高的過程恢復分辨率,因此預測的熱圖可能在空間上更精確。大多數現有的融合方案彙總了低級別和高級別的表示。相反,本文在相同深度和相似水平的低分辨率表示的幫助下執行重複的多尺度融合以提升高分辨率表示,反之亦然,導致高分辨率表示對於姿勢估計也是豐富的。因此,本文預測的熱圖可能更準確。

24.MSPN(基於Hourglass,優化其存在的缺點)

CVPR 2019 | Rethinking on Multi-Stage Networks for Human Pose Estimation
Official Code: pytorch

基於Hourglass在coco數據集上並不是很優秀的表現,本文重新思考了這種多階段策略。並得出了如下三個結論:(1)從Hourglass的網絡結構示意圖中,我們可以發現在每個stage中,特徵圖先被降採樣,然後升採樣,從上圖紅色區域我們可以發現整個過程網絡的通道保持了一致,該過程導致每個降採樣後特徵的損失。因爲降採樣後特徵圖變小了,只有將通道數擴大,才能在升採樣時把損失補充回來。(2)拋棄hourglass的每個stage的連接方式,而使用U-net這種連接方式. 文章認爲這種做法可以有效的傳遞上一個stage的信息給下一個stage,從而促進下一個stage更好的預測pose,如下圖所示.(3)不同的stage對應的label heatmap 高斯核範圍大小不同. 下一stage的heatmap label 高斯核要比上一stage的heatmap label 高斯核更小,如圖所示:

25.FastPose(將知識蒸餾應用於人體關鍵點檢測)

CVPR 2019 | Fast Human Pose Estimation
Official Code: pytorch
本文主要考慮的是模型部署時的推理成本,本文的方案是首先構建一個輕量級的網絡,其次通過快速姿態蒸餾(FPD)模型訓練方法,將潛在的知識從一個預先訓練好的較大的教師模型轉移到構建好的輕量級網絡中,實現效率和精度的trade-off。然而現有的知識蒸餾的方法多是基於類別層次的判別,而本文的方法是基於關鍵點熱度圖的判別,這種方式使得蒸餾學習的效率更高,因爲特徵約束將變的更多。網絡的整體圖如下,正如上所述的步驟爲了建立一個高性價比的人體姿態估計模型,我們需要構建一個緊湊的主幹,如(a)一個輕量級的沙漏網絡。爲了更有效地訓練小目標網絡,在姿態估計中採用了知識蒸餾原理。這需要(b)預先訓練一個強大的教師姿勢模型,如最先進的沙漏網絡或其他現有的選擇。在©姿態估計過程中,教師模型通過擬態損失函數提供額外的監督指導。在測試推理時,小目標位姿模型可以實現快速和低成本的部署。最後拋棄了計算量大的教師模型,因爲它的區別性知識已經轉移到目標模型中,因此可以用於部署(而不是浪費)。

26.Darkpose(首次對關鍵點的編解碼過程進行研究)

CVPR 2019 | Distribution Aware Coordinate Representation for Human Pose Estimation
Official Code: pytorch
現有的網絡訓練人體關鍵點時,受限於計算量等問題,會將人體從原始圖像摳出來後進行降採樣。如上圖d所示,網絡訓練完後,爲了將關鍵點恢復到原始分辨率下,需要對圖像作擴大降採樣倍率的操作。而正常情況下,我們將最終預測得到的熱度圖上的最大點座標作爲最終的關鍵點位置,然而由於降採樣的存在,該過程存在量化誤差。直白的說:熱度圖中最大的激活位置不是關鍵點的精確定位而是粗定位。本文提出的座標解碼充分挖掘了熱圖的分佈統計信息,以更準確地揭示潛在的最大激活。至關重要的是,它是計算友好的,因爲它只需要計算一個位置每個熱圖的一階導數和二階導數。因此,現有的人類姿態估計方法可以很容易地受益,沒有任何計算成本的障礙。與解碼過程中分析的一樣,編碼過程也存在量化誤差。如下圖所示,顯然,由於量化誤差的影響,生成的熱圖是不準確和有偏的,這可能會引入次優的監督信號,導致模型性能下降,特別是對於本文提出的精確座標解碼的情況。當然作者解決的方式很簡單,就是將量化前的u,v值用於生成高斯分佈。

27.SSN(輕量級人體姿態估計網絡)

arXiv 2019 | Spatial Shortcut Network for Human Pose Estimation

本文的主要貢獻有:
1.提出了一種基於特徵變換的空間通道快速移動模型(FSM)。通過對其特徵映射移位、信道解耦和注意機制的研究,提出了一種窗口優化、高效靈活的卷積層結構。
2.對上述提到 的FSM模塊進行了詳細的分析。證明了該算法在空間依賴關係建模、關鍵點檢測與偏移量關係建模等方面的能力。
3.結果表明,該模型能夠在較小的結構下取得較好的甚至更好的效果。本文還提出了一種具有競爭性能的輕量級網絡,允許在資源有限的設備上應用。

28 .LSTM_POSE_Machine(利用LSTM進行對視頻進行人體姿態估計)

CVPR 2018 | LSTM Pose Machines
Official Code: caffe
3rdParty Code: tensorflow
3rdParty Code: pytorch

本文中,作者提出了一種新的遞歸式的LSTM CNN模型用於視頻姿態估計。該策略,解決了傳統基於CNN的方法在靜態圖像上的性能很好,而在視頻上的應用不僅需要大量的計算,且還會導致性能退化和抖動,這樣的次優結果主要是由於無法實現連續的幾何一致性,無法處理嚴重的圖像質量退化(如運動模糊和遮擋)以及無法捕獲視頻幀之間的時間相關性等問題,在準確性和效率方面都取得了很大的進步。當長時間不可見時,作者確實觀察到一些錯誤的預測,但作者仍然發現LSTM模塊確實有助於更好地利用時間信息,並在整個視頻中做出穩定和準確的預測。最後,作者對LSTM中的記憶單元進行了探索和可視化,並解釋了在變化幀的位姿估計中記憶的基本動態。

29.UniPose_LSTM(最新視頻姿態估計SOTA)

arxiV 2020 | UniPose: Unified Human Pose Estimation in Single Images and Videos

作者分別提出了用於單圖像和視頻姿態估計的UniPose和UniPose- lstm體系結構。UniPose方法使用了WASP模塊,該模塊的特點是瀑布式流,具有層疊的無壓卷積和多尺度表示。該結構可以更好地理解框架中的上下文信息,有助於更準確地估計主體的姿態。

30.High Performance(優於Hrnet)

arxiV 2020 | Towards High Performance Human Keypoint Detection
Official Code : pytorch

由於遮擋、模糊、光照和尺度變化等原因,從單個圖像中檢測人類關鍵點非常具有挑戰性。本文通過設計高效的網絡結構(CMM)、提出三種有效的訓練策略,從三個方面解決了這一問題。並且開發了四種有用的後處理技術。hard-negative person detection mining strategy:用於遷移訓練和測試中分佈不匹配問題。joint-training strategy:使用大量未標記樣本進行知識蒸餾。joint-training strategy:利用具有異構標籤的外部數據。這三種策略的合作使CCM能夠從豐富多樣的姿勢中學習有區別的特徵。四個後處理:(1)拋物線近似。(2)Soft-NMS.(3)在輸出熱度圖上進行高斯濾波。(4)熱度圖翻轉。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章