快速人體姿態估計:CVPR2019論文閱讀

快速人體姿態估計:CVPR2019論文閱讀

Fast Human Pose Estimation

論文鏈接:

http://openaccess.thecvf.com/content_CVPR_2019/papers/Zhang_Fast_Human_Pose_Estimation_CVPR_2019_paper.pdf

摘要

現有的人體姿態估計方法通常只考慮如何提高模型的泛化性能,而忽略了顯著的效率問題。這導致在實際應用中開發可擴展性和成本效益較差的重型模型。在這項工作中,我們研究了研究不足但實際上是關鍵的位姿模型效率問題。爲此,我們提出了一種新的快速位姿蒸餾(FPD)模型學習策略。具體來說,FPD訓練了一種輕量級的位姿神經網絡結構,能夠以低計算成本快速執行。它是通過有效地傳遞強教師網絡的位姿結構知識來實現的。廣泛的評估顯示了我們的FPD方法在兩個標準基準數據集MPII人體姿勢和Leeds運動姿勢的模型成本效益方面,優於廣泛的最新姿勢估計方法。

  1. Introduction

在這項研究中,我們考慮的問題是在不降低模型性能的前提下,保持可比精度結果的姿態估計效率。我們觀察到,最先進的人體姿勢網絡(如Hourglass[19])的基本CNN構建塊在建立小型網絡時並不具有成本效益,因爲每層有大量的頻道,而且更難訓練。 爲了克服這些障礙,我們設計了一種輕量級的Hourglass網絡,並提出了一種更有效的小姿態網絡知識提取訓練方法[13]。我們稱之爲快速位姿蒸餾法。

與目前性能最好的替代姿態方法[32,10]相比,本文提出的FPD方法能夠在達到相同人體姿態預測性能的同時,以更小的模型尺寸實現更快、更具成本效益的模型推理。我們的貢獻總結如下:

(1)我們研究了未充分研究的人體姿勢模型效率問題,與現有的嘗試相反,現有的嘗試主要集中在提高精度性能上,但在部署時要付出較高的模型推理成本。這是將現有的深姿態估計方法推廣到實際應用中需要解決的關鍵問題。

(2)提出了一種快速位姿蒸餾(FPD)模型訓練方法,能夠更有效地訓練極小的人體位姿CNN網絡。這是基於一種知識提煉的思想,這種思想已成功地用於誘導對象圖像分類深層模型。特別地,我們推導出一個姿勢知識蒸餾學習目標,將潛在知識從預先訓練的大教師模型轉移到一個小目標姿勢模型(將在測試時部署)。這樣做的目的是在計算預算非常有限的情況下,僅使用類似的強方案所需成本的一小部分(不到20%)來追求最佳的模型性能。

(3)我們設計了一個輕量Hourglass網絡,能夠構建更具成本效益的姿態估計CNN模型,同時保持足夠的學習能力,以獲得令人滿意的準確率。這是通過廣泛檢查現有最先進的pose CNN建築設計的冗餘度來實現的。

在評估中,我們進行了廣泛的實證比較,以驗證在兩個常用基準數據集上平衡模型推理效率和預測性能時,所提出的FPD方法相對於各種最新人類姿勢估計方法的有效性和優越性,MPII人體姿勢[1]和利茲運動姿勢[15]。

  1. Related Work

與以往的方法相比,本文在保持模型性能的前提下,系統地研究了姿態估計的效率問題,使得得到的模型在實際應用場景中更具實用性和可靠性。

過去的研究工作都是在傳遞類別層次的判別知識的基礎上進行的,而我們的方法傳遞了更豐富的密集聯合置信圖的結構信息。一個更相似的工作是最新的基於無線電信號的位姿模型,它也採用了知識蒸餾的思想[38]。然而,這種方法的目標是使用無線傳感器來解決遮擋問題,而不是我們在這裏討論的模型效率問題。

  1. Fast Human Pose Estimation

人體姿態估計的目的是預測給定圖像中人體關節的空間座標。現有的位姿方法在很大程度上依賴於大深度神經網絡來最大化模型性能,而忽略了推理效率。我們通過建立輕量級CNN架構並提出下面詳細描述的有效模型學習策略來解決這一限制,以獲得更高的可伸縮性。

雖然部署運行成本低、速度快的小姿態網絡很有吸引力,但從經驗上講,對它們進行訓練並不容易,儘管理論上淺薄的網絡有類似的表示能力,以近似的目標函數,由較深的同行學習[3,26]。通過知識蒸餾策略,在目標圖像分類中也出現了類似的問題,即讓目標小網絡模擬更大教師模型的預測[13]。然而,目前還不清楚這種類似的方法在處理密集像素空間中的結構化人體姿勢估計方面的效果如何。爲了回答這個問題,我們提出了一種位姿結構知識提取方法。

在這裏插入圖片描述

模型訓練管道我們採用知識提煉的通用模型訓練策略:

  1. 我們首先訓練一個大的教師姿勢模型。在我們的實驗中,由於原始沙漏模型[19]設計簡潔,模型訓練容易,因此我們默認選擇它。其他更強大的模型可以不受任何限制地考慮。

  2. 然後,我們在教師模式所學知識的幫助下,培養目標學生模式。知識的昇華就發生在這一步。學生模型的結構如表1所示。

整個培訓過程的概述如圖1所示。提取知識的關鍵是設計一個合適的模擬損失函數,能夠有效地提取和傳遞教師知識到學生模型的訓練中。以往的蒸餾函數是針對對象分類背景下的單標號軟最大交叉熵損失而設計的,不適合在二維圖像空間中傳遞結構化的位姿知識。

爲什麼提出的位姿蒸餾損失函數可能有助於訓練一個更通用的目標模型,而不是隻訓練標籤數據?在姿勢估計的背景下,許多原因可以解釋這一點。

  1. 由於在手動註釋過程中很難定位真實位置,因此身體關節標籤很可能是錯誤的。在這種情況下,教師模型可以通過統計學習和推理來減少一些錯誤,從而減少錯誤標記的培訓樣本的誤導效應(圖3(A)行)。

  2. 考慮到困難的訓練案例,比如背景混亂/雜亂和隨機遮擋情況,教師預測可以通過用模型推理解釋這些硬樣本來提供軟化的學習任務(圖3(B)行)。

  3. 教師模型可以提供比原始註釋更完整的聯合標籤,因此不僅提供額外的更精確的監督,而且還可以減輕丟失聯合標籤的誤導(圖3(C)行)。

  4. 與調整教師的預測相比,學習匹配基本的真實性驗證圖可能更難。這是因爲教師模型爲每個訓練樣本散佈了一些難以處理或易於處理的推理不確定性。

  5. 另一方面,教師信心圖將預先從整個培訓數據集中學習到的抽象知識進行編碼,這可能有助於在知識提煉過程中學習每個單獨的培訓樣本。

總之,所提出的模型能夠處理錯誤姿勢的關節註釋,例如,當訓練有素的教師預測的關節比手動錯誤和缺失的標籤更準確時。由於地面真值標籤和教師模型的聯合使用,我們的模型能夠容忍任何一個錯誤,但不能容忍共同發生的錯誤。這減輕了訓練數據中標籤錯誤的危害,而現有的方法往往盲目地信任所有給定的標籤。

  1. Experiments

通過與現有的基於mpi和LSP的人體姿態估計深度方法的比較,對本文提出的FPD方法進行了評價。

MPII表2的結果將最新方法的[email protected]精度結果與MPII測試數據集上建議的FPD進行了比較。我們清楚地看到,所提出的FPD模型是非常有效和緊湊的,因此實現了更便宜的部署成本。重要的是,在不明顯損害模型泛化能力的情況下獲得了這一優勢,例如達到91.1%。具體來說,與表現最好的[20]相比,FPD模型只需要14.3%(9/63)的計算成本,但在平均PCKh精度方面獲得96.4%(63.5/65.9)的性能。這就產生了6.7%×(96.4/14.3)的成本效益優勢。

與最有效的替代競爭對手[24]相比,我們的模型更有效2.9×(26/9),同時獲得4.8%(91.1-86.3)的平均PCKh增益。這些證據清楚地表明瞭我們的方法相對於其他替代方法的成本效益優勢。在姿態估計方面,0.8%的改善表明,在複雜背景下,具有不同姿態的挑戰性MPII獲得了顯著的增益。這一提振幅度大於其他最新漲幅,例如91.2%[21]的漲幅爲+0.3%,而90.9%[19];91.5%[23]的漲幅爲+0.3%。更具體地說,給定所有163814個測試關節,每個0.1%的增益意味着校正163個關節。

LSP表3中的結果將我們的FPD模型和現有方法的[email protected]速率與LSP測試數據中報告的最高性能進行了比較。與MPII相比,深度學習模型對該基準的評估較少,部分原因是訓練數據的規模較小。總的來說,我們觀察到了類似的比較。例如,我們的FPD比最具競爭力的備選方案[24]運行更爲高效,並且除了在所有比較方法中獲得最佳姿勢預測準確率外,還消耗更少的訓練能量。

定性檢查提供視覺測試,圖2顯示了LSP和MPII上的定性姿勢估計評估。實驗結果表明,在背景雜波、人體姿態和觀察條件不同的情況下,這種小的FPD模型仍然可以在任意的野生圖像中實現可靠、魯棒的姿態估計。

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述

  1. Conclusion

本文提出了一種新的快速位姿蒸餾(FPD)學習策略。與大多數現有的人體姿態估計方法相比,FPD旨在解決研究不足且實際意義重大的模型成本效益質量問題,以便將人體姿態估計模型擴展到實際的大型部署中。通過開發輕量級人體姿態CNN體系結構,設計一種有效的從大型教師模型到輕量級學生模型的姿態結構知識提取方法,實現了這一目標。與現有的網絡參數二值化等模型壓縮技術相比,該方法在不影響精度和性能的前提下,實現了高效的人體姿態模型。我們對兩個人體姿勢基準數據集進行了廣泛的比較評估。結果表明,我們的FPD方法與廣譜的最新替代方法相比具有優越性。此外,我們還對模型組分進行了一系列燒蝕研究,以提供關於模型成本效益增益的詳細分析和見解。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章