UDP無偏數據處理 | 人體姿態估計通用trick

The Devil is in the Details: Delving into Unbiased Data Processing
for Human Pose Estimation

github地址

1.使用連續度量標準

數據轉換是指在不同的座標系之間對關鍵點位置進行裁剪、旋轉、調整大小、翻轉等操作的轉換。現有的姿態估計方法都是在離散空間中利用像素來測量圖像的大小。而利用離散的像素點作爲度量,其實是對連續圖像空間的採樣。當在推理過程中執行標準翻轉策略時,使用像素作爲度量將顯著降低性能。而降低性能的主要原因爲,離散的度量方式遇到圖像水平翻轉增強時存在固有的偏差。
如下圖上半部分所示,因爲在關鍵點預測領域中最終的輸出熱度圖通常是輸入圖像的4分之1大小(下圖中是2分之1)。而正因爲這種對原始圖像縮小之後在進行預測的方式,結合離散度量法。從而導致遇到翻轉操作時,會存在一點偏差。而且降採樣和翻轉操作又是關鍵點訓練任務中必不可少的操作。
基於此本文提出了一個簡單且高效的方案,即提出了一種連續的度量標準。具體來說,採用單位長度作爲圖像尺寸測量標準,定義爲特定空間中相鄰像素之間的距離。從而抑制這種由於離散度量的方式而導致的定位偏差。

2.新編解碼過程

但上述的所有的分析都是基於在保證關鍵點位置與熱圖的編解碼過程準確的前提下進行的。然而在標準的方法中該編解碼過程是存在固有誤差的。

標準編碼過程
由於熱度圖是由輸入圖像降採樣得到的,因此在製作標籤熱度圖時,會存在需要對標籤座標進行降採樣從而存在一個量化過程。下述公式中m,n表示小數值,mq,nq表示四捨五入後的值,R表示的是四捨五入操作。最終對量化後的關鍵點進行高斯模糊得到關鍵點標籤圖。

標準解碼過程
通過網絡輸出得到預測熱度圖H,在預測熱度圖上獲取做大響應對應的座標點m^q,n^q。由於標籤座標m,n是浮點數,因此以m^q,m來舉例,理想情況下若預測的完全準確,則兩者之間的關係如公式19所示,存在兩種情況。

基於上述由於浮點數四捨五入而導致這種預測存在固有誤差,且如下表所示,這種固有誤差的數學期望是0.25。

爲了減少這個誤差,根據響應的梯度,在每個方向上移動0.25倍的單位長度。如下公式20所示,最終的預測結果爲m^,利用這種方法可使得最終的期望降低爲0.125。且根據公式22可知,如果降採樣倍率固定的情況下,輸入分辨率越高,期望誤差越小。

全新的基於偏移量的編解碼方法,其誤差期望值爲零。
新編碼過程
如下圖所示,每個關鍵點的座標使用圓形區域進行標註,而不是之前的高斯濾波的方式。且配合兩個偏置map圖。

新解碼過程
在解碼過程中,我們首先使用高斯核K對熱圖進行濾波,使其最高響應位於地面真值點附近。且高斯核如公式28所示。最終的座標值還需要利用偏置進行反算,公式如29所示。

3.結果展示

如下圖所示,本文提出的無偏數據處理(UDP),可以嵌入到當前最好的幾個人體關鍵點檢測算法中。在基本不增加計算量的前提下,實現了平均1.5AP的效果提升。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章