【姿態估計】 | DARK——人體姿態估計通用trick

https://arxiv.org/pdf/1910.06278.pdf

  • 關鍵點標籤編碼(encoding)

訓練人體姿態估計網絡時,考慮到訓練代價,通常會將將輸入圖片做降採樣,在降採樣後的分辨率上進行訓練。爲了網絡能夠以熱度圖爲標籤進行訓練,需要將基於原圖分辨率的關鍵點座標,轉換爲降採樣後分辨率下的關鍵點座標。並利用高斯模糊進行轉換成熱度圖。我們稱這個過程稱爲座標編碼,從座標點到熱圖。

  • 關鍵點熱度圖解碼(decoding)

爲了預測關鍵點在原始圖像座標空間中的位置,在進行熱圖預測後,需要進行相應的分辨率恢復才能轉換回原始座標空間。我們稱這個過程爲座標解碼,從熱圖到座標點。

現有的解碼策略

很少有文章研究關鍵點的編碼和解碼過程,然而編碼和解碼的過程對最終結果的影響很多時候要比改變網絡結構還要大。首先介紹下現有的各種主流人體關鍵點估計網絡(比如Hourglass,Hrnet等)都在使用的解碼策略。現有的解碼策略是用於應對如下所述的固有缺陷的。

如上圖a所示,現有的網絡訓練人體關鍵點時,受限於計算量等問題,會將人體從原始圖像摳出來後進行降採樣。如上圖d所示,網絡訓練完後,爲了將關鍵點恢復到原始分辨率下,需要對圖像作擴大降採樣倍率的操作。而正常情況下,我們將最終預測得到的熱度圖上的最大點座標作爲最終的關鍵點位置,然而由於降採樣的存在,該過程存在量化誤差。直白的說:熱度圖中最大的激活位置不是關鍵點的精確定位而是粗定位。現有的解碼策略如下:

上述公式中,m表示最大的激活位置,s表示第二大的激活位置。上述公式的目的就是爲了補償降採樣導致的量化誤差。然而這種策略是憑藉直覺且沒有理論依據的。本文首次考慮了這個問題,並且提出了一種基於統計策略的新解碼策略。

新解碼策略

如公式三所示,假設網絡預測得到的heatmap和標籤heatmap一樣都是符合高斯分佈的。如公式五所示,利用對數變換對公式三作變換。而整個公式組合的目的是爲了求得均值u。利用公式6,7,8,9即可最終計算出均值u,如公式8所示,需要計算D的一階導數和二階導數。





相對於僅僅考慮熱圖中第二個最大激活的標準方法,本文提出的座標解碼充分挖掘了熱圖的分佈統計信息,以更準確地揭示潛在的最大激活。至關重要的是,它是計算友好的,因爲它只需要計算一個位置每個熱圖的一階導數和二階導數。因此,現有的人類姿態估計方法可以很容易地受益,沒有任何計算成本的障礙。

解碼過程還需考慮的一點是,如下圖所示,通常預測得到的熱度圖不會像製作的標籤一樣完全符合高斯分佈,而是一種小區域內的多峯分佈。因此作者建議先調整熱度圖使其符合高斯分佈。

新編碼策略

與解碼過程中分析的一樣,編碼過程也存在量化誤差。如下圖所示,顯然,由於量化誤差的影響,生成的熱圖是不準確和有偏的,這可能會引入次優的監督信號,導致模型性能下降,特別是對於本文提出的精確座標解碼的情況。當然作者解決的方式很簡單,就是將量化前的u,v值用於生成高斯分佈。


結果分析

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章