谷歌AI和Facebook提出AI模型QuaterNet,改善3D人體姿勢預測

預測 3D 人體姿勢可能不屬於大多數人關注的範疇,但機器人技術、計算機圖形學和其他關注運動學的領域(與物體運動有關的力學分支)卻可以從能夠做到這一點的系統中受益匪淺。此前,由谷歌提出的姿勢預測成爲應用人工智能(AI)的任務之一,但先前的相關工作遇到了一些障礙:數字關節和骨骼會向不自然的方向拉伸,特別是當關節旋轉時。

幸運的是,Facebook的人工智能研究部門,谷歌大腦和蘇黎世聯邦理工學院的新研究有望解決這個問題。在本週發佈在 Arxiv.org 預印論文網站上的一篇論文(《基於四元數的人體運動神經網絡》)中,研究人員提出了一個人工智能系統——QuaterNet,它通過將關節旋轉表示爲四元數的複數系統,以及懲罰關節位置錯誤來改善姿勢生成。

image

正如本文的共同作者所解釋的那樣,循環神經網絡(一種能夠學習長期相關性的 AI 算法)歷來被用於執行短期和長期姿態預測,而卷積神經網絡 (非常擅長於分析視覺圖像的算法)已成功應用於長期生成運動(從一個位置移動到另一個位置)。但由於人體姿勢的固有隨機性,是否能獲得一個完美的模型仍然難以預測。

“人體運動是一個具有高度不確定性的隨機過程,”研究人員寫道。“對於一個給定的過去情景,未來會有多個可能的未來幀序列,並且不確定性會隨着持續時間而增加。”

大多數模型使用轉換運算符來預測先前姿勢的下一個姿勢。它們從攝取的記錄幀中輸出記錄的目標幀,這在大多數情況下都很有效。但這個過程不會暴露它的錯誤,因此會阻阻礙它學習,以避免重蹈覆轍。

image

上圖:AI模型生成的姿勢。

相比之下,研究人員提出的系統採用卷積神經網絡,它可以查看過去的幀,通過持續將自己暴露於預測中不斷學習進行長期預測。同時,損失函數(將一個或多個變量的值映射到實數上的函數)輸入關節旋轉並計算每個關節的位置。共同作者表示,這既改善了模型的穩定性,又減少了誤差。

爲了驗證該模型的短期姿勢預測能力,研究人員在 Human3.6M 上進行測試,這是一個開源 3D 人體姿勢數據集,包含來自 7 名演員演示的 15 個動作的 360 萬個人類姿勢以及相應的圖像。而長期生成測試評估在包含運動樣本的其他數據集上進行。

在短期預測任務中,報告顯示該模型在 Human3.6M 上的性能有所提升。另外,在長期姿勢生成任務中,其目標是在給定平均速度和地面軌跡的情況下生成姿勢序列,該模型的表現與最近的工作相比爲“定性地”,同時時間和空間限制更好。

未來,QuaterNet 將擴展到其他與運動相關的任務中,例如動作識別或視頻的姿勢估計,以及採用“直接在四元數域中執行計算”的神經網絡。

原文鏈接:

https://venturebeat.com/2019/01/24/facebook-and-googles-ai-generates-3d-human-poses/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章