谷歌AI和Facebook提出AI模型QuaterNet，改善3D人體姿勢預測

預測 3D 人體姿勢可能不屬於大多數人關注的範疇，但機器人技術、計算機圖形學和其他關注運動學的領域（與物體運動有關的力學分支）卻可以從能夠做到這一點的系統中受益匪淺。此前，由谷歌提出的姿勢預測成爲應用人工智能（AI）的任務之一，但先前的相關工作遇到了一些障礙：數字關節和骨骼會向不自然的方向拉伸，特別是當關節旋轉時。

幸運的是，Facebook的人工智能研究部門，谷歌大腦和蘇黎世聯邦理工學院的新研究有望解決這個問題。在本週發佈在 Arxiv.org 預印論文網站上的一篇論文（《基於四元數的人體運動神經網絡》）中，研究人員提出了一個人工智能系統——QuaterNet，它通過將關節旋轉表示爲四元數的複數系統，以及懲罰關節位置錯誤來改善姿勢生成。

正如本文的共同作者所解釋的那樣，循環神經網絡（一種能夠學習長期相關性的 AI 算法）歷來被用於執行短期和長期姿態預測，而卷積神經網絡（非常擅長於分析視覺圖像的算法）已成功應用於長期生成運動（從一個位置移動到另一個位置）。但由於人體姿勢的固有隨機性，是否能獲得一個完美的模型仍然難以預測。

“人體運動是一個具有高度不確定性的隨機過程，”研究人員寫道。“對於一個給定的過去情景，未來會有多個可能的未來幀序列，並且不確定性會隨着持續時間而增加。”

大多數模型使用轉換運算符來預測先前姿勢的下一個姿勢。它們從攝取的記錄幀中輸出記錄的目標幀，這在大多數情況下都很有效。但這個過程不會暴露它的錯誤，因此會阻阻礙它學習，以避免重蹈覆轍。

上圖：AI模型生成的姿勢。

相比之下，研究人員提出的系統採用卷積神經網絡，它可以查看過去的幀，通過持續將自己暴露於預測中不斷學習進行長期預測。同時，損失函數（將一個或多個變量的值映射到實數上的函數）輸入關節旋轉並計算每個關節的位置。共同作者表示，這既改善了模型的穩定性，又減少了誤差。

爲了驗證該模型的短期姿勢預測能力，研究人員在 Human3.6M 上進行測試，這是一個開源 3D 人體姿勢數據集，包含來自 7 名演員演示的 15 個動作的 360 萬個人類姿勢以及相應的圖像。而長期生成測試評估在包含運動樣本的其他數據集上進行。

在短期預測任務中，報告顯示該模型在 Human3.6M 上的性能有所提升。另外，在長期姿勢生成任務中，其目標是在給定平均速度和地面軌跡的情況下生成姿勢序列，該模型的表現與最近的工作相比爲“定性地”，同時時間和空間限制更好。

未來，QuaterNet 將擴展到其他與運動相關的任務中，例如動作識別或視頻的姿勢估計，以及採用“直接在四元數域中執行計算”的神經網絡。

原文鏈接：

https://venturebeat.com/2019/01/24/facebook-and-googles-ai-generates-3d-human-poses/

谷歌AI和Facebook提出AI模型QuaterNet，改善3D人體姿勢預測

1.6 萬億參數！谷歌訓練一超級人工智能語言模型，相當於9個GPT-3

DeepMind 發佈Acme框架，可簡化強化學習算法開發

谷歌AI可以在75％的情況下預測醫生的處方決定

Facebook的AI從視頻素材中學習物理位置之間的關係

MIT CSAIL新方法：大幅縮小神經網絡規模但不犧牲預測精度，將對遷移學習產生影響

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結