Learning from Monocular Videos 論文筆記(轉)

參考:

0x01 目的和現狀

原文: https://www.arxiv-vanity.com/papers/1811.06152/
源代碼: https://github.com/tensorflow/models/tree/master/research/struct2depth

儘管已經做出了這麼多努力,(目的)學習預測場景深度和自我運動仍然是一個持續的挑戰,特別是在處理高動態場景和估計移動目標的適當深度時。
在這裏插入圖片描述
之前使用單目輸入的研究無法提取移動目標,並將它們錯誤地映射到無窮遠。

由於之前所做的無監督單目學習方面的研究沒有對移動目標建模,因此可能對目標深度做出一致的錯誤估計,使目標深度映射到無限遠。

作者提出了一種新方法,作者的目的:

  1. 模擬運動物體;
  2. 產生高質量的深度估計結果。
  3. 還提出了一種無縫的在線優化技術,可以進一步提高質量並應用於跨數據集的傳輸。

0x02 Structure

==
  本文方法中的一個關鍵思想是將結構引入了學習框架。也就是說,該方法不依賴神經網絡直接學習深度,而是將單目場景視爲由移動目標(包括機器人)組成的 3D 場景。
  
方法簡介:
  本文實現的是對單目視頻進行深度估計,將場景中相應的運動建模爲獨立變換(旋轉和平移),然後用其對 3D 幾何建模,並估計所有目標的運動。此外,知道哪些目標可能移動(例如,車輛、行人以及自行車等)有助於它們學習單獨的運動矢量,即便這些目標可能是靜態的。通過將場景分解爲 3D 和單個目標,可以更好地學習場景中的深度和自我運動,尤其是在動態場景下。
Our method introduces 3D geometry structure during learning by modeling individual objects’ motions, ego-motionand scene depth in a principled way. Furthermore, a refinement approach adapts the model on the fly in an online fashion
作者在 KITTI 和 Cityscapes 的城市駕駛數據集上測試了這種方法,發現它的表現超過了當前最佳的方法,而且該方法的表現已經逼近用 stereo 對視頻作爲訓練監督的方法的質量。
motion model 可以實現:

  1. 可以預測運動物體的目標的深度
  2. 可以對單個目標的運動向量進行估計

0x03 Transfer Across Domains

online refinement 可以實現:

  1. 可以更細節的顯示物體的幾何結構
  2. 可以實現數據集轉移

在 Cityscapes 數據上訓練並在 KITTI 數據上測試時進行在線改進。圖像顯示的是訓練好的模型的深度預測,以及帶有在線改進的訓練好的模型的深度預測。帶有在線改進功能的深度預測可以更好地概括場景中的目標。
在 Cityscapes 數據上訓練並在 KITTI 數據上測試時進行在線改進。圖像顯示的是訓練好的模型的深度預測,以及帶有在線改進的訓練好的模型的深度預測。帶有在線改進功能的深度預測可以更好地概括場景中的目標。

0x04 Conclusion

==
  這項研究對來自單目攝像機的深度和自我運動進行了無監督學習,解決了高動態場景中的一些問題。它實現了高質量的深度值和自主運動結果,該結果的質量逼近stereo 的質量,還提出了在學習過程中結合結構的想法(不是很理解)。
  
  更值得注意的是,作者提出的將僅來自單目視頻的深度值和自主運動的無監督學習和在線自適應相結合,是一個強大的概念。因爲這樣它不僅可以以無監督的方式從簡單視頻中進行學習,還可以輕鬆地轉移到其它數據集。

原文鏈接:ai.googleblog.com/2018/11/a-structured-approach-to-unsupervised.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章