BATMAN:將雙邊注意力用於視頻對象分割

出品人:Towhee 技術團隊 張晨、顧夢佳

視頻對象分割 (Video Object Segmentation,VOS) 是視頻理解的基礎。 基於 Transformer 的方法已經在半監督 VOS 上顯示出顯着的性能改進。 然而,現有的工作很難分割彼此靠近的相似物體。爲此,BATMAN 提出了一種用於半監督 VOS 的新型雙邊注意力Transformer。大量實驗驗證了 BATMAN 架構的有效性,它在所有四個流行的 VOS 基準測試中均優於所有現有的最先進技術:Youtube-VOS 2019 (85.0%)、Youtube-VOS 2018 (85.3%)、DAVIS 2017Val/Testdev (86.2) %/82.2%),以及 DAVIS 2016 (92.5%)。

Overview of BATMAN architecture

BATMAN 通過一個新穎的光流校準模塊捕獲視頻中的對象運動,該模塊將分割掩碼與光流估計融合在一起,以提高對象內光流的平滑度並減少對象邊界處的噪聲。雙邊空間編碼器用於將查詢特徵和校準後的光流編碼爲雙邊空間編碼,供雙邊注意力使用。雙邊注意力 Transformer 會考慮運動和外觀來計算相鄰雙邊空間中查詢幀和參考幀之間的對應關係。

相關資料:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章