You Only Watch Once：Architecture for Real-Time Spatiotemporal Action Localization

摘要

時空動作定位要求將兩個信息源整合到設計的體系結構中：（1）來自前一幀的時間信息；（2）來自關鍵幀的空間信息。目前最先進的方法通常是通過單獨的網絡提取這些信息，並使用一種額外的融合機制來獲取檢測結果。在這項工作中，我們提出了一個統一的CNN架構YOWO，用於視頻流中的實時時空動作定位。YOWO是一個具有兩個分支的單階段體系結構，可以在一次評估中同時提取時間和空間信息，並直接從視頻剪輯中預測邊界框和動作概率【個人理解就是行人檢測+行爲識別】。因爲整個體系結構是統一的，所以可以端到端地進行優化。YOWO架構非常快，能實現16幀輸入剪輯達到每秒34幀和8幀輸入剪輯達到每秒62幀的速度，這是當前時空動作本地化任務上最快的最新架構。值得注意的是，YOWO優於J-HMDB-21和UCF101-24上的最新技術成果，分別顯着提高了約3％和約12％。我們使我們的代碼和預先訓練的模型公開可用。

1. 引言

人類行爲的時空定位是近年來備受關注的研究課題，其目的不僅是識別行爲的發生，而且是對行爲在時間和空間上的定位。在這類任務中，與靜態圖像中的目標檢測相比，時間信息起着至關重要的作用。尋找一種有效的策略來聚集空間和時間特徵使得這個問題更加具有挑戰性。另一方面，實時人體動作檢測在衆多視覺應用中變得越來越重要，如人機交互(HCI)系統、無人機(UAV)監控、自主駕駛、城市安全系統等。因此，探索一個更有效的框架來解決這個問題是可取的，也是值得的。受卓越的目標檢測架構Faster R-CNN[27]的啓發，最先進的工作[13,24]將經典的兩階段網絡結構擴展到動作檢測，在第一階段產生大量proposals，然後在第二階段進行分類和定位細化。然而，這兩階段的pipelines在時空動作定位任務中有三個主要的缺點。首先，由跨幀邊界框組成的動作管( action tubes)的生成要比二維情況複雜得多，而且耗時。其次，動作建議(action proposals)只關注視頻中的人的特徵，忽略了人與背景中某些屬性之間的關係，而這些關係能夠爲動作預測提供相當關鍵的上下文信息。兩階段體系結構的第三個問題是，單獨訓練區域建議網絡和分類網絡並不能保證找到全局最優解。相反，只能從兩個階段的組合中找到局部最優。訓練成本也比單級網絡高，因此需要更長的時間和更多的內存。
在本文中，我們提出了一個新穎的單級框架YOWO (You Only)
觀看一次)，用於視頻中的時空動作定位。YOWO使用單階段架構避免了上面提到的所有三個缺點。YOWO的直觀思想源於人類的視覺認知系統。例如，當我們沉迷於電視前的一部肥皂劇時，每次我們的眼睛都捕捉到一個畫面。爲了瞭解每個藝術家正在執行的動作，我們必須將當前幀信息（關鍵幀中的二維特徵）與從存儲在內存中的先前幀中獲得的知識（片段中的三維特徵）關聯起來。然後將這兩種特徵融合在一起，爲我們提供一個合理的結論。圖1展示了我們的靈感。
圖1

YOWO架構是一個具有兩個分支的單階段網絡。一個分支通過2D-CNN提取關鍵幀（即當前幀）的空間特徵，而另一個分支則通過3D-CNN建模由先前幀組成的剪輯的時空特徵。爲了平穩地彙總這些特徵，使用了一種通道融合和關注機制，在這種情況下，我們最大程度地利用了通道間的依賴性。最後，利用融合後的特徵進行幀級檢測，並給出一種生成動作管(action tubes)的連接算法。最後，利用融合後的特徵進行幀級檢測，並給出一種生成動作管的連接算法【應該就是行爲預測】。
爲了保持實時能力，我們在RGB模式下運行了YOWO。但是，必須指出的是，YOWO體系結構並不侷限於僅在RGB模式下運行。在YOWO中可以插入不同的分支以適應不同的模式，如光流、深度等。此外，在其2D-CNN和3D-CNN分支中，任何CNN架構都可以根據所需的運行時性能來使用，這對於實際應用程序非常關鍵。
本文的貢獻總結如下。

1.我們提出了一種實時單階段的視頻流時空動作定位框架YOWO，該框架可以端到端的高效訓練。據我們所知，這是第一個實現二維CNN和三維CNN同時提取特徵以實現邊界框迴歸的工作。這兩種特徵對於最終的邊界盒迴歸和動作分類具有互補作用。另外，我們使用了一個通道注意機制來平滑地聚合來自上面兩個分支的特性。實驗證明，基於通道的特徵映射機制能夠較好地模擬連接後的特徵映射的通道間關係，並通過更合理地融合特徵顯著地提高了映射的性能。
2.我們對YOWO結構進行了詳細的消融(ablation study)研究。我們研究了3D-CNN、2D-CNN的效果，它們的聚集性和融合機制。此外，我們嘗試了不同的3D-CNN架構和不同的剪輯長度，以探索精度和速度之間的進一步平衡。
3.我們以J-HMDB-21和UCF101-24基準評估YOWO，並建立新的最新結果，分別在幀mAP方面分別提高3.3％和12.2％。

2. 相關工作

行爲識別與深度學習。由於深度學習給圖像識別帶來了重大的技術進步，近年來大量的研究工作致力於將其擴展到視頻中的動作識別中。然而，對於動作識別，除了從每個單獨的圖像中提取空間特徵外，還需要考慮跨這些幀的時間上下文。雙流CNN是一種分離提取空間和時間特徵並將其聚合在一起的有效策略 [6] [30] [36]。這些工作大部分是基於光流，需要大量的計算能力來提取，這是一個耗時的過程。隨着時間的推移，另一種集成CNN特性的選擇是實現遞歸網絡，但其性能不如最近基於CNN的方法[42]那麼令人滿意。近年來，三維cnn在視頻分析任務中的應用越來越廣泛，它可以同時從空間和時間兩個維度學習特徵。首先利用3D-CNN來提取[16]中的時空特徵，並探討了一些有效的網絡結構，如C3D[34]和I3D[2]。靈感來自於2D-CNN殘差網絡[40]，跨層跳轉連接也適用於3D-CNNs解決了[12]梯度消失問題。爲了提高資源效率，其他一些研究工作側重於使用2D- cnn從單個圖像中學習2D特徵，然後將它們融合在一起，使用3D-CNN[44]學習時間特徵。【總結一下，使用3DCNN，使用殘差網絡有效】
時空行爲定位。對於圖像中的目標檢測，R-CNN系列在第一階段使用選擇性搜索[10]或RPN[27]提取區域建議，在第二階段對這些潛在區域的對象進行分類。雖然Faster R-CNN[27]在對象檢測方面取得了最先進的結果，但由於其耗時的兩階段結構，在實時任務中很難實現。YOLO[25]和SSD[23]旨在將這一過程簡化爲一個階段，並具有出色的實時性能。對於視頻中的動作定位，由於R-CNN系列的成功，大多數的研究方法都是先在每一幀中檢測人類，然後將這些邊界框合理地連接成動作管道( action tubes)[11,13,24]。雙流檢測器在原有的分類器的基礎上引入了一個額外的流，用於光學流模態[24][29][32]。其他一些工作產生具有3D-CNN的候選夾管（ clip tube），並在相應的3D特徵上實現迴歸和分類[13] [29]，因此候選區域對於它們是必要的。在最近的[4]工作中，作者提出了一種用於視頻動作檢測的三維膠囊網絡，它可以聯合執行像素級的動作分割和動作分類。但是，由於它是一個基於U-Net[28]的3D-CNN架構，因此在計算複雜度和參數數量上都非常巨大。
注意力模塊。注意力是捕獲遠距離依賴項的有效機制，在圖像分類[35][3][39]和場景分割[7]中，注意力被嘗試用於CNNs中，以提高圖像分類[35][3][39]和場景分割[7]的性能。

3. 方法

在本節中，我們首先詳細介紹YOWO的體系結構，它從關鍵幀中提取二維特徵，同時從輸入片段中提取三維特徵，並將它們聚合在一起。隨後討論了通道融合和注意機制的實現，這提供了必不可少的性能提升。最後，我們描述了YOWO架構的訓練過程和改進的邊界框連接策略，以生成未剪輯視頻中的動作管（action tubes）。

3.1 YOWO框架

YOWO架構如圖2所示，它可以分爲四個主要部分:3D-CNN分支、2D-CNN分支、CFAM和邊界框迴歸部分。

圖2.YOWO框架。輸入剪輯和相應的關鍵幀被饋送到3D-CNN和2D-CNN以產生分別爲 $[C''×H'×W']$ 和 $[C'×H'×W']$ 的輸出特徵體積。這些輸出量被輸入到通道融合和注意機制(CFAM)以實現平滑的特徵聚合。最後一個conv層用於調整最終邊界框預測的通道號。

3D-CNN分支

由於上下文信息對人類行爲理解至關重要，因此我們利用3D-CNN來提取時空特徵。三維神經網絡不僅可以在空間維度上進行卷積運算，而且可以在時間維度上進行卷積運算來獲取運動信息。我們框架中的基本3D-CNN架構是3D-ResNext-101，因爲它在Kinetics數據集中具有很高的性能[12]。除了3D-ResNext-101，我們還在消融研究中嘗試了不同的3D-CNN模型。對於所有3D-CNN架構，最後一個conv層之後的所有層都將被丟棄。3D網絡的輸入是視頻片段，該視頻片段按時間順序由一系列連續的幀組成，形狀爲 $[C×D×H×W]$ ，而3D ResNext-的最後一個conv層 101輸出形狀爲 $[C'×D'×H'×W']$ 的特徵圖。其中 $C = 3$ , $D$ 爲輸入幀數， $H$ 和 $W$ 爲輸入圖像的高度和寬度，C’爲輸出通道數， $D' = 1$ , $H' = H/32$ , $W' = W/32$ 。爲了匹配2D-CNN的輸出特徵圖，將輸出特徵圖的深度維數減少到1，將輸出體積壓縮到 $[C' × H' ×W']$ 。

2D-CNN分支

同時，爲了解決空間定位問題，並行提取關鍵幀的二維特徵。我們在2D CNN分支中採用Darknet-19 [26]作爲基本架構，因爲它在準確性和效率之間取得了很好的平衡。形狀爲 $[C×H×W]$ 的關鍵幀是輸入剪輯的最新幀，因此不需要額外的數據加載器。Darknet-19的輸出特徵圖的形狀爲
$[C'' ×H' ×W']$ ，其中 $C = 3$ , $C''$ 是輸出通道的數量， $H' = H/32$ 和 $W' = W/32$ , 和3D-CNN的案例一致。
YOWO的另一個重要特點是二維CNN和三維CNN分支的架構可以被任意的CNN架構所替代，這使得它更加靈活。【暗示可以定製化】YOWO被設計爲簡單和省力的切換模式。必須注意的是，雖然YOWO有兩個分支，但它是一個統一的體系結構，可以端到端的進行訓練。

特徵聚合:通道融合與注意機制(CFAM)

我們使三維和二維網絡的輸出在最後兩個維度上具有相同的形狀，使得這兩個特徵映射可以很容易地融合在一起。我們使用簡單地沿着通道堆疊特性的連接來融合兩個特性圖。因此，融合的特徵映射編碼了運動和外觀信息，我們將這些信息作爲輸入傳遞給CFAM模塊，該模塊基於Gram（格拉姆）矩陣來映射通道間的依賴關係。雖然基於Gram矩陣的注意機制最初被用於風格轉移[8]，最近又被用於分割任務[7]，但這種注意機制有利於合理融合來自不同來源的特徵，顯著提高了整體性能。

圖3.2D-CNN和3D-CNN分支輸出特徵圖的通道融合與注意機制
圖3顯示了使用的CFAM模塊。連接的特徵映射 $A\in \mathbb{R}^{(C'+C'')\times H\times W }$ ,被視爲2D和3D信息的突然組合，而忽略了它們之間的相互關係。因此，我們首先將 $A$ 輸入到兩個卷積層中，生成一個新的特徵圖 $B\in \mathbb{R}^{C\times H\times W }$ 。然後，在特徵圖 $B$ 上執行幾個操作。
假設 $F\in \mathbb{R}^{C\times N}$ 是特徵映射 $B$ 的重塑張量，其中 $N=H×W$ ，即每個通道的特徵向量化爲一維:
$B\in \mathbb{R}^{C\times H\times W}\overset{vectorization}{\rightarrow}F\in \mathbb{R}^{C\times N} \qquad(1)$
然後對 $F\in \mathbb{R}^{C\times N}$ 與其轉置 $F^{T}\in \mathbb{R}^{N\times C}$ 進行矩陣積，得到格拉姆矩陣 $G\in \mathbb{R}^{C\times C}$ ，它表明了跨通道的特徵關聯：
$G=F\times F^{T} \quad with \quad G_{ij}=\sum_{k=1}^{N}F_{ik}\cdot F_{jk} \qquad(2)$
其中，格拉姆矩陣 $G$ 中的每個元素 $G_{ij}$ 表示向量化特徵映射 $i$ 與 $j$ 之間的內積。計算格拉姆矩陣後，使用softmax層生成通道注意圖 $M\in \mathbb{R}^{C\times C}$ :
$M_{ij}=\frac{exp(G_{ij}))}{\sum_{j=1}^{C}exp(G_{ij})} \qquad(3)$
其中 $M_{ij}$ 是衡量第 $j$ 個通對第 $i$ 個通道影響的分數。因此，M在給定特徵圖的情況下總結了特徵的通道間依賴性。爲了實現注意力映射對原始特徵的影響，進一步進行 $M$ 與 $F$ 的矩陣乘法，將結果重新整形爲與輸入張量形狀相同的三維空間 ${R}^{C\times H\times W }$ :
${F}'=M\cdot F \qquad (4)$
${F}'\in \mathbb{R}^{C\times C}\overset{reshape}{\rightarrow}{F}''\in \mathbb{R}^{C\times H\times W} \qquad(5)$
通道注意力模塊 $C\in \mathbb{R}^{C\times H\times W}$ 的輸出將此結果與原始輸入特徵圖 $B$ 結合，並使用可訓練標量參數 $α$ 進行元素和運算， $α$ 從0逐漸學習權重:
$C = α\cdot F''+B \qquad (6)$
由式(6)可知，每個通道的最終特徵是所有通道特徵與原始特徵的加權和，對特徵映射之間的長期語義依賴關係進行建模。最後，特徵圖 $C\in \mathbb{R}^{C\times H'\times W'}$ 被送入兩個以上的卷積層去生成CFAM模塊的輸出特徵圖 $D\in \mathbb{R}^{C^*\times H'\times W'}$ 。CFAM模塊的開始和結束處的兩個卷積層具有最大的重要性，因爲它們有助於混合來自不同主幹和可能具有不同分佈的特徵。如果沒有這些卷積層，CFAM可以略微提高性能。
這樣的體系結構可以根據通道之間的相互依賴性來提升特徵的代表性，從而使來自不同分支的特徵能夠合理平滑地聚合。此外，格拉姆矩陣考慮了整個特徵圖，其中每個兩個扁平化特徵向量的點積表示有關它們之間關係的信息。較大的乘積表示這兩個通道中的特徵相關性更高，而較小的乘積則表明它們彼此不同。對於一個給定的通道，我們將更多的權值分配給其他相關的、對它有更大影響的通道。該機制強調了上下文關係，增強了特徵識別能力。

邊界框迴歸

我們遵循YOLO[26]關於邊界盒迴歸的相同準則。最後的卷積層使用 $1×1$ 大小的卷積核來生成所需的輸出通道數。對於 $H' \times W'$ 中的每個網格單元( grid cell)，用k-means方法在相應的數據集上選擇5個先驗框，使YOWO的最終輸出大小爲 $[(5×(NumCls+5))×H'×W']$ ，其中 $NumCls$ 表示有 $NumCls$ 個行爲分類得分，還有4個座標和1個置信度得分。【這是yolov2的輸出機制】。然後根據這些錨點對邊界框的迴歸進行細化。
我們使用了多尺度訓練，每一幀的分辨率在測試時設置爲224×224。
我們選擇了具有動量和權值衰減策略的小批量隨機梯度下降算法來優化損失函數，它的定義與原始的YOLO網絡[26]相似，只是我們使用光滑的L1損失進行定位，如[9]所示，因爲它對異常值的敏感度低於L2損失和focal loss[21]的分類損失。

3.2 實現細節

我們分別初始化了3D和2D網絡參數：在Kinetics上具有預訓練模型的3D部分[2]和在PASCAL VOC上具有預訓練模型的2D部分[22]。雖然我們的架構由2D-CNN和3D-CNN分支組成，參數可以聯合更新。初始化學習速率爲0.0001，經過30k、40k、50k和60k的迭代後，學習率衰減0.5。對於數據集UCF101-24，訓練過程在5個epoch後完成，而J-HMDB-21在10個epoch後完成。完整的體系結構是在PyTorch中實現和端到端訓練的。
在訓練中，由於J-HMDB-21的樣本數量較少，我們凍結了所有的3D conv網絡參數，收斂速度更快，降低了過擬合風險。此外，對於UCF101-24和J-HMDB-21，我們採用了幾種數據增強技術，如在剪輯中水平翻轉圖像、隨機縮放和隨機空間裁剪。在測試期間，只檢測到置信度大於閾值0.25的邊界框，然後使用非最大抑制進行後處理，閾值爲0.4。

3.3 提高鏈接策略

由於我們已經獲得了幀級的行爲檢測，下一步就是將這些檢測到的邊界框鏈接起來，在整個視頻中構建動作管。【就是行人檢測+行爲理解】我們改進了[11,24]中描述的鏈接算法，以找到最優的視頻級行爲檢測。
假設 $R_t$ 和 $R_{t+1}$ 是來自連續幀 $t$ 和 $t+1$ 的兩個區域，行爲類別 $c$ 的鏈接分數定義爲:
$\begin{aligned} s_{c}\left(R_{t}, R_{t+1}\right)=& \psi(o v) \cdot\left[s_{c}\left(R_{t}\right)+s_{c}\left(R_{t+1}\right)\right.\\ &+\alpha \cdot s_{c}\left(R_{t}\right) \cdot s_{c}\left(R_{t+1}\right) \\ &\left.+\beta \cdot o v\left(R_{t}, R_{t+1}\right)\right] \end{aligned} \qquad(7)$
其中， $sc (R_t)$ ， $sc (R_{t+1})$ 是區域 $R_t$ 和 $R_{t+1}$ 的類特異性得分(class specific scores), $ov$ 是這兩個區域並上的IOU( intersection-over-union)值， $α$ 和 $β$ 是標量。 $ψ(ov)$ 是一個約束，如果存在重疊 $(ov> 0)$ ，則等於1；否則 $ψ(ov)$ 等於0。我們在文獻[24]中擴展了連接分數定義，增加了一個額外的元素 $α·s c(R_t)·sc(R_{t+1})$ ，該元素考慮了兩個連續幀之間分數的顯著變化，能夠在實驗中提高視頻檢測的性能。計算完所有鏈接分數後，採用Viterbi算法找到生成動作管的最佳路徑。

4. 實驗

爲了評估YOWO的性能，我們選擇了兩個流行的、具有挑戰性的行爲檢測數據集:UCF101-24[33]和J-HMDB-21[15]。我們嚴格遵循官方的評估標準來報告結果，並將我們的方法的性能與當前的技術結果進行比較。

4.1 數據集和評估指標

UCF101-24是UCF101[33]的子集，UCF101[33]最初是一個真實動作視頻的動作記錄數據集。UCF101-24包含24個行爲類別和3207個video，並提供了相應的時空標註。此外，每個視頻中可能有多個action實例，它們具有相同的類標籤，但是不同的空間和時間邊界。這樣的特性使得視頻級動作檢測更具挑戰性。與以前的工作一樣，我們在第一次分裂(split)時執行所有實驗。
J-HMDB-21是HMDB-51數據集[20]的一個子集，包含928個短視頻，21個日常生活中的動作類別。每個視頻都經過了很好的裁剪，並且在所有幀中都有一個動作實例。我們報告了第一次分裂的實驗結果。
評價標準：我們使用了時空行爲檢測領域中最常用的兩個度量標準來生成令人信服的評價。嚴格遵循PASCAL VOC 2012度規[5]的規則，fram-mAP衡量每幀檢測的精確召回曲線下的區域。另一方面，video-mAP的重點是行爲管(action tubes)[11]。如果在整個視頻的幀上，平均每幀的與真實標籤(ground truth)的IOU值超過閾值，並且同時正確地預測了動作標籤，則該檢測管( detected tube)被視爲正確的實例。最後，計算每個類的平均精度，並報告所有類的平均精度。

4.2 消融學習

3D網絡，2D網絡還是兩者都有?僅依靠自身，3D-CNN和2D-CNN都無法獨立解決時空定位任務。但是，如果它們同時運行，則有可能彼此受益。
表1報告了比較不同體系結構性能的結果。我們首先觀察到，一個單一的二維網絡不能提供令人滿意的結果，因爲它沒有考慮時間信息。單一的三維網絡在捕捉運動信息方面更具優勢，二維和三維網絡的融合（簡單的連接）可以比三維網絡提高6%的性能。這表明2D-CNN學習到了更精細的空間特徵，3D-CNN更多地關注於運動過程，但是片段中動作的空間漂移可能會導致較低的定位精度。研究還表明，在UCF101-24上，CFAM模塊使得性能進一步提高，從77.9%提高到85.8%，在J-HMDB-21上從47.1%提高到64.9%。這清楚地顯示了注意機制的重要性，它加強了通道之間的相互依賴性，並幫助更合理地聚集特徵。

另外，爲了探究每種2D-CNN、3D-CNN的影響，我們研究了不同架構的定位和分類性能，如表2所示。對於定位，我們查看召回值(recal)，即正確定位的動作數與真實標籤(ground truth)動作總數之比。對於分類，我們查看正確定位的檢測的分類準確性。對於這兩個數據集，2D網絡在定位方面表現更好，而3D網絡在分類方面表現更好。同樣明顯的是，CFAM模塊提高了定位和分類性能。
我們還可視化了訓練模型的2D和3D主幹的激活圖[43]，如圖4所示。與我們在表2中的發現一致，3D主幹關注的是發生運動的片段部分，2D主幹關注的是人體完整部位的精細空間信息。這驗證了YOWO的主幹提取了互補的特性。

圖4 (a) 3D-CNN主幹和(b) 2D-CNN主幹的激活圖。3D-CNN主幹網關注發生移動/動作的區域，而2D-CNN主幹網關注關鍵幀中的所有人。例如排球扣球(上)，滑板(中)和攀繩(下)。

有多少幀適合於時間信息？對於3D-CNN分支，不同的剪輯長度和不同的下采樣率可以改變整個YOWO架構的性能[19]。因此，我們對不同下采樣率的8幀和16幀剪輯進行了實驗，如表3所示。例如，8幀（ $d=3$ ）是指從24幀窗口中選擇8幀，下采樣率爲3。具體來說，對於剪輯長度爲8的幀，我們比較三個下采樣率 $d = 1,2,3$ ，對於剪輯長度爲16的剪輯，我們比較兩個下采樣率 $d = 1,2$ 。
與預期一樣，我們觀察到輸入爲16幀的框架比輸入爲8幀的框架表現得更好，因爲長幀序列包含更多的時間信息。但是，隨着下采樣率的增加，性能會變差。我們推測降採樣會妨礙正確捕獲運動模式，並且太長的序列可能會破壞時間上下文關係。特別是對於某些快速運動類，一個長序列可能包含幾個不相關的幀，這些幀可以看作是噪聲。

有可能用更有效的網絡來節省模型的複雜性嗎?我們選擇 3D-ResNext-10[12]，因爲它有多個基數，因此可以學習更復雜的特性。但是，它是具有大量參數和計算複雜性的重量級主幹。因此，我們用具有不同深度的3D-ResNet和其他一些資源有效的3D-CNN體系結構替換了3D骨幹[18]。表4報告了在這兩個數據集上實現的性能，以及每個3D主幹的浮點操作數(FLOPs)。我們發現，即使使用3D的輕量級架構，我們的框架仍然比2D的網絡要好。然而，表4清楚地顯示了3D主幹的重要性。我們使用的3D-CNN架構越強，取得的效果越好。

4.3 最新技術比較

我們已經比較了YOWO與其他最先進的架構上的J-HMDB-21和UCF101-24數據集。爲了公平起見，我們將Video CapsuleNet [4]排除在外，因爲它使用不同的video-mAP計算，而沒有通過一些鏈接策略構造動作管。但是，就J-HMDB-21和UCF101-24上的frame-mAP @ 0.5 IoU而言，YOWO的性能仍然分別優於VideoCapsuleNet 9.8％和8.6％。
在J-HMDB-21上的性能比較。YOWO與表5中 J-HMDB-21上的最新方法進行了比較。使用標準度量，我們報告了IOU閾值0.5處的frame-mAP和不同IOU閾值處的video-mAP。在IOU閾值分別爲0.2和0.5的情況下，YOWO始終優於數據集J-HMDB-21上的最新結果，frame-mAP增長3.3％，視頻mAP增長3.8％，video-mAP增長5.2％。
在UCF101-24上的性能比較。表6展示了YOWO與UCF101-24上的最新方法的比較。YOWO的frame-mAP指標達到87.2％，比第二名的結果要高12.2％，明顯優於其他指標。至於視頻地圖，我們的框架也產生了非常有競爭力的結果，即使我們只是利用一個簡單的鏈接策略。

運行時間比較。大多數最先進的方法都是兩個階段的體系結構，它們在實時運行時的計算開銷非常大。YOWO是一個統一的架構，可以端到端的進行訓練。此外，我們不使用光流，這是計算上的負擔。在表7中，我們將YOWO的運行時性能與其他最先進的方法進行了比較。YOWO的速度是在一個批量大小爲8的NVIDIA Titan Xp GPU上以每秒幀數（fps）計算的。必須注意的是，YOWO的2D和3D主幹可以根據所需的運行時性能替換爲任意CNN模型。

4.4 模型可視化

總的來說，YOWO架構在視頻中定位動作方面做得還不錯，如圖5所示。然而，YOWO也有一些缺點。首先，由於YOWO會捕獲關鍵幀和剪輯的所有內容，因此有時在執行操作之前會進行一些誤報檢測。例如，在圖5的第一排最後一張圖片中，YOWO看到一個人在籃球場上拿着一個球，並且非常自信地檢測到他，儘管他還沒有投籃。其次，YOWO需要足夠的時間內容來進行正確的動作定位【應該是指時效性還不夠高】。如果一個人突然開始執行動作，則在初始幀處的定位缺乏時間上的內容，因此會識別出錯誤的動作，如圖5中的第二行最後一個圖像（爬樓梯而不是跑步）。

5. 總結

本文提出了一種用於視頻流時空動作定位的統一體系結構。我們的方法(YOWO)從連續的幀中建模時空上下文以瞭解動作，同時從關鍵幀中提取精細的空間信息以並行處理定位任務。此外，我們利用一種t通道融合和注意機制來實現這兩種信息的有效聚合。由於我們沒有將人員檢測和動作分類程序分開，所以整個網絡可以通過端到端框架中的聯合損失來優化。我們對兩個具有挑戰性的代表性數據集UCF101-24 J-HMDB-21進行了一系列的比較評估。我們的方法在保持實時能力的同時，比其他最先進的方法表現更好，這使得它可以部署在移動設備上。

本翻譯用於個人學習，且個人水平有限，對行爲理解接觸不深，翻譯可能有諸多錯誤，歡迎交流學習。

YOWO（You Only Watch Once）論文翻譯