Action Snippets: How many frames does human action recognition require?閱讀筆記 - 人體動作識別

原創

kebijuelun

2020-06-23 08:33

Paper Reading Note

URL: https://www.vision.ee.ethz.ch/publications/papers/proceedings/eth_biwi_00532.pdf

TL;DR

採用了一種類腦處理的人體動作識別方法，同時通過實驗給出了在視頻中進行人體動作識別所需要的合適幀數。

Dataset/Algorithm/Model/Experiment Detail

數據集

包含兩個數據集，WEIZMANN包含九個動作，KTH包含六個動作。如下圖所示，其中很多動作其實根據單幀圖片信息就可識別出來。

實現方式

分兩個分支提取特徵，如下圖所示，上面的分支提取圖片中的紋理特徵（Form feature），提取方式基於log-Gabor濾波器，提取到特徵後訓練得到的模板進行匹配，模板是通過對於輸入的序列人體動作圖片進行向量化及PCA操作而得到，然後通過對比輸入圖片提取的feature與模板得到相似度向量；下面的分支是在光流圖片上提取到的特徵（motion feature），同樣與訓練得到的模板匹配得到相似度向量。上下兩個分支得到的相似度向量concatenate之後送入分類器（SVM）中得到分類結果。

實驗結果

form與motion兩個feature對於識別精度的影響，左圖顯示兩個feature比例均衡時的精度較高；中間的圖同樣表示兩個feature比例均衡時精度較好；右圖展示form與motion兩個feature能取到比較合適結果時的比例，即flow：form=7:3時有最佳結果。
隨着使用序列圖片的幀數提高，模型得分結果基本處於不斷提升狀態，隨着數量增大到一定程度，提升速度變緩；室外場景比室內場景更難；
使用7幀序列用於動作識別已經能夠取得非常好的結果，與使用全部序列能夠進行比較
在兩個數據集上取得SOTA結果

Thoughts

這篇文章是人體動作識別的經典老作品，其中採用form feature與motion feature結合的方式據說是借鑑類腦方面的研究，但是現在這些方法畢竟已經比較落後了，但是該方法對於動作識別所需要的合適序列數量方面的實驗也一直給後續研究提供參考。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Action Snippets: How many frames does human action recognition require?閱讀筆記 - 人體動作識別

TL;DR

Dataset/Algorithm/Model/Experiment Detail

數據集

實現方式

實驗結果

Thoughts

linux安裝cuda和cudnn

模擬手機設備：使用 Playwright 實現移動端自動化測試

Mellanox網卡開啓SR-IOV

全面系統的AI學習路徑，幫助普通人也能玩轉AI

HTML 00 Tutorial

uni-app實現上拉加載

vue3編譯優化之“靜態提升”

又是一個月-20240513

flask 如何保證返回json有序

linux服務器設置ssh免密

Parallax-tolerant Image Stitching - 解決大視差圖片拼接的方法

Grad-CAM閱讀筆記 -神經網絡輸出可視化

Action Snippets: How many frames does human action recognition require?閱讀筆記 - 人體動作識別

A Discriminative Feature Learning Approach for Deep Face Recognition - 人臉識別 - Center Loss

Long-term Recurrent Convolutional Networks for Visual Recognition and Description - 閱讀筆記 - 時序視頻處理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結