Paper Reading Note
URL: https://www.vision.ee.ethz.ch/publications/papers/proceedings/eth_biwi_00532.pdf
TL;DR
採用了一種類腦處理的人體動作識別方法,同時通過實驗給出了在視頻中進行人體動作識別所需要的合適幀數。
Dataset/Algorithm/Model/Experiment Detail
數據集
包含兩個數據集,WEIZMANN包含九個動作,KTH包含六個動作。如下圖所示,其中很多動作其實根據單幀圖片信息就可識別出來。
實現方式
分兩個分支提取特徵,如下圖所示,上面的分支提取圖片中的紋理特徵(Form feature),提取方式基於log-Gabor濾波器,提取到特徵後訓練得到的模板進行匹配,模板是通過對於輸入的序列人體動作圖片進行向量化及PCA操作而得到,然後通過對比輸入圖片提取的feature與模板得到相似度向量;下面的分支是在光流圖片上提取到的特徵(motion feature),同樣與訓練得到的模板匹配得到相似度向量。上下兩個分支得到的相似度向量concatenate之後送入分類器(SVM)中得到分類結果。
實驗結果
-
form與motion兩個feature對於識別精度的影響,左圖顯示兩個feature比例均衡時的精度較高;中間的圖同樣表示兩個feature比例均衡時精度較好;右圖展示form與motion兩個feature能取到比較合適結果時的比例,即flow:form=7:3時有最佳結果。
-
隨着使用序列圖片的幀數提高,模型得分結果基本處於不斷提升狀態,隨着數量增大到一定程度,提升速度變緩;室外場景比室內場景更難;
-
使用7幀序列用於動作識別已經能夠取得非常好的結果,與使用全部序列能夠進行比較
-
在兩個數據集上取得SOTA結果
Thoughts
這篇文章是人體動作識別的經典老作品,其中採用form feature與motion feature結合的方式據說是借鑑類腦方面的研究,但是現在這些方法畢竟已經比較落後了,但是該方法對於動作識別所需要的合適序列數量方面的實驗也一直給後續研究提供參考。